文献追踪 |单细胞邂逅空间转录组学:开启生命微观世界的全景之眼

前 言 

在生命科学领域,探究细胞特性与组织架构一直是关键课题,单细胞转录组学和空间转录组学技术的出现为相关研究带来了新契机。今天分享的这篇发表于Nature Reviews Molecular Cell Biology的综述论文 “Profiling cell identity and tissue architecture with single-cell and spatial transcriptomics”,对这两项技术进行了全面且深入的总结。

单细胞转录组学诞生近15年来,极大地革新了我们对细胞异质性和基因表达动态的认知,助力构建大型细胞图谱、发现稀有细胞类型。空间转录组学则进一步将单细胞研究拓展到多细胞邻域,揭示细胞的空间组织和功能关系。这篇综述详细探讨了单细胞转录组学和空间转录组学在样本处理、数据整合、细胞状态识别等方面的最新进展,也深入分析了目前面临的挑战。此外,还阐述了这些技术在干细胞生物学、免疫学和肿瘤生物学等领域的应用,以及人工智能在单细胞和空间转录组数据分析中的应用前景。深入研读这篇论文,能让我们对这两项前沿技术有更系统、全面的认识,为相关研究提供重要参考。 

 

Nature Reviews Molecular Cell Biology ( IF 81.3 ) Pub Date : 2024-08-21 , DOI: 10.1038/s41580-024-00768-2

 

研究思路

  • 研究思路:
     

文章主要通过单细胞和空间转录组学技术,涵盖技术原理、数据分析、生物学应用及临床转化等方面内容,为相关领域研究提供了系统的知识框架和研究思路。下面从单细胞(三)和空间转录组学(四)技术这两种测序技术来展示结果。

单细胞转录组学

技术概述:单细胞 RNA 测序(scRNA-seq)可在单细胞水平分析 RNA,有助于构建细胞图谱、发现稀有细胞类型和解析细胞轨迹,如在胚胎发育、大脑发育和癌症研究中发挥重要作用。不过,样本制备、数据归一化和批次整合环节若处理不当,易导致错误结论。

整篇文章的框架性总结,图 1的研究路线呈现了单细胞和空间转录组学从数据获取到生物学和临床发现的研究流程。它表明可从单细胞 RNA 研究推断细胞状态、类型和轨迹,还能将细胞置于多细胞邻域(空间生态型)中研究细胞间相互作用。机器学习和人工智能应用于转录组数据,推动了大规模数据分析以及新的生物学和临床发现,是理解两项技术如何协同工作以推动生命科学研究的关键。

图1:单细胞和空间转录组学研究路线图
 

关键技术要点在单细胞转录组学的样本处理阶段,组织解离和RNA捕获是至关重要的起始环节,然而当前这两个步骤尚未形成标准化流程,致使实验结果极易受到多种因素的显著干扰。组织内的化学物质,诸如胃酸、胆汁酸、肠道和胰腺中的酶等,在组织解离时,不仅可能直接裂解细胞,破坏细胞结构,改变样本中的细胞组成,还会降解RNA,损害其完整性,最终对基因表达情况产生影响 。例如在处理胃肠道组织样本时,胃酸和消化酶就可能破坏细胞和RNA,干扰后续基因表达分析。解离时间也十分关键,过短会使组织无法充分解离为单个细胞,导致细胞团聚,降低单细胞捕获效率并影响RNA测序准确性;过长则会让细胞长时间暴露在解离环境中,引发应激反应,激活或抑制某些基因表达,同样干扰实验结果。此外,不同的解离酶也会带来差异,不同类型的酶对细胞的作用效果不同,可能导致细胞表面抗原降解程度不同,影响后续基于抗体的检测方法,还可能对细胞内RNA的完整性产生不同影响,进而改变基因表达谱。

为减少这些偏差,科研人员采用了单细胞核RNA测序(snRNA-seq)等技术。该技术从冷冻且难以解离的组织(如神经元和神经胶质细胞)中分离核RNA,一定程度上解决了解离困难的问题。但它也存在新的问题,在分离细胞核的过程中,容易受到环境RNA的污染。环境RNA可能来自周围的细胞碎片、实验器具或空气中的核酸,这些污染的RNA会混入样本,干扰基因表达的测量,导致对细胞真实基因表达情况的误判。此外,snRNA-seq会排除关键的细胞质转录本,像参与小胶质细胞激活的转录本、存储在加工小体中的调节性RNA,以及有丝分裂期间因细胞核膜消失而无法被捕获的核RNA,这会丢失部分重要的基因表达信息,影响对细胞功能和状态的全面理解(图2a)。 

 

 

图2:a 为 scRNA-seq 样本处理流程及影响因素;b 展示数据整合和批次校正方法;c 呈现细胞图谱构建过程;d 说明识别稀有和微妙细胞状态的要点。

 

数据分析方法在单细胞转录组学的多样本实验中,批次效应严重影响数据质量,为此人们开发了多种计算方法来校正。ComBat和limma等线性调整模型常用于处理微阵列和批量RNA测序数据,但在面对scRNA-seq数据时却困难重重。scRNA-seq数据具有高维度、稀疏性和细胞组成多样的特点,这些特点使得线性模型难以准确拟合数据,容易误判信号,在去除批次效应时可能丢失重要生物学信息。

互近邻(MNN)等方法则通过识别不同批次中相似基因表达谱的细胞邻域来整合数据,能在保留细胞生物学差异的同时校正批次效应。例如分析多个健康个体免疫细胞的scRNA-seq数据时,MNN可找到相似细胞群进行批次校正,让数据更具可比性。随着数据规模扩大,基于神经网络的技术在处理大规模批次数据方面优势明显,它能自动提取数据特征和模式,实现数据归一化、聚类等多种功能,还能提高分析效率,可快速识别细胞类型和状态,发现不同批次数据的异同。然而,现有的计算工具难以完全区分生物信号和混杂变量。混杂变量包括样本提供者的生物学因素和实验技术差异,它们与生物差异交织,干扰计算工具对真实生物信号的判断,就像研究不同年龄个体的干细胞数据时,年龄导致的基因表达变化可能与批次效应混淆。

从图2b可以看出,数据整合方法旨在将来自不同样本的单细胞组合到统一的低维嵌入空间中,而批次校正方法则是对高维基因表达矩阵进行调整,在去除不必要技术协变量噪声的同时保留生物信号。这也进一步表明,除了计算工具,标准化实验设计也很关键。它要求严格控制实验条件,设置技术对照组,减少技术变异,辅助计算工具更好地校正批次效应,提升数据分析的准确性和可靠性(图2b)。 

细胞图谱构建与注释在注释单细胞数据这一构建细胞图谱的核心环节中,虽然有标记基因检测、基因集富集分析等多种策略,但仍面临诸多挑战。文中提到,目前注释在细胞和样本层面的详细程度不足,难以深入解析细胞精细特征和功能差异,并且缺乏统一的细胞状态本体,不同研究的细胞注释难以整合对比。此外,构建人类参考图谱时,必须充分考量年龄、性别、种族等人口统计学因素,否则研究结果易出现偏差。图 2c 清晰展示了细胞图谱构建是一个涵盖单细胞数据处理、样本整合、细胞注释等多环节的复杂过程,各环节紧密相连。这表明,只有攻克单细胞参考管理难题,才能有效推动细胞图谱构建及相关研究的发展(图 2c)。

稀有和微妙细胞状态识别:识别这类细胞状态面临诸多挑战,如解离条件可能导致细胞丢失或状态改变,细胞频率低和测序细胞数量不足也会影响检测。可通过富集特定细胞表面标记,如利用 KIT 和 SCA-1 富集 Hoxb5+ LT-HSCs,提高检测概率。基于板的全长测序因能更深入广泛捕获 RNA 且 dropout 率低,有助于发现细胞间微小转录差异,可用于识别稀有和微妙细胞状态(图 2d)。

细胞动态变化研究:多种计算和基因组方法可预测单细胞在不同生物过程中的顺序,如轨迹推断工具可推断细胞轨迹,但面临数据维度降低和聚类受干扰、需准确数据整合和批次校正等挑战。RNA 速度分析等方法可推断细胞状态转变方向,但在捕获长时间尺度的发育轨迹时可靠性较低。通过单细胞分辨率条形码进行谱系追踪可提供细胞转变序列的真实信息(图 3a - c)。

 

 

图3. a - c 介绍细胞轨迹映射、RNA 速度和谱系追踪方法;d、e 分别展示细胞可塑性评估和发育潜能测量方式。

细胞可塑性和发育潜能评估:多种计算方法可量化细胞可塑性,如 Palantir、VIA 等通过在低维嵌入中建模细胞到达终端状态的概率来评估可塑性。CellOracle 可通过对转录因子基因进行扰动来研究细胞可塑性。预测细胞发育潜能的策略包括测量早期胚胎发生过程中的转录程序,以及利用染色质可及性和转录多样性作为替代指标(图 3d、e)。

图 3d 展示了细胞可塑性评估方法,通过计算方法在低维嵌入空间中建模细胞命运概率。结果表明,不同细胞类型在可塑性上存在显著差异,部分细胞在特定条件下展现出较高的可塑性,具有向多种细胞状态转变的潜力,而另一些细胞则相对稳定 。这一发现为理解细胞在发育、再生以及疾病发生过程中的动态变化提供了重要依据,也有助于探索如何通过调控细胞可塑性来实现组织修复和疾病治疗。

图 3e 呈现了发育潜能测量方式,利用转录程序和染色质可及性等指标评估细胞的发育潜能。研究结果显示,处于早期发育阶段的细胞通常具有更高的发育潜能,随着发育进程推进,细胞的发育潜能逐渐受限。此外,不同组织来源的细胞在发育潜能上也存在明显区别,这对于理解胚胎发育、干细胞分化以及组织特异性功能的建立具有重要意义。

  1. 图 3a 展示了细胞轨迹映射方法,通过构建细胞的低维表示,以可视化方式呈现细胞在不同状态间的过渡路径。其结果表明,该方法能在一定程度上揭示细胞分化的连续过程,但也容易受到数据噪声和维度缩减带来的信息损失影响,导致轨迹的局部细节模糊或不准确。

    图 3b 介绍了 RNA 速度分析,利用 mRNA 的合成与降解速率来推断细胞状态的动态变化方向。从结果来看,这种方法可以为细胞命运的潜在转变提供实时的时间分辨信息,不过在长时间的细胞发育追踪中,由于生物学过程的复杂性和外部环境干扰,RNA 速度的预测可靠性会逐渐降低。

    图 3c 呈现了基于单细胞分辨率条形码的谱系追踪技术,通过对细胞引入独特的遗传标记,能够精确追溯细胞及其子代的起源和分化历程。这一方法提供了最为直接和准确的细胞转变序列信息,克服了其他方法在长时间追踪和细胞谱系关系确定上的不足,为研究细胞发育和组织形成过程提供了有力证据。综合图 3a - c 可见,不同方法在研究细胞动态变化时各有优劣,共同使用能够更全面地解析细胞分化和发育过程。

空间转录组学

空间转录组学(Spatial Transcriptomics,ST)是一项新兴技术,能够在保留组织空间背景的同时,对细胞的转录状态进行分析,为深入了解细胞微环境和组织功能提供了有力工具。

技术原理与方法:ST 技术的核心是在保持细胞在组织中原有位置信息的基础上,测定其转录组信息,从而揭示细胞间的空间关系和功能异质性。目前已发展出多种方法,这些方法在细胞分辨率、转录组覆盖度、组织兼容性、成本、基础设施需求和商业可用性等方面存在差异。

基于荧光原位杂交(FISH)的方法:如 Vizgen MERSCOPE、NanoString CosMx 和 seqFISH + 等,通过将预先设计好的探针进行串行杂交,并结合高分辨率成像技术,可在亚细胞分辨率下捕获数百到数千个转录本。这类方法的优势在于能够精确定位特定转录本在细胞内的位置,但目前需要创建定制的基因面板并验证基因特异性探针,因此在研究已知细胞状态且有明确标记基因时最为有效。

基于原位测序的方法:例如 STARmap 和 10x Genomics Xenium 等,利用原位测序来读取转录本信息。同样,该方法也依赖于定制基因面板和探针验证,适用于对特定细胞状态进行深入研究。

“批量 ST” 方法:包括激光捕获显微镜联合批量 RNA-seq(LCM-seq)以及基于阵列的 ST 平台,如 10x Genomics Visium、Slide-seq V2 和 Stereoseq 等。这些平台可在不同空间分辨率下进行全转录组测序,例如 10x Genomics Visium HD 的分辨率可达 2µm²。较小的点直径虽然能提高单细胞分辨率,但会降低转录本捕获效率。

结合空间条形码与组织解离和 scRNA-seq 的方法:像 XYZeq、sc-Space 和 Slide-Tags 等,先进行空间条形码标记,再解离组织进行 scRNA-seq,转录本捕获效率较高,但空间分辨率较低(分别为 500µm、222µm 和 10µm),并且可能存在解离假象和组织采样不足的问题。

计算方法与应用:为了克服 ST 技术的固有局限性,如细胞分辨率、转录本覆盖度和独立样本对齐等问题,开发了多种计算方法。

提高分辨率和转录覆盖度:利用具有匹配生物学和实验特征的参考 scRNA-seq 图谱,可提高 ST 的分辨率或转录覆盖度。专门开发的工具能够利用 scRNA-seq 数据剖析空间点,将其分解为细胞类型特异性分数、单个单细胞转录组、亚点或像素级表达,或推断细胞类型特异性表达谱。在发育生物学、肠道生物学和肿瘤生物学等领域,批量 ST 反卷积方法已被用于定位感兴趣的细胞状态。

多细胞邻域分析:多细胞邻域是 ST 数据分析的基本单元,其定义需综合考虑技术和研究现象的尺度。对于批量 ST 数据,多细胞邻域可以是阵列中的单个点、“元点”(一个点及其最近邻点)或空间点的反卷积结果;对于单细胞分辨率的 ST 数据,常用固定半径(50 - 200µm)、固定数量的相邻细胞(10 - 200 个最近邻)或 Delaunay 三角剖分来定义。通过分析多细胞邻域的特征,如基因表达值或细胞组成,可以实现细胞类型的自动识别、发现上下文依赖的转录状态以及研究细胞间的相互作用。

发现空间生态型:通过比较多细胞邻域,可以识别出重复的空间组织模式,即 “空间生态型”。这一概念借鉴了生态学中 “生态型” 的概念,指的是在一个或多个细胞类型中,由共现的表型状态(如转录程序)所表征的多细胞邻域的重复集合。空间生态型在癌症研究中特别有用,可用于识别缺乏明确组织学特征的复发表型。

空间轨迹分析:研究细胞表型转变过程中,多细胞邻域的组成和基因表达的伴随变化,有助于揭示动态细胞过程的机制。轨迹分析可以通过将 scRNA-seq 数据的轨迹分析结果转移到 ST 数据中,或者直接对 ST 数据进行分析。然而,由于当前 ST 检测技术的局限性(如低转录本捕获率或缺乏单细胞分辨率),建模多细胞邻域的表型轨迹仍然是一个挑战。

图 4:a 为空间生态型分析策略;b、c 展示肿瘤组织中细胞类型和空间生态型注释结果,体现空间生态型由多种因素共同定义。

 

临床应用

单细胞转录组学和空间转录组学在临床应用方面展现出巨大潜力,为疾病研究、诊断、治疗及预后评估提供了新的思路和方法,具体如下:

1. 单细胞转录组学临床应用

疾病机制探索与靶点发现单细胞RNA测序(scRNA-seq)已广泛应用于超过103种人类疾病的研究,并被纳入58多项血液学、肿瘤学和免疫学临床试验。通过对患者样本进行单细胞分辨率的分析,构建细胞图谱,能够深入揭示疾病进展和传播的机制。在肿瘤研究领域,对肿瘤微环境进行单细胞分析,发现了多种癌症类型中具有临床意义的免疫和非免疫表型。研究还对静止和耐药的癌症干细胞以及循环肿瘤细胞进行了特征描述,这些细胞具有预后和靶向治疗的特征,为开发新的治疗策略提供了潜在靶点。

指导疾病分类与预后评估构建大规模的单细胞分辨率细胞图谱,有助于推动精准医学的发展。特定细胞和转录本的存在及比例可用于指导疾病分类、治疗方案选择和预后评估。单细胞转录组学可以识别与不良预后相关的罕见或细微细胞状态,从而更准确地预测疾病的发展和患者的预后情况。

面临的挑战与解决方案尽管scRNA-seq在临床研究中取得了一定成果,但直接应用于临床仍面临诸多障碍,如成本高昂、标准化困难以及组织解离过程中可能产生的假象等问题。为克服这些挑战,研究人员采用 “数字细胞术” 这一计算技术,通过反卷积从批量RNA混合物中推断特定细胞类型的比例和特征,从而对scRNA-seq的发现进行外部验证和大规模测量。scRNA-seq还可筛选出关键的转录本、细胞状态和蛋白质,利用免疫组化、FISH、流式细胞术和多基因面板测序等临床常用的简单检测方法进行评估,为临床应用提供更实际的途径。 

2. 空间转录组学临床应用

发现空间相关生物标志物空间转录组学(ST)能够发现与临床结果和治疗反应相关的空间定义细胞状态和生态型。在多种癌症,如脑癌、乳腺癌、结直肠癌和肺癌的研究中,空间生物标志物已被证明与临床结果和治疗反应存在关联。在口腔鳞状细胞癌和非小细胞肺癌中,特定空间生态型的基因表达特征可预测患者的生存情况。对结直肠癌中PD-1+ T细胞和PD-L1+髓细胞之间免疫相互作用的空间模式分析,为理解免疫逃逸机制提供了新的视角。

回顾性分析与生物标志物发现平台:随着技术的进步,将scRNA-seq和ST应用于石蜡包埋组织的回顾性分析成为可能。像人类蛋白质图谱这样的大型项目,通过整合蛋白质、转录和地理空间特征以及生物学和临床注释,为生物标志物的发现创建了强大的平台,有助于更深入地了解疾病机制和开发新的治疗靶点。

临床决策支持通过对肿瘤组织进行ST分析,能够获取细胞在空间上的分布信息,了解肿瘤微环境中不同细胞类型的相互作用,为制定更精准的治疗方案提供依据。针对特定空间生态型或细胞状态设计靶向治疗药物,有望提高治疗效果并减少副作用。 

 

图 5:a 为单细胞和空间转录组学临床应用路径;b 以 “数字细胞术” 为例说明生物标志物发现与验证过程。

 

人工智能的作用与未来展望:人工智能尤其是深度学习在单细胞和空间转录组学数据分析中表现优异,基础模型可整合分析多源数据,但存在生物信号捕获及数据偏差问题(图 6)。未来技术将向高分辨率、多组学整合方向发展,有望构建 4D 时空图谱,为生命科学研究和临床诊疗带来突破。

图 6:a 描绘单细胞和空间组学新前沿;b 展示单细胞转录组学基础模型训练及应用场景。c单细胞转录组学基础模型的多种应用,这些应用基于基础模型能将不同来源的 scRNA-seq 数据整合到一个连贯的嵌入空间这一特性

结论与讨论

单细胞转录组学和空间转录组学技术在生命科学研究中意义重大,前者能从单细胞层面解析细胞异质性、挖掘罕见细胞并构建发育轨迹,后者则将转录信息与细胞空间位置关联,揭示组织功能的空间基础。然而,这些技术面临不少挑战,实验技术上样本制备会干扰数据准确性,数据分析中数据的高维度、复杂性和批次效应等问题增加了解读难度,还需要更先进的计算方法。但随着科技发展,实验技术持续优化,人工智能和机器学习助力数据分析,多学科交叉融合将推动这些技术与其他生物学技术结合,有助于全面深入理解细胞生命活动,为生命科学发展、临床应用等带来更多突破创新。 
单细胞转录组学和空间转录组学技术极大地拓展了生命科学研究的边界,让我们能够深入探究细胞的奥秘和组织的功能机制,但它们在发展中面临诸多挑战。在技术层面,样本制备易引入偏差,数据的高维度、稀疏性以及空间技术的分辨率和覆盖度问题影响分析;生物学角度上,海量数据的解读困难,细胞状态和模式的调控机制不明;临床应用方面,技术成本高、流程复杂,且与临床诊疗的结合还需大量研究验证。不过,随着技术进步和多学科融合,如与人工智能、机器学习结合,有望克服这些障碍,实现更深入的生物学发现和广泛的临床转化,为生命科学和人类健康事业带来更多突破 。 

 

 
 

(点击阅读原文获取文献)

 
>>>👇👇👇关注,不迷路<<<
 
 
上海达澈生物科技有限公司,专注于生命科学和生命健康领域,致力于成为领先的产品和服务提供者。
我们的NGS产品线覆盖如下:
 
 
 
 
基因组:WGSCircle-seq(eccDNA);
转录组:mRNA、miRNA、lncRNA、circRNA、tRNA测序;
表观组:ATAC-seq,CUT&Tag、ChIP-seqWGBSDAP-seqTBSHi-C;
蛋白和RNA互作:RIP-seq和eCLIP-seq;
翻译组:Ribo-seq;
单细胞测序:scRNA-seq、scCUT&Tag、scATAC-seq、scV(D)J-seq;
空间表观转录组测序:Spatial RNA-seq 、Spatial ATAC-RNA-seq、Spatial CUT&Tag-RNA-seq;
RNA修饰类:m6A、m1A、m7G、m5C、ac4C、Ψ假尿嘧啶;
基因编辑脱靶检测:GUIDE-seq、CIRCLE-seq、dCas9-ChlP-seq、DISCOVER-seq等基于靶向测序的脱靶检测。