单细胞RNA测序技术进展及挑战之必读综述

前 言 

在生物学和医学范畴中,把基因型准确映射到表型始终是一项极具挑战性的难题。转录组分析作为一种有力手段,为解决这一难题提供了策略。不过,传统的bulk转录组分析是基于群体细胞展开的,bulk RNA-seq假定细胞是同质的,这就导致分析过程中忽视了细胞之间存在的重要差异。实际上,即便是相似的细胞类型,其基因表达也呈现出异质性,而这种异质性在细胞命运的决定过程中起着关键作用 。
为深入理解随机生物过程,单细胞水平的转录组分析不可或缺。单细胞RNA测序(scRNA - seq)技术应运而生,其能够揭示复杂且罕见的细胞群体,探寻基因间的调控关系,以及追踪细胞在发育过程中的谱系轨迹。今天我们介绍一篇由Byungjin Hwang、Ji Hyun Lee和Duhee Bang撰写的经典综述文章《Single - cell RNA sequencing technologies and bioinformatics pipelines》。该综述聚焦于scRNA - seq技术,详细探讨了单细胞分离、文库制备的技术挑战,以及分析scRNA - seq数据的计算方法,还展望了其在基础科学与医学领域的潜在应用。 

Single-cell RNA sequencing technologies and bioinformatics pipelines.
Experimental & Molecular Medicine ( IF 9.5 ) 

Pub Date : 2018-Aug-07 , DOI: 10.1038/s12276-018-0071-8

 

研究思路和亮点

  • 综述思路:

  • 文章亮点:

1. 技术方法全面剖析系统阐述了单细胞RNA测序(scRNA-seq)从单细胞分离、文库制备,到数据分析的全流程技术方法。对不同单细胞分离技术,如限制稀释、微操作、FACS等的优缺点对比清晰;详细比较了Smart-seq、MARS-seq等多种文库制备方法。

2. 计算分析深入解读:深入探讨scRNA-seq数据计算分析面临的挑战与解决方案。从数据预处理的质量控制、读段比对,到细胞类型鉴定的降维、聚类方法,以及基因调控网络推断、细胞层级重建等方面,介绍了多种算法和工具。
3. 应用前景广泛展望:展示了scRNA-seq在肿瘤异质性分析、液体活检、细胞谱系追踪等医学和生物学领域的潜在应用。还提及随着技术发展和成本降低,该技术在大规模细胞分析及疾病研究中的广阔前景。 

单细胞分离技术

单细胞分离是获取单个细胞转录组信息的首要步骤,文中介绍了多种单细胞分离技术,为提高单细胞分离的效率和纯度,可采用以下方法:

1. 荧光激活细胞分选技术(FACS):是分离高度纯化单细胞的常用策略,尤其适用于目标细胞标记物表达水平低的情况。通过荧光单克隆抗体标记细胞,识别特定表面标志物来分选不同细胞群 ,也可对未染色群体进行负选,利用静电偏转系统对目标细胞施加电荷,通过磁性分离细胞。但该技术需要较大起始体积,从低数量(<10,000)输入样本中分离细胞存在困难,且需要针对目标蛋白的单克隆抗体。

2. 微流控技术

常规微流控技术:因样本消耗低、分析成本低和能精确控制流体而受青睐,所需纳升级体积可大幅降低外部污染风险。如Fluidigm C1平台可在单个芯片上并行处理多达800个细胞的自动化裂解、RNA提取和cDNA合成,相比基于试管的技术,假阳性更低、偏差更小。然而,其存在捕获细胞数量要求多(>1000)和分析细胞大小均一性受限的缺点。

基于微滴的微流控技术:能使水滴在连续油相中单分散,与标准微流控腔室相比,所需体积更小,可低成本操控和筛选数千到数百万个细胞。10× Genomics的Chromium系统可对单细胞RNA的3'端进行高通量分析,捕获效率高,有助于分析异质生物空间中的稀有细胞类型,但处理临床样本时需谨慎维持细胞原有特性。 

3. 其他技术:CellSearch系统利用与抗体偶联的磁体,可对患者血液样本中上皮来源(CD45−和EpCAM+)的稀有循环肿瘤细胞(CTCs)进行计数和分离,在临床检测特定细胞方面具有应用价值。 

 

图1 单细胞分离与文库制备。

a. 限制稀释法利用稀释细胞的统计分布来分离单个细胞。

b. 显微操作是指使用显微镜引导的毛细管移液器收集单个细胞。

c. 荧光激活细胞分选技术(FACS)通过用荧光标记蛋白标记细胞来分离高度纯化的单个细胞。

d. 激光捕获显微切割技术(LCM)利用计算机辅助的激光系统从固体样本中分离细胞。

e. 用于单细胞分离的微流控技术所需样本体积为纳升级。图中展示了一种基于微滴的自制微流控技术示例(如Drop-Seq)。

f. CellSearch系统通过使用与循环肿瘤细胞(CTC)结合抗体偶联的磁体,对患者血液样本中的CTC进行计数。

g. 基于微滴的文库构建示意图。单细胞RNA测序(scRNA-seq)文库通常通过细胞裂解、使用带有独特条形码的磁珠将RNA逆转录为第一链cDNA、第二链合成以及cDNA扩增等步骤来构建 。 

 

单细胞RNA测序(scRNA-seq)文库制备的对比分析

单细胞RNA测序(scRNA-seq)文库制备是深入研究转录组的关键环节,其流程包括多个核心步骤,且在技术发展中不断改进以适应研究需求,具体如下:

1. 基本流程与挑战

制备步骤:常规流程依次为细胞裂解、逆转录为第一链cDNA、第二链合成和cDNA扩增。细胞在低渗缓冲液裂解后,通过聚(dT)引物筛选捕获mRNA。

效率问题:受泊松采样影响,仅有10 - 20%转录本在此阶段被逆转录,低mRNA捕获效率成为现有方案的重要难题,急需高效细胞裂解策略。

2. 关键环节技术选择

逆转录酶:第一链cDNA合成常采用改造后的莫洛尼鼠白血病病毒逆转录酶,其低RNase H活性和高热稳定性有助于反应进行。

第二链合成:可通过聚(A)加尾或模板转换机制合成。模板转换机制能保证均匀覆盖且不丢失链特异性,较聚(A)加尾更具优势。

cDNA扩增:可选择常规PCR或体外转录。体外转录虽能线性扩增模板,但因需额外逆转录步骤,耗时久且可能造成3'端覆盖偏差。

 测序平台:Illumina平台应用广泛,如HiSeq4000、NextSeq500等,其中MiSeq测序仪周转快,一天约能产生3000万对末端读长。

3. 成本控制与技术改进

末端聚焦策略:为降低测序成本,以往研究聚焦转录本的5'或3'端进行分析。

UMIs和条形码技术:研究人员在逆转录步骤引入UMIs或条形码。其能有效去除PCR偏差,将读长准确对应到原始细胞,提高准确性和可重复性。但现有基于UMI标签的方法只能对转录本的5'或3'端测序,在等位基因特异性表达和异构体分析方面存在局限 。 见下表。

表 1 对比了 Smart-seq、MARS-seq、CEL-seq 和 Drop-seq 四种 scRNA-seq 文库制备方法,结论为不同方法在转录本检测区域、目标读深度、UMI 使用、扩增方式及技术特点等方面各有优劣,适用于不同研究需求 。

转录本检测区域:Smart-seq 可检测全长转录本,适合研究可变剪接和等位基因特异性表达;MARS-seq、CEL-seq 和 Drop-seq 聚焦 3' 端,利于大规模细胞转录组分析,降低成本和工作量。

UMI 使用:MARS-seq、CEL-seq 和 Drop-seq 使用 UMI,可减少 PCR 偏差,提高定量准确性;Smart-seq 无 UMI,在这方面存在不足。

扩增方式:Smart-seq 和 Drop-seq 采用 PCR 扩增,可快速获得大量 cDNA,但可能引入偏差;MARS-seq 和 CEL-seq 运用体外转录(MT)线性扩增,能保留转录本原始丰度,但过程复杂、耗时。

技术特点:Smart-seq 用于异构体分析;MARS-seq 支持 FACS 分选和多重条形码,可同时分析多种细胞类型;CEL-seq 通过线性扩增,适合分析低丰度转录本;Drop-seq 基于乳液技术,成本低、通量高,适合大规模单细胞研究。

单细胞 RNA 测序(scRNA-seq)中的计算挑战

尽管单细胞 RNA 测序的实验方法已越来越多地为众多实验室所采用,但处理原始数据文件的计算流程仍然有限。一些商业公司提供了软件工具,如 10× Genomics 和 Fluidigm 公司的产品,但该领域仍处于起步阶段,尚未开发出具有行业金标准的工具。在接下来的部分,我们将讨论目前可用于分析单细胞 RNA 测序数据的生物信息学工具。

1.数据预处理:获取 scRNA-seq 数据后,先用 FastQC 检查质量,去除低质量碱基和接头序列。随后进行读段比对,使用 BWA、STAR 等工具,UMIs 序列需提前修剪。RNA-seQC 可提供比对后统计信息,内参可用于评估文库质量。比对后,依据转录本注释将读段分配,高质量的外显子比对读段用于生成基因表达矩阵。

2.数据归一化:scRNA-seq 数据零值过多,需归一化消除细胞特异性偏差。常用方法有 RPKM、FPKM 和 TPM,通过标准化细胞间的表达值实现归一化,但这些方法在检测差异表达基因时存在不足,可能误判。为解决这些问题,TMM 和 DESeq 等样本间归一化方法被开发出来,但它们在处理大量零计数时效果不佳。基于合并表达值的归一化方法可避免随机零计数问题。此外,归一化方法会影响高变基因的选择,进而影响数据异质性分析,样本内与样本间归一化方法的结合仍有待研究。

3.混杂因素估计:scRNA-seq 数据受生物变量和技术噪声等多种因素影响,起始材料少会放大技术噪声影响,虽可用内参应对,但部分基于微滴的应用难以使用内参。scRNA-seq 实验通常对单一条件下的细胞测序,批效应明显,重复分析可评估批效应,但成本高。此外,生物变量也会影响基因表达。scLVM 方法可去除潜在变量导致的变异,复杂统计模型也可用于处理已知和未知变量 。

 
 

图 2 单细胞 RNA 测序(scRNA-seq)分析流程示意图

细胞类型鉴定

细胞类型鉴定在单细胞RNA测序分析中极为关键,有助于解析细胞的功能和特性。这部分内容主要介绍了细胞类型鉴定过程中的关键步骤和相关方法。

1. 降维处理:人体细胞类型多样,为避免 “维度诅咒”,在单细胞RNA测序实验中,读计数归一化后常进行降维。主成分分析(PCA)是常用的无监督线性降维法,能将细胞投影到二维空间,便于可视化和分析。此外,t - 分布随机邻域嵌入(tSNE)、多维缩放、局部线性嵌入(LLE)和等距映射等非线性降维方法也可使用。不过,降维可能导致重要生物信息丢失。

2. 聚类分析与低质量细胞检测:聚类是检测低质量细胞的有效方法,可通过识别线粒体(mt)基因富集的簇来实现。因为细胞膜破裂时,mtDNA基因会上调,细胞质RNA会丢失。完成划分后,需确定不同簇间差异表达的标记基因。对于单细胞数据中的噪声,负二项分布模型比简单的泊松模型拟合效果更好,此外还可采用误差模型来处理技术噪声。单细胞差异表达分析平台采用混合概率模型,能更好地分析单细胞数据,但细胞分布的异质性可能导致双峰分布 。 

 

推断调控网络

推断调控网络对于理解细胞功能和机制至关重要,在单细胞 RNA 测序分析中推断调控网络的相关方法和面临的挑战如下:

1.基于基因共表达推断调控网络:基因共表达网络可用于推断转录因子(TF)与靶基因间的调控关系。其构建基于基因表达数据,假设共表达基因可能存在调控联系。然而,这种方法存在局限性,共表达关系可能由间接调控或其他生物学过程导致,并非直接的 TF - 靶基因调控,所以难以确定真正的调控关系。

2.整合多组学数据推断调控网络:为克服基因共表达网络的局限,可整合转录组、染色质可及性和蛋白质组等多组学数据。通过综合分析不同组学数据,利用相关算法和工具,能更准确地推断 TF - 靶基因相互作用。例如,结合染色质可及性数据,可判断 TF 是否能结合到靶基因启动子区域,从而更有力地支持调控关系的推断。但整合多组学数据面临诸多挑战,不同组学数据在数据类型、规模和分辨率等方面存在差异,需要有效的数据预处理和整合策略 。

 

 

潜在应用与未来展望

单细胞 RNA 测序(scRNA-seq)在多个领域展现出重要价值,其潜在应用广泛且未来发展前景光明,主要体现在以下方面:

1.基础生物学研究:scRNA-seq 能够在单细胞水平解析基因表达调控,助力研究细胞分化、发育轨迹及细胞间相互作用,深入探索生命发育和疾病发生的分子机制,为理解基础生物学过程提供关键信息。

2.疾病诊断与治疗:在疾病研究中,scRNA-seq 可用于识别疾病相关的细胞亚群和生物标志物,为疾病诊断提供新的视角和靶点。在肿瘤研究里,有助于了解肿瘤细胞的异质性,从而为个性化治疗方案的制定提供依据。此外,还能监测治疗过程中细胞的变化,评估治疗效果,推动精准医疗的发展。

3.药物研发:scRNA-seq 可以对药物处理后的细胞进行分析,明确药物作用的细胞靶点和作用机制,筛选出潜在的药物靶点,加速药物研发进程。通过观察细胞对药物的反应,还能评估药物的疗效和毒性,有助于优化药物设计,提高研发成功率 。

4.技术发展方向:未来,scRNA-seq 技术将朝着提高通量、降低成本以及增强分辨率的方向发展。同时,开发新的数据分析方法以应对数据复杂性,整合多组学数据全面理解细胞状态也至关重要。此外,拓展在空间转录组学的应用,探究细胞在组织中的空间分布和相互作用,将为生命科学研究提供更丰富的信息 。

 

 

 
 

(点击阅读原文获取文献)

 
>>>👇👇👇关注,不迷路<<<
 
 
上海达澈生物科技有限公司,专注于生命科学和生命健康领域,致力于成为领先的产品和服务提供者。
我们的NGS产品线覆盖如下:
 
 
 
 
基因组:WGSCircle-seq(eccDNA);
转录组:mRNA、miRNA、lncRNA、circRNA、tRNA测序;
表观组:ATAC-seq,CUT&Tag、ChIP-seqWGBSDAP-seqTBSHi-C;
蛋白和RNA互作:RIP-seq和eCLIP-seq;
翻译组:Ribo-seq;
单细胞测序:scRNA-seq、scCUT&Tag、scATAC-seq、scV(D)J-seq;
空间表观转录组测序:Spatial RNA-seq 、Spatial ATAC-RNA-seq、Spatial CUT&Tag-RNA-seq;
RNA修饰类:m6A、m1A、m7G、m5C、ac4C、Ψ假尿嘧啶;
基因编辑脱靶检测:GUIDE-seq、CIRCLE-seq、dCas9-ChlP-seq、DISCOVER-seq等基于靶向测序的脱靶检测。