文献追踪 |单细胞 CUT&Tag 技术:解锁大脑表观遗传密码的新钥匙

前 言 

在生命科学领域,单细胞测序技术的兴起为发育生物学研究带来了革命性的变化,让科学家得以深入探索组织复杂性和细胞异质性,剖析基因调控网络。然而,在单细胞层面解析表观遗传调控机制仍面临诸多挑战。其中,分析组蛋白修饰的单细胞方法受限于灵敏度和通量,阻碍了我们对表观遗传景观的深入理解。组蛋白修饰在基因表达调控中起着关键作用,其研究对于揭示细胞命运决定、疾病发生发展等过程至关重要。但传统的染色质免疫沉淀测序(ChIP-seq)存在信噪比低、样本需求量大等问题,难以满足单细胞研究的需求。
今天要和大家分享的这篇发表于Nature Biotechnology的研究论文,为解决上述难题带来了新的突破。研究团队巧妙地将 CUT&Tag 技术与基于液滴的单细胞文库制备方法相结合,开发出了单细胞 CUT&Tag(scCUT&Tag)技术。该技术能够在单细胞水平上生成高质量的染色质修饰数据,为研究复杂组织中的表观遗传调控提供了强大的工具。研究人员运用 scCUT&Tag 技术对小鼠中枢神经系统的数万个细胞进行了深入研究,成功解析了多种组蛋白修饰特征,鉴定了不同的脑细胞类型,还探究了转录因子的结合情况,并预测了增强子 - 启动子的相互作用。这一研究成果为我们理解大脑的表观遗传景观提供了全新的视角,也为后续相关领域的研究开辟了新的道路 。下面我们来一起看一下。

Single-cell CUT&Tag profiles histone modifications and transcription factors in complex tissues Nature Biotechnology ( IF 33.1 ) Pub Date : 2021-04-12 , DOI: 10.1038/s41587-021-00869-9

 

 

研究思路和亮点

  • 研究思路:

 

  • 文章亮点:

1.技术创新:将 CUT&Tag 技术与液滴式单细胞文库制备方法结合,开发出 scCUT&Tag 技术,能在单细胞水平获取高质量染色质修饰数据,突破了传统单细胞组蛋白修饰分析方法的局限。

2. 细胞类型鉴定:仅依据组蛋白修饰数据就能解析小鼠脑细胞为不同群体,找到特异性标记和修饰水平差异,还鉴定出多种脑细胞类型,包括少突胶质细胞谱系不同阶段细胞及其他神经细胞 。
3. 表观遗传特征分析:深入剖析多种组蛋白修饰特征,揭示不同细胞群体修饰差异,发现少突胶质细胞分化时 H3K4me3 宽度增加,还明确了转录因子结合位点和基序,为研究表观遗传调控提供关键信息。
4.调控网络预测:利用 scCUT&Tag 数据结合 ABC 模型等预测增强子 - 启动子相互作用,鉴定出候选调控相互作用,为研究基因调控网络提供重要依据。

scCUT&Tag 技术验证

本研究中作者将CUT&Tag与ATAC-seq技术相结合(图1a),用小鼠胚胎干细胞、小鼠胚胎成纤维细胞和小鼠少突胶质细胞祖细胞模型细胞系三种细胞系的混合物验证scCUT&Tag数据是否可用于去卷积异源细胞群。然后使用10 x Genomics Chromium平台对标签化的核进行条形码化,使用小鼠胚胎干细胞(mESC)、成纤维细胞(NIH-3T3)和少突胶质前体细胞(Oli-neu)混合样本,通过 H3K27me3 标记验证 scCUT&Tag 的细胞区分能力。结果显示,scCUT&Tag 数据通过 UMAP 聚类成功分离三种细胞类型,并与 Bulk ChIP-seq/CUT&Run 数据高度一致(图1a)。

图 1a:scCUT&Tag 实验设计示意图。从 P15/P25 小鼠大脑分离 GFP + 和 GFP−细胞,通过抗体标记特定组蛋白修饰或转录因子,结合蛋白 A-Tn5 融合酶进行标签化,最后利用 10x Chromium 平台进行单细胞建库。

图 1b:数据分析策略流程图。将 scCUT&Tag 信号聚合为细胞 × 基因组矩阵(5 kb 或 50 kb bins),通过 LSI 降维、UMAP 可视化和 SNN 聚类,结合标记区域鉴定细胞类型,计算基因活性评分并整合多组学数据。

 

图 1c:不同组蛋白修饰的单细胞数据质量对比。展示 H3K4me3、H3K27ac、H3K27me3 和 H3K36me3 的单细胞唯一读数分布,中位数在 98(H3K36me3)至 453(H3K27ac)之间,表明技术可捕获高灵敏度数据。

图 1d:片段在峰区域的比例。39.4%–85.6% 的片段位于窄峰区域,显示低背景噪音,验证了 scCUT&Tag 的高特异性。

图 1e:片段长度分布。各修饰的片段长度分布与亚核小体、单核小体、双核小体和三核小体特征一致,支持技术对染色质结构的有效捕获。

单细胞唯一读数中位数为 597(H3K27me3),片段在峰区域的比例达 85.6%,表明低背景噪音:基于以上,作者获得了4872个和3873个单细胞的H3K27me 3图谱,每个细胞分别有597个和568个独特片段。根据每个条形码的读段数量和落入峰值区域的读段分数来识别单细胞。总共获得了47340个单细胞的各种组蛋白修饰的scCUT&Tag图谱,中位数范围在每个细胞98个(H3K36me 3)和453个(H3K27ac)独特片段之间(图1c)。将单细胞数据聚合成 5 kb(H3K4me3、H3K27ac、H3K27me3)或 50 kb(H3K36me3)的基因组矩阵,通过潜在语义索引(LSI)降维后,采用 UMAP 可视化和共享最近邻(SNN)聚类算法(Leiden 算法)进行无监督分析(段落 2-25)。数据质量评估显示,39.4%–85.6% 的片段位于窄峰区域,表明低背景噪音(图 1d)。

39.4%至85.6%的片段落在狭窄的峰区域内(图1d),表明背景水平较低。片段长度分布与亚核体片段以及所有修饰的单核、双核和三体的捕获一致(图1e)。

图 1f-i:不同组蛋白修饰的单细胞 UMAP 可视化。

f. H3K4me3:活性启动子标记在成熟少突胶质细胞(MOL)、星形胶质细胞(AST)等群体中富集,反映细胞类型特异性。

g. H3K27me3:抑制性标记在神经元(NEU)、少突胶质前体细胞(OPC)等群体中呈现特异性分布。

h. H3K27ac:活跃增强子和启动子标记在 MOL、OPC 等细胞中显著富集。

i. H3K36me3:基因体标记在 OPC 等未成熟细胞中信号较强,提示转录活跃状态。

图 1j:假批量 scCUT&Tag 数据验证标记基因。H3K4me3 在 MOL(Mbp+)、AST(Slc1a2+)等细胞类型特异性基因启动子区的富集,验证技术可靠性。

图 1k:热图显示 H3K4me3 信号强度。前 50 个特异性标记区域在不同细胞类型中的分布,颜色代表信号强度,右侧标注细胞元数据(年龄、GFP 状态),揭示细胞异质性。

 

将H3K27me3 scCUT & Tag的性能指标与之前发表的针对相同表位的技术的性能指标相比较。与iCell 8 scCUT & Tag 和最新的 scChIP-seq方法相比,这里的scCUT &Tag数据显示出相似或更高的特异性以及每个细胞的独特片段数量相等或更低;与此一致,指纹图显示,与scChIP-seq 相比,scCUT &Tag表现出更高的特异性和更好的信噪比,并且特异性水平与iCell 8 scCUT & Tag相似。

scCUT&Tag 在特异性(片段峰比例)和细胞通量上优于 scChIP-seq,与 iCell8 scCUT&Tag 性能相当(扩展数据图 3d-f)。

扩展数据图 3d-f。

图 3d:不同技术(scCUT&Tag、iCell8 scCUT&Tag、scChIP-seq)的峰区域片段比例比较。

scCUT&Tag 的特异性(峰区域片段比例)与 iCell8 scCUT&Tag 相当,显著高于 scChIP-seq(例如,H3K27me3 的峰比例分别为 85.6%、75.2%、65.3%)。

图 3e:单细胞唯一读数数量对比。scCUT&Tag 的中位数读数(如 H3K27me3 为 597)低于 iCell8 scCUT&Tag(H3K27me3 为 807)和 scChIP-seq(H3K27me3 为 1,387),但每个实验可处理更多细胞(如 scCUT&Tag 获得 13,932 个 H3K27me3 细胞)。

图 3f:各技术处理的单细胞数量。scCUT&Tag 在 H3K27me3 实验中分析了 13,932 个细胞,远多于 iCell8(486 个)和 scChIP-seq(960 个),体现其高通量优势。

小鼠脑细胞类型鉴定

基于组蛋白修饰的细胞类型识别:运用 scCUT&Tag 技术,针对小鼠大脑中多种组蛋白修饰(H3K4me3、H3K27me3、H3K27ac、H3K36me3)进行分析。通过对标记基因附近特定峰的识别以及手动注释,成功鉴定出多种脑细胞类型,包括成熟少突胶质细胞(MOL)、星形胶质细胞(AST)、嗅鞘细胞(OEC)、血管细胞(VAS)、少突胶质前体细胞(OPCs)、已定型少突胶质前体细胞(COPs)、新形成少突胶质细胞(NFOLs)、神经元(NEU)(包括兴奋性神经元(Exc)和抑制性神经元(Inh))以及小胶质细胞(MGL)(图 1f-i、图 2a-f)。

图 2a-f。

图 2a、b:分别展示 H3K4me3 和 H3K27me3 的 scCUT&Tag 基因活性评分在二维 UMAP 嵌入上的投影。不同颜色代表不同细胞类型,直观呈现不同组蛋白修饰在各类细胞中的活性评分分布,可用于区分如成熟少突胶质细胞(MOL)、星形胶质细胞(AST)等细胞群体。

图 2c、d:是 H3K4me3 和 H3K27me3 的 scCUT&Tag 信号热图。x 轴为基因组区域,y 轴每行代表一个细胞,右侧颜色条标注细胞所属聚类及类型。通过热图可直观观察到不同细胞在特定基因组区域的组蛋白修饰信号强度差异。

图 2e、f:为所有已鉴定细胞类型中,四种组蛋白修饰(H3K4me3、H3K27me3、H3K27ac、H3K36me3)在选定标记基因(Slc1a2 代表 AST、Mbp 代表少突胶质细胞)位点的聚合伪批量 scCUT&Tag 图谱,展示不同细胞类型在特定基因位点的组蛋白修饰特征 。

细胞类型鉴定的验证:聚类结果在生物学重复中具有高度可重复性,来自 P15/P25 年龄的细胞在簇内混合良好(扩展数据图 5a-c)。

扩展数据图 5a-c。 

5a:呈现 scCUT&Tag 数据的二维 UMAP 嵌入图,细胞按 GFP 群体、发育年龄和生物学重复进行着色。可直观看到不同来源细胞在 UMAP 空间中的分布,验证了实验结果的可重复性,表明不同实验条件下细胞聚类不受年龄和 GFP 状态的干扰。

5b:以柱状图形式总结 H3K4me3 scCUT&Tag 数据中各细胞类型与 GFP 群体的对应关系。展示了不同细胞类型中 GFP + 和 GFP - 细胞的占比情况,有助于了解不同细胞类型在少突胶质细胞谱系标记下的分布特征。

5c:同样是柱状图,总结 H3K4me3 scCUT&Tag 数据中各细胞类型与发育年龄(P15/P25)的对应关系。从中可知不同细胞类型在不同发育阶段的分布差异,如多数 OPC 来自 P15,而分化的 OLG 多来自 P25。

 

将 scCUT&Tag 分析得到的脑细胞群体与之前发表的大量脑 H3K27me3 ChIP-seq 和内部生成的大量 H3K27me3 CUT&Run 数据进行比较,基因组浏览器轨道显示相应群体的批量和单细胞轨道相似,且 scCUT&Tag 数据的背景信号更低(扩展数据图 6a)。此外,对 Sox10-Cre/GFP + 分选细胞进行 scRNA-seq,发现 scCUT&Tag 和 scRNA-seq 获得的细胞类型比例相似(扩展数据图 6c)。

扩展数据图 6a-c。

 6a:展示了基因组浏览器视图,选取包含小胶质细胞和神经元特异性 H3K27me3 峰区域的代表性区域。对比 scCUT&Tag 数据和相应的批量 ChIP-seq 或批量 CUT&Run 数据,可看出两者在对应细胞群体的信号相似,且 scCUT&Tag 数据背景信号更低,体现了该技术在检测组蛋白修饰信号时的优势。

6b:通过主成分分析(PCA)和皮尔逊相关矩阵,对 scCUT&Tag 合并的各细胞簇与批量 ChIP-seq、批量 CUT&Run 数据进行分析。PCA 基于 scCUT&Tag 数据中前 150 个最具变异性的标记区域,热图展示相同特征信号的皮尔逊相关系数,结果显示相应的批量和 scCUT&Tag 数据集在图中聚类在一起,表明数据间具有较高的相关性。

 6c:呈现了从 scCUT&Tag 数据和 scRNA-seq 数据中识别出的相对细胞类型比例。对比这两种技术得到的细胞类型比例,发现二者相似,进一步验证了 scCUT&Tag 数据在鉴定细胞类型方面的可靠性。

 

组蛋白修饰特征分析

不同细胞群体组蛋白修饰差异:通过分析不同细胞群体中组蛋白修饰的情况,发现 H3K27me3 在少突胶质细胞、小胶质细胞和一部分神经元群体中相对其他群体富集;H3K36me3 在未成熟少突胶质细胞(OPC/COP-NFOL 阶段)群体中含量相对较高(图 3d)。

图 3d。脊线图,展示四种组蛋白修饰(H3K4me3、H3K27me3、H3K27ac、H3K36me3)在不同细胞群体中每个细胞独特读数数量的分布情况。从图中能看出,H3K27me3 在少突胶质细胞、小胶质细胞和部分神经元群体中富集;H3K36me3 在未成熟少突胶质细胞(OPC/COP–NFOL 阶段)群体中相对较多 ,反映了不同细胞群体组蛋白修饰水平的差异。

H3K4me3 在少突胶质细胞分化过程中的变化:研究发现,在少突胶质细胞从 OPC 分化为 MOL 的过程中,H3K4me3 在 MOL 特异性标记基因启动子处的宽度逐渐增加(图 4e)。

图 4e 是展示 H3K4me3 在少突胶质细胞分化过程中从 MOL 特异性基因启动子扩散情况的热图。其中,每一行代表一个细胞,且细胞按 MOL 特征评分排序(该评分与伪时间相关),x 轴表示距元启动子(MOL 中高表达基因的启动子)的基因组距离(-3 kb/+10 kb)。热图颜色变化直观呈现出随着细胞向成熟少突胶质细胞分化,H3K4me3 信号在启动子区域的宽度逐渐增加的趋势。

转录因子结合分析

OLIG2 和 RAD21 的单细胞结合谱:选择转录因子 OLIG2(特异性针对神经胶质群体)和 RAD21(一种染色质结构因子和黏连蛋白复合体亚基)进行 scCUT&Tag 实验。通过降维和聚类分析,获得了 OLIG2 和 RAD21 的特异性结合谱(图 5a-d)。

图 5a、b:二维 UMAP 嵌入图,分别展示 OLIG2 和 RAD21 的 scCUT&Tag 数据,点的颜色由每个细胞的独特读数数量决定,反映结合强度在细胞间的差异。

图 5c、d:同样是 OLIG2 和 RAD21 的 UMAP 嵌入图,点按细胞类型着色,用于观察转录因子在不同细胞类型中的结合分布。

图 5e:呈现 OLIG2 和 RAD21 的 scCUT&Tag 数据按细胞类型聚合在标记基因区域的伪批量图谱,可直观对比不同细胞类型中转录因子的结合情况。

结合基序验证:利用 MEME 套件在合并的伪批量数据集中搜索富集基序,发现 RAD21 数据集中 CTCF 基序高度富集,与 CTCF 和黏连蛋白的协同作用一致;OLIG2 scCUT&Tag 中发现了多个富集基序,包括与之前报道的 OLIG2 特异性基序相似的 CAGMTG,以及与 SOX 家族转录因子基序相似的序列(图 5g-h)。

图 5f:展示了来自 scRNA-seq 数据的 Olig2 RNA 在 Sox10-Cre/RCE + 群体中不同细胞类型的表达情况。直观呈现 Olig2 在少突胶质细胞谱系(OLG)中高表达,在其他细胞类型如嗅鞘细胞(OEC)、血管细胞(VAS)等表达较低或不表达,为判断 OLIG2 转录因子结合细胞类型提供参考。

图 5g:为在 RAD21 的 scCUT&Tag 数据中发现的最富集基序的标识图,且将其与从 Jaspar 数据库中检索到的转录因子 CTCF 的基序进行了比对。结果显示该基序与 CTCF 基序高度相似,表明 RAD21 与 CTCF 在功能上可能存在协同作用。

图 5h:展示了在 OLIG2 的 scCUT&Tag 数据中发现的富集基序标识图,该基序(CAGMTG)与之前报道的小鼠 OLIG2 特异性基序一致。验证了 scCUT&Tag 技术在检测转录因子结合基序方面的准确性和可靠性。

增强子 - 启动子相互作用预测

ABC 模型预测结果:运用活性 - 接触(ABC)模型,基于聚集的 scCUT&Tag 数据预测基因增强子调控网络。以少突胶质细胞(OLG)为研究对象,ABC 模型预测出约 200,000 个增强子 - 启动子环,这些预测环与基于批量 OLG CUT&Run 数据的 ABC 模型预测结果一致(图 6a、扩展数据图 10a-b)。

图 6a 展示预测和验证启动子 - 增强子特异性环的策略。从 scCUT&Tag 数据出发,结合公开数据集用 ABC 模型预测少突胶质细胞(OLG)的增强子 - 启动子环,再通过 H3K27ac HiChIP 分析纯化的 OLG 谱系细胞来验证环的存在,为研究基因调控网络提供了重要思路。

扩展数据图 10a-b。

10a:通过柱状图对比展示了由 ABC 模型分别基于 scCUT&Tag 数据和批量 CUT&Tag 数据预测的增强子 - 启动子环的重叠情况。结果显示,基于 scCUT&Tag 数据预测的环与基于批量 CUT&Tag 数据预测的环存在一定比例的重叠,体现了 scCUT&Tag 数据在预测基因调控网络方面与传统批量数据具有一致性 ,证明了该技术预测结果的可靠性。

 10b:采用维恩图呈现基于 scCUT&Tag 数据,ABC 模型预测的环与基于批量 CUT&Run 数据 ABC 模型预测的环,以及 Cicero 预测结果之间的重叠关系。从中可以直观地看出不同预测方法结果的重合部分与差异,为评估不同预测方法的一致性和互补性提供依据 。

 

预测结果的验证与优化:通过 HiChIP 实验对预测的相互作用进行验证,发现预测的环在少突胶质细胞中具有高度特异性(图 6b)。进一步利用 scCUT&Tag 数据,通过 H3K4me3 信号筛选出活跃启动子,并结合 RAD21 结合情况对预测进行优化,得到约 5,000 个特异性更高的环(图 6c)。

图 6b:对 ABC 模型预测的 200,000 个环进行堆积分析,聚合并绘制了在小鼠胚胎干细胞(mESC)或少突胶质细胞谱系(OLG)细胞中进行 H3K27ac HiChIP 实验的信号热图,以中心为环坐标的交点。该图用于探究预测的增强子 - 启动子环的接触概率,结果表明预测的环对少突胶质细胞具有高度特异性。

图 6c:展示用 H3K4me3(约 61,000 个环)和 RAD21(约 5,000 个环)的 scCUT&Tag 数据过滤 ABC 模型预测环后的堆积分析结果。与原始未过滤的环相比,这些经过滤的环在 HiChIP 堆积信号中显示出更高的特异性,说明利用 scCUT&Tag 数据进一步筛选预测环可提高其可靠性 。

 

与 Cicero 预测结果的比较:运用 Cicero 算法对 scCUT&Tag 数据进行分析,发现 MOL 中有 14,322 个相关特征(相关分数 > 0.2)。Cicero 预测结果与 ABC 模型预测结果有一定重叠,且两种方法都成功识别出已知的 Sox10 增强子,并将其与 Sox10 启动子连接(图 6e)。

图 6e 展示了从 H3K27ac scCUT&Tag 数据出发,运用 Cicero 和 ABC 模型预测环的结果。图中呈现了 MOL(成熟少突胶质细胞)的相关特征,两种模型都识别出已知的 Sox10 增强子,并将其与 Sox10 启动子连接,直观呈现了基因调控网络中增强子与启动子的相互作用关系 。

讨论

单细胞分辨率转录组技术的出现使发育生物学过程得以深入研究,但潜在的调控表观遗传过程仍有待在该分辨率下揭示。

本文首次在小鼠大脑中进行了单细胞分辨率的染色质修饰和转录因子结合的高通量研究,将CUT&Tag协议与单细胞条形码平台相结合。为展示scCUT&Tag的性能,研究生成了幼年小鼠模型在OPC分化为成熟少突胶质细胞及髓鞘形成高峰期的大量组蛋白修饰数据集,构建了大脑主要细胞类型的H3K4me3和H3K27me3基因组图谱,以及神经胶质细胞群体的H3K27ac和H3K36me3图谱。

研究表明,单细胞水平的组蛋白修饰分析可识别不同神经细胞类型,scCUT&Tag应用于组织的主要优势在于其无偏且无监督的特性,能识别新的细胞群体并发现标记基因相关的组蛋白修饰独特峰值,从而研究几乎任何生物过程中的表观遗传变化和基因表达的表观遗传调控。

此外,利用scCUT&Tag数据研究了少突胶质细胞的表观遗传异质性、H3K4me3的扩散以及预测增强子 - 启动子连接,还生成了神经胶质转录因子OLIG2和染色质结构因子RAD21的scCUT&Tag图谱。

尽管该技术存在一定局限性,如目前难以无监督地揭示亚群的异质性,但scCUT&Tag仍为研究复杂组织中的表观遗传调控提供了详细方法,对深入理解小鼠大脑中的表观遗传异质性具有重要意义 ,且其与预测模型结合有助于推断顺式调控元件的环化,为后续研究提供了方向。 

 

 
 

(点击阅读原文获取文献)

 
>>>👇👇👇关注,不迷路<<<
 
 
上海达澈生物科技有限公司,专注于生命科学和生命健康领域,致力于成为领先的产品和服务提供者。
我们的NGS产品线覆盖如下:
 
 
 
 
基因组:WGSCircle-seq(eccDNA);
转录组:mRNA、miRNA、lncRNA、circRNA、tRNA测序;
表观组:ATAC-seq,CUT&Tag、ChIP-seqWGBSDAP-seqTBSHi-C;
蛋白和RNA互作:RIP-seq和eCLIP-seq;
翻译组:Ribo-seq;
单细胞测序:scRNA-seq、scCUT&Tag、scATAC-seq、scV(D)J-seq;
空间表观转录组测序:Spatial RNA-seq 、Spatial ATAC-RNA-seq、Spatial CUT&Tag-RNA-seq;
RNA修饰类:m6A、m1A、m7G、m5C、ac4C、Ψ假尿嘧啶等;
基因编辑脱靶检测:GUIDE-seq、CIRCLE-seq、dCas9-ChlP-seq、DISCOVER-seq等基于靶向测序的脱靶检测。