全基因组测序
WGS
-
全基因组测序(Whole Genome Sequencing,WGS)是一种对生物体整个基因组进行测序的技术。WGS是指对某种生物的基因组中的所有 DNA 序列进行测定,包括基因编码区和非编码区,能够获得该生物完整的遗传信息,涵盖了染色体上的所有基因、调控元件以及其他各种类型的 DNA 序列。
技术原理
第一代测序技术:以桑格测序法为代表,其原理是利用双脱氧核苷酸(ddNTP)终止 DNA 链的延伸,通过电泳分离不同长度的 DNA 片段,经过放射自显影阅读 DNA 序列。它准确性高,但通量低、成本高,不适合大规模的全基因组测序。 第二代测序技术:包括罗氏 454 测序技术、Solexa 测序技术、SOLiD 测序技术等。以 Solexa 测序技术为例,首先将基因组 DNA 片段化,然后将片段连接到测序接头,进行桥式 PCR 扩增,形成 DNA 簇,最后利用边合成边测序的方法,通过检测荧光信号确定每个碱基的种类,实现大规模平行测序。其特点是高通量、低成本,但读长相对较短。 第三代测序技术:如 PacBio RS 测序技术、Nanopore 测序技术等。PacBio RS 测序技术采用单分子实时(SMRT)测序,在 DNA 聚合酶作用下,荧光标记的核苷酸在合成 DNA 链时发出荧光信号,从而实现对 DNA 序列的测定,它的优势是长读长,能更好地处理重复序列、结构变异等区域。Nanopore 测序技术则是通过纳米孔让 DNA 分子通过,不同碱基通过纳米孔时会产生不同的电流变化,以此来识别碱基序列。
全基因组测序
-
1. 数据质量控制。在开始测序之前,需要对测序数据的质量进行严格控制,以确保后续分析的准确性。这通常通过使用如NGS-QCGenerator等软件来完成,它可以从读数的分布中分析出质量指标。
2. 基因组对齐。将测序得到的短 reads 序列比对到参考基因组上。常用的工具有Bowtie和BWA,这两个工具都能高效地将短 DNA 序列比对到人类基因组上。
3. 序列可视化。为了验证候选的结构变异,可以使用如IGV(Integrative Genomics Viewer)这样的高级查看器。IGV能够处理大型异构数据集,并在各个基因组分辨率级别上提供直观的体验。
4. 变异检测。使用如Samtools等软件来检测种系突变、体细胞突变和插入缺失。Samtools能够处理SAM/BAM/CRAM格式的读取,并支持写入、编辑、查看和格式转换。
5. 拷贝数变异(CNV)分析。CNV分析可以使用CNVNator,这是一个从群体基因组测序中发现基因型、表征典型和非典型 CNV 的方法。它具有高灵敏度、低假阳性率和准确的基因分型特点。
6. 短串联重复序列(STR)。分析 STR的分析可以在线操作完成。使用MISA-Web可以从 NCBI 数据库检索并分析 STR 序列。这个工具支持不同的输出格式,有助于将搜索结果集成到下游分析中。
7. 功能预测 使用如MutationTaster和SNPDryad等工具来预测基因突变的功能。这些工具能够评估 DNA 序列改变的致病潜力,并集成来自不同生物医学数据库的信息。
8. 变异注释 最后,将检测到的变异注释到参考基因组上,并提供关于这些变异的生物学意义解释。
分析流程
-
质量控制:
在高通量测序中,偶尔会出现低质量读数和污染读数等问题,影响后续分析结果。因此,质量控制、对于原始数据至关重要。常用软件是NGS-QC Generator可以从特定概况关联读数的分布分析出质量指标。
基因组对齐:
高通量测序分析中需要将生成的读数对准(映射)到参考序列。此时可以适用Bowtie和BWA。前者能以每小时超过2500万个35 bp读数的速率比对短DNA序列(读取)与人类基因组。后者针对大型参考基因组绘制低分歧序列。
序列可视化:
可视化读取是使用现有数据验证候选结构变体的最有效方式。可适用IGV来完成。高性能的查看器可以有效处理大型异构数据集,同时在各个基因组分辨率级别提供直观体验。IGV的关键特征是关注研究综合性质,支持基于阵列和NGS数据,以及临床和表型数据的整合。
变异检测:
种系突变、体细胞突变和插入缺失检测三项检测可以使用同一个软件进行,SAMtools。SAMtools是用于与高通量排序数据进行交互的程序。可处理SAM / BAM / CRAM格式的读取,写入,编辑,查看和格式转换。
拷贝数变异(CNV)是遗传变异常见来源,是基因组中结构变异的一种形式。通常指大于1kbp的DNA片段的重复或缺失。CNV检测可使用CNVnator,这是一种可以从群体基因组测序中发现基因型、表征典型和非典型CNV的方法。CNVnator具有灵敏度高,假阳性低,基因分型准确率高的特点。短串联重复序列(STR)是DNA重复的一种,重复单位为2-6bp,重复次数10~60多次,基因片段400bp以下。是存在于人类基因组中的具有长度多态性的DNA序列,不同数目的核心序列串联重复排列,同时呈现出长度多态性。STR的长度变异性与表型变异有关,一些疾病也由重复扩张引起。分析STR是理解个体变异性和导致不稳定机制的重要步骤。检测STR比较简单,可直接在线操作。用MISA-web ( https://webblast.ipk-gatersleben.de/misa/ ) 可以输入字段中指定部分从NCBI数据库中检索序列。支持两种不同的输出格式:专有的MISA和GFF3。GFF3有助于将搜索结果集成到下游分析。
-
细胞样品
选取新鲜细胞进行细胞计数,液氮速冻后干冰寄送,细胞数目大于1×10^7/份,建议样品制备 2~3 份。
动物组织
选取新鲜组织,质量大于50mg/份,取样时剔除冗余部分,保证组织的单一性,建议取材后用生理盐水漂洗,以去除血渍和污物,液氮速冻,-80℃保存。建议样品制备 2~3 份。
植物组织
选取取幼嫩组织,如嫩叶,根尖,幼苗等,质量大于3g/份,建议取样后用清水漂洗去除污物,纸巾吸干水分后液氮速冻,-80℃保存。建议样品制备 2~3 份。
血液样品
采血时,血清、血浆总体积大于4ml/份;-80℃保存。建议样品制备 2~3 份。
Total DNA样品
寄送的Total DNA量应当 > 10μg,获取total DNA后,务必电泳检验DNA有无降解,-80℃保存。建议样品制备 2~3 份。
具体细节,详询销售或技术人员。