-
首页
-
科研服务
- 基因组
- T2T基因组
- 动植物基因组
- 泛基因组
- 真菌基因组
- 细菌完成图
- 线粒体基因组
- 重测序
- 动植物全基因组重测序
- 性状关联分析
- 转录组
- 二代有参转录组
- 二代无参转录组
- 纳米孔全长转录组
- PB 2+3全长转录组
- 表观组
- Hi-C三维基因组
- 全基因组甲基化
- ATAC-seq
- CUT&Tag
-
分子育种
- 种质资源考察
- 种质资源考察与分类
- 核心种质资源鉴定
- 种质资源指纹图谱
- 种质资源鉴定
- KASP遗传标记
- 亲缘关系鉴定
- 种质资源信息库和性状解析
- 种质资源遗传库
- 性状关联分析
- 种质资源创新创制与推广
- 遗传转化与基因编辑检测
- 液相芯片
- 基因组选择育种
- 种质资源应用推广
-
资源中心
- OMSearch
- 技术分享
- 送样建议
- 引物设计
-
新闻资讯
-
关于万摩
- 公司简介
- 项目成果
- 加入万摩
-
首页
-
科研服务
- 基因组
- T2T基因组
- 动植物基因组
- 泛基因组
- 真菌基因组
- 细菌完成图
- 线粒体基因组
- 重测序
- 动植物全基因组重测序
- 性状关联分析
- 转录组
- 二代有参转录组
- 二代无参转录组
- 纳米孔全长转录组
- PB 2+3全长转录组
- 表观组
- Hi-C三维基因组
- 全基因组甲基化
- ATAC-seq
- CUT&Tag
-
分子育种
- 种质资源考察
- 种质资源考察与分类
- 核心种质资源鉴定
- 种质资源指纹图谱
- 种质资源鉴定
- KASP遗传标记
- 亲缘关系鉴定
- 种质资源信息库和性状解析
- 种质资源遗传库
- 性状关联分析
- 种质资源创新创制与推广
- 遗传转化与基因编辑检测
- 液相芯片
- 基因组选择育种
- 种质资源应用推广
-
资源中心
- OMSearch
- 技术分享
- 送样建议
- 引物设计
-
新闻资讯
-
关于万摩
- 公司简介
- 项目成果
- 加入万摩
-
基因组de novo即从头测序组装,指不需要任何参考序列信息,直接结合多种测序技术,利用生物信息学分析方法进行拼接、组装,从而获得该物种的基因组。基因组上蕴藏着生命的奥秘,人类从发现DNA、发明DNA测序手段到测序技术的飞速发展,一直都在孜孜不倦的破译各种生物的基因组,一个完整的、精确的参考基因组能够为人类疾病研究、动植物遗传育种研究等方面打下坚实的基础。
自2000年人类基因组初稿首次发布以来,人类参考基因组只覆盖了基因组的常染色质部分,留下了关键的异染色质区域未被破解。T2T联盟结合Nanopore超长和PacBio测序技术,解决了此前未被组装的剩余8%基因组,并提供了一个完整含有30.55亿碱基对的人类完整基因组(T2T-CHM13),包含除Y染色体以外所有染色体的无Gap组装,同时纠正了之前参考基因组中的组装错误。
这种结合PacBio HiFi、纳米孔Ultra-long以及CycloneSEQ-PoreC/Hi-C等成熟测序技术,得到的高准确性、高连续性和高完整性的从端粒到端粒的组装基因组,被称为T2T(Telomere-to-Telomere)基因组。它能矫正原本基因组中组装错误,有助于对基因组中高重复序列区域或高重复结构进行深入研究,为着丝粒区域或未知高重复区域的变异特征的研究提供契机。
注:一般情况下,T2T基因组更适合小基因组、HiFi组装后contig数目少、染色体长度较短、低重复的简单基因组(杂合度<1%,重复序列<60%,且GC无明显偏移)。 对于某些疑难物种如藻类和虾蟹类等,T2T级别组装比较困难。同时混样样本因杂合复杂程度增加,一般也很难组装到T2T水平。
测序方案
方案1:Gap-Less T2T基因组:至少有一条染色体实现端粒到端粒且0 Gap
方案2:Gap-Free T2T基因组:所有常染色体0 Gap
方案3:Complete基因组:所有染色体(包含性染色体)端粒到端粒且0 Gap
分析内容
基于短读长测序数据对分析物种基因组的大小、杂合度、重复序列含量等特征进行评估,结合PacBio HiFi、纳米孔Ultra-long以及CycloneSEQ-PoreC/Hi-C等测序技术,通过多种组装方法进行基因组的T2T组装,得到高质量的基因组染色体序列,利用完善的评估系统进行组装序列的综合评价以保证其质量。
基于得到的基因组序列,后续展开重复序列注释、蛋白编码基因结构注释及功能研究,并进一步进行比较基因组研究。
图1.T2T流程图
图2.基因组T2T整体分析流程
产品优势
自研基因组搜索引擎:
轻松查询研究物种及近源物种的分类和基因组组装现状,网页链接、小程序与公众号--组学工具--基因组调研均能访问。
链接:https://www.genomedb.org.cn/taxon/homosearch
图3.小程序与公众号
多种针对基因组的算法和软件:
基于大量的项目经验积累和文献调研,团队通过解析、研发和测试,开发了一系列针对组装高质量基因组的自研方法,在基因组组装与注释质量、项目周期以及结果展示等方面进行了深入的优化。
图4.组装自研方法
SGDB(标准基因组数据库):
·数据库demo:http://demo-db.onemore-tech.com/#/map;
·与FIGAS(基因组自动化系统)接口对齐,一键化数据清洗与入库;兼容其他来源基因组和注释文件;
·采用业界通用的web解决方案:Java+Vue+MySQL;支持多并发,稳定性高,秒级查询;
·利用镜像容器技术,实现环境无缝迁移,能够快速部署;
·对于非公开数据,可以线下部署数据库供内部使用;
·集成了引物设计软件-Primer3、序列比对软件-Blast和基因组信息可视化-Jbrowse等常用生信工具,供用户便利使用。
图5.SGDB数据库
组装经验
-
基因组特征评估
通过基因组survey评估物种基因组大小、杂合、重复序列比例和倍型情况,为后续的测序和基因组组装分析提供参考依据。
表1 基因组特征统计情况(K-mer=17)
表1 基因组特征统计情况(K-mer=17)
表1 基因组特征统计情况(K-mer=17)
图6.某物种K-mer Depth和K-mer种类数频率分布图 (左图:GCE,右图:GenomeScope2)
图7.某物种Smudgeplot K-mer统计分布图
基因组组装与染色体挂载
综合HiFi reads、CycloneSEQ-PoreC/Hi-C reads和纳米孔 Ultra-long reads使用HiFiasm等组装软件进行初步组装,并利用CycloneSEQ-PoreC/Hi-C将Contig序列片段划分定位至染色体,提升基因组准确性,为染色体高维结构的分析提供了可能。
图8.染色体Hi-C互作图谱
端粒延伸及补洞
使用纳米孔Ultra-long reads进行端粒延伸及Gap填补,利用短读长测序对延长和补洞后的基因组进行纠错。
基因组三维结构解析
利用CycloneSEQ-PoreC/Hi-C reads解析DNA的三维空间结构,如Compartment A/B结构分析、拓扑结构域(TAD)分析、染色质环(Loops)分析,以及染色体3D结构预测等。
图10.单染色体Compartment展示图和所有染色体3D结构预测图
基因组评估
从组装序列的序列连续性、组装准确性、深度均一性、碱基错误率、保守完整性等方面,综合评估基因组组装效果。
图11.基因组GC-Depth 分布图
表2 基因组busco评估
基因组注释
通过蛋白编码基因结构预测和重复序列注释,我们能够获得基因组蛋白编码基因、重复序列分布和结构信息,为功能注释和进化分析工作提供重要的基础。
图12.GC含量、基因、不同类型重复序列在基因组上的密度分布圈图
基因组进化研究
进化论是比较基因组学的理论基础,相关基因组的相似性是比较基因组学的研究基础。比较基因组学的主要原则是,两种生物的共同特征通常被编码在进化保守的DNA中。因此,比较基因组学方法首先是对基因组序列进行某种形式的比对,然后在比对的结果中寻找同源序列(具有共同祖先的序列),并检查这些序列的保守程度。那些负责不同物种之间相似性的元素应该随着时间的推移而保守(稳定选择),而那些负责物种之间差异的元素应该是发散变化的(正选择,扩张或者收缩)。最后,那些对生物体的进化成功不重要的元素将是不保守的(中性选择)。在此基础上,可以推断出基因组进化和分子进化,而这又可以放回表型进化或群体遗传学的研究中。
图13.系统发育树与基因组差异
图14.基因组进化过程中的WGD
图9.基因组上contig 分布、染色体长度、端粒、着丝粒 等信息展示图
-
Q1 如何查询基因组的大小?
方法一:基于流式细胞术(Flow Cytometry)的实验方法,已测物种基因组大小见网站:
植物:https://cvalues.science.kew.org/search
动物:http://www.genomesize.com/search.php
换算关系:1pg=978Mb
方法二:从NCBI、CNGBDdb、Ensembl、JGI 等数据库中查找。
方法三:使用本公司物种信息查询网站:https://www.genomedb.org.cn/taxon/homosearch
Q2 T2T基因组所有染色体都能达到端粒到端粒?
T2T是高准确性、高连续性、高完整性的端粒到端粒的高质量基因组,需根据实际物种基因组的实际复杂程度、以及其相应的测序数据情况分别评估,对于复杂程度较高的基因组(如高重复含量,高杂合度,复杂倍型等物种)、或者无法满足测序数据量需求的情况下,不保证每条染色体都能无Gap,端粒也可能组装不出来。
Q3 怎么判断染色体端粒、着丝粒是否组装出?
端粒:在基因组序列层面,鉴定到足够的端粒特征序列重复数。
着丝粒:在基因组序列层面,当组装的染色上无Gap时,初步认为着丝粒组装成功。
实验层面的端粒以及着丝粒鉴定:FISH+Chip-Seq
Q4 着丝粒鉴定方式(利用基因组序列的方法)?
该物种或近缘物种,已知着丝粒特异性序列,通过比对查找。(如模式物种、哺乳动物等)
整体重复序列分布规律、基因分布规律。(多数植物)
串联重复序列、微卫星序列的分布规律。(某些动物)
特定重复序列分布规律,如DNA转座子、LTR、LINE等。(大部分植物,少部分动物)
CycloneSEQ-PoreC/Hi-C互作关系,仅限有着丝粒互作的物种。(部分动植物)
Q5 疑难物种有哪些?
昆虫:
昆虫个体微小:如寄生蜂、果蝇等样本,提取的DNA量较少,不满足单次测序的建库要求,所以大部分采取多个体混样测序,极大增加杂合复杂程度,严重影响基因组组装的连续性。
藻类:
①藻类多富含粘性多糖、糖蛋白和色素等,且有微生物共生,进一步增加藻类基因组DNA提取难度,且更容易存在污染问题。 ②藻类基因组大小差异很大,较大的藻类基因组可比拟高等动植物基因组,另外,大量低复杂序列的拷贝会导致高重复性,藻类这些基因组特征都提高了其基因组组装难度。
虾蟹类:
①虾蟹组织样本中蛋白质和多糖含量较高,在前端实验提取得到的DNA容易因纯度问题导致纳米孔测序过程堵孔严重,或者导致单分子实时测序过程中测序降低效率,从而影响DNA测序的数据产出和质量,因此高质量的虾蟹类三代基因组DNA测序数据获取较为困难。 ②虾蟹类基因组含有较多的简单重复序列,会严重影响组装的连续性。当前还没有高质量的虾蟹类基因组发表。
其他:
少部分热带植物、中药等DNA提取难度大,不易获得足量高质量的满足三代测序要求的DNA;部分两爬类、海产品类会出现测序异常,主要表现产出低,数据质量低。
Q6 什么情况下可以做单倍型基因组组装?
单倍型基因组是一种针对高杂合二倍体或多倍体物种的一项新兴研究方法。传统基因组组装算法在处理这类物种时倾向于整合杂合/同源区域,得到的组装结果为嵌合的基因组。然而,这种方法常常会导致同源染色体间的差异常被忽略。
单倍型的组装需要有足够的杂合度来做单倍型的分型:
(1)在杂合度高于1%的情况下,通常可以较好地拆分单倍型。
(2)如果杂合度处于0.5%-1%范围,拆分难度会增加,可以尝试拆分。
(3)在杂合度低于0.5%时,很难拆分单倍型。
Q7 关于性染色体的组装问题?
(1)在某些物种中,性染色体为异形染色体,例如哺乳动物的X和Y染色体,以及鸟类的Z和W染色体。这些染色体之间的差异较大,大部分区域并不相似,但存在少部分区域非常相似,这些区域在哺乳动物中被称为PAR(pseudoautosomal region,伪常染色体区域即性染色体同源区)。以往,这些相似区域的组装一直是个难题。然而,利用HiFi(高保真)和纳米孔(超长)的组合手段,现在将X和Y染色体组装完整的可能性大大提高,常见畜牧动物的基因组基本上可以实现X和Y染色体的完整组装。
(2)对于某些物种,如鱼类,性染色体并未发展为异形染色体,两条性染色体之间的差异不大。在这种情况下,性染色体的整体规律与常染色体相似,只有一小段区域甚至是SNP或者InDel区域(性别决定区域)高度不相似。能否将两条性染色体都组装出来,主要取决于物种的杂合度。简而言之,如果能够拆分单倍型,那么就有可能将两条性染色体组装得很好。
(3)需要注意的是,某些物种的性染色体并非简单的XY或ZW型,如X1X2Y型、XO型、ZO型等。这类性染色体的组装相对容易,因为它们之间的差异较大,便于区分和组装。
Q8 PacBio 测序和纳米孔测序怎么选择?
测序获得的序列读长是基因组组装的关键因素,PacBio与Nanopore测序虽然存在一定错误,但当达到一定的测序深度时,在组装过程中绝大多数测序错误可以通过自身的校正被修正,因此都可以获得相对高质量的的基因组,也成为了目前基因组组装的首选。
利用PacBio测序组装的基因组近年已经发表了很多文章,基于此的组装软件目前也比较多。在PacBio通量提高后,使用HiFi模式获得长读长、高准确度的CCS序列,可以大大提升组装连续性和准确率。而Nanopore的优势在于其超长的读长,特别是其Ultra-long测序能够产生超长测序片段,轻松跨越基因组中大片段重复区域,能够显著提升物种基因组组装效果,填补基因组中Gap 。
华大集团发布了名为CycloneSEQ的最新测序技术,并推出CycloneSEQ-WT02和G400-ER两款纳米孔测序仪。未来,这项技术的应用有望降低纳米孔测序的成本,推动基因组三代测序的发展,加速基因组组装的研究进展。
图15.PacBio、ONT和CycloneSEQ的区别
-
- Xu M, Guo L, Gu S, et al. TGS-GapCloser: A fast and accurate gap closer for large genomes with low coverage of error-prone long reads. Gigascience. 2020;9(9):giaa094. doi:10.1093/gigascience/giaa094
- Sergey Nurk et al. ,The complete sequence of a human genome.Science376,44-53(2022).DOI:10.1126/science.abj6987.
- Chen T, Cullen RM, Godwin M. Hidden Markov model using Dirichlet process for de-identification. J Biomed Inform. 2015;58 Suppl(Suppl):S60-S66. doi:10.1016/j.jbi.2015.09.004
- Hou X, Wang D, Cheng Z, Wang Y, Jiao Y. A near-complete assembly of an Arabidopsis thaliana genome. Mol Plant. 2022;15(8):1247-1250. doi:10.1016/j.molp.2022.05.014
- Deng Y, Liu S, Zhang Y, et al. A telomere-to-telomere gap-free reference genome of watermelon and its mutation library provide important resources for gene discovery and breeding. Mol Plant. 2022;15(8):1268-1284. doi:10.1016/j.molp.2022.06.010
- Altemose N, Logsdon GA, Bzikadze AV, et al. Complete genomic and epigenetic maps of human centromeres. Science. 2022;376(6588):eabl4178. doi:10.1126/science.abl4178
- Aganezov S, Yan SM, Soto DC, et al. A complete reference genome improves analysis of human genetic variation. Science. 2022;376(6588):eabl3533. doi:10.1126/science.abl3533
- Vollger MR, Guitart X, Dishuck PC, et al. Segmental duplications and their variation in a complete human genome. Science. 2022;376(6588):eabj6965. doi:10.1126/science.abj6965
- Zhang J, Liu S, Zhao S, Nie Y, Zhang Z. A telomere-to-telomere haplotype-resolved genome of white-fruited strawberry reveals the complexity of fruit colour formation of cultivated strawberry. Plant Biotechnol J. Published online September 20, 2024. doi:10.1111/pbi.14479
- Li H, Durbin R. Genome assembly in the telomere-to-telomere era. Nat Rev Genet. 2024;25(9):658-670. doi:10.1038/s41576-024-00718-w
- Qiao X, Li Q, Yin H, et al. Gene duplication and evolution in recurring polyploidization-diploidization cycles in plants. Genome Biol. 2019;20(1):38. Published 2019 Feb 21. doi:10.1186/s13059-019-1650-2
- Geng F, Zhang X, Ma J, et al. Genome Assembly and Winged fruit Gene Regulation of Chinese Wingnut: Insights from Genomic and Transcriptomic Analyses. Genomics Proteomics Bioinformatics. Published online December 12, 2024. doi:10.1093/gpbjnl/qzae087
- Zhou Y, Ye H, Liu E, et al. The complexity of structural variations in Brassica rapa revealed by assembly of two complete T2T genomes. Sci Bull (Beijing). 2024;69(15):2346-2351. doi:10.1016/j.scib.2024.03.030
- Liu J, Li Q, Hu Y, et al. The complete telomere-to-telomere sequence of a mouse genome. Science. 2024;386(6726):1141-1146. doi:10.1126/science.adq8191