皓歌云-专业的科研采购信息和实验资讯平台
首页 > 文章资讯 > MosaicBase的构建和应用
MosaicBase的构建和应用
2021/1/26 15:24:29


MosaicBase的构建和应用。






要点介绍

  • 研究问题:


非癌症疾病相关嵌合突变和正常人嵌合突变数据库的构建及突变特征研究


  • 研究方法:


整合已发表文献中报道的高通量全基因组、全外显子组、捕获测序数据和低通量功能研究数据,通过重新分析和整理部分原始数据、计算突变等位基因比例并综合二十多种工具的基因水平、突变水平数据注释信息,整合基因组浏览器和不同搜索和数据呈献模式,构建了系统的嵌合突变知识数据库


  • 主要成果1:


收集了383篇文献中报道的2182名人类个体携带的34,689个嵌合突变,构建了首个非癌症疾病嵌合突变和正常人嵌合突变知识数据库MosaicBase


  • 主要成果2:


发现了直接导致非癌症疾病的嵌合突变密度与已知受到调控的基因组区域的分布呈正相关


  • 主要成果3:


发现了可以导致非癌症疾病或轻症的嵌合突变其突变等位基因比例显著高于正常人携带的嵌合突变等位基因比例


  • 数据库链接:


http://mosaicbase.com 
http://49.4.21.8:8000/



背景和研究对象


合子后基因组嵌合现象指来源于同一受精卵的同一个体内,不同细胞或细胞类群之间携带基因组序列不同的现象。嵌合突变可以发生于人类胚胎发育、组织自我更新、个体衰老等过程中,或接触有害环境因素后。与所有细胞都携带的新生或遗传性杂合突变不同,嵌合突变中仅有一部分细胞携带突变,其突变等位基因比例(MAF)小于50%。嵌合突变是人群中遗传变异的一个重要组成部分,如果嵌合突变出现在生殖细胞中,则会传递给后代并有可能固定在人类基因池中。
嵌合突变是近三百种人类疾病的直接病因。前人对嵌合现象的研究始于癌症的遗传学研究,近年来随着高通量测序的普及和检测技术的进步,在越来越多非癌症疾病中均发现嵌合突变的致病病例:如多种小儿癫痫性脑病、Costello综合征、Apert综合征等孟德尔疾病,以及孤独症、智力障碍等复杂疾病。另一方面,有些嵌合突变携带者本身可能并没有疾病表型或仅具有较轻的表型,但是这些突变遗传给后代后,在后代中可以杂合显性突变的形式致病。在Noonan综合征、Marfan综合征、Dravet综合征、孤独症等疾病中,这类嵌合突变贡献了3%?10%的病源。
目前已有的嵌合突变数据库主要集中在癌症领域(如COSMICSomamiR),关于非癌症疾病领域和健康人群携带的嵌合突变国际上还缺乏系统性的数据库。因此,我们收集并整理了1989?2018年上半年以来发表的非癌症嵌合突变研究成果,建立了首个健康人群和非癌症疾病相关人群合子后嵌合突变知识库MosaicBase,并且提供了多种检索模式、基因组浏览器以及基于突变位点的丰富注释信息呈现和下载方式。


 

数据库简介


MosaicBase的数据来源是利用关键词信息在PubMed搜索已发表的嵌合突变相关论文。MosaicBase的主要后台逻辑结构如1所示,所有信息按照文献、携带者个体(健康人群、非癌症疾病患者、非癌症疾病患者的父母或祖父母)以及突变这三个主要层面上进行分类收集。MosaicBase在个体层面上对嵌合突变携带者的表型进行了划分。在突变层面上,MosaicBase除了从文献中收录每个突变的基因组坐标、是否在基因区、有无编码氨基酸变异、检测方式等信息以外,还利用本实验室开发的方法重新分析了部分原始数据,计算了突变等位基因比例的置信区间,同时注释了包含人群中的等位基因频率、突变氨基酸对蛋白功能的有害性、物种间保守性、突变所在序列区间突变承受能力在内的二十余种突变功能和保守性预测工具的结果,并且根据这些工具的原始注释值预测了突变有害性。


微信图片_20210126151929.jpg




1  MosaicBase数据结构



为了更好地呈现这些信息并帮助研究者在自己感兴趣的研究方向上分析相关嵌合突变数据,MosaicBase提供了功能多样的用户界面,如集成的多关键词搜索(2A)、基于非癌症疾病结构化搜索(图2B),基于文献信息、突变携带者信息、基因信息、突变信息的全面数据呈现面板(图2C),支持用户定制的基因组浏览器(图2D),详尽的统计信息(图2E)和教程(图2F)等。


微信图片_20210126151942.png

2  MosaicBase用户界面结构图


数据库信息的统计分析


MosaicBase共收录了383篇关于非癌症疾病和健康人群中嵌合突变的文献,并整理和注释了这些文献中报道的2182名人类个体所携带的34,689个嵌合突变(3)。对于非癌症疾病相关嵌合突变,MosaicBase主要收录了疾病患者携带的直接致病突变以及疾病患者亲属携带的间接致病突变。


微信图片_20210126151953.png

3  MosaicBase中收集的突变在基因组上的分布



通过分析MosaicBase收录的突变在基因组上的密度与同样基因组GC密度、DNAI敏感性位点、各种表观遗传修饰在基因组上的密度的关系,我们发现直接导致疾病的嵌合突变与多种基因组修饰呈显著正相关,可能更多存在于已知受到调控的基因组区域(4,左上)。而在正常人、患者父母中携带的嵌合突变分布与dbSNP中的遗传性变异类似,与已知受到调控的基因组区域存在更多负相关(图4,右上、左下、右下)。这一结果暗示自然选择对不同类型的嵌合突变的基因组分布特征存在影响。


微信图片_20210126152000.png

4  MosaicBase中收集的突变在基因组上的密度与调控元件密度的关系



我们进一步比较了非癌症相关突变的等位基因比例与突变携带者表型严重程度的关系。在358名携带嵌合突变的疾病患者的血亲(父母或祖父母)中,表现出疾病相关表型的突变携带者其突变等位基因比例显著高于未表现出相关表型的嵌合突变携带者(5,左)。在MosaicBase收集的所有2182名突变携带者中,这一差异依然显著(图5,右)。该结果表明精确检测嵌合突变的突变等位基因比例在临床诊断和遗传咨询中有极其重要的意义。


微信图片_20210126152006.png

5  突变等位基因比例与突变携带者表型间的关系


总结与展望


我们希望MosaicBase可以帮助基础科学研究者和医学工作者了解正常人和非癌症群体中的嵌合突变分布规律,并对相关临床诊断和遗传咨询起到基准作用。我们的研究表明嵌合突变等位基因比例和携带者表型有关,因此建立基于突变特点和突变等位基因比例的嵌合突变有害性模型可以作为本研究的自然延伸。同时我们期待同行可以向MosaicBase分享和提交更多非癌症疾病和健康人群嵌合突变的数据,使本研究收集的数据集具有更广泛的代表性。

文章编译来源:Xiaoxu Yang, Changhong Yang, Xianing Zheng, Luoxing Xiong, Yutian Tao, Meng Wang, et al. MosaicBase: A Knowledgebase of Postzygotic Mosaic Variants in Noncancer Disease-related and Healthy Human Individuals. Genomics Proteomics Bioinformatics 2020,18(2). 引用请参考以上格式,英文全文详见https://www.sciencedirect.com/science/article/pii/S167202292030098X。


 

致病贡献。了解更多研究详情请访问:https://www.cbi.pku.edu.cn/