1、百万基因组时代的基因大数据从 1 到从1到100万第一个人类基因组从1到100万ED Green et al. Nature 470, 204-213 (2011)doi:10.1038/nature09764从1到100万100万基因组-奇点临近百万基因组是精准医学的基础,是BT与IT产生强烈化学反应的奇点从1到100万201220152016英国10万人基因组计划美国100万人基因组与精准医疗计划国家科技部精准医疗计划从1到100万华大基因3M计划(2011-11)从1到100万100万 VS. 100万全球第一家拥有一百万低深度全基因组测序数据的单位20万,基因芯片数据50万,基因芯片数
2、据00万,全基因组测序数据In total, 1.1 million samples (NIPT) sequenced till May, 2016.There are 300 million bases covered per individualNIFTY数据的特征NIFTY数据的特征NIFTY原理示意图混合的、全基因组低深度3.5% 30% 的游离DNA来自于胎儿DNA片段大小约为150bp-200bp高通量测序可以检测出胎儿DNA通过拷贝数变化检测13,18,21-三体综合征 起源 :1997年,证实母亲血液中含有胎儿DNA;胎儿的凋亡细胞会被母体的免疫系统分解,因此血液中会有残存的胎
3、儿游离DNA;NIFTY数据的特征样本来源地分布数据的使用已经过人遗委员会和伦理委员会的审核NIFTY数据的特征少数民族大家庭目前已经覆盖了全国55个少数民族中的44个。少数民族地理分布NIFTY数据的特征孕妈妈年龄分布2830岁岁中山大学附属第一医院妇产科NIFTY数据的特征丰富的表型信息NIFTY数据的特征100万300万955生命科学大数据生命科学大数据的最佳实践DNA芯片数据冰山一角的信息,并不能真正理解生命基因组数据表观组数据蛋白组数据宏基因组数据运动饮食作息外部环境生命科学大数据NIFTY数据的价值 建立大规模的(中国)人群基线数据库 研究中国人复杂疾病、遗传病(肿瘤)基因突变频谱
4、 进行超大规模的全基因组关联分析(GWAS) 构建中国人群体结构、迁徙以及祖源分析图谱 母体肿瘤早筛 发现病原微生物感染等生命科学大数据141,431样本的试点研究-第一期 93%7% Material: Maternal plasma Sequencing: illumina HiSeq2000; SE35(mostly)/SE49; Mixed sample: 3.5-30% fetal fraction (Median 8%) Coverage: =10% Depth: 0.06-0.1X More than 93% of loci covered with only one read
5、perindividualThe overall depth distribution of the data生命科学大数据全新的分析流程生命科学大数据最佳大规模中国人群基线数据库生命科学大数据最佳大规模中国人群基线数据库生命科学大数据最佳疾病研究对照数据集生命科学大数据第一次基于百万全基因组数据的关联分析-身高生命科学大数据耳聋和地贫致病突变的地域分布耳聋地贫生命科学大数据遗传病的分子流行病学数据库-BRCA2突变位点频谱分布生命科学大数据血液中的肿瘤信息肿瘤胎儿有核红细胞循环肿瘤细胞生命科学大数据NIFTY 数据中发现孕期肿瘤的踪迹生命科学大数据Around 88% HBV samples
6、 can be typedMost are Type B and Type C HBV200180160非人序列-你不只有你HBV_genome_DatabaseHBV_S_DatabasePhenotypic record:33414012010080222602983402010130153Aligned to HBVS region:214Aligned to HBVgenome:395HBV genotypeNextNext天生如此?女100104男Next中国人群结构特点Next广东人三个语系遗传差异广东方言分布,其中橙色为粤语,绿色为客家话,红色为潮州话。来源:中国语言地图集。Next迁徙我们的祖先最有可能来自哪里?https:/