1、SuZhou Institute of System Medicine Chinese Academic of Medical Science Center of System Medicine医学生物信息大数据医学生物信息大数据医疗行业产生大量数据非结构化文本病案记录检查报告手术记录病历报告图像照片等二维图像病理学切片扫描CT、MRI等三维图像电生理数据无创脑电图术中脑电监护SEEG结构化文本病案首页医嘱视频显微镜视频信号内镜视频信号24小时脑电检测视频组学数据微生物组基因组代谢组蛋白组表型组临床数据来源和分析 临床数据来源: 年龄 性别 过敏情况 药物测试 疾病详情 家族史 药物接受和排斥
2、 曾使用剂量水平生存率诊断测试 手术 临床数据分析: 生存分析 预测组学数据来源和分析全基因组全外显子组/靶向测序转录组mRNA测序甲基化组学测序 ChiP-seq测序小插入/缺失点突变拷贝数变异结构变异差异分析融合基因可变剪切RNA编辑甲基化位点组蛋白修身转录因子结合位点突变的功效分析功能,网络和通路分析整合分析理解病理机制并应用于临床技 术数据分析数据整合及解读患 者蛋白质组学磷酸化组学差异分析磷酸化位点分析新生/新肽段分析16s rDNA测序,宏基因组测序其他微生物组学物种及功能组成物种差异分析功能差异分析与疾病的关联分析宏基因组深度挖掘挖掘组间物种、功能差异样品聚类分析(肠型)拷贝数变
3、异:挖掘功能变化从宏基因组数据中组装单菌菌群、表型、临床数据关联分析耐药基因挖掘CAG/MGS/MLG分析:从种或菌株层级挖掘物种变化多组学联合分析微生物组在肿瘤免疫治疗中的应用期刊:Science 发表时间:2017.11实验设计:249名接受过抗PD-1免疫疗法的肺癌、肾癌等多种不同的癌症;免疫治疗前69名患者接受了抗生素的治疗;研究技术:粪便宏基因组测序验证:无菌小鼠FMT(粪菌移植)验证;结果:1)抗生素治疗的患者,癌症很快出现复发,生存时间也更短; 2)恢复较好的患者体内,Akkermansia muciniphila的益生菌丰度更高,对癌症免疫疗法还有促进作用; 3)接受了“起效者
4、”粪便的小鼠对于PD-1抑制剂的反应要明显优于接受了“无效者”粪便的小鼠,后者在口服Akkermansia muciniphila后,能恢复对免疫疗法的反应。医生目前面临决策的信息维度大大增加Hawgood S, Hook-Barnard IG, OBrien TC, Yamamoto KR. Precision medicine: Beyond the inflection point. Science translational medicine 2015;7:300ps17.癌症专家助手阅读和记忆学习医疗文献、临床指导和医学指南将病人和临床试验方案进行匹配持续不断的学习从不断增加的病人的
5、组学数据和临床数据中不断学习依据最新用药指导推荐潜在的治疗选择方案Watson医生由IBM公司开发人工智能系统询问病人的病征、病史人工智能技术自然语言的处理和分析技术从各个渠道搜集到的信息和数据迅速给出诊断提示和治疗意见针对个人进行纵向密集数据收集可以揭示分子疾病标志物前瞻性108个人全基因组测序分析临床检测分析蛋白质组学分析代谢组学分析微生物群落分析(对16S rRNA进行测序)参与者配戴活动跟踪器监测日常活动创立相关性网络关联分析鉴定已知和候选标志物Meta分析Price N D, Magis A T, Earls J C, et al. A wellness study of 108 i
6、ndividuals using personal, dense, dynamic data cloudsJ. Nature Biotechnology, 2017, 35(8):747.在癌症治疗中的联合用药不同癌症分期的医学研究基因和分子诊断肿瘤信息学传统中药数学分析治疗毒性评价个性化用药利用深度学习和关联规则挖掘预抗癌药物反应数据来源:药物基因组689个癌症细胞系和139种抗癌药物。来自CCLP和GDSC.规则关联挖掘深度学习预测药物反应深度挖掘数据中心检测方案数据资源库 (Data Base)数据分析平台 (PipeLine)知识库 (Knowledge Base)精准医疗平台 (组学
7、数据 + 临床数据) 荧光定量PCR、基因芯片 、SNP分型、 二代测序 组学大数据平台与精准医疗用药指导药物推荐联合用药指导药物不良反应评估辅助诊疗预测生存期发现新疗法治疗方案预后方案辅助科研致病基因肠道菌群药物代谢/靶标肿瘤驱动基因临床数据年龄 性别 过敏情况药物测试疾病详情家族史药物接受和排斥曾使用剂量水平生存率诊断测试手术组学检测数据基因组转录组蛋白组代谢组表观组微生物组暴露组临床数据数据脱敏标准化结构化Pipleline组学数据分析注释整合公共数据库整合TCGA ICGC GO KEGGParmGKB GEO DO数据库知识库深度学习数据模型知识图谱文献收集临床指南诊断路径用药指导组
8、学大数据平台在肿瘤精准医疗中的应用医院业务数据非结构化电子病历外部文件HIS系统EMR系统LIS系统.系统PACS系统医院业务系统及数据源医院数据中心医院数据来源数据汇聚数据抽取数据整合数据关联数据存储结构化处理数据汇聚整合服务非结构化抽取服务数据转换清洗与标准化服务数据比对数据清洗标准化处理医院标准化数据中心备份库(ODS)临床主题库经营主题库管理主题库主题库非标准化临床数据中心A病种标准主题库B病种标准主题库.标准主题库专题统计库专题分析库专题应用库标准化数据中心医院级临床数据智能采集系统统计分析可视化呈现搜索导航深度挖掘互联互通常规共享应用服务专题应用定制服务深度挖掘分析服务医疗大数据应
9、用服务医疗大数据来源左侧中央型肺鳞癌并纵膈淋巴结转移原发性支气管肺癌左上肺中央型肺癌1234左肺小细胞癌广泛期原发性支气管肺癌左下肺腺癌例如:左侧中央型肺鳞癌并纵膈淋巴结转移1.诊断名称: 肺癌2.部位分型: 中央型3.病理类型: 鳞癌4.病灶部位: 左侧5.转移部位: 纵膈淋巴结将不同描述的诊断转化成统一的标准化诊断,并且保留诊断中的重要信息。医学术语标准化患者不慎摔伤,伤后神志不清约30余秒,后可唤醒,体温正常(36.5),感头痛明显,左侧鼻腔内有少量鼻血。于我院行腹部B超及胸片,未见明显异常。入院体格检查:肠鸣音正常,约4次/分。现有电子病历检查描述指标名称结果摔 伤有神志不清30余秒体
10、 温36.5头 痛明显左侧鼻腔少量流血腹部B超未见明显异常胸 片未见明显异常处理后的结构化检查描述将自然语言描述的电子病历转化成结构化、标准化的电子病历临床数据结构化覆盖各种可能的组学组学数据基因组学数据转录组学数据蛋白组学数据表型组学数据代谢组学数据微生物组学数据 组学数据格式fasta/fastq/vcf/sam/bam/gff3/gff2/gtf/bed/ MetabolicNetworksRepli-SeqSystermsBiologyPhenomicsChlp-SeqDNA-SeqRNA-SeqExome-SeqSmallRNA-SeqPopulationGeneticsMicroa
11、rrayGWASMetagenomicsProte omics组学数据来源荧光定量PCR基因芯片 SNP分型 二代测序 检测组学数据汇集组学数据来源 TCGA 癌症基因信息的数据库 TGDB 肿瘤基因数据库 ICGC 国际癌症基因组联盟 Oncomine 肿瘤基因芯片数据库 CGAP癌症基因数据库 MethylCancer DNA甲基化与癌症数据库 NCBI美国国家生物技术信息中心美国国家健康研究所、国家医学图书馆 EBI欧洲生物信息研究所欧洲分子生物学实验室 DDBJ 日本DNA数据库 日本研究机构 BIGD 生命与健康大数据中心北京科学院北京基因研究所 综合数据库肿瘤相关数据库组学数据分析
12、处理流程用药指导药物推荐联合用药指导药物不良反应评估辅助诊疗预测生存期发现新疗法治疗方案预后方案辅助科研致病基因肠道菌群药物代谢/靶标肿瘤驱动基因临床数据年龄 性别 过敏情况药物测试疾病详情家族史药物接受和排斥曾使用剂量水平生存率诊断测试手术组学检测数据基因组转录组蛋白组代谢组表观组微生物组暴露组临床数据数据脱敏标准化结构化Pipleline组学数据分析注释整合公共数据库整合TCGA ICGC GO KEGGParmGKB GEO DO数据库知识库深度学习数据模型知识图谱文献收集临床指南诊断路径用药指导组学大数据平台在肿瘤精准医疗中的应用辅助诊疗医生初步检查根据类似患者信息,精确匹配最佳诊疗方
13、案,快速诊断、准确用药、提高诊疗水平。最佳诊疗方案推荐辅助诊疗预测生存期发现新疗法治疗方案预后方案病历系统疾病知识图谱疾病病史检验用药症状预后组学诊疗“统计关联网络”病史采集患者候选疾病:患病概率高于阈值诊断模型主诉: XXX现病史: XXX家族史:推断可能疾病患病概率低于阈值推荐采集更多信息辅助诊断动态辅助诊断确诊检测系统致病基因肠道菌群药物代谢/靶标肿瘤驱动基因辅助科研疾病医生患者药品表型药效关系药品研发改进疾病史分析临床表型分析从而发现疾病新分类用药效果分析从而发现新药效用药效果分析治疗效果分析合理用药疾病医生患者药品表型药效关系药品研发改进疾病史分析临床表型分析从而发现疾病新分类用药效
14、果分析从而发现新药效用药效果分析治疗效果分析合理用药药物推荐联合用药指导药物不良反应评估用药指导深度挖掘数据中心检测方案数据资源库 (Data Base)数据分析平台 (PipeLine)知识库 (Knowledge Base)精准医疗平台 (组学数据 + 临床数据) 荧光定量PCR、基因芯片 、SNP分型、 二代测序 组学大数据平台与精准医疗乳腺癌组学数据分析与可视化平台BCIP 建立了以基因为中心的乳腺癌数据分析平台。 分析处理了来自TCGA、metabric、GEO三大数据库中的30个数据集的数据,包含9000多个组织样本。样本的临床数据包括癌症分型、分期、是否绝经、预后、ER、PR、H
15、er2+、P53突变、年龄等。 方便生物医学工作者,对关注的基因进行检索,从差异表达分析、生存分析、共表达分析、KEGG代谢通路等多个层次进行分析并可视化展示。 辅助识别乳腺癌的调控和驱动基因,找到乳腺癌研究和治疗的潜在的生物标志物。平台简介 网址: http:/ BCIP: a gene-centered platform for identifying potential regulatory genes in breast cancerJ. Scientific Reports, 2017, 7.DOI: doi:10.1038/srep45235 影响因子:4.259PMID: 283
16、27601 案例成果文章发表于2017年Scientific Reports乳腺癌数据库平台网站15个临床特征三阴/非三阴型 PAM50型 组织学分级 病理分期 转移状态 淋巴结转移 ER PR Her2+ TP53突变 是否绝绝经 年龄 肿瘤大小 疗效 预后 临床特征抽提生存分析MELK的过量表达与较差预后相关表明MELK与基底样乳腺癌相关拷贝数变化在 M E TA B R I C 数 据 集PAM50亚型中拷贝数减少和增加的百分比情况差异表达分析肿瘤组织相比于周围正常组织,MELK的表达量要高出许多PAM50型乳腺癌中的基底样乳腺癌,MELK的表达量最高。共表达分析分析MELK影响基底样乳
17、腺癌的机理在基底样乳腺癌的METABRIC数据集中,MELK与包括CDCA5,TPX2和CEP55在内的78个基因共表达。一些研究已经阐述了TPX2和CEP55是参与乳腺癌转移、侵袭、增殖和扩散的关键分子。CDCA5也被报道在肺癌中起关键作用,并可作为口腔鳞细胞癌的治疗靶点。这些结果都可以作为挖掘MELK在乳腺癌中的潜在功能和机制的有用线索。肿瘤组织相比于周围正常组织,MELK的表达量要高出许多miRNA靶相互作用分析发现hsa-miR-193b-3p and hsa-miR-372-5p与miRNA靶相互作用有关KEGG通路分析深度挖掘数据中心检测方案数据资源库 (Data Base)数据分
18、析平台 (PipeLine)知识库 (Knowledge Base)精准医疗平台 (组学数据 + 临床数据) 荧光定量PCR、基因芯片 、SNP分型、 二代测序 组学大数据平台与精准医疗Integration of Exoseq and RNAseq data for tumor antigen profilingpipeline pVAC-Seq (personalized Variant Antigens by Cancer Sequencing)输入数据的准备(全基因组与全外显子组测序)BWA;SAMtools;VarScan somatic;Strelka;Tophat;Ovation
19、;Truseq;CufflinksVariant Effect Predictor VEP抗原表位预测FASTA文件生成运行抗原预测软件NetMHC结果解析整合测序信息Coverage & Variant Allele Frequency (VAF)候选抗原的过滤深度过滤基因表达Hundal J, Carreno B M, Petti A A, et al. pVAC-Seq: A genome-guided in silico, approach to identifying tumor neoantigensJ. Genome Medicine, 2016, 8(1):11.深度挖掘数据中
20、心检测方案数据资源库 (Data Base)数据分析平台 (PipeLine)知识库 (Knowledge Base)精准医疗平台 (组学数据 + 临床数据) 荧光定量PCR、基因芯片 、SNP分型、 二代测序 组学大数据平台与精准医疗人体自免疫的抗原数据库平台 AAgAtlas1.0 第一个系统搜集描绘人体自免疫抗原的数据库。 文本挖掘与人工校验相结合的方法构建了相关的数据库旨在为基础与转化研究提供一个全面的自免疫抗原数据集。 最终确定了1126自身抗原基因,涵盖了肿瘤、心血管疾病和自身免疫病等1071种人类相关疾病,构建了第一个全面的人类自身抗原数据库(AAgAtlas1.0)。对肝癌相关
21、自身抗原开展初步生物信息学分析发现这些抗原基因参与了细胞周期、细胞凋亡、基因表达和免疫系统等多个重要的生物学过程,表明了这些蛋白在肝癌发生发展中可能具有重要的作用。平台简介 网址:http:/biokb.ncpsb.org/aagatlas/文章: AAgAtlas 1.0: a human autoantigen databaseNucl. Acids Res. first published online October 23, 2016 DOI: 10.1093/nar/gkw946 影响因子:10.162案例成果文章发表于2016年Nucleic Acids Research人体自免疫
22、抗原的数据库平台网站文本挖掘机器学习人工校验自抗原知识库人类自抗原分类知识库建设过程与自抗原有关的疾病人体自免疫的抗原数据库平台 AAgAtlas1.0深度挖掘数据中心检测方案数据资源库 (Data Base)数据分析平台 (PipeLine)知识库 (Knowledge Base)精准医疗平台 (组学数据 + 临床数据) 荧光定量PCR、基因芯片 、SNP分型、 二代测序 组学大数据平台与精准医疗提问与解答环节Questions And Answers谢谢聆听 学习就是为了达到一定目的而努力去干, 是为一个目标去战胜各种困难的过程,这个过程会充满压力、痛苦和挫折Learning Is To Achieve A Certain Goal And Work Hard, Is A Process To Overcome Various Difficulties For A Goal