1、研究计划基于机器学习的肿瘤细胞起源的研究1234研究依据研究目标研究内容拟解决的关键问题5技术路线基于机器学习的肿瘤细胞起源的研究目 录6研究方案与研究进展研究依据研究意义有相当比例的癌症病例与转移性肿瘤,需要进一步的测试确定原发位置,其中许多是从来没有完全诊断和保持癌症的未知起源。很多医学团体认为,利用癌症“发源”的器官来对癌症进行定义就需要定义不同癌症的治疗策略。从那时候起,很多研究都表明,癌变的肿瘤或许会依赖其所发生的遗传改变的类型来被分类或分群,这就意味着,开发新型疗法就需要考虑和肿瘤相关的多个方面。科学家们证明,肿瘤首次出现的组织位置实际上与驱动突变的机制同样重要,这一结果不仅为组织
2、起源在肿瘤发展中发挥作用提供了更多的证据,也可能会引起与肿瘤生长早期区域相关标志物的发展。研究依据研究现状2016年 Science杂志上发表了题为“Tissue of origin dictates branched-chain amino acid metabolism in mutant Kras-driven cancers”论文2016年 Science杂志上发表了”Location,location,location”论文2015 年Bioinformatics 发表“TumorTracer:a method to identify the tissue of origin fro
3、m the somatic mutations of a tumor specimen”研究目标研究目标优化目前的分析流程,选择最合理的机器学习算法构建海量的核小体定位信息数据库,根据不同的DNA切口的pattern来找寻肿瘤起源组织信息拥有了基于机器学习的优化算法SCI 文章1-2篇本项目旨在通过对cosmic77等大型数据库中肿瘤起源组织的信息与其他特征的关联分析,用机器学习的方法达到如下目标3/研究内容第一部分第二部分第三部分第四部分机器学习特征数据的采集,通过突变基因、单核苷酸突变、三核苷酸变异信息、核小体定位等特征集来选取cosmic77数据库中的有效样本;3/研究内容第一部分第二部
4、分第三部分第四部分分析比对目前的机器学习算法,选择最优的学习算法,即最合理的数据敏感性和特异性的分布情况。集成学习神经网络遗传算法支持向量机3/研究内容第一部分第二部分第三部分第四部分通过AI中集成学习的方法对大样本进行train data,test data的随机分组和10X以上的交叉验证;3/研究内容第一部分第二部分第三部分第四部分构建分类树算法,研究不同肿瘤在特征集上的差异4/拟解决的关键问题选取肿瘤大数据的特征变量抽取肿瘤大数据集中的特征数据:单核苷酸突变基因、三核苷酸变异信息、拷贝数变异信息、核小体定位等。关键基因、突变集合用于精准诊断。构建核小体定位信息的二级数据库,需要样本的积累
5、。研究基于mysql数据库的并行计算:mpi4py,增加海量数据分析的运行效率MY_PPTMY_PPT5/技术路线6/研究方案样本数据的选取:CosmicMutantExport_v77.tsv.gz样本特征数据提取:单核苷酸突变基因、三核苷酸变异信息、拷贝数变异信息、核小体定位等研究不同的机器学习算法在大数据集合中的表现构建分类树,研究不同肿瘤的特征差异根据数据量的情况,研究合理的并行计算的方法,mysql的并行存取以及Hadoop和spark等并行算法6/研究方案(样本数据的选取)CosmicMutantExport_v77.tsv.gzlabeled as“Genome.wide.scr
6、een”,not labeled as“cell-line”,然后选取Sample ID和tumor ID可以一一映射的数据样本6/研究方案(样本特征数据提取)系统突变基因单核苷酸突变信息三核苷酸变异信息核小体定位等6/研究基础条件(工作基础)1)基于集群服务器的Hadoop的环境2)PHP、R的交互环境构建。3)生物信息进化树分析的基础。4)基因组生物统计分析的基础条件,大数据的条件。6/研究基础条件(工作条件)1)样本信息的不断完善和积累。2)生物信息的条件,大数据分析的条件。MY_PPTMY_PPT7/研究进展large_intestine15%oesophagus13%central_
7、nervous_system13%lung9%kidney9%liver7%ovary7%skin6%breast6%prostate5%stomach5%endometrium3%pancreas2%已获取肿瘤已获取肿瘤训练数据集训练数据集MY_PPTMY_PPT7/研究进展(二分类情况)00.020.040.060.080.10.120.140.160.18pancreasEndometriumskinstomachprostateliverovarybreasthaematopoietickidneylungoesophagussystem_nervouslarge-intestinebagging错分率错分率bagging错分率MY_PPTMY_PPT7/研究进展(肿瘤分类学习分组)MY_PPTMY_PPT7/研究进展(肿瘤分类学习分组的错分率,top3 group)MY_PPTMY_PPT7/研究进展(肿瘤分类学习分组的错分率,top5 group)MY_PPTMY_PPT7/研究进展(肿瘤分类学习分组的错分率,top8 group)MY_PPTMY_PPT7/研究进展(肿瘤分类学习分组的错分率,top10 group)