1、生物信息学概述概念 广义:生物信息学就是从生命现象、实验数据中获取、存储、分析并产生生物学知识的一门学科。狭义:生物信息学是将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。生物学数学计算机生物信息学生物信息学发展历史发展历史 20世纪50年代,生物信息学开始孕育。20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来。20世纪70年代,生物信息学的真正开端。20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方法。20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库
2、。20世纪90年代后,HGP促进生物信息学的迅速发展。21世纪10年代,伴随高通量试验方法的发展(芯片技术、二代测序技术)产生新的分析手段和内容。21世纪10年代后期到目前,生物信息学与高通量实验共同为系统生物学的快速发展奠定了基础。主要任务 数据库的构建 算法软件开发 实验数据分析一级数据库一级数据库核酸数据库NCBIEMBLDDBJ蛋白质数据库UNIPROTSWISS-PROT二级数据库二级数据库EPD-真核生物启动子数据库RDP-核糖体数据库PLACE-植物DNA顺势调控元件数据库PlantCARE-植物中DNA顺势调控组件数据库5S rRNA-5S核糖体RNA数据库RNA editin
3、g-RNA剪切位点RNAmod db-RNA修饰数据库HPRD-人类蛋白质查询数据库IntAct-EBI 蛋白质相互作用数据库GRID-相互作用综合数据库在线软件在线软件Blast 序列比对SMART 模体识别TargetScan miRNA靶标预测ORFFinder 开放阅读框识别工具DAVID 综合注释工具GeneWise 基因结构分析工具Swiss-model 蛋白质三维结构预测本地软件本地软件Blast 本地版序列局部比对工具Clustalw 序列全局比对工具DNAstar 综合序列分析工具包Primer Primer 引物设计工具Bioconductor 高通量数据分析R语言包MEG
4、A 进化分析工具包Blast2GO 从序列到GO注释CytoScape 生物网络分析工具序列分析序列相似性分析序列功能元件预测序列结构分析核酸序列结构分析蛋白质二级、三级结构分析系统发育分析进化关系分析物种分类、鉴定功能保守性分析基因组分析基因组组装基因组注释识别新基因基因组比较转录组分析差异表达分析共表达分析识别非编码RNA功能注释/通路注释遗传学分析SNP分析Indel分析基因簇共线性分析基因性状关联分析生物信息学主流方向 以分子生物学为依托,伴随高通量实验技术的发展而发展。提纲 基因组学分析 转录组学分析 蛋白组学分析 系统生物学分析 表观组学分析 系统发育分析 医学信息学分析 遗传学分
5、析基因组学分析 序列拼接 序列比对 功能位点预测 重复序列注释 基因及结构预测 SNP/Indel分析 基因功能注释 宏基因组学分析序列拼接(基因组、转录组组装)Genome Assembly Based on Sanger sequencing technology(一代测序)Genome Assembly by Short Reads(二代测序)Sequencing depth vs Assembly Results Evaluation for Assembly Results N50 Gap Coverage二代测序流程序列比对 全局比对ClustalwMUSCLE HMMER 局部比
6、对BlastBlatBlastzGeneWiseFastaExonerate Sim4功能位点预测 转录起始位点 转录因子结合位点 外显子增强子/沉默子、内含子增强子/沉默子重复序列注释 重复序列类型 分散重复序列 SINE/LINE/LTR/DNA transposon 串联重复序列 卫星DNA/小卫星DNA/微卫星DNA 常用软件 RepeatMasker(综合型)RepeatProteinMasker(基于蛋白序列寻找转座子)Trf(串联重复)LTR_struc(LTR)RepeatModeler(RepeatMasker+RECON+RepeatScout+Trf)基因及结构预测 基因
7、预测 Glimmer GlimmerM Genscan TwinScan BGF Fgenesh 基因结构预测 GENSCAN,GENEMARKSNP/Indel分析 全基因组关联分析(GWAS)全基因组连锁分析 全基因组拷贝数变异分析 遗传连锁分析 群体遗传分析基因功能注释 基于直系同源的方法 blast2GO 基于蛋白结构域的推断 InterProScan 注释类别 GO注释 KEGG注释 COG注释 Panther注释转录组学分析*按实验方法芯片技术 RNA-seq技术 按RNA类型 mRNA 非编码RNA 按目的 差异表达分析 可变剪接分析 SNP分析 芯片技术 表达芯片 外显子芯片
8、SNP芯片 叠瓦芯片RNA-seq技术 基于二代高通量测序技术 可实现芯片技术所实现的分析 比芯片更具优势mRNA 差异表达分析 聚类分析 主成分分析 时序性趋势分析 可变剪接分析非编码RNA 类型 miRNA piRNA lncRNA 分析类型 差异表达分析 靶标基因预测 靶标基因功能注释及富集分析蛋白组学分析 一级序列分析 二级结构预测 三级结构建模 蛋白质互作分析 蛋白质组学分析一级序列分析 信号肽预测、亲/疏水、等电点分析 AACompldent ProtParam PeptideMass 跨膜片段预测 SOSUI TMHMM TMpred 翻译后修饰位点预测二/三级结构分析 二级结构
9、预测 BCM Search Launcher nnPredict PREDATOR 序列信号位点分析 超二级结构预测(蛋白结构域分析)CDD InterPro Pfam SMART 三级结构建模 PDB SWISS-MODEL SCOP蛋白质互作分析 抗性分析 作用位点分析 Chip-seq蛋白质组学分析 蛋白质芯片 ITRAQ串联质谱(蛋白定量技术)磷酸化位点检测技术系统生物学分析 GO注释、富集分析 Pathway注释、富集分析 信号传导网络、基因调控网络分析 蛋白质互作网络、共表达网络分析GO注释、富集分析 GO注释 GO富集分析 GO关联网络Pathway注释、富集分析 Pathway注释 Pathway富集分析 Pathway串扰分析信号传导网络、基因调控网络分析 网络关键节点分析 调控模体分析 网络比较分析 网络建模 动态网络蛋白质互作网络、共表达网络分析 网络团/簇分析 共表达分析Thank you!