1、生物信息学课件吴晓龙讲述内容讲述内容 一、生物信息学和我的实验室一、生物信息学和我的实验室 二、二、NCBI数据库数据库一、生物信息学和我的实验室一、生物信息学和我的实验室 生物信息学生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。1、生物信息学介绍 具体而言,生物信息学作为一门新
2、的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。 基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。主要研究方向 1、序列比对 2、蛋白质结构比对和预测 3、基因识别非编码区分析研究 4、分子进化和比较基因组学 6、遗传密码的起源 7、基于结构的药物设计 8、生物系统的建模和仿真 简单重复序列 简单重复序列(Simple Sequence Repeats,SSRs)也称微卫星序列(Microsatellites)或短串联重复序列(Short Tandem Rep
3、eats,STRs),是由1-6个碱基对组成的串联重复DNA片段。SSRs在真核和原核生物的基因组中分布广泛、数量丰富, 并具有较高的突变频率。 如: (A)n、 (ACG)n、(ATCG)、(ACCCTT)n 2、我 的 实 验 室简单重复序列与人类疾病 简单重复序列是广泛分布在人类基因组中的,尽管其中很多功能都不太清楚,但是既然存在总有它存在的意义。下面总结了一些人类基因组中由于SSR扩增或变异所引起的相关疾病我们实验是近几年发的文章NCBI数据库 1、国外的重要生物信息中心 2、NCBI介绍 1、国外重要生物信息中心17NCBI 美国国家生物技术信息中心(National Center
4、for Biotechnology Information) 前身是NIH所属的一个研究所的计算生物学研究室,1988年独立为NCBI,形式上属于国家医学图书馆(National Library of Medicine/NLM) 管理着许多著名数据库,如GenBank、Medline、dbSNP、COG、OMIM等 提供Entrez、BLAST等服务 http:/www.ncbi.nlm.nih.gov NCBI homepage19EBI 欧洲生物信息学研究所(European Bioinformatics Institute) 1994年建于英国剑桥,前身是德国海德堡的欧洲分子生物学实验室
5、的信息服务部门 EBI接收了原来EMBL数据库的管理和维护 是欧洲分子生物学网(EMBnet)的一个特别节点 http:/www.ebi.ac.uk/ (主页) http:/www2.ebi.ac.uk/ (工具) http:/www3.ebi.ac.uk/ (服务)20EMBL homepage21NIG 日本国立遗传学研究所(National Institute of Genetics) 创立于1949年7月1日,属文部省管辖 信息服务始于1984年 维护管理着DDBJ 1987年1月发行DDBJ第一版 http:/www.nig.ac.jp22DDBJ homepage23国际核苷酸序列
6、数据库联盟 International Nucleotide Sequence Database Collaboration (INSDC)包括 GenBank美 http:/www.ncbi.nlm.nih.gov/Genbank EMBL欧 http:/www.ebi.ac.uk/embl/ DDBJ日 http:/www.ddbj.nig.ac.jp/ 每天这三个数据库作数据同步操作 在任何一个数据库操作(查找、投递数据等)是等效的24TIGR 基因组研究所(The Institute for Genomic Research) 是重要的测序中心 1992年建立 1995年参与完成首次全
7、基因组测序(流感嗜血杆菌) 拥有世界最大的cDNA数据库之一 http:/www.tigr.org/25基因图谱数据库 RHdb (辐射杂交; 人、鼠),GDB (人类),GeneMap (人类; NCBI)生物医学文献数据库 MEDLINE人类基因组相关数据库其他模式生物的基因组数据库 DOGS ( Database of Genome Sizes 丹麦 综合) 线虫 ACeDB, Sanger 果蝇 FlyBase, Berkeley 小鼠 MGD, Japan 酵母 Stanford, MIPS 大肠杆菌 WISCDNA结构数据库 CUTG (Codon Usage Tabulated
8、from GenBank, 密码子使用频度表) 日 EPD (Eukaryotic Promotor Database, 真核生物启动子数据库) 欧 TRANSFAC (真核生物基因表达调控因子的数据库) 德 RepBase (重复序列), MicroSatellite (微卫星), COMPEL (复合元件), MPDB (分子探针), NDB (晶体), VectorDB (载体), EID (外显内含子)26BioSino www.biosino.org 是中国自主开发的核酸序列公共数据库 发表我国学者提供的核酸序列,并接受注册登记 有CDNAP和DDIB两个产品 http:/www.c
9、dnap.org/ http:/www.biosino.org/DIDWeb/index.htmlNCBI介绍 NCBI 美国国家生物技术信息中心(National Center for Biotechnology Information) 前身是NIH所属的一个研究所的计算生物学研究室,1988年独立为NCBI,形式上属于国家医学图书馆(National Library of Medicine/NLM) 管理着许多著名数据库,如GenBank、Medline、dbSNP、OMIM等 提供Entrez、BLAST等服务 http:/www.ncbi.nlm.nih.gov 它的使命包括四项任务
10、:1.建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统 。2.实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究 。3.加速生物技术研究者和医药治疗人员对数据库和软件的使用。 4.全世界范围内的生物技术信息收集的合作努力。 NCBI数据库介绍 Nucleotide 美国国立卫生研究院GenBank。 Genome 即基因组数据库,提供了多种基因组、完全染色体、 Contiged 序列图谱以及一体化基因物理图谱。 Pubmed 文献数据库。 Structures 即结构数据库或称分子模型数据库(MMDB),包含来自 X线晶体学和三维结构的实
11、验数据。MMDB的数据从 PDB(Protein Data Bank)获得。 Taxonomy 即生物学门类数据库,可以按生物学门类进行检索或 浏览其核苷酸序列、蛋白质序列、结构等。 31Nucleotide and genome Nucleotide 该数据库由国际核苷酸序列数据库成员美国国立卫生研究院GenBank、日本DNA数据库(DDBJ)和英国Hinxton Hall的欧洲分子生物学实验室数据库(EMBL)三部分数据组成。 这三个组织联合组成国际核苷酸序列数据库协作体,每天交换各自数据库中的新增序列记录实现数据共享。 其中的核酸序列数据也通过与基因组序列数据库(GSDB)合作获取。选
12、择数据库输入关键字NCBI主页进入Entrez检索Entrez简介 Entrez是个全局的生物医学搜索引擎,他可以检索的数据库主要包括三类:(1) 文献数据库:PubMed,PubMed Central, Journals,Books,OMIM,OMIA。(2) 序列数据库:Nucleotide,Protein,Genome, Strcture,SNP。(3) 其他数据库:Taxonomy,Gene, Probe,PopSet等无对应结果相关的结果Entrez检索的结果 Entrez 功能强大,在于它的大多数记录可相互链接,既可在同一数据库内链接,也可在数据库之间进行链接。Entrez bro
13、wser来查询各种数据(集成搜索工具)基因组的相关的信息查看详细结果详细结果序列部分注释部分下载格式选择注释部分 基因位点(Locus)、基因定义(Definition)、基因存取号(Accession)、关键词(Keywords)、 来源(Source)、组织分类(Organism)、参考文献(Reference)、 著者(Author)、题目(Title)、期刊(Journal)、序列特征(Features)、基因(Gene)、蛋白质编码序列CDS(cDNA) 、5非翻译区(5UTR)、 3非翻译区3UTR)、mRNA的polyA位置(polyA_site)、信使RNA( mRNA )、外
14、显子( exon )、内含子( intron )、原序列(Origin)。常用序列格式:FASTA格式 1.定义: 在生物信息学中,FASTA格式(又称为Pearson格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许序列前添加序列名及注释。通常核苷酸符号大小写均可,而氨基酸常用大写字母。 2.特点: 简单 使用最多 例子(单序列):gi|9629267|ref|NC_001798.1| Human herpesvirus 2, complete genomeAGTCCCCGTCCTGCCGCGCGGGGGCGGGCGCGGGAAAA
15、AAGCCGCGCGGGGGCGCCCGCGGGAAGGCAGCCCCGCGGCGCGCGGGGGGAGGGGCGGCGCCCGCGGGGGAGCGGCCGGCTCCGGGGGAGGGACGGGGAAGG.多序列FASTA42FASTA序列格式中的核苷酸表示法43FASTA序列格式中的氨基酸表示法44GenBank查询已知收录号(accession number)的情况45向GenBank投递序列 GenBank提供多种工具投递序列,如 BankIt (网上投递)适于少量的、注释简单的序列投递 Sequin (本地投递;软件)适于大量的、复杂的序列投递可投递变异、种系发生、群体数据集图形界面操
16、作选项多、功能强可向GenBank, EMBL, DDBJ中的任一数据库投递PubMedPubMed查找文献选择PubMed文献数据库PubMed主页输入关键词PubMed查询结果所有结果查看摘要免费文章增加筛选条件显示单篇文章摘要链接到原杂志原文章所在杂志PDF格式下载下载页面保存53关键词的选择 不是特殊情况,尽量使用名词原形,不使用复数、所有格等 尽量使用专业用语,不使用the, of, and, research等常用词作为关键词 为了减少遗漏,使用尽可能少而精的关键词Blast序列比对 序列比对(sequence alignment)也称联配、队排,是生物信息学中最常用和最经典的手段
17、。通过序列比对,可以推测基因和蛋白质的进化演变规律,或者推测基因和蛋白质的结构和功能。 对于两个序列之间的比对,称之为双序列比对或成对比对。对于多序列之间的比对,称之为多序列比对。 主要有BLAST和Clustal X 两种工具。Blast比对 BLAST比对是Basic Local Alignment Search Tool(基本局部比对搜索工具)的英文简称,是一种序列类似性检索工具。 NCBI提供了网络版BIAST搜索线服务。还提供了BLAST搜索程序和下载链接。 有5个子程序。主要的blast程序程序名查询序列数据库搜索方法Blastn核酸核酸核酸序列搜索逐一核酸数据库中的序列Blast
18、p蛋白质蛋白质蛋白质序列搜索逐一蛋白质数据库中的序列Blastx核酸蛋白质核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。Tblastn蛋白质核酸蛋白质序列和核酸数据库中的核酸序列6框翻译后的蛋白质序列逐一比对。TBlastx核酸核酸核酸序列6框翻译成蛋白质序列,再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一进行比对。Blast结果给出的信息Blast结果会列出跟查询序列相似性比较高,符合限定要求的序列结果,根据这些结果可以获取以下一些信息。1.查询序列可能具有某种功能2.查询序列可能是来源于某个物种3.查询序列可能是某种功能基因的同源基因这些信息都可以应用到后续分析中。从
19、主页进入blast点此进入blast主页Blast主页核酸序列比对参数设置输入需要比对的序列数据库选择程序选择比对或 选择fasta格式的文件在此输入序列或序列登录号(AC)结果解读结果有三部分组成: 1. 结果总览 2. 序列比对结果的描述 3.各序列比对的详情1.结果总览红、粉、绿、蓝、黑五种颜色,红色同源性最高,排在最上面,其他依次降低,黑色最低。每一条线代表搜索匹配的一条序列;2.比对结果描述 与目标序列同源性最高的结果在最上面,E值最低,score最大,点击序列号可以查看详细信息。点击score可以打开对应的比对详细信息。转录产物序列基因序列匹配序列表带有genbank的链接,点击可
20、以进入相应的genbank序列目标序列描述部分匹配情况,分值,e值Blast程序评价序列相似性的两个数据 Score:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、 相似性越高则Score值越大。 E value:在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。3、各序列比对详情 因申请者提交的要求不同,行列输出有不同的形式,系统默认的是配对行列输出,即查询序列与数据库中匹配的序列垂直对应。空位部分代表查询序列与检索匹配序列不一致。双序列比对 Blast比对后,当在数据库中搜索到多个显著相似的序列时,目的序列是否与数据库中检索到的序列真正有关联,这时就需要进行双序列比对(pairwise alignment)。 通过双序列比对分析,可以找出两序列之间的最大相似性匹配,进而判断两者是否具有同源性。Blast主页双序列比对Thank you and questions调课通知第11周 周五 5、6节 调到 13周周五7、8节 6舍411第12周 周三1、2节 调到 13周 周三3、4节 6舍411