生物信息学幻灯讲义1课件.ppt

上传人(卖家):晟晟文业 文档编号:5185876 上传时间:2023-02-16 格式:PPT 页数:109 大小:3.58MB
下载 相关 举报
生物信息学幻灯讲义1课件.ppt_第1页
第1页 / 共109页
生物信息学幻灯讲义1课件.ppt_第2页
第2页 / 共109页
生物信息学幻灯讲义1课件.ppt_第3页
第3页 / 共109页
生物信息学幻灯讲义1课件.ppt_第4页
第4页 / 共109页
生物信息学幻灯讲义1课件.ppt_第5页
第5页 / 共109页
点击查看更多>>
资源描述

1、生物信息学生物信息学授课教师授课教师:贾小平贾小平单位单位:河南科技大学农学院河南科技大学农学院第一章:绪第一章:绪 论论 第一节第一节 生物信息学及其发展历史生物信息学及其发展历史 第二节第二节 生物信息学主要研究内容生物信息学主要研究内容 第三节第三节 生物信息学的基本方法和技术生物信息学的基本方法和技术第四节第四节 生物信息学应用与展望生物信息学应用与展望 生物信息学是一门新兴的交叉学生物信息学是一门新兴的交叉学科,它将数学和计算机知识应用科,它将数学和计算机知识应用于生物学,以获取、加工、存储、于生物学,以获取、加工、存储、分类、检索与分析生物大分子的分类、检索与分析生物大分子的信息,

2、从而理解这些信息的生物信息,从而理解这些信息的生物学意义。学意义。生物信息学的概念:生物信息学的概念:“Bioinformatics is the science of using information to understand biology.Its the discipline of obtaining information about genomic or protein sequence data.This may involve similarity searches of databases,comparing your unidentified sequence to th

3、e sequences in a database,or making predictions about the sequence based on current knowledge of similar sequences.”Claverie(2000)生物信息学的诞生:生物信息膨胀生物信息膨胀生物信息学生物信息学有效管理有效管理?准确解读准确解读?充分使用充分使用?生物信息学发展史(1)(1)萌芽期萌芽期(60-70(60-70年代年代)序列比较序列比较(2)(2)形成期形成期(80(80年代年代)分子数据库和分子数据库和BLASTBLAST等相似性搜索程序等相似性搜索程序(3)(3)

4、高速发展期高速发展期(90(90年代年代-至今至今)基因组测序与分析基因组测序与分析n1962 Pauling1962 Pauling提出分子进化理论提出分子进化理论 n1967 Dayhoff1967 Dayhoff构建蛋白质序列数据库构建蛋白质序列数据库 n1970 Needleman-Wunsch1970 Needleman-Wunsch算法被提出算法被提出 n1977 Staden1977 Staden利用计算机软件分析利用计算机软件分析DNADNA序列序列 n1981 Smith-Waterman1981 Smith-Waterman算法出现算法出现 n1981 1981 序列模序序

5、列模序(motif)(motif)的概念被提出的概念被提出(Doolittle)(Doolittle)n1982 GenBank1982 GenBank数据库数据库(Release3)(Release3)公开;公开;EMBLEMBL创立创立 n1982-1982-噬菌体基因组被测序噬菌体基因组被测序n1983 Wilbur1983 Wilbur和和LipmanLipman提出序列数据库的搜索算法提出序列数据库的搜索算法(Wilber-(Wilber-LipmanLipman算法算法)n1985 1985 快速序列相似性搜索程度快速序列相似性搜索程度FASTP/FASTNFASTP/FASTN发

6、布发布 n1988 1988 美国家生物技术信息中心美国家生物技术信息中心(NCBI)(NCBI)创立创立 n1988 1988 欧洲分子生物学网络欧洲分子生物学网络EMBnetEMBnet创立;三大核酸数据库创立;三大核酸数据库(GenBank(GenBank、EMBLEMBL和和DDBJ)DDBJ)开始国际合作开始国际合作 n1990 1990 快速序列相似性搜索程序快速序列相似性搜索程序BLASTBLAST发布发布 n1991 1991 表达序列标签表达序列标签(EST)(EST)概念被提出,从此开创概念被提出,从此开创ESTEST测序测序 n1993 1993 英国英国SangerSa

7、nger中心在英国休斯顿建立中心在英国休斯顿建立 n1994 1994 欧洲生物信息学研究所在英国欧洲生物信息学研究所在英国HinxtonHinxton成立成立 n1995 1995 第一个细菌基因组测序完成第一个细菌基因组测序完成 n1996 1996 酶母基因组测序完成酶母基因组测序完成 n1997 PSI-BLAST(BLAST1997 PSI-BLAST(BLAST系列程序之一系列程序之一)发布发布 n1998 PhilGreen1998 PhilGreen等人研制的自动测序组装系统等人研制的自动测序组装系统Phred-Phred-Phrap-ConsedPhrap-Consed系统正

8、式发布系统正式发布n1998 1998 多细胞线虫基因组测序完成多细胞线虫基因组测序完成 n1999 1999 果蝇基因组测序完成果蝇基因组测序完成 n2000 2000 人类基因组测序基本完成人类基因组测序基本完成 n2001 2001 人类基因组初步分析结果公布人类基因组初步分析结果公布 生物信息学研究内容n建立和管理各种生物数据库建立和管理各种生物数据库n生物信息数据库生物信息数据库使用使用n生物信息学中的数学模式和方法生物信息学中的数学模式和方法研究研究n数据库接口和检索工具的研制数据库接口和检索工具的研制nHGPHGP的实施,对信息采集和处理提出的要求的实施,对信息采集和处理提出的要

9、求n从大量数据中提取新知识从大量数据中提取新知识nDNADNA芯片和微阵列的发展芯片和微阵列的发展生物信息学基本方法和技术n建立生物数据库建立生物数据库各种公共数据库各种公共数据库 本地化数据库本地化数据库n数据库检索数据库检索各种数据检索工具的开发和使用各种数据检索工具的开发和使用 Entrez检索体系检索体系 BLAST检索体系检索体系n生物大分子序列分析生物大分子序列分析Homologous sequence analysis(同源(同源序列分析)序列分析)Multiple sequence alignment 多序列多序列比对比对 Evolution analysis(进化分析进化分析

10、)Phylogenetic prediction(系统发育分析系统发育分析)进化进化方式方式分析分析 进化进化位点位点分析分析基因组分析基因组分析 序列拼接序列拼接 序列注释序列注释基因功能、结构分析基因功能、结构分析蛋白质功能、结构分析蛋白质功能、结构分析 蛋白质三维结构预测蛋白质三维结构预测 蛋白质修饰蛋白质修饰 Electron PCRn统计模型统计模型Hidden Markov model(HMM,隐马尔可夫模,隐马尔可夫模型)型)基因识别和药物设计基因识别和药物设计 Maximum likelihood model(最大似然模型)(最大似然模型)序列进化分析序列进化分析n数学算法数学

11、算法自动序列拼接自动序列拼接 外显子预测外显子预测 同源序列比较同源序列比较生物信息学应用与展望n基础研究和教学基础研究和教学分子生物学研究的重要手段之一分子生物学研究的重要手段之一 生命科学的教学生命科学的教学n药物开发药物开发新药筛选新药筛选 药靶设计药靶设计 分子药理学研究分子药理学研究n疾病诊断疾病诊断利用疑难病症的病原利用疑难病症的病原DNA序列诊断疾病序列诊断疾病 遗传病遗传病n其他其他环境监测环境监测 食品安全检测食品安全检测 海关检测海关检测n展望展望用于序列分类、相似性搜索、用于序列分类、相似性搜索、DNA序列编码区识别、序列编码区识别、分子结构与功能预测、进化过程的构建等方

12、面的计算分子结构与功能预测、进化过程的构建等方面的计算工具已成为研究工作的重要组成部分工具已成为研究工作的重要组成部分生物信息学研究的一个核心问题是数据库的开发生物信息学研究的一个核心问题是数据库的开发数据的共享性和应用性非常重要数据的共享性和应用性非常重要在我国,生物信息学随着人类和水稻等基因组研究的在我国,生物信息学随着人类和水稻等基因组研究的展开已显露出蓬勃发展的势头。生物信息学作为基因展开已显露出蓬勃发展的势头。生物信息学作为基因研究的有力武器,被广泛用于新基因的发现,以达到研究的有力武器,被广泛用于新基因的发现,以达到将有用新基因抢先注册专利的目的。在这场抢基因的将有用新基因抢先注册

13、专利的目的。在这场抢基因的国际竞争中,如何结合我国科研、开发状况,重点投国际竞争中,如何结合我国科研、开发状况,重点投入以求得局部优势和商业回报,是中国科学家和相关入以求得局部优势和商业回报,是中国科学家和相关部门必须面对的新课题。部门必须面对的新课题。第二章第二章:生物信息学数据库生物信息学数据库第一节第一节 模式生物模式生物第二节第二节 生物数据库生物数据库humanArabidopsis拟南芥拟南芥Thermotoga maritimaEscherichia coli大肠杆菌大肠杆菌Buchnerasp.APSRickettsia prowazekiiUreaplasma urealyt

14、icumBacillus subtilisDrosophila melanogasterThermoplasma acidophilumPlasmodium falciparumHelicobacter pylori mouseCaenorhabitis elegansratBorrelia burgorferiBorrelia burgorferiAquifex aeolicusNeisseria meningitidis Z2491Mycobacterium tuberculosis 人类基因组,模式生物基因组计划人类基因组,模式生物基因组计划1、人类基因组计划、人类基因组计划 与曼哈顿原

15、子与曼哈顿原子 计划、阿波罗登月计划并称的人类科学计划、阿波罗登月计划并称的人类科学史上的重大工程。于史上的重大工程。于1990年首先在美国启年首先在美国启 动,后有德、动,后有德、日、英、法、中等国的科学家先后正式加入。日、英、法、中等国的科学家先后正式加入。6060年代初,美国总统年代初,美国总统KennedyKennedy提出两个科学计划:提出两个科学计划:登月计划登月计划攻克肿瘤计划攻克肿瘤计划 人类遗传信息的复杂性人类遗传信息的复杂性人类基因组计划人类基因组计划(HGP,Human Genome Project)1984.12 犹他州阿尔塔组织会议,初步研讨测定人类整个基 因组DNA

16、序列的意义1985 Dulbecco在Science撰文“肿瘤研究的转折点:人 类基因组的测序”美国能源部(DOE)提出“人类基因组计划”草案1987 美国能源部和国家卫生研究院(NIH)联合为“人类 基因组计划”下拨启动经费约550万美元1989 美国成立“国家人类基因组研究中心”,Watson担任 第一任主任1990.10 经美国国会批准,人类基因组计划正式启动James WatsonWalter Gilbert19951995第一个自由生物体流感嗜血菌第一个自由生物体流感嗜血菌(H.infH.inf)的全基因组测序完成的全基因组测序完成1996 1996 完成人类基因组计划的遗传作图完成

17、人类基因组计划的遗传作图 启动模式生物基因组计划启动模式生物基因组计划H.inf全基因组全基因组Saccharomyces cerevisiae酿酒酵母酿酒酵母Caenorhabditis elegans秀丽线虫秀丽线虫1997 1997 大肠杆菌大肠杆菌(E.coliE.coli)全基因组测序完成全基因组测序完成1998 1998 完成人类基因组计划的物理作图完成人类基因组计划的物理作图 开始人类基因组的大规模测序开始人类基因组的大规模测序 CeleraCelera公司加入,与公共领域竞争公司加入,与公共领域竞争 启动水稻基因组计划启动水稻基因组计划1999.7 1999.7 第第5 5届国

18、际公共领域人类基因组测序会议,加快测序速度届国际公共领域人类基因组测序会议,加快测序速度大肠杆菌及其全基因组大肠杆菌及其全基因组水稻基因组计划水稻基因组计划2001年年2月月15日日Nature封面封面2001年年2月月16日日Science封面封面At the White House on June 26,Francis Collins(r),Director of the National Human Genome Research Institute,President Clinton,and J.Craig Venter,President of Celara Genomics,lau

19、ded the thousands of scientists who contributed to the genome sequence.1999.7 第5届国际公共领域人类基因组测序会议,加快测序速度2000 Celera公司宣布完成果蝇基因组测序 国际公共领域宣布完成第一个植物基因组拟南芥全基 因组的测序工作2000.6.26 公共领域和Celera公司同时宣布完成人类基因组工作草图2001.2.15 Nature刊文发表国际公共领域结果2001.2.16 Science刊文发表Celera公司及其合作者结果2003年,6国科学家宣布人类基因组序列图绘制成功,HGP的所有目标全部实现。

20、Drosophila melanogaster果蝇果蝇Arabidopsis thaliana拟南芥拟南芥HGPHGP的最初目标的最初目标通过国际合作,用通过国际合作,用1515年时间年时间(1990(19902005)2005)至至少投入少投入3030亿美元,构建详细的人类基因组遗传图和物理图亿美元,构建详细的人类基因组遗传图和物理图 ,确定人类确定人类DNADNA的全部核苷酸序列,定位约的全部核苷酸序列,定位约1010万基因,并对其它万基因,并对其它生物进行类似研究。生物进行类似研究。4 4张图:张图:HGPHGP的终极目标的终极目标阐明人类基因组全部阐明人类基因组全部DNADNA序列;序

21、列;识别基因;识别基因;建立储存这些信息的数据库;建立储存这些信息的数据库;开发数据分析工具;开发数据分析工具;研究研究HGPHGP实施所带来的伦理、法律和社会问题。实施所带来的伦理、法律和社会问题。遗传图物理图物理图序列图序列图转录图转录图Homo sapiens 智人2、模式生物基因组计划、模式生物基因组计划 酵母、线虫、果蝇、细菌、水稻等共约酵母、线虫、果蝇、细菌、水稻等共约已完成已完成已经完成全序列测定的基因组已经完成全序列测定的基因组中文名称中文名称数目数目备备 注注古细菌 10包括热自养甲烷菌、热球菌等真细菌 42其中5个细菌各测定了多个菌株真核生物 5酵母、线虫、果蝇、智人、拟南

22、芥细胞器201质粒164 噬菌体 90包括不同亚类或不同菌株类病毒 36包括不同亚类或不同菌株病毒126包括不同亚类或不同菌株http:/www.ebi.ac.uk/genomes/virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptilesbirdsmammalsGenome sizes in nucleotide pairs(base-pairs)10410810510610710111010109The size of the humangenome is 3 X 109 bp;almost all of its compl

23、exityis in single-copy DNA.The human genome is thoughtto contain 30,000 to 40,000 genes.bony fishamphibians 寄生于细菌内的病毒寄生于细菌内的病毒 如:大肠杆菌噬菌体如:大肠杆菌噬菌体(coliphages)遗传物质:单链遗传物质:单链/双链、环状双链、环状/线状、线状、DNA/RNA 不具有细胞形态结构,仅由核酸和蛋白质构成;不具有细胞形态结构,仅由核酸和蛋白质构成;如:人艾滋病毒如:人艾滋病毒HIV、SARS冠状病毒冠状病毒 体积小,体积小,10300nm;严格的专性细胞内寄生;严格的

24、专性细胞内寄生;对抗生素不敏感。对抗生素不敏感。电子显微镜下的电子显微镜下的SARS冠状病毒冠状病毒100nmEscherichia coli(大肠杆菌)大肠杆菌是研究得最为详尽的一个模式生物。这种只有1.6微米长的、可以迅速繁殖的单细胞原核生物,已经成为实验室和基因工程的重要工具。Escherichia coli O157:H7Escherichia coli K12 Saccharomyces cerevisiae(酿酒酵母)真菌界的单细胞真核生物,有16个染色体。它的全基因组已在1996年测定。秀丽线虫(Caenorhabditis elegans)细胞数目一定:成虫细胞数目只有细胞数目

25、一定:成虫细胞数目只有959个,其中包括个,其中包括302个神经元个神经元有有6条染色体,全基因组于条染色体,全基因组于1998年测定,长年测定,长9.7MbDrosophila melanogaster(果蝇)繁殖很快、容易诱发变异的小繁殖很快、容易诱发变异的小昆虫。总长达昆虫。总长达1.8亿核苷酸。亿核苷酸。Arabidopsis thaliana(拟南芥)个体生活周期只有个体生活周期只有6周的十字花科周的十字花科小草,是一种理想的模式植物。小草,是一种理想的模式植物。1个受精卵在个受精卵在24小时内分裂到各种器官初具雏形的程度;小时内分裂到各种器官初具雏形的程度;身体透明的小鱼,生活周期

26、约身体透明的小鱼,生活周期约3个月,是研究脊椎动物发育个月,是研究脊椎动物发育 过程的良好对象。过程的良好对象。基因组大小与人类相近,约基因组大小与人类相近,约30亿个核苷酸对,有亿个核苷酸对,有19条染色条染色体;体;生物信息数据库生物信息数据库n基因和基因组数据库基因和基因组数据库 GenBank 美国国家生物技术信息中心美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)建立建立 可与可与EMBL、DDBJ合作交换数据合作交换数据 包含了所有已知的核酸序列和蛋白质序列,以及与它包含了所有已知的核酸序列和蛋白质序列

27、,以及与它们相关的文献著作和生物学注释们相关的文献著作和生物学注释 www.ncbi.nlm.nih.gov/Genbank/GenbankSearch.html(登陆网址登陆网址)EMBL核酸序列数据库核酸序列数据库 由欧洲生物信息学研究所由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成维护的核酸序列数据构成 可与可与GenBank、DDBJ合作交换数据合作交换数据 登陆网址:登陆网址:http:/www.ebi.ac.uk/embl/DDBJ数据库数据库 日本日本DNA数据仓库数据仓库 全面的核酸序列数据库,与全面的核酸序列数据库,与Genbank和和EMBL核酸库合核酸库合作交换数

28、据作交换数据 登陆网址:登陆网址:http:/www.ddbj.nig.ac.jp/GenBankPublicfreeAvailableviaInternetEMBL Data LibraryDDBJ (DNA Data Bank of Japan)三大三大DNA数据库之间的关系数据库之间的关系 基因组数据库(基因组数据库(GDB)人类基因组图谱数据人类基因组图谱数据 包括人类基因组区域(基因、克隆、包括人类基因组区域(基因、克隆、EST、遗传标记、遗传标记等)、人类基因组图谱、人类基因组变异等)、人类基因组图谱、人类基因组变异 网址:网址:http:/www.gdb.org http:/ 生

29、物种类生物种类 Organism Organism 网址网址(Address)(Address)曲霉菌 Aspergillus http:/www.ncbi.nlm.nih.gov/genome/guide/aspergillus 蜜蜂 Bee http:/www.ncbi.nlm.nih.gov/genome/guide/bee 猫 Cat http:/www.ncbi.nlm.nih.gov/genome/guide/cat 青蛙 Frog http:/www.ncbi.nlm.nih.gov/genome/guide/frog 老鼠 Mouse http:/www.ncbi.nlm.ni

30、h.gov/genome/guide/mouse 小鼠 Rat http:/www.ncbi.nlm.nih.gov/genome/guide/rat/index.html 狗 Dog http:/www.ncbi.nlm.nih.gov/genome/guide/dog 牛 Cow http:/www.ncbi.nlm.nih.gov/genome/guide/cow 猪 Pig http:/www.ncbi.nlm.nih.gov/genome/guide/pig 羊 Sheep http:/www.ncbi.nlm.nih.gov/genome/guide/sheep鸡 Chicken

31、http:/www.ncbi.nlm.nih.gov/genome/guide/chicken斑马鱼 Zebra fish http:/www.ncbi.nlm.nih.gov/genome/guide/zebrafish/index.html海胆 Sea urchin http:/www.ncbi.nlm.nih.gov/genome/guide/sea_urchin 线虫 Caenorhabditis elegans http:/www.ncbi.nlm.nih.gov/genome/guide/nematode Dictyostelium discoideum http:/www.ncb

32、i.nlm.nih.gov/genome/guide/dicty 蚊子 Mosquito http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?果蝇 Drosophila http:/www.ncbi.nlm.nih.gov/genome/guide/fly 黑猩猩 Chimp http:/www.ncbi.nlm.nih.gov/genome/guide/chimp 人 Human http:/www.ncbi.nlm.nih.gov/genome/guide/human 拟南芥 Arabidopsis http:/www.ncbi.nlm.ni

33、h.gov/mapview/map_search.cgi?taxi棉花 Cotton http:/algodon.tamu.edu 玉米 Maize http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=4577水稻 Rice http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=4530小麦 Wheat http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=4565大麦 Barley http:/www.ncbi.nlm

34、.nih.gov/mapview/map_search.cgi?taxid=4513大豆 Soybean http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=3847 西红柿 Tomato http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=4081 高粱 Sorghum http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=4557 完成测序的生物基因组信息查询完成测序的生物基因组信息查询 基因组测序进展状况查询基因

35、组测序进展状况查询 (EBI的的Genome MOT主页)主页)n 蛋白质数据库蛋白质数据库 SWISS-PROT 由日内瓦大学医学生物化学系和欧洲生物信息学研究所由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护合作维护 包括了从包括了从EMBL翻译而来的蛋白质序列,这些序列经过翻译而来的蛋白质序列,这些序列经过检验和注释检验和注释 尽可能减少了冗余,与其它尽可能减少了冗余,与其它30多个数据库建立交叉引用多个数据库建立交叉引用 登陆网址:登陆网址:http:/www.ebi.ac.uk/swissprot/PIR(http:/pir.georgetown.edu/)由美国家

36、生物技术信息中心由美国家生物技术信息中心(NCBI)翻译自翻译自GenBank的的DNA序列序列 PIR根据注释程度根据注释程度(质量质量)分为分为4个等级个等级 分类名称分类名称 说说 明明 记录数记录数 (Name)(Comment)(Number of entries)PIR1 分类并注释分类并注释(Classified and 20685 annotated)PIR2 注释注释(Annotated)262300 PIR3 未核实未核实(Unverified)24 PIR4 未翻译未翻译(Unencoded or 407 untranslated)PROSITE 蛋白质位点和序列模式库蛋

37、白质位点和序列模式库 鉴定蛋白质归属,发现隐含功能域,有效分析序列鉴定蛋白质归属,发现隐含功能域,有效分析序列 登陆网址:登陆网址:http:/www.expasy.ch/prosite/PDB 蛋白质结构数据库蛋白质结构数据库 来源于来源于X光晶体衍射和核磁共振数据光晶体衍射和核磁共振数据 登陆网址:登陆网址:http:/www.rcsb.org/pdb SCOP(Structural classification of proteins)可以比较某一蛋白质与已知结构蛋白的结构相似性可以比较某一蛋白质与已知结构蛋白的结构相似性 对已知结构蛋白质进行等级分类对已知结构蛋白质进行等级分类 登陆网

38、址:登陆网址:http:/scop.mrc-lmb.cam.ac.uk/scopn 功能数据库功能数据库 KEGG 系统分析基因功能,联系基因组信息和功能信息系统分析基因功能,联系基因组信息和功能信息 GENES数据库存储基因组信息,功能信息存储在数据库存储基因组信息,功能信息存储在PATHWAY数据库数据库 登陆网址:登陆网址:http:/www.genome.ad.jp/kegg/DIP 蛋白质相互作用数据库蛋白质相互作用数据库 包括蛋白质信息、相互作用信息、检测实验技术包括蛋白质信息、相互作用信息、检测实验技术 可以根据蛋白质、物种、关键词、引用文献来查询数可以根据蛋白质、物种、关键词、

39、引用文献来查询数据库据库 登陆网址:登陆网址:http:/dip.doe-mbi.ucla.edu/TRRD 转录调控区数据库转录调控区数据库 包括转录因子结合位点、启动子、增强子及基因表达包括转录因子结合位点、启动子、增强子及基因表达调控模式调控模式 包含包含5个数据表:个数据表:TRRDGENES:包含基因信息和调控单元信息:包含基因信息和调控单元信息 TRRDSITES:包含调控因子结合位点信息:包含调控因子结合位点信息 TRRDFACTORS:包含与各位点结合的调控因子信息:包含与各位点结合的调控因子信息 TRRDEXP:包含基因表达模式描述:包含基因表达模式描述 TRRDBIB:包含

40、所有参考文献:包含所有参考文献 登陆网址:登陆网址:http:/wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/TRANSFAC 转录因子及其结合位点数据库转录因子及其结合位点数据库 由由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD、REFERENCE等数据表构成等数据表构成 有四个扩展库有四个扩展库 PATHODB:导致病态突变转录因子和结合位点:导致病态突变转录因子和结合位点 S/MARTDB:染色体结构变化相关蛋白因子及结合位点:染色体结构变化相关蛋白因子及结合位点 TRANSPATH:与转录因子相关信号传递网:与转录因

41、子相关信号传递网 CYTOMER:人类转录因子时空表达情况:人类转录因子时空表达情况 登陆网址:登陆网址:http:/transfac.gbf.de/TRANSFAC/n其它数据库资源其它数据库资源 DBCat 生物信息数据库的目录数据库生物信息数据库的目录数据库 收集了收集了500多个数据库的信息多个数据库的信息 根据用途对这些数据库进行了分类根据用途对这些数据库进行了分类 登陆网址登陆网址:http:/www.infobiogen.fr/services/dbcat/下载地址下载地址:ftp:/ftp.infobiogen.fr/pub/db/dbcat/PubMed NCBI维护的文献引

42、用数据库维护的文献引用数据库 提供对提供对MEDLINE、Pre-MEDLINE等文献数据库的引等文献数据库的引用查询用查询 对大量网络电子期刊的链接对大量网络电子期刊的链接 登陆网址:登陆网址:http:/www.ncbi.nlm.nih.gov/生物信息数据库记录格式生物信息数据库记录格式n数据库记录(数据库记录(entry)组成)组成原始序列数据原始序列数据描述数据生物信息的注释(描述数据生物信息的注释(annotation)注释与序列数据同等重要注释与序列数据同等重要 不同数据库注释质量不同不同数据库注释质量不同 EMBL数据库记录格式数据库记录格式 EMBL数据库记录注释代码和内容说

43、明数据库记录注释代码和内容说明 代码代码(Code)全全 称称(Full meaning)说说 明明(Comments)ID identifier(身份号)(身份号)该行的第一项内容是该数据库记录该行的第一项内容是该数据库记录 的名的名 称,该名称是唯一的,是由称,该名称是唯一的,是由 EMBL数据数据 库给定的。其它内容注明了该记录的一库给定的。其它内容注明了该记录的一 些状况些状况(如是否已经被核实本例中为如是否已经被核实本例中为 已核实,即已核实,即standard;记;记 录的碱基数等录的碱基数等)。AC accession 每个记录号均是唯一的,并从不更改,每个记录号均是唯一的,并从

44、不更改,number(记录号)(记录号)是由是由GenBank给定的。如果两个记录被给定的。如果两个记录被 合并成一个记录,原始上的合并成一个记录,原始上的2个记录号均个记录号均 会被注明会被注明。DT data(日期)(日期)2个日期被注出,一个是该数据第一次被个日期被注出,一个是该数据第一次被 记录时间,另一个是最后一次的时间。记录时间,另一个是最后一次的时间。DE description(描述)(描述)对该基因的文字描述对该基因的文字描述 KW keywords(关键词)(关键词)描述该基因的关键词描述该基因的关键词 OS organism(species)物种名称物种名称 (物种)(物

45、种)OC organism(classification)(分类)(分类)物种的一个简单分类,该分物种的一个简单分类,该分 类并不一定定准确,应谨慎类并不一定定准确,应谨慎 从事。从事。OG Organelle(细胞器)(细胞器)该基因是否在某一个特殊的细胞器中该基因是否在某一个特殊的细胞器中RN reference number(文献编号)(文献编号)RC reference comment(文献说明)(文献说明)RP reference positions(文献大小)与该记录研究相关的文献信息(文献大小)与该记录研究相关的文献信息 RX cross-reference(相关文献)(相关文献

46、)RA reference authors(文献作者)(文献作者)RT reference title(文献题目)(文献题目)RL reference location(文献出处)(文献出处)DR database cross-reference(相关文献数据库)见文中说明(相关文献数据库)见文中说明 FH feature header(主表头)(主表头)该记录主要内容列表表头该记录主要内容列表表头 FT feature table data(主表数据)见文中说明(主表数据)见文中说明 CC comments(说明)(说明)对记录的文字说明对记录的文字说明 XX spacer line(空白行

47、)(空白行)SQ sequence header(序列头)(序列头)有关该序列大小和组成的信息有关该序列大小和组成的信息 Blank sequence data(空白)(空白)/termination line(终止行)(终止行)一个记录的终止符号一个记录的终止符号 GENEBANK数据库记录格式数据库记录格式 GENEBANK数据库记录注释代码和内容说明数据库记录注释代码和内容说明LOCUS 原指描述本记录的基因座位,现在没有实际意义原指描述本记录的基因座位,现在没有实际意义 DEFINITION 说明序列来源说明序列来源 ACCESSION 检索号,是从数据库中检索一个记录的主要关键词检索

48、号,是从数据库中检索一个记录的主要关键词,这个号码将在参考文献中被引用这个号码将在参考文献中被引用KEYWORDS 关键词,作用不大,关键词,作用不大,NCBI不鼓励使用不鼓励使用SOURCE 包含生物的通用名或科学名称包含生物的通用名或科学名称 ORGANISM 生物的分类信息生物的分类信息 REFERENCE 参考文献部分,每个参考文献部分,每个GenBank记录至少要有一篇参考文献,记录至少要有一篇参考文献,许多情况下有两篇或多篇。许多情况下有两篇或多篇。FEATURES 该记录的特征说明部分,包括序列来源、序列特性描述该记录的特征说明部分,包括序列来源、序列特性描述Gene 基因名称及

49、长度范围基因名称及长度范围 CDS 存在的或者潜在的编码区存在的或者潜在的编码区 Source 序列详细来源信息序列详细来源信息,GENEBANK中必须出现中必须出现/translation=编码序列的翻译产物编码序列的翻译产物 ORIGIN 序列开始序列开始/结束符号结束符号 数据库信息检索系统数据库信息检索系统Entrez(美国美国NCBI建立建立)http:/www.ncbi.nlm.nih.gov/entrez 基于基于Web界面在线检索工具界面在线检索工具 可检索核酸、蛋白质序列、基因组图谱等多种数据可检索核酸、蛋白质序列、基因组图谱等多种数据SRS(Sequence retriev

50、al System)(欧洲欧洲分子生物学实验室建立分子生物学实验室建立)http:/ 可应用于大量不同的数据库可应用于大量不同的数据库 序列一般可通过记录号序列一般可通过记录号(如来自如来自1篇发表的论文篇发表的论文)或是该序列或是该序列注释中的一些信息进行检索注释中的一些信息进行检索Entrez检索步骤检索步骤1.进入进入entrez2.选择数据库选择数据库3.查询关键词查询关键词4.开始查询开始查询各类数据库各类数据库的介绍的介绍Entrez检索步骤检索步骤显示格式显示格式每页显示数目每页显示数目检索到的记录数检索到的记录数检索到条目,点击进入检索到条目,点击进入点击可以将结果保存到点击可

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(生物信息学幻灯讲义1课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|