1、讲述计算机在生命科学中应用的共性问题具体内容:生命科学中的数值方法、生物统计学、生命科学实验数据处理、生命科学中的数学模型及其求解、生命科学实验设计、生物信息学、生命科学中的常用软件等几个部分。主要应用MATLAB为计算工具。总学时:54学时其中:课堂教学/32学时,上机练习/16学时(生物楼三楼机房),大作业/6学时成绩评定:平时成绩50%,考试成绩50%教材:计算机在生命科学中的应用参考书籍:计算机数值方法、MATLAB、生物统计学、回归分析、数学建模、生物信息学等相关书籍用计算机技术(数学方法)研究和解决生命科学问题。q生命科学问题的数量化用生物物质制造计算机,解决计算机发展存在的问题(
2、存储和计算速度)。qDNA计算机q蛋白质计算机2004/1/30-“Science”发表了署名“中国SARS分子流行病学协作课题组”的论文“中国SARS流行期间SARS冠状病毒的分子进化”论文将2002/2003期间的SARS流行划分为早、中、晚三期进行分析,揭开沙斯分子流行病学之谜,破解了沙斯冠状病毒变异和进化的规律。课题组完成了来自广东和香港的SARS发展各阶段的24个病人的18株SARS冠状病毒及11份含病毒生物样品的病毒基因组全序列测定,结合已经公开的其他32条人类SARS冠状病毒及2条果子狸的SARS样冠状病毒的基因组全序列进行生物信息学分析生物信息学分析,研究 SARS冠状病毒在流
3、行过程中的分子变异规律。通过进化模型的计算进化模型的计算获得了一系列关键的基础数据,发现SARS冠状病毒基因组的中性突变率是稳定的,认识到了SARS冠状病毒基因组各主要片段对于环境选择压力的不同的响应及其与SARS流行过程的相关性。上海交大和中科院上海营养科学研究所协作攻关,在试管中完成了DNA计算机的雏形研制工作,在实验上把自动运行与表面DNA计算结合到了一起。这在中国属首次,相关论文已发表在中国科学通报49卷第1期的英文版上。采用双色荧光标记对输入与输出分子进行同时检测,用测序仪对自动运行过程进行实时监测,用磁珠表面反应法固化反应提高可控性操作技术等,以至最终在一定程度上完成模拟电子计算机
4、处理0、1信号的功能DNA计算机把二进制数翻译成遗传密码的片段,每个片段就是一个链。对问题以新的DNA编码形式加以解答。蛋白质计算机利用分子内电子或质子的传递、状态的变化等原理制备蛋白质晶片代替现有芯片。生物计算机的优点首先是体积小,存储的信息量大。其次,这种电脑运算速度极快。第三是最大限量的减少能耗,DNA电脑的能耗,仅为普通电脑的十亿分之一。生物数学是生物学与数学之间的边缘学科。它以数学方法研究和解决生物学问题,并对与生物学有关的数学方法进行理论研究。生物数学的分支学科较多,从生物学的应用去划分,有数量分类学、数量遗传学、数量生态学、数量生理学和生物力学等;从研究使用的数学方法划分,又可分
5、为生物统计学、生物信息论、生物系统论、生物控制论和生物方程等分支。生物学遗传学生态学生理学生物动力学生物分类学等数学统计学线性代数信息论微分方程概率论积分变换等计算机1901Pearson,“生物统计学杂志”1920sRashevsky,Lotka,生物方程、生物数学模型1940s计算机产生,数量分类学、生物控制论、信息论随之产生1970s数学的各项内容应用于生物学,包括经典数学、应用数学1990s生物信息处理2000s计算生物学、生物数学复杂模型等Galileo wrote that“the book of nature is written in the language of mathe
6、matics”;Nearly 400 years later,the fragmented teaching of science in our universities still leaves biology outside the quantitative and mathematical culture that has come to define the physical sciences and engineering.Bialek and Botstein propose incorporating mathematical and quantitative approache
7、s into biological sciences curricula,not merely as prerequisite courses to be suffered as a rite of passage but as full-fledged components of the training of a contemporary scientist.第一节第一节 计算机在生命科学中的应用计算机在生命科学中的应用 一、应用现状1、计算机在生命科学领域中的应用普遍,计算机已广泛应用于微生物学、遗传学、生态学、医学、人口学、药物动力学、生理学、分子生物学等领域。2、生物信息学、数值方法
8、、数据模型化、最优化实验设计等在生命科学中越来越显示出强有力的作用。3、生命科学领域中的计算机应用起步较晚,主要因为生命过程非常复杂,影响因素众多,内在机理研究难以深入。生物产物形成中的细胞代谢与环境变化过程带有计算机数据采集与控制的生物反应器系统带有计算机数据采集与控制的生物反应器系统双向凝胶电泳图双向凝胶电泳图酵母的完整基因表达图谱酵母的完整基因表达图谱1、计算机在生命科学领域的数据采集。实验数据的在线检测,如常规的温度、压力、pH值、溶氧浓度;生物医学中的葡萄糖浓度、脑电流等生物电信号;实验数据的离线检测,如蛋白质浓度和DNA、RNA等核酸浓度的测定,生物特性物质的检测,生物种群数目的统
9、计等。由于生物数据的量大面广,依靠传统的人工采集数据的方法已不能适应需要。2、计算机对生命科学实验数据的处理、计算机对生命科学实验数据的处理包括生命科学中各种实验数据的处理,生命科学数学模型的建立和求解,利用数学模型对实验的控制和实验监测,实验跟踪生物量、生物参数,以及生命科学和生物工程的实验设计包括最优化实验设计。如将所测定的DNA序列对应的光谱数据进行整理和处理后确定核苷酸的位置;放射性示踪物在生物分子中的研究应用;利用计算机按分子量大小或其它特性自动分离生物物质;利用计算机对生物工厂进行工艺优化设计,对实验测量值的误差自动分析处理等。cDNA microarray expression
10、patterns of small(S)and large(L)neurons3、计算机在生物信息学的应用、计算机在生物信息学的应用计算机对生物信息的处理是数据处理中的一个特殊部分,生物信息学已成为一个单独应用领域。生物信息学是以计算机为工具对生物信息进行储存、检索、传输和分析的科学,涉及范围很广。其研究重点一般为两个方面,即基因组学(Genomics)和蛋白质组学(Proteomics)。它们涉及对核酸和蛋白质序列信息的获取、分析和存储,数据的查询和校对等,包括对大量基因组数据、蛋白质组数据信息,如GenBank、生物分子结构数据库MMDB,以及生物类文献,如MEDLINE和BA(Biolo
11、gical Abstract)数据库的检索等。4、计算机数值方法在生命科学中的应用、计算机数值方法在生命科学中的应用事实上实验数据的处理,包括生物信息学的数据处理都是以数值方法和统计学的知识为基础的。现代生命科学提出了相当多的数学问题及复杂的数学模型,涉及到许多非线性的代数或微分方程,这些方程常常是大量耦合的。对于这类复杂的数学模型的研究,经典的数学解析法是无能为力的,必须借助数值方法应用计算机求解。计算机数值法在生命科学领域内占有极其重要的地位,是现代生命科学技术发展的促进因素。5、计算机用于生物工程和生命活动的过程控制和过程监督。如发酵工程中,控制方式有人工控制和计算机控制两种,但目前大部
12、分还是人工控制或半人工控制为主,包括经典的自动控制、顺序控制、模拟控制等。计算机全自动控制能直接实现人机对话,利用系统的数学模型实现过程优化,如医学上人工血液输送系统(人工心脏等)的控制。生物信息学生命科学中的数值方法生物统计学生命科学实验数据处理生命科学中的数学模型及其求解生命科学实验设计生命科学中的常用软件实例涉及到生命科学中的各个领域主要介绍如何掌握各种数值计算技巧,利用计算机解决实际计算问题,学习的重点放在各种算法的应用,学以致用。学习关键不仅在于能从原理上理解各种算法,而且更重要的是在于合理选择和应用这些算法去解题。数值方法的基本内容包括非线性方程求根、代数方程组求解、插值法、数值积
13、分、常微分方程及其方程组求解等。数学模型的优点:定量、简便、计算机应用在生命科学中,传统的研究方法如经验归纳法等已不能满足学科发展的需要,在工程上数学模型已成为一种重要的研究方法。现代生命科学的发展越来越多地要求用数学的方法对生命过程进行定量研究,建立数学模型,以揭示生命现象的本质。数据处理和实验设计是一门综合性的学科,它和生命科学相结合,被具体用于生命科学实验数据处理、生命科学的建模和生命科学中的实验设计,对生命科学的发展发挥了积极作用。具体内容包括生命科学实验数据的误差及其分布、实验数据常用的处理方法、生命科学中数学模型的建立方法以及生命科学中常见的数学模型。实验数据的回归分析及其检验,实
14、验数据常用的设计方法、回归正交设计和序贯实验设计。探索生命科学中实验数据变化的规律,提高分析数据和处理数据的能力。了解和掌握计算机在生命科学数据处理与分析、实验数据模型化中应用的基本思想和方法。了解生命科学的一些相关软件。第二节第二节 生命科学中常用的计算机生命科学中常用的计算机软件概述软件概述生命科学中的各个领域以及和生命科学相交叉的各学科,均开发了多种应用软件;如用于数值计算的MATLAB软件、药物设计的分子构型软件、微生物发酵工程中的控制软件、生物医学的仿真软件、计算机辅助设计AUTOCAD等。从网络资源来看,提供相关新闻、数据库服务、应用软件和软件在线服务、算法等。生 物 信 息 学
15、中 使 用 较 广 的 软 件。GCG(Genetics Computer Group)主要是提供一种计算机集成环境,它将大量序列分析和数据库搜索程序集成在一起,可以访问各种不同来源的序列数据库。它提供的集成环境SeqLab(图形用户界面)是Wisconsin Package的一部分。Wisconsin Package则是一种综合性的序列分析程序,由120多个独立的程序组成,用户为适应不同要求,可对其程序进行组合使用。GCG支持5种数据库供Wisconsin Package使用,分别是2种核酸数据库和3种蛋白质数据库。2种核酸数据库是GenBank数据库和EMBL核酸序列数据库。这两种数据库也
16、可被组合成为一个库,称为GenEMBLPlus。3种蛋白质数据库是Protein Information Resource(PIR)国际蛋白质序列数据库,SWISS-PROT蛋白质序列数据库,SP-TrEMBL数据库(由欧洲生物信息学研究所等开发)。GCG可以用于核酸和蛋白质序列的编辑、搜索、比较、分析等。SAS(Statistics analysis system)软件是目前国际上较流行的、较权威的一种统计分析软件,是由美国SAS公司研制的,其版本不断更新,它可作为统计计算和绘图的工具。由于在生命科学的实验数据处理上常需要应用回归的方法、统计的方法,因此SAS软件被广泛用于生物学、医学、药学
17、等的研究中。SAS软件是模块式结构,具有约20个模块,其中常用的有SAS/BASE(基础)模块SAS/STAT(统计)模块、SAS/GRAPH(图形)模块、SAS/ETS(预测)模块、SAS/IML(矩阵运算)模块、SAS/QC(质量控制)模块等。这些SAS模块可以独立使用,也可以相互结合使用。SAS软件能够解决统计分析和实验设计的一些问题。SAS软件的使用是建立在SAS数据库之上的,而实现SAS程序的成功应用必须由用户编制SAS引导程序。SAS引导程序由一系列符合SAS语言的语法规则的语句所组成。使用前必须对SAS语言有一定的了解。Excel为Microsoft 公司的产品,Excel扩展图
18、表为一特制的数学软件,用户可在数据行或列中输入数据并运算,可完成大量的报表的运算和输出。图表中任何一个数据发生改变时,软件都会更新计算结果。Excel内部也具有部分数值计算的功能,如方程求解、曲线拟合和最优化等,同时Excel以Visual BASIC作为用户开发应用的编程语言,可用于数值计算。另外Excel也具有可视化工具(如三维立体作图),将数值计算和作图结合起来使用,可以进行具有相当难度的数值分析。MATLAB为Mathworks公司的主要产品,MATLAB出自于MATrix LABoratory,原意为矩阵实验室,最开始是专门用于矩阵计算的软件。随着MATLAB推向市场,MATLAB不
19、仅具有了数值运算功能、符号运算功能,而且还具有了数据图示功能。在目前的最新版本MATLAB 6.0中,MATLAB不仅在数值、符号和图形等功能上做了进一步增强,而且又增加了一些工具箱,以方便不同专业技术人员使用(包括生命科学)。MATLAB中的函数和运算器有助于多种数值方法的实现。MATLAB作为一种高级语言,它不仅可以以一种人机交互式的命令行指令操作方式工作,而且还可以如BASIC、FORTRAN、PASCAL、C等高级语言一样进行程序设计,编制一种以m为扩展名的文件,即M文件。MATLAB本身的特点,M文件的编制同BASIC、FORTRAN、PASCAL、C等比较起来,有许多无法比拟的优点
20、,如语言简单、可读性强、调试容易、调用方便等,因此可以通过简单编程方便地实现数值计算。DNA分析软件:Gene Construct Kit与大多数DNA分析的软件不同,它管理并显示克隆策略中的分子构建过程,包括分子构建,电泳条带。另外,还可以质粒作图。该软件附有详细的在线帮助,可供从事分子生物实验人员和克隆策略人员备用。DNA质粒构建软件:pDRAW是一个非常方便的质粒绘制工具与DNA分析工具。它包括DNA序列输入与分析、限制酶消化分析以及环形与线性DNA图形输出等许多功能。主要功能有:(1)对核酸加上注释,如基因起点。(2)虚拟克隆酶切片段。(3)序列修改编辑,可以将序列旋转一定的碱基距离,
21、或将方向相反。(4)分析限制性酶切位点,各种酶切位点可以较自由地选择。(5)ORF分析显示。(6)在PCR试验中计算某一对引物作为PCR的Tm值。(7)可以文本或图形方式显示结果。(8)可以导入的序列。蛋白质分析软件:MACAW是一种多序列构建与分析软件。主要用途:通过实施基因组计划,得到了大量的蛋白序列与DNA序列数据,了解数据及其相互关系,查找有用的片段是一个非常困难的工作。一些片段常常显示类似的分子结构与生物特性。用人工的方法是不可能完成如此大量的比较工作的。应用MACAW程序,借助统计学方法和一定的运算规则,来查找这些片段。蛋白序列分析软件包ANTHEPROT 5.0,包括了蛋白质研究
22、领域所包括的大多数内容,功能强大。主要功能:进行各种蛋白序列分析与特性预测,如进行蛋白序列二级结构预测;在蛋白序列中查找符合PROSITES数据库的特征序列;绘制出蛋白序列的所有理化特性曲线;在Internet或本地蛋白序列数据库中查找类似序列;计算蛋白序列分子量、比重与各蛋白残基百分组成;计算蛋白序列滴定曲线与等电点;选定一个片段后,绘制Helical Wheel图;进行点阵图(Dot Plot)分析;计算信号肽潜在的断裂位点等。搜索查看软件:Vector NTI Viewer,方便易用。主要功能:(1)输入文件格式广泛,除了molecule documents(.gb)本身文件格式外,还能
23、识别各种数据库应用格式软件:EMBL,GenBank,FASTA,Sequence files。(2)全部或部分序列可以拷贝到剪贴板,提供给其他程序使用。(3)载体图像可以拷贝到剪贴板上供给其他程序使用,或直接存盘成.wmf格式图像文件。主要功能:(4)可以查找特定序列,ORF(可以设置相关参数)、描述载体、限制酶位点、一些功能序列和附注。(5)整个界面由文本、图形和序列三部分构成,而且点击任意的序列、RE、基因,图形和序列均会自动标记到相应位置,非常直观方便。(6)载体形状可以圆形表示,也可以线形表示。(7)可进行核酸到蛋白的翻译。(8)图形可以放大缩小。统计分析软件:NoSA是一种中文统计
24、软件,覆盖了绝大部分常用的统计分析方法,融入了当代数据处理技术,从数据录入与管理、统计分析、绘图,到结果管理,能满足从事各类研究的同学、专家、学者对数据作统计分析的需要。检索软件:Entrez是NCBI用来在网络上查找生物资料的在线系统,可以在网上搜索找到相应的资料:(1)GenBank,EMBL,DDBJ 三大数据库中的DNA序列。(2)Swiss-Prot,PIR,PRF,PDB数据库中的蛋白序列以及从核酸翻译的蛋白序列。(3)基因组以及染色体作图数据。(4)由pdb衍生的三维蛋白结构,NCBI的Molecular Modeling Database(MMDB)。(5)文献引用数据库中的引用数据。生化工程中的反应器设计程序BioStat B发酵罐控制程序,用来收集发酵工艺数据、并采用模糊控制原理控制工艺参数;三维分子模型显示、编辑与构建程序,可以用各种模式显示3维分子,可以将几个蛋白叠加起来用来分析结构类似性,比较活性位点或其它有关位点,通过菜单操作与直观的图形,可以很容易获得氢键、角度、原子距离、氨基酸突变等数据;生物化学和微生物的一些基本原理的教学模拟软件;DNA和RNA分析软件;生命科学阅读与检索软件;辅助进行正交实验设计等的统计分析和数据处理软件等