1、2022-6-2生物信息学高性能计算平台的构建与使用提纲生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A2022-6-22022-6-2生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A2022-6-2生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&AWhy Bioinformatics?2022-6-2Bioinformatics: What do we need? What do we need?满足各种生物信息学分析所需的大规
2、模计算能力的平台对分子生物信息数据能够快速获取的平台从互联网快速接入服务器并进行生物信息学分析的平台Why High Performance Computing(HPC)?2022-6-21超大规模的数据处理 基因组测序序列: 51020量级 蛋白质折叠计算: 31023 量级 药物设计 平均筛选10000种化合物以上才能得到一种新药2超大计算规模的算法 分子动力学模拟 分子相互作网络 分子进化分析 蛋白质结构模拟3多用户同时的计算需求 一个和尚、两个和尚、三个和尚我们的已经完成的工作满足各种生物信息学分析的HPC快速获取各种分子生物信息数据随时从网络接入提交计算任务来分析数据1. 将多个重要
3、的生物信息数据库本地化安装2. 建立了一个高性能计算系统3. 将平台接入校园网/互联网生物信息学平台的架构http:/磁盘存储阵列万兆网络交换机数据库系统高性能服务器刀片式服务器集群(Cluster)存储系统高性能计算系统生物信息学平台硬件与软件系统 HardwareSoftwareOur Platform浪潮天梭高性能服务器集群(cluster)Linux系统: Rocks Cluster5.4 CentOS 5.5 RedHat AS 4.System Area NetworkLocal Area NetworkLANMemoryI/O BusMemory BusSystem1Chipse
4、tSANCPUsLANMemoryI/O BusMemory BusSystem2ChipsetSANCPUsLANMemoryI/O BusMemory BusSystem3ChipsetSANCPUsWhat is Cluster(集群)?2022-6-2多台计算机通过高速网络连成一个并行计算系统Why cluster?2022-6-2从几十个节点到几万个节点并行计算的最优选择之一单个节点的故障不影响整体Why cluster?2022-6-2普通PCclusterJaguarRoadrunner天河1号K ComputerWhat is Rocks Cluster?Rocks Clust
5、er集成生物信息学软件包一种免费集群操作系统基于CentOS LinuxRocks Cluster 5.4 的主要功能模块2022-6-2 Rocks Roll基本功能模块RedHat Linux内核操作系统组件SUN Grid Engine 分布式任务管理系统1. Base roll2. Kernel3. OS4. SGE5. bioBiosoft Package我校生物信息学平台拓扑结构图用户用户26个刀片式计算节点One Computer!生物信息平台物理分布视图生物信息学平台计算机群p 数据库节点 双路Intel 至强5450处理器2.83GHZ 8个核心,32G 内存p 其他节点 8
6、核、16G 内存p 存储系统 30个1 TB硬盘的存储阵列p 性能指标:p 208个计算核心p 2万亿次/秒 浮点运算以Rocks Cluster为核心的Linux操作环境Rocks cluster 5.416G 内存64位CentOS 5.432G 内存64位Rocks cluster 5.416G 内存64位bio-linux 6.0 2G RAM32位 管理节点 数据库节点 终端计算机 计算节点平台操作环境为什么选择Unix/Linux来构建平台? 科学研究的通用平台 90%以上的科学软件在Unix/Linux下开发 多数生物信息学软件只有Unix/Linux版本 数量庞大的各种小工具
7、Sed, awk, vi, emacs, diff, cvs, etc 极多的高质量文档 免费_ !各节点的主机名称及IP地址 管理节点 主机名称:big.hpc.org; IP地址:202.202.232.201 计算节点(26台刀片式服务器) Blade1: compute-0-0compute-0-9 Blade2: compute-1-0compute-1-9 Blade3: compute-2-0compute-2-5 数据库节点: 主机名:database IP地址:202.202.232.202 访问域名:http:/ 2022-6-2平台的并行计算环境 MPI( Message
8、 Passing Interface) MPICH2 l 最基本的MPI,运行简单,应用广泛,效率不高l 安装路径: /opt/mpich2/gnu/bin/ openmpil 功能强大、灵活,支持infiniband,效率高l 安装路径:/opt/openmpi/bin/ 各计算节点的公共目录 /disk1 和 /disk2,容量均为8T2022-6-2平台的任务管理系统 SGE 任务管理系统:自动分配计算资源来运行用户的计算任务 Sun Grid Engine (SGE) LSF OpenPBS 本平台安装的是SGE 用户在进行生物信息学计算之前,需要编写SGE计算脚本文件,通过提交脚本文
9、件来使用计算资源。2022-6-2 其他设备:bio-linux终端计算机 1. 安装了bio-linux系统,图形操作界面 2. 集成了十多种生物信息学软件,免费使用 3. 可迅速连接高性能计算系统进行大规模计算分析2022-6-2生物信息学平台的使用方式 使用方式 通过校园网或互联网的任意计算机远程登录使用 前来我校基础部生命科学楼7楼本地使用2022-6-2生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A国际生物信息数据库的本地化过程下载元数据构建检索系统发布数据库已经收录的数据库GenbankUniprot KBPDBEMBLRe
10、fseqPrositeMRS检索系统l20多个生物医学相关的数据库l主要数据库每日更新l集成Blast、ClustalW、Jmol等分析工具l可将自己的Web-Server程序、数据库发布到互联网MRS数据库综合检索系统 Entrez The Life Science Search Engine - NCBI SRS = Sequence Retrieval System - EBI MRS = Maartens Retrieval System - BIC at TMMU Google = Th best generic search and retrieval system2022-6-2
11、fastLinux x86-64 versionfree生物信息数据库的使用231 登录生物信息中心主页: http:/ 从主页进入生物信息数据库 在检索栏内通过输入关键词等方式检索数据 选择所需要 的数据库生物信息数据库检索系统:一站式检索2022-6-2生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A高性能计算系统的使用Linux基础知识1已安装生物信息学软件2用户使用流程3生物信息学实例分析41、Linux基础知识 什么是Linux? 免费的类Unix操作系统,适合PC机、服务器 具有Unix的全部功能,稳定,高效,网络性能优异 以
12、Linux为基础的不同的发行版(Distribution): Ubuntu: 适合初学者 Debian: Ubuntu的始祖,适合系统管理员 Fedora: 适合专业开发者 Redhat/CentOS: 适合个人或企业级服务器 openSUSE:适合个人办公Linux很难吗? 看起来很复杂,不知从何下手 实际上上手很快 Linux系统不好用 *nux不是用来当桌面的 书太多,每本都很厚 推荐OReilly系列Linux系统的主要组成Linux的内核:内核是系统的核心,是运行程序和管理像磁盘和打印机等硬件设备的核心程序。Linux SHELL: Shell是系统的用户界面,提供了用户与内核进行交
13、互操作的一种接口。Linux文件系统: Linux文件系统是文件存放在磁盘等存储设备上的组织方法。Linux能支持多种文件系统,如EXT2、EXT3、FAT、VFAT、ISO9660、NFS、SMB等。Linux应用系统:标准的Linux系统都有一整套称为应用程序的程序集,包括文本编辑器、编程语言、办公套件、Internet工具、数据库等。Linux命令模式下的基本操作命令 ls 或者 ll: 列出当前目录下全部文件 相当于DOS下的dir cd : 改变当前目录至指定目录 例:zoulybig $ cd /disk1/biosoft/ mkdir: 建立文件夹 例:zoulybig $ mk
14、dir blast-test cp: 拷贝文件命令 例: zoulybig $ cp enzyme.dat /disk1/data/ pwd: 查看用户当前所在的路径Linux命令模式下的基本操作命令 cat:查看文件内容 zoulybig $ cat 1OMB.pdb more: 逐屏显示文件内容 vi:新建文件或编辑文件 例:zoulybig $ vi 1OMB.pdb mv: 移动文件或目录 rm: 删除文件或目录Linux下解压缩文件 全能的解压缩命令: tar 例: tar xvfj blast2.2.21.tar.bz2 tar xvfz blast2.2.21.tar.gz ta
15、r xvfz blast2.2.21.taz tar xvf blast2.2.21.tar2、平台上已安装的生物信息学软件软件类型软件类型软件名称软件名称软件版本软件版本安装路径安装路径说明说明序列相似序列相似性比较性比较fasta35.4.9/opt/bio*(系统自带系统自带)blast2.2.21/disk1/biosoft(后安装后安装)mpiblast1.5.0/opt/bio并行并行blast *多序列多序列比对比对ClustalW2.0.12/opt/bio*ClustalW-mpi0.15/disk1/biosoft并行并行ClustalW T_coffee8.14/opt/
16、bio*MUSCLE4.0/disk1/biosoft软件类型软件类型软件名称软件名称软件版本软件版本安装路径安装路径说明说明全基因组全基因组比较比较Mauve2.3.1/disk1/biosoftGenomeComp1.3/disk1/biosoftMUMmer3.22/disk1/biosoft基因组注基因组注释和分析释和分析glimmer3.0.2/opt/bio微生物基因预测微生物基因预测*EMBOSS6.1.0/opt/bio综合分析包综合分析包*ncbi6.1-4/opt/bio综合分析包综合分析包*分子进化分子进化与系统发与系统发生分析生分析phylip3.69/opt/bio*
17、mrbayes3.1.2/opt/bio*PAML4.4/disk1/biosoft软件类型软件类型软件名称软件名称软件版本软件版本安装路径安装路径说明说明蛋白质序蛋白质序列和结构列和结构分析分析Hmmer2.3.2/opt/bio保守结构域鉴定保守结构域鉴定*DomainFinder2.0.4/disk1/biosoftInterproscan4.6/disk1/biosoftModeller9v9/disk1/biosoft蛋白质结构预测蛋白质结构预测Rasmol2.7.3/disk1/biosoft三维结构观察三维结构观察序列拼接序列拼接与分析与分析Tigr_Assembler3.0.2
18、/opt/bio*CAP33.0/disk1/biosoftStaden package2.0b6/disk1/biosoft分子对接分子对接Autodock4.2.1/opt/bio*Autodock_vina4.3/disk1/biosoftDock/Dock_mpi6.4/disk1/biosoft软件类型软件类型软件名称软件名称软件版本软件版本安装路径安装路径说明说明分子模拟分子模拟gromacs4.0.5/opt/bio*NAMD2.7/disk1/biosoftVMD1.8.6/disk1/biosoft分子网络分子网络分析分析osprey1.2.0/disk1/biosoft分子
19、网络构建分子网络构建cytoscape2.6.3/disk1/biosoft分子网络可视化分子网络可视化RNA折叠折叠与非编码与非编码RNA预测预测mfold3.5/disk1/biosoftunafold3.8/disk1/biosoftmiranda3.3/disk1/biosoftmiRNA作用位点预测作用位点预测其他软件其他软件MatlabR2010a/disk1/biosoftprimer33.0/disk1/biosoft引物设计引物设计如何在平台上运行一个生物软件? 安装在/opt/bio/下面的软件,登录平台后可直接运行例如:zoulybig $ autodock4 安装在/d
20、isk1/biosoft/下的软件,SSH登录平台后,运行带完整路径的执行程序名例: zoulybig $ /disk1/biosoft/autodock/bin/aotudock4 上传软件到自己的目录下使用例:上传Autodock程序到自己的目录 /disk1/zouly/Autodockzoulybig $ ./Autodock4/autodock4点击演示如何进入本地数据库的ftp下载原始数据 生物信息数据ftp地址为 ftp:/202.202.232.202 对应的计算网络内的ip为:10.1.1.103 利用Linux 自带的ftp工具进入,命令:ftp 10.1.1.103202
21、2-6-2 输入用户名: anonymous,即可登陆 使用 get 命令可以下载其中的文件到用户目录 使用 close命令关闭ftp连接 使用quit命令退出ftp程序2022-6-23、用户使用流程介绍用户申请帐号SSH方式登录平台编写计算任务的脚本提交计算任务计算完成, 获得结果3.1 用户账号申请和使用 通过下列电子邮箱申请免费使用帐号 bioinfo_ 申请用户名为姓名拼音与数字的组合,如贾君鹏,可申请用户名 jiajp 或 jiajunpeng 或 jiajp1982,等等 申请的帐号和密码将通过邮箱发送给用户 用户目录默认在 /disk1或/disk2下,如贾君鹏的目录: /di
22、sk1/jiajp2022-6-23.2 登录/退出平台平台登录的IP地址:202.202.232.201连接校园网和互联网的计算机均可登录通过SSH方式登录平台Windows用户推荐使用Xmanager软件包中的xshell软件来登录Linux用户可直接通过SSH方式登录要登录图形桌面推荐使用VNC Viewer软件进行用户计算机与平台之间上传下载数据推荐使用Xmanager中的xftp来进行以上软件可到http:/ 下载2022-6-2使用Xmanager中的Xshell登陆平台 Xshell登陆演示 登陆后的个人用户目录位于 /disk1 如:用户zouly 登陆后,其用户目录为 /di
23、sk1/zouly2022-6-2使用Xmamager中的 xshell软件登录平台示例2022-6-2视频演示SSH方式登录成功!使用XFTP在用户和平台之间上传下载文件2022-6-22022-6-2本地目录计算平台用户目录视频演示使用VNC Viewer登录图形界面的步骤 第1步:自己的电脑上安装VNC-4.0软件 第2步:SSH方式登录平台,然后运行vncserver命令,设定vnc连接密码,确定连接端口号(图中端口号是3) 以用户zouly为例,运行vncserver命令:2022-6-2第3步,修改用户登陆配置文件 $HOME/.vnc/xstartup如,zouly用户修改 /d
24、isk1/zouly/.vnc/xstartup将该文件中最后一行的 twm & 修改为 gnome-session &第4步:启动VNC Viewer,输入202.202.232.201:端口号第5步: 输入连接密码, 远程图形界面登录成功视频演示第6步:退出图形化登陆,删除连接端口号 删除连接端口的命令:vncserver kill :端口号 例如:2022-6-23.3 编写计算任务脚本确定需要使用哪个软件来进行计算分析阅读该软件的使用手册,了解软件的使用方法根据你的计算任务,编写一个SGE计算任务脚本文件,该文件对你需要系统进行计算的任务进行描述。2022-6-2Example:使用c
25、lustalw-mpi进行多序列比对2022-6-2问题:对来自多个菌种的traG蛋白质序列进行比对解决思路:使用并行ClustalW程序ClustalW-mpi,对序列进行多序列比对.参考分析流程:SSH登录系统上传序列文件 traG.fasta 到自己的目录编写SGE脚本文件,提交分析结果步骤 1:上传待分析的数据 traG.fasta 通过xftp上传数据到用户工作目录 /disk1/zouly/traG步骤 2:编写mpiblast的计算脚本文件在工作目录内创建一个文件,如clustalw-mpi.qsub,内容如下#!/bin/bash#$ -cwd#$ -j y#$ -S /bin
26、/bash #export MPI_DIR=/opt/openmpi/$MPI_DIR/bin/mpirun -np $NSLOTS /disk1/biosoft/clustalW-mpi/clustalw-mpi-0.15/clustalw-mpi -infile=traG.fasta -outfile=result.aln2022-6-2#!/bin/bash#$ -cwd#$ -j y#$ -S /bin/bash #clustalw-mpi.qsub 脚本文件内容的含义解析:公共部分,所有脚本通用/disk1/biosoft/clustalw-mpi/clustalw-mpi-0.15
27、/clustalw-mpi -infile=traG.fasta -outfile=result.aln声明使用openmpi并行环境export MPI_DIR=/opt/openmpi/$MPI_DIR/bin/mpirun调用mpirun进行并行计算使用clustalw-mpi进行序列比对的程序命令/disk1/biosoft/clustalw-mpi/clustalw-mpi-0.15/clustalw-mpi -infile=traG.fasta -outfile=result.alnclustalw-mpi程序的路径-infile= 指定输入的序列文件名 -outfile= 指定保
28、存比对结果的文件名clustalw-mpi程序执行命令解析:步骤3:向系统提交计算任务 将写好的脚本程序提交到系统,SGE将自动分配计算节点开始计算 提交计算任务的命令如下:zoulybig traG$ qsub -pe orte 16 clustalw-mpi.qsubYour job 54 (clustalw-mpi.qsub) has been submitted提交计算任务的命令解析:qsub 提交计算任务的命令-pe orte 16 申请使用16 个CPU 计算核心来进行计算clustalw-mpi.qsub 脚本文件的名称步骤4:查看计算任务状态查看任务运行状态的命令 qstat
29、(查看基本信息) qstat -f (查看计算节点工作状态) qstat -j job-ID (查看正在运行的任务的详细情况)2022-6-2zoulybig traG$ qstat job-ID prior name user state submit/start at queue - 54 0.55500 clustalw-m zouly r 04/27/2011 15:49:46 all.qcompute-0-9.local 步骤5:查看计算结果结果保存在result.aln文件中2022-6-2使用qdel命令删除已经提交的计算任务 使用命令:qdel job-ID 例如,用户提交的计
30、算任务ID号为60,则删除该计算任务的方法: zoulybig t$ qdel 602022-6-2 SSH 连接生物信息学平台演示 图形方式连接生物信息学平台演示 XFTP 上传下载文件 使用clustalw-mpi 进行并行计算任务提交演示2022-6-2生物信息学平台使用演示 使用平台进行生物信息学分析实例使用Mauve 比对多个肠道杆菌全基因组1使用Modeller进行蛋白质结构建模2 使用Gromacs进行分子动力学模拟32022-6-2生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&AAny Question?生物学中有着至少500年也解决不完的有趣问题。 Donnald E. Knuth (美国著名计算机科学家)思考题 申请一个高性能计算平台账号,登录并运行一个程序 在生物信息学中心数据库系统中检索并下载某个蛋白质家族的1000条以上的序列数据,编写计算脚本,使用高性能计算系统进行并行多序列比对,给出比对结果2022-6-277Thank you!