R软件在生物学分析中的应用课件.ppt

上传人(卖家):晟晟文业 文档编号:4714989 上传时间:2023-01-04 格式:PPT 页数:39 大小:2.35MB
下载 相关 举报
R软件在生物学分析中的应用课件.ppt_第1页
第1页 / 共39页
R软件在生物学分析中的应用课件.ppt_第2页
第2页 / 共39页
R软件在生物学分析中的应用课件.ppt_第3页
第3页 / 共39页
R软件在生物学分析中的应用课件.ppt_第4页
第4页 / 共39页
R软件在生物学分析中的应用课件.ppt_第5页
第5页 / 共39页
点击查看更多>>
资源描述

1、Genomic responses in mouse models greatly mimic human inflammatory diseasesGenomic responses in mouse models poorly mimic human inflammatory diseasesvivian R R语言在生物学中的应用语言在生物学中的应用 与起源于贝尔实验室的S语言类似,R也是一种为统计统计计算计算和绘图绘图而生的语言和环境。相比于Excel,SPSS,Minitab,SAS,Stata,R有其独特的优势:1.完全免费2.几乎任何类型的数据分析都能在R中得到解决3.拥有顶尖水

2、准的绘图功能4.进行交互数据分析和探索的强大平台5.可使用一种简单而直接的方法编写新的统计方法R简介简介导入数据在新数据上评估模型的预测效果拟合一个统计模型评估模型拟合结果模型的交叉验证形成报告数据准备、探索和清理典型的数据分析步骤典型的数据分析步骤 1.最新的方法进行数据分析分析2.有意义有吸引力的图形图形化方式展示结果当代研究需要当代研究需要:正是一个适合完成以上目标的理想而又功能全面软件 第一大功能第一大功能 绘图绘图散点图添加了最佳拟合线性直线和平滑曲线各子集通过不同颜色和不同符号加以区分,并同时绘制线性拟合和平滑拟合曲线散点图散点图利用代码将变量重新排序,相关性最高离主对角线越近,红

3、色表明相关性大简单相关关系图散点图矩阵散点图矩阵添加了垂直线和阴影利用多元回归方程,添加了一个平面预测值3D散点图散点图相关图:相关图:通过相关系数矩阵图,可以回答被考察变量与其他变量间相关性强弱,相关变量是否以某种特定的方式聚集在一起等问题。矩阵的行和列通过主成分分析法进行了排序,斜杠指向表明正负相关,颜色深浅表示相关性大小相关关系图相关关系图 按船舱等级、乘客性别和年龄层绘制的泰坦尼克号幸存者的马赛克图马赛克图马赛克图 第二大功能第二大功能 数据分析数据分析计算描述性统计量summary()sapply()describe()stat.desc()分组计算描述性统计量aggregate()

4、by()summaryBy()describe.by()reshape包独立性检验chisq.test()fisher.test()mantelhaen.test()计算相关系数Pearson相关系数Spearman相关系数Kendall相关系数polychoric相关系数polyserial相关系数偏相关系数非参数检验wilcox.test()kruakal.test()friedman.test()基本统计分析基本统计分析简单线性回归多项式回归多元线性回归交互项多元回归正态性独立性线性同方差性选择最佳回归模型anova()赤池信息准则:AIC()逐步回归:tepAIC()全子集回归:reg

5、subsets()k重交叉验证:crossval()相对权重:relweights()回归回归离群点:outlierTest()高杠杠值点:hat.plot强影响点:cooks D 模型比较变量选择OLS回归回归诊断异常观测值深层次分析单因素方差分析单因素协方差分析双因素方差分析重复测量方差分析多元方差分析用回归来做ANOVA方差分析方差分析1.“我的研究到底需要多少个受试者呢?”2.“对于我的研究,现有x个受试者,这样的研究值得做吗?”给定置信度的情况下,可以:1.判断检测到给定效应值时所需的样本量。2.计算某样本内能检测到给定效应值的概率。功效分析功效分析功效分析功效分析数据来自未知分布,

6、存在严重的离群点,样本量过小,没有参数可以回答你所感兴趣的问题时,置换检验法与自助法无疑是非常实用的。重抽样与自助法重抽样与自助法Logistic回归二值型结果变量泊松回归计数型结果变量广义线性模型广义线性模型 对于处理潜变量的统计模型,即处理那些你坚信存在并能解释可观测变了的无法被观测到的、理论上的变量。在R中,可以利用因子分析法检测和检验这些无法被观测到的变量的假设。主成分和因子分析主成分和因子分析 用用R R进行基因芯片数据分进行基因芯片数据分析处理析处理举例举例基因芯片扫描图像基因芯片扫描图像如果芯片图像有斑块现象就很可能是坏片对灰度值做简单的统计分析对灰度值做简单的统计分析箱线图Hi

7、stogram图MA-plot分析分析IQR差别大的芯片可能有问题,但芯片能不能用得看具体情况(参考其他指标)而定RNA降解分析降解分析理想状况下各样品的线(分段)是平行的。从上面图上看芯片1可能有点问题用用simpleaffy包进行分析包进行分析平均背景值,如果太大则表示可能有问题affy建议每个样品间的scale factor差异不能超过3倍表达基因所占的比例,太小则表示有问题第二步第二步 芯片数据预处理芯片数据预处理 虽然说是背景处理,但是这一步既处理背景值,又处理噪声信号。芯片的背景处理理论上很简单,因为Affy公司设计MM的目的就是检测非特异杂交信号,但是研究发现居然有多达30%的M

8、M探针获得的信号强度比相应PM探针的还强。R软件包affy用于芯片背景噪声消减的函数是bg.correct(),而MAS和RMA方法是最常用的两种方法。背景处理背景处理Affy芯片数据的预处理一般有三个步骤:1.背景处理(background adjustment)2.归一化处理(normalization,或称为“标准化处理”)3.汇总(summarization)最后一步获取表达水平数据。需要说明的是,每个步骤都有很多不同的处理方法(算法),选择不同的处理方法对最终结果有非常大的影响。选择哪种方法是仁者见仁智者见智,不同档次的杂志或编辑可能有不同的偏好。归一化处理归一化处理 同一个RNA样

9、品用相同类型的几块芯片进行杂交,获得的结果都不可能完全相同,甚至差别很大。为了使不同芯片获得的结果具有可比性,必需进行归一化处理。这一步的方法也很多。线性缩放方法非线性缩放方法分位数方法其他,如Cyclic loess和 Contrasts方法背景校正背景校正汇总汇总常用的汇总方法是medianpolish,liwong和mas获取差异表达基因获取差异表达基因计算基因表达量 运用exprs函数就可以从eset数据中提取出表达量,得到的数据类型是矩阵。但是应该注意rma的eset结果是经过对数变换的,而mas5的eset结果是原始信号强度。计算均值计算表达量差异倍数(1h,24h和7d与0h对比

10、)筛选表达基因获取差异表达基因获取差异表达基因 生物学数据分析时的差异应该有两个意思,一是统计学上的差异,另外一个是生物学上的差异。差异表达基因的选取一般设置至少两个阈值:基因表达变化量和统计显著性量度(p值、q值等)经常使用的筛选阈值是表达量变化超过2倍,即|log2(fc)|=log2(2)简单t检验Wilcoxons signed-rank test中的parisonModerated T statistic拟南芥基因数据库中,有PATH注释的probesets只有3018个,而有GO注释的有2万多个GO 和和 KEGG分析分析计算距离聚类分析聚类分析聚类Heatmap图图关闭按行排序关闭按行排序改变排序改变排序分组,分组,设定设定组颜组颜色色结语结语 R是一个庞大、健壮而且在不断进化的统计平台和编程语言。对于生物信息学分析无疑是一款强大的软件,要是能掌握它,相信大部分数据对于你来说,都是“小菜一碟”了!THANK THANK YOUYOU

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(R软件在生物学分析中的应用课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|