ImageVerifierCode 换一换
格式:PPTX , 页数:67 ,大小:4.31MB ,
文档编号:4293650      下载积分:28 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-4293650.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(晟晟文业)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(特征选择、学习机器选择和样本选择课件.pptx)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

特征选择、学习机器选择和样本选择课件.pptx

1、 特征选择特征选择、学习机器、学习机器选择选择和和样本选择样本选择 大数据与信息时代,我们并不缺大数据与信息时代,我们并不缺少数据,缺少的是对数据深入分析、少数据,缺少的是对数据深入分析、挖掘、获取知识的能力。挖掘、获取知识的能力。数据变现,算法为王数据变现,算法为王 Y离散,分类(二分类或多分类);离散,分类(二分类或多分类);Y连续,回归连续,回归。任务任务:从:从m个自变量中找到个自变量中找到m个保留自变量,建立模型,个保留自变量,建立模型,对待测样本做出可信预测。对待测样本做出可信预测。非纵向数据有监督学习:非纵向数据有监督学习:数据矩阵数据矩阵(Yi,Xij)样本样本YX1X2XjX

2、m1Y1X1,1X1,2X1,jX1,m2Y2X2,1X2,2X2,jX2,miYiXi,1Xi,2Xi,jXi,mnYnXn,1Xn,2Xn,jXn,mY:因变量(表型、性状等)因变量(表型、性状等)X:自变量(特征、基因等)自变量(特征、基因等)行行:样本个数,:样本个数,n列列:自变量个数,:自变量个数,m 经典经典统计学统计学Y二分类二分类-X连续:连续:t 测验测验,|t|(0,)Y多分类多分类-X连续:连续:F 测验测验,F(0,)Y离散离散-X离散:卡方测验,离散:卡方测验,2(0,)Y连续连续-X连续连续:决定系数,:决定系数,R2(0,1)一、一、特征选择特征选择(1):两变

3、量关联:两变量关联单变量过滤,即单变量过滤,即Y与某个与某个X的两变量的两变量关联。关联。Y=f(X)非线性显性表达式未知而不可穷尽。)非线性显性表达式未知而不可穷尽。缺陷多多!缺陷多多!0.511.522.533.5x PositiveNegtive3.884.565.295.73IGLC1 Prostate tumorNontumor prostate1(00.5)2(00.5)3(00.5)传统两变量关联测度的缺陷:传统两变量关联测度的缺陷:t测验测验R2不能反映非线性关联不能反映非线性关联,不具不具普适性普适性。Y=ax2+bx+cR20实际实际Y与与X为完全关联为完全关联传统两变量关

4、联测度的缺陷:传统两变量关联测度的缺陷:R2两变量关联新测度两变量关联新测度-MIC 最大信息系数最大信息系数Maximal information coefficient(MIC)Reshelf et al,2011,Science,纯方法学论文纯方法学论文 源于互信息:源于互信息:I 0,+MIC0,1,0 完全独立完全独立,1 完全关联完全关联MIC 的普适性(的普适性(1)任意形式无噪音函数任意形式无噪音函数(线性或非线性线性或非线性),得分均为得分均为1。圆等非函数关联亦能检测到。圆等非函数关联亦能检测到。MIC 的普适性(的普适性(2)WHO:不同国家妇女肥胖程度与收入的关系不同国

5、家妇女肥胖程度与收入的关系 原因:几个太平洋岛国,妇女肥胖程度与社会地位正相关!原因:几个太平洋岛国,妇女肥胖程度与社会地位正相关!R20,不显著。,不显著。MIC=0.26,弱关联但显著弱关联但显著见前人之所未见!见前人之所未见!MIC 的等价性的等价性等噪音强度的不同函数等噪音强度的不同函数,MIC得分接近。得分接近。1-R2(y-y)MIC的简单理念的简单理念:画格子计数画格子计数不等间隔离散化寻优不等间隔离散化寻优频次分布频次分布,组距相等组距相等X0.330.33X0.66Y0.55205Y0.535035X0.250.25X 0.75Y0.50500Y0.525025等间隔均分等间

6、隔均分不等间隔划分不等间隔划分MIC实现算法实现算法ApproxMaxMI 分多少段?如何分段?分多少段?如何分段?强力搜索强力搜索,计算密集型计算密集型,动态规划算法动态规划算法 划分族划分族(clump)与超族与超族(Superclump)最大分段数最大分段数 B(n):xyn0.6 标准化矫正标准化矫正:logmin(x,y)MIC的局限的局限 MIC统计势低,统计势低,在小样本时易导致虚假关联在小样本时易导致虚假关联。MIC0 0,1,1,两个独立变量的两个独立变量的MIC趋于趋于0仅在仅在样本无穷大时成立。样本无穷大时成立。n=100,两个独立变量的,两个独立变量的MIC约为约为0.

7、24。简单情形,分段数要少;复杂情形,分段数可简单情形,分段数要少;复杂情形,分段数可多!不能多!不能统一采用最大分段数统一采用最大分段数 B(n):xyn0.6 MIC的改进:的改进:Chi-MIC Our work核心思想核心思想:在动态规划算法中每增加一个分段点实施一次卡方测验,在动态规划算法中每增加一个分段点实施一次卡方测验,若显著则增加该分段点,否则划分终止若显著则增加该分段点,否则划分终止。该多则多,该少则少!该多则多,该少则少!Chi-MIC的优点的优点(1)对对任意任意无噪音函数无噪音函数 ApproxMaxMI-MIC=Chi-MIC=1。Chi-MIC 同样具普适性。同样具

8、普适性。小样本小样本n=100,最大分段数最大分段数n0.6,两个独立变量,两个独立变量 ApproxMaxMI-MIC0.24 Chi-MIC0.06Chi-MIC的优点的优点(2)对有噪函数,对有噪函数,Chi-MIC有效地控制了格点划分过多有效地控制了格点划分过多。Chi-MICApproxMaxMI-MIC无噪函数无噪函数Chi-MIC的优点的优点(3)Chi-MIC有更高的统计有更高的统计势势,更能发现更能发现弱关联弱关联。统计势统计势是特定噪音强度下是特定噪音强度下假设测验假设测验正确拒绝零假设正确拒绝零假设的的比值。比值。1234567891000.51noise amplitu

9、depowerSinusoidal AMICChiMICdCor1234567891000.51noise amplitudepowerCircular BMICChiMICdCor1234567891000.51noise amplitudepowerCheckerboard CMICChiMICdCor双向双向控制分段控制分段后后B-chiMIC的统计的统计势更高。势更高。对对Chi-MIC的再改进的再改进-未发表未发表1234567891000.51noise amplitudepowerSinusoidal DMIC-Chi-MICdCor1234567891000.51Noise a

10、mplitudePowerCircular EMIC-Chi-MICdCor1234567891000.51noise amplitudepowerCheckerboard FMIC-Chi-MICdCorChi-MIC的优点的优点(4)Chi-MIC能更合理反映不同函数随噪音增加复杂度能更合理反映不同函数随噪音增加复杂度MCN的变化。的变化。MCN是最终划分格子数的对数是最终划分格子数的对数。Log24=2Log28=3Log26=2.58Chi-MIC的优点的优点(5)四个四个UCI实例实例,单变量过滤单变量过滤,前向选择,前向选择,SVM预测,预测,Chi-MIC可以可以更少的保留特更少

11、的保留特征获得更高的征获得更高的独立预测精度独立预测精度。Chi-MIC的优点的优点(6)Chi-MIC的搜索常常提前结束,更快捷,更适用于大数据。的搜索常常提前结束,更快捷,更适用于大数据。MIC的又一局限的又一局限:不能反映配对互作不能反映配对互作 两变量关联两变量关联Y=f(X)三变量关联三变量关联Y=f(X1,X2):配对互作配对互作 多变量关联多变量关联Y=f(X1,X2,Xm)?MIC is a great step forward,but there are many more steps to take.Speed.A Correlation for the 21st Cent

12、ury.Science,1502(2011)334 一、一、特征选择特征选择(2):考虑考虑配对互作的三变量关联配对互作的三变量关联仿真数据:仿真数据:MIC 不能检测到配对互作!不能检测到配对互作!红色:病人红色:病人绿色:健康绿色:健康三变量关联的分解三变量关联的分解(信息论信息论)Joint effect联合效应联合效应Interaction互作互作0 +三变量关联的分解三变量关联的分解(最大互信息最大互信息)Normalization Joint effect01Normalization Interaction-11Normalization single factor effect

13、01MIC(X1;X2;Y)实现算法实现算法:Our work?MIC(X1;X2;Y)实现算法实现算法MIC(X1 X2;Y)的普适性的普适性(1)X1、X2 均与均与 Y 无关。无关。样本大小样本大小 n=200,500 次重复次重复互作期望值:互作期望值:MIC(X1;X2;Y)=0互作计算值:互作计算值:MIC(X1;X2;Y)=0.08620.0130MIC(X1 X2;Y)的普适性的普适性(2)Y 完全由完全由X1 与与 X2的增效互作决定。的增效互作决定。互作期望值:互作期望值:MIC(X1;X2;Y)=1互作计算值:互作计算值:MIC(X1;X2;Y)=1Calculated

14、MIC(X1;Y)=0.0379Calculated MIC(X2;Y)=0.0533 Y 是是X1 与与 X2的无噪函数,且的无噪函数,且X1 与与 X2 完全冗余。完全冗余。如如:互作期望值:互作期望值:MIC(X1;X2;Y)=-1互互作计算值:作计算值:MIC(X1;X2;Y)=-1Calculated MIC(X1;Y)=MIC(X2;Y)=1MIC(X1 X2;Y)的普适性的普适性(3)Y 是是X1 与与 X2 的无噪函数的无噪函数联合效应期望值联合效应期望值:MIC(X1;X2;Y)+MIC(X1;Y)+MIC(X2;Y)=110个无噪音二元函数个无噪音二元函数 Y=f(X1,X

15、2)MIC(X1 X2;Y)的普适性的普适性(4)MIC(X1 X2;Y)的普适性的普适性(5)10个无噪二元函数的联合效应均接近于个无噪二元函数的联合效应均接近于1MIC(X1 X2;Y)的等价性的等价性 等噪音强度的不同等噪音强度的不同Y=f(X1,X2)函数,函数,联合效应联合效应MIC(X1 X2;Y)得分接近得分接近;近;近似满足等价性。似满足等价性。MIC(X1;X2;Y)发现增效基因:发现增效基因:真实数据真实数据Overlaps among MIC(X;Y),mRMR,SVM-RFE and TSGOverlaps among MIC(X;Y),mRMR,SVM-RFE and

16、 TSGOverlaps among MIC(X;Y),mRMR,SVM-RFE and TSGLittle overlaps between MIC(X1;X2;Y)and the othersLungDLBCLProstate俺能俺能找到他们找不到找到他们找不到的!的!增效基因验证增效基因验证-预测表现预测表现MIC(X1;X2;Y)选取的选取的增效基因增效基因具有具有与与单效应基因单效应基因 可比的预测可比的预测能力能力俺找到的也是有用的!俺找到的也是有用的!GO Annotation at Depth 5Ontology Annotations:ProstateMIC(X1;X2;Y)

17、MIC(Y;X)mRMRRFETSGresponse to pest,pathogen or parasiteresponse to external biotic stimulusresponse to abiotic stimulusregulation of nucleobase,nucleoside,nucleotide and nucleic acid metabolismregulation of cell proliferationprotein metabolismprogrammed cell deathphosphorus metabolismorganic acid me

18、tabolismorganelle organization and biogenesisnucleobase,nucleoside,nucleotide and nucleic acid metabolismneurogenesisnegative regulation of cellular physiological processmacromolecule catabolismmacromolecule biosynthesislipid metabolismion transportintracellular signaling cascadegeneration of precur

19、sor metabolites and energydefense responsecellular macromolecule metabolismcellular lipid metabolismcellular catabolismcellular biosynthesiscell surface receptor linked signal transductioncell cyclecarbohydrate metabolismbiopolymer catabolism -40-30-20-10010203040Prostate增效基因增效基因与单效应基因与单效应基因具具相同或类似的

20、相同或类似的生物学功能生物学功能.增效基因验证增效基因验证-GO 注释注释俺找到的还算可信!俺找到的还算可信!12600 genes,Prostate数据集数据集200 增效基因,增效基因,MIC(X1;X2;Y)选择选择67 增效基因与肿瘤相关,增效基因与肿瘤相关,Ougene数据库数据库18 增效基因与增效基因与prostate相关,相关,PubMed文献文献增效基因验证增效基因验证-文献报道文献报道俺找到的还算可信!俺找到的还算可信!与与Dendrogram-based方法比较方法比较与与Dendrogram-based方法比较方法比较67891011HPNDendrogram-base

21、d method4681012Dendrogram-based methodTRGV33.544.555.56MIC-based methodIGLC14.555.566.577.5MIC-based methodSLC43A1 57946810RBP1EEF1B2Dendrogram-based method468681012RBP1FTLDendrogram-based method5656RGS9DIAPH2MIC(X1;X2;Y)-based method5656DIAPH2CACYBPMIC(X1;X2;Y)-based method单效单效应基应基因因增效增效基因基因Dendrog

22、ram-basedMIC-basedProstate数据数据集,集,Top2基因基因是骡子是马,牵出来溜溜!是骡子是马,牵出来溜溜!沃尔玛周末啤酒与尿不湿销量的关联沃尔玛周末啤酒与尿不湿销量的关联全部数据:关联不明显全部数据:关联不明显周末:关联明显周末:关联明显原因:年轻爸爸,周末原因:年轻爸爸,周末球赛直播球赛直播组合摆放,销量增加!组合摆放,销量增加!该三变量关联发现纯属偶然,该三变量关联发现纯属偶然,MIC(X1;X2;Y)可主动发现!可主动发现!Chi-MIC(X;Y),可普适可普适选择单效应特征选择单效应特征MIC(X1;X2;Y),可普适选择配对增可普适选择配对增效特征效特征多多

23、变量关联:最优特征子集,变量关联:最优特征子集,?特征选择小结特征选择小结二二、学习机器选择、学习机器选择 线性线性:多元线性回归:多元线性回归MLR 非线性:人工神经网络非线性:人工神经网络ANN 归纳演绎:归纳(特殊归纳演绎:归纳(特殊一般),演绎(一般一般),演绎(一般特殊)特殊)转导推理:特殊转导推理:特殊特殊,特殊,支持向量机支持向量机SVM 都需要训练!都需要训练!MLR:Y=a+b1*x1+b2*x2,求,求参过程即训练参过程即训练 ANN:权重调整过程即训练权重调整过程即训练 SVM:核函数:核函数参数参数C、g、p优化过程即训练优化过程即训练二二、学习机器选择、学习机器选择

24、需要训练需要训练:MLR、ANN、SVM 不需要训练不需要训练:直接推理:直接推理?直接分类器直接分类器1:TSG 直接分类器直接分类器2:TSG 的改进版,的改进版,2-IRG-DC直接分类器直接分类器3:相对简单度,:相对简单度,RS-based DC 直接分类器决策过程示例直接分类器决策过程示例YX13且且X25X15X13且且X23且且X25+25224(25)3-0231(2)22训练集训练集n=100,保留特征为保留特征为X1和和X2某某待待测样本测样本(X1,X2)=(4,4)先假定其属于正类,则先假定其属于正类,则2425,得卡方值,得卡方值Chi+;再假定其属于负类,则再假定

25、其属于负类,则12,得卡方值,得卡方值Chi-;如如Chi+Chi-,则待测样本属于正类,反之属于负类,则待测样本属于正类,反之属于负类。多分类类推。过程中无任何参数需要调整寻优。多分类类推。过程中无任何参数需要调整寻优。10010010010010010010010010010010098.4410010010098.531009796.7898.9722222276.4778.131007596.6795.5296.6771.6245.6581.74777778020406080100120Leuk1Lung1Leuk2SRBCTBreastLung2DLBCLCancersGCMAver

26、ageAccuracy(%)FittingLOOCVtesting10010010010010010010010010010010010010010010010010010090.9798.9966666785.2978.1393.33959088.069093.2463.0486.23222222020406080100120Leuk1Lung1Leuk2SRBCTBreastLung2DLBCLCancersGCMAverageAccuracy(%)FittingLOOCVtesting需要需要训练分类器训练分类器泛化泛化性能性能过拟合过拟合!10096.8810010010095.599

27、1.3810010098.2055555610090.63100959095.5293.3378.3871.7490.5111111197.0678.1310010066.6794.0383.3382.4367.3985.44888889020406080100120Leuk1Lung1Leuk2SRBCTBreastLung2DLBCLCancersGCMAverageAccuracy(%)FittingLOOCVtesting97.3784.3898.2510010094.8594.8310096.5396.2455555697.3778.1398.2510094.4493.3894.83

28、91.0081.2592.0797.0681.2510010086.6795.5293.3379.7367.3988.99020406080100120Leuk1Lung1Leuk2SRBCTBreastLung2DLBCLCancersGCMAverageAccuracy(%)FittingLOOCVtesting直接直接分类器分类器泛化泛化性能性能有效控制有效控制过拟合过拟合!97.3795.3110010010094.8596.5599.0093.0697.3597.3792.1998.2510094.4494.1294.8397.0087.5095.0894.1284.38100100

29、93.3398.519090.5471.7491.40222222020406080100120Leuk1Lung1Leuk2SRBCTBreastLung2DLBCLCancersGCMAverageAccuracy(%)FittingLOOCVtesting直接直接分类器分类器泛化泛化性能性能有效控制有效控制过拟合过拟合!需要训练是多数分类器产生过拟合的主要原因。需要训练是多数分类器产生过拟合的主要原因。直接分类无任何参数需要优化,可有效控制过拟合!直接分类无任何参数需要优化,可有效控制过拟合!三、样本选择三、样本选择预测某个待测样本需要所有的训练样本吗?预测某个待测样本需要所有的训练样本

30、吗?三峡大坝建或不建?三峡大坝建或不建?全国人民投票,费时费力,未必准确全国人民投票,费时费力,未必准确 水利部长一人说了算,最近邻,水利部长一人说了算,最近邻,1NN;不稳健不稳健 若干不同领域专家(水利、发电、国防、生态、移民、若干不同领域专家(水利、发电、国防、生态、移民、泥沙沉积等)决策,泥沙沉积等)决策,K近邻,近邻,KNN。K=?K值选择难题值选择难题 如何从全国如何从全国15亿人口中找出这亿人口中找出这K1个专家?个专家?换一个待测样本,葛洲坝水电站,换一个待测样本,葛洲坝水电站,K2=K1?个性化预测个性化预测(个性化医疗)(个性化医疗)基于基于地统计学地统计学GS的个性化的个

31、性化预测预测图1 半变异函数模式图Fig.1 A typical semivariogram距离(h)半变异函数值 r(h)随机变量:随机变量:经典统计学经典统计学区域化随机变量:区域化随机变量:地统计学地统计学a 变程变程C 基台基台C 0 块金块金变变程以内的样本被认为是相关的!程以内的样本被认为是相关的!特征加权:特征加权:MIC(Y;Xi)高维空间:加权明氏距离高维空间:加权明氏距离变变程程a a待测样本待测样本K1=14K2=10K3=8待测待测样本样本 1 Zhang,H.Y.,Wang,H.Y.,Dai,Z.J.,Chen,M.S.,&Yuan,Z.M.*(2012).Impro

32、ving accuracy for cancer classification with a new algorithm for genes selection.BMC Bioinformatics,13(1),298.(Highly accessed)(SCI,IF=3.02)2 Zhou,W.,Dai,Z.J.,Chen,Y.,Wang,H.Y.,&Yuan,Z.M.*(2012).High-dimensional descriptor selection and computational QSAR modeling for antitumor activity of arc-111 a

33、nalogues based on support vector regression(SVR).International journal of molecular sciences,13(1),1161-1172.(SCI,IF=2.6)3 Li,J.L.,Wang,L.F.,Wang,H.Y.,Bai,L.Y.,&Yuan,Z.M.*(2012).High-accuracy splice sites prediction based on sequence component and position features.Genetics and Molecular Research,11

34、(3),3432-3451.(SCI)4 Qian,G.,Wang,H.Y.,Yuan,Z.M.*(2012).Using homology information from PDB to improve the accuracy of protein-turn prediction by NetTurnP.Progress in Biochemistry and Biophysics,39(5),472-482.(SCI)5 Wang,L.F.,Tan,X.S.,Bai,L.Y.,&Yuan,Z.M.*(2012).Establishing an interpretability syste

35、m for support vector regression and its application in QSAR of organophosphorus insecticide.Asian Journal of Chemistry,24(4),1575-1578.(SCI)6 Su,M.,Wang,L.F.,Dai,Z.J.,Yuan,Z.M.*,Bai,L.Y.(2012).Primary structural characterizations of polypeptide and antimicrobial peptides QSAM modeling.Chemical Journ

36、al Of Chinese Universities,33(11),2526-2531.(SCI)近近5年论文年论文1 Wang,H.Y.,Zhang,H.Y.,Dai,Z.J.,Chen,M.S.,&Yuan,Z.M.*(2013).TSG:a new algorithm for binary and multi-class cancer classification and informative genes selection.BMC medical genomics,6(Suppl 1),S3.(SCI,IF=3.47)2 WANG,Z.M.,HAN,N.,Yuan,Z.M.*,&WU

37、,Z.H.(2013).Feature selection for high-dimensional data based on ridge regression and SVM and its application in peptide QSAR modeling.Acta Physico-Chimica Sinica,29(3),498-507.(SCI)3 Zhou,W.,Dai,Z.J.,Chen,Y.,&Yuan,Z.M.*(2013).Computational QSAR models with high-dimensional descriptor selection impr

38、ove antitumor activity design of ARC-111 analogues.Medicinal Chemistry Research,22(1),278-286.(SCI)4 Wang,L.F.,Tan,X.S.,Yuan,Z.M.*,&Bai,L.Y.(2013).Novel QSAR combination forecast model for insect repellent coupling support vector regression and K-nearest-neighbor.Journal of the Chemical Society of P

39、akistan,35(4),1075-1080.(SCI)5 Han,N.,Yuan,Z.M.*,Chen,Y.,Dai,Z.J.,&Wang,Z.M.(2013).Prediction of HLA-A*0201 restricted cytotoxic T lymphocyte epitopes based on high-dimensional descriptor nonlinear screening.Acta Physico-Chimica Sinica,29(9),1945-1953.(SCI)6 Xie,Y.G.,Zhang,H.Y.,Wang,H.Y.,Wang,L.F.,Y

40、uan,Z.M.*(2013).Prediction of multidimensional time series based on GS-RSR-SVR and its application in agricultural economy.Bulgarian Journal of Agricultural Science,19(No 6),1327-1336.(SCI)1 Dai,Z.J.,Wang,L.F.,Chen,Y.,Wang,H.Y.,Bai,L.Y.,&Yuan,Z.M.*(2014).A pipeline for improved QSAR analysis of pept

41、ides:physiochemical property parameter selection via BMSF,near-neighbor sample selection via semivariogram,and weighted SVR regression and prediction.Amino acids,46:1105-1119.(SCI,IF=3.65)2 Wang,L.F.,Dai,Z.J.,Zhang,H.Y.,Bai,L.Y.,&Yuan,Z.M.*(2014).QSAM Analysis of Oligopeptides Coupling an Improved H

42、igh Dimension Feature Selection Method with Support Vector Regression.Chemical Biology&Drug Design,83:379-391.(SCI,IF=2.469)3 Zhang HY,Li LZ,Luo C,Sun CW,Chen Y,Dai ZJ,Yuan ZM*.(2014).Informative gene selection and direct classification of tumor based on chi-square test of pairwise gene interactions

43、.BioMed Research International,http:/dx.doi.org/10.1155/2014/589290.(SCI,IF=2.706)4 Li Y,Zhou W,Dai ZJ,Chen Y,Wang ZM,Yuan ZM*.(2014).Predicting the protein folding rate based on sequence feature screening and support vector regression.Acta Physico-Chimica Sinica,30(6):1091-1098(SCI)5 Kai Wang,Li-Fe

44、ng Wang,Zhi-Jun Dai,Lian-Yang Bai,Zhe-Ming Yuan*.(2014).QSAR modeling of E.coli promoters with parameters selected by binary matrix shuffling filter.J.Indian Chem.Soc.,91:2247-2253(SCI)1 Zhou W.,Wu S.B.,Dai Z.J.,Chen Y.,Xiang Y.,Chen J.R.,Sun C.Y.,Zhou Q.M.,Yuan Z.M.*(2015).Nonlinear QSAR models wit

45、h high-dimensional descriptor selection and SVR improve toxicity prediction and evaluation of phenols on photobacterium phosphoreum.Chemometrics and Intelligent Laboratory Systems,145:30-38.(SCI,IF=2.321)2 Chen Y.,Zhou W.,Wang H.Y.,Yuan Z.M.*(2015).Prediction of O-glycosylation sites based on multi-

46、scale composition of amino acids and feature selection.Medical&Biological Engineering&Computing,53(6):535-544(SCI).3 Sun C.W.,Dai Z.J,Zhang H.Y.,Li L.Z.*,Yuan Z.M.*(2015)Binary matrix shuffling filter for feature selection in neuronal morphology classification.Hindawi Publishing Corporation Computat

47、ional and Mathematical Methods in Medicine.http:/dx.doi.org/10.1155/2015/626975(SCI)4 Li L.Z.,He X.H.,Zhang H.Y.,Wang Z.M.,Sun C.W.,Mou T.M.,Li X.Q.,Zhang Y.M.,Hu Z.L.(2015)Genomewide mapping reveals a combination of different genetic effects causing the genetic basis of heterosis in two elite rice

48、hybrids.Journal of Genetics,94(2):261-270.(SCI)教育部新世纪优秀人才支持计划教育部新世纪优秀人才支持计划(NCET-06-0710)国家自然科学基金国家自然科学基金(61300130,30570351)教育部博士点基金教育部博士点基金(200805370002,20124320110002)湖南省杰出青年基金湖南省杰出青年基金(10JJ1005)王海燕博士王海燕博士(Kansas State University)罗峰博士罗峰博士(Clemson University)周玮博士周玮博士/李兰芝博士李兰芝博士(湖南农业大学湖南农业大学)博士生博士生:(张红燕(张红燕,王志明王志明,王立峰王立峰,代志军代志军,陈渊)陈渊)

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|