1、图像分类算法与应用研究报告人:张德园导 师:王晓龙教授目录n研究背景n相关研究工作n已有工作基础n论文主要研究内容课题来源n本课题来源于国家八六三计划目标导向类课题“基于NLP的智能搜索引擎”(项目编号:2006AA01Z197)。实际意义n按照语义内容进行图像管理/图像浏览n减少人工标注时间(Flickr,Picasa)n辅助图像检索(Google,Baidu,Picsearch)图像分类的语义层次James Wang:1.语义类别(例如照片照片或者剪贴画,室外室外)2.物体的罗列(人,篮球架,楼)3.抽象的语义(运动,打篮球)4.具体的语义(具体的描述一个图像)场景分类物体分类Caltec
2、h 101图像分类 海滩 恐龙 非洲 图像分类的挑战尺度变化尺度变化光照变化光照变化图像分类的挑战类内差异类内差异类间差异类间差异研究现状n图像表示底层视觉特征表示语义图像表示词包模型表示n机器学习算法多示例学习算法底层视觉特征表示nVailaya 6类假日图片 层次分类 贝叶斯分类器nChang 全局特征,SVM分类器n付岩 3类图片 3种颜色特征对比 SVM分类器nTorralba 收集了8000万张32*32的图片,用最近邻方法进行分类nSzummer和Picard 分类“室内”/“室外”颜色和纹理特征 K-NN 投票nSerrano SVM分类 SVM输出结果相加nPaek和Chang
3、 图像分割 使用贝叶斯网络语义图像表示(全局)Spatial Envelope-Oliva和Torralba提出NaturalnessOpennessRoughnessExpansionRuggedness语义图像表示(局部)Vogel和Schiele提出词包模型nDensenHarris-LaplacenHessian-LaplacenHarrisnHessiannEdge-LaplacenHaar-HessiannDoG(Difference of Gaussian)nPatchnSIFTngradient location and orientation histogram(GLOH)n
4、shape contextnsteerable filtersnmoment invariantsnSURF感兴趣区域检测器感兴趣区域检测器描述子描述子State of Art方法n词汇表的构造(K-Means,GMM,VQ,pLSA)n图像相似性的度量(Distance Metric Learning,Kernel Methods(PMK,EMD)n多特征融合(Random Forest/Ferns,SVM)n图像空间信息的利用(Spatial Pyramid,ABS-pLSA,TSI-pLSA,LDA(Fei-Fei)n感兴趣区域选取(Anna Bosch)多示例学习n多示例训练集由包(b
5、ag)组成,每个包里面包含多个实例(instance)。如果一个包为正例,则包中至少有一个实例为正例;如果一个包为反例,则包中所有的实例均为反例。n方法:MaronDiverse DensityAndrew Mi-SVM以及MI-SVMChen DD-SVM以及MILESQi DD-SVM变种周志华MIML框架(Multi-Instance Multi-Label)已有工作基础n支持向量机(SVM)进行图像分类n融合多分类器的图像分类SVM进行图像分类 0,1 s.t.21,min1jbyCbJjjjTjljjTxwwww xx :HX ,xxxxk常用核函数0 ,2exp,22xxxxk0
6、,exp,2xxxxk高斯核(Gaussian RBF):0 ,exp,xxxxk0 ,exp,xxxxk拉普拉斯核(Laplacian RBF):0 ,cNdckdxxxx1,1 ,11,xxxxxxk多项式核(polynomial):无限多项式核(infinite polynomials):Svetlana Lazebnik-Spatial Pyramid Matching Kernel(空间金字塔匹配核空间金字塔匹配核)Spatial Pyramid RBF Gaussian KernelSpatial Pyramid 2 Kernel 2Di=1,exp ,0llllXYXyI HHH
7、iHi 2Di=1,exp ,0llXyllXYllXyHiHiI HHHiHiEvaluationCorel图像库中的10类Libsvm,5折交叉验证C=2-3,2-1,215=2-15,2-13,25Spatial Pyramid RBF Gaussian KernelSpatial Pyramid 2 Kerneln以上两种核的结果都有所提高n1+4的形式最好n自动学习出权重多分类器融合的图像分类多分类器融合框架多分类器融合框架模糊积分()()maxmin(min(),()kkkx EETTeh tg th tg E0,1maxmin(,()g h max min,kkiiehtg A
8、11g Agt111iiiiig Agg Ag g Ain 函数g:2T 0,1叫做g模糊测度,如果它满足如下性质:(I)g()=0;(II)g(T)=1;(III)g(A)g(B),if AB 并且 A,BT(IV)对于所有的A,BT并且 AB=g(AB)=g(A)+g(B)+g(A)g(B)对于某一个 -1模糊积分n训练传统的Reward-Punishment算法n设置初始gin对训练样本的分类进行Reward和Punishmentn对初始gi依赖,陷入局部最优解改进n设置多组初始gin本文选取gi=t/N 结果特征名特征长度描述CH-RGB644bins R4bins G4bins BC
9、H-HSV9632bins H+32bins S+32bins VCH-Lab10032bins L+32bins a+36bins bCCV1284bins R4bins G4bins B2Edge Histogram80PWT27Corel图像库中的10类Libsvm,线性核C=2-5,2-4,2105折交叉验证结果比较平均精度平均精度我的方法我的方法84.66%DD-SVM81.5%Hist-SVM66.7%(Chen)79.8%(Qi)CCV80.52%MILES82.6%Qi88.8%DD-SVM(Qi)82%“海滩”被误分为“山川”“山川”被误分为“海滩”经常被误分的图片经常被误分
10、的图片Cat 0Cat 1Cat 2Cat 3Cat 4Cat 5Cat 6Cat 7Cat 8Cat 90.00.20.40.60.81.0Average precision of each image classImage categories RGB HSV Lab Edge CCV PWT Fusion融合方法与子分类器的精度对照融合方法与子分类器的精度对照1002003004005000.700.750.800.85Average Classification AccuracyNumber of Training Images Our Method DD-SVM10020030040
11、05000.30.40.50.60.70.80.9Average Classification AccuracyNumber of training images Our Method CH-RGB CH-HSV CH-Lab EH CCV PWT不同训练样本下的精度对照不同训练样本下的精度对照改进:自动抛弃性能较差的分类器主要研究内容,实施方案与可行性论证n组合多分类器框架的研究n最优词汇表构造的研究n最优空间信息进行图像分类的研究nInternet图像挖掘研究组合多分类器框架的研究n组合分类器框架选择n分类器权重计算n分类器选择最优词汇表构造的研究nFilter方法n预计方法:生成一个较大
12、的词汇表(5000-10000)根据每个词汇的对类别的判别能力控制聚类最优空间信息进行图像分类的研究nKernel MethodsnGaussian,2,Histogram Intersectionn根据训练图像学习出金字塔每个层次的最优权重Internet图像挖掘研究n现有图像挖掘方法的不足:训练数据存在噪声不能很好的突破搜索引擎返回结果数量的限制n解决方案:查询扩展多个搜索引擎结果集成文本分类技术与图像分类技术结合少量标记样本半监督学习论文进度安排n2006年9月-2007年7月:阅读相关文献,分析图像分类在国内外的研究现状n2007年9月-2008年6月:进行组合多分类器方面的研究,发表
13、一篇以上学术论文n2008年8月-2008年12月:进行最优空间信息进行图像分类的研究,发表一篇以上学术论文n2009年1月-2009年5月:进行最优词汇表构造的研究,发表一篇以上学术论文n2009年6月-2009年12月:进行网络分类挖掘的研究,发表一篇学术论文n2010年1月-2010年4月:总结博士阶段所做的工作,撰写博士论文n2010年5月-2010年7月:准备答辩预期达到目标n建立通用的图像分类系统,达到如下指标:Caltech101 80%Caltech256 45%Corel十类90%n建立网络图像挖掘系统,该系统的准确率比现有的搜索引擎高50%以上为完成课题已具备和所需的条件n
14、图像库:Caltech 101,Caltech 256,Corel十类图像库,MIT CBCL,PASCAL等图像库nLabelME 等大规模图像资源库n常用的图像特征提取算法:颜色直方图,颜色一致向量,边缘直方图,SIFT特征等n开源机器学习工具包libsvm等遇到的困难以及解决办法n图像处理以及计算机视觉知识的缺乏n机器学习理论功底不足n多搜索引擎的网络爬虫已发表的论文nDe-Yuan Zhang,Bing-Quan Liu,Xiao-Long Wang,Li-Juan Wang.Image Classification by Combining Multiple SVMS.International Conference on Machine Learning and Cybernetics(ICMLC)谢谢观赏