1、深度学习在图像理解中的应用深度学习在图像理解中的应用图像理解的定义传统图像理解技术 深度学习基础知识深度学习图像理解技术 图像理解进阶图像理解的定义传统图像理解技术 深度学习基础知识图像理解的定义 互联网中的图像理解 图像理解的研究内容图像理解的定义互联网中的图像理解图像是互联网最大的多媒体载体图像是互联网最大的多媒体载体互联网图像的多样性证件照自拍照商品照景点照活动照特殊照片互联网图像的多样性证件照自拍照商品照景点照活动照特殊照片一图胜万言一图胜万言一图胜万言第三世界 美帝国主义 中国制造 日本文化渗透.一图胜万言第三世界图像搜索与标签领域图像搜索与标签领域商品搜索与推荐领域商品搜索与推荐领
2、域人脸/文本等特定领域人脸/文本等特定领域视频领域视频领域图像处理领域图像处理领域图像理解的定义 互联网中的图像理解 图像理解的研究内容图像理解的定义互联网中的图像理解图像理解的研究内容 图像理解是计算机视觉领域的基础技术 图像理解研究图像的类型,图像中物体的位置,物体之间的关系等woman 0.95;dog 0.93;tv 0.97a woman is sitting front a dog and a tv.识别检测分割图像问答定义图像理解的研究内容图像理解是计算机视觉领域的基础技术w o m a图像分类 图像分类是所有研究的基础图像分类图像分类是所有研究的基础图像分类 图像分类无处不在图
3、像分类图像分类无处不在图像分类 14,197,122 images 21841 synsets 1,034,908 with boxes 1000 classes 126W trainset 2017 最后一届图像分类1 4,1 9 7,1 2 2 i m a g e s图像分类webvision 2.4 million of images from flickrweekly supervisedMNIST:10 classes,60000 imagesPASCAL VOC:20 classesCIFAR:10 classes,60000 imagesPlaces205 scenes2.5 m
4、illion images图像分类w e b v i s i o n 2.4 m i l l i o n o f i图像分类图像分类物体检测物体检测物体检测物体检测物体分割物体分割物体检测/分割MSCOCO:330K images(200K labeled)1.5 million object instances 80 object categories91 stuff categories 5 captions per image物体检测/分割MS C O C O:3 3 0 K i m a g e s (2图像问答图像问答图像问答108,077 Images5.4 Million Regi
5、on Descriptions1.7 Million Visual Question Answers图像问答1 0 8,0 7 7 I m a g e s图像理解的研究内容类别X区域woman 0.95;dog 0.93;tv 0.97a woman is sitting front a dog and a tv.识别检测分割图像问答像素语义图像理解的研究内容类别X 区域w o m a n 0.9 5;d o g 图像理解的研究内容图像理解的研究内容图像理解的定义OCR人脸识别/检索商品检索图像标签行为识别智能鉴黄图像理解的定义O C R 人脸识别/检索商品检索图像标签行为识别智互联网图像开放
6、平台互联网图像开放平台图像理解的定义传统图像理解技术深度学习基础知识深度学习图像理解技术 图像理解进阶图像理解的定义传统图像理解技术深度学习基础知识传统图像理解技术 图像分类的问题描述 图像分类的基本方法 图像搜索系统传统图像理解技术图像分类的问题描述图像分类图像分类图像分类F(x)XYC(x)图像分类F(x)X Y C(x)图像分类问题描述F(x)representation learning如何获得更好的特征:将原始输入转化为特征向量C(x)classification learning如何学习目标函数:基于特征向量学一个优化问题F(x)XYC(x)图像分类问题描述F(x)r e p r
7、e s e n t a t i o n l e相似图像检索问题描述给定输入图像x和图像库X从X中找出与x最相似的一组图像y问题抽象F(x):抽取x和X的图像特征C(x):计算x和X两组特征之间相似度相似度排序相似图像检索问题描述相似图像检索 图像指纹 低频信息能够提供近似的形状和纹理信低频信息能够提供近似的形状和纹理信息息 图像灰度化后缩放到8*8大小;计算图像平均值,比较每个像素与平均值大小输出0/1;组合64维0/1值得到图像指纹;计算hash向量的汉明距离 优点:速度快,存储小,对图像缩放颜色变化不敏感 缺点:平移/噪声 PHash:DCT变换抽取低频特征 dHash:计算相邻像素点 h
8、ash=I(x+1)-I(x)相似图像检索图像指纹相似图像检索 颜色直方图 两幅相似的图像之间具有类似的颜色直方两幅相似的图像之间具有类似的颜色直方图图 F(x):抽取图像颜色直方图特征 C(x):计算两组直方图之间距离 优点:特征提取简单,相似度计算方便,对图像旋转、尺度等变化不敏感 缺点:颜色相似,没有形状信息 颜色空间:RGB,YUV,Gray 特征空间:特征量化,颜色矩,颜色熵,分块直方图,颜色聚类相似图像检索颜色直方图优点:特征提取简单,相似度计算方便,对相似图像检索F(x):图像灰度值hash指纹dct变换颜色直方图C(x):欧式距离汉明距离余弦距离相似图像检索F(x):相似图像检
9、索 视角,遮挡,类内相似性,类间相似性等相似图像检索视角,遮挡,类内相似性,类间相似性等传统图像理解技术 图像分类的问题描述 图像分类的基本方法 图像搜索系统传统图像理解技术图像分类的问题描述图像特征 将一副图像转化为一个数学表达(vector)相似的图像具有相似的表达 不相似的图像具有相异的表达 一个好的特征描述子:鲁棒:对尺度,遮挡,光照等不敏感;准确:个体鉴别信息;高效:快速计算;存储空间小;方便查询;全局特征与局部特征两种图像特征将一副图像转化为一个数学表达(v e c t o r)全局特征 如何使特征具有本体不变性:gradiant filter:邻域不变性wavelet filet
10、r:高频低频分离全局特征如何使特征具有本体不变性:w a v e l e t f i l e tGabor:以高低函数为窗函数的 短时傅立叶变换 Uncertainty Relation for Resolution in Space,Spatial Frequency,and Orientation Optimized by Two-dimensional Visual Cortical Filters,J.G.Daugman,1985全局特征G a b o r:以高低函数为窗函数的 短时傅立叶变换U n c e r LBP:统计邻域的图像变化 分块计算lbp 分块统计直方图 直方图串联 L
11、TP LLE Multi-Block LBP CLBP.Face Recognition with Local Binary Patterns,T.Ahonen,A.Hadid,and M.Pietikine,ECCV2004全局特征L B P:统计邻域的图像变化分块计算l b p F a c e R e c o g全局特征 HOG 梯度方向直方图 图像归一化 计算图像梯度 按梯度方向统计直方图 串联邻域块直方图,并归一化全局特征H O G 梯度方向直方图 gistcentrist Modeling the shape of the scene:a holistic representatio
12、n of the spatial envelope,Aude OlivaAntonio Torralba,IJCV01 Evaluation of GIST descriptors for web-scale image search,Douze,Jegou,Sandhawalia,Amsaleg,Schmid,CIVR09 CENTRIST:A Visual Descriptor for Scene Categorization,PAMI 05全局特征g i s t c e n t r i s t Mo d e l i n g t h e s h a p e全局特征 如何应对图像旋转变化 图
13、像分块全局特征如何应对图像旋转变化局部特征 如何应对图像旋转变化 局部特征检测 更鲁棒的图像特征描述子局部特征如何应对图像旋转变化局部特征 使用最广泛的局部特征:SIFT 特征点检测特征点检测:金字塔匹配 邻域插值 去除边缘点 极大值抑制 基于特征点计算极值点 基于hessian计算曲率 Distinctive image features from scale-invariant keypoints,Lowe,IJCV04.局部特征使用最广泛的局部特征:S I F T D i s t i n c t i v局部特征 使用最广泛的局部特征:SIFT 特征描述特征描述:统计关键点邻域的梯度方向
14、生成梯度方向直方图,基于主方向旋转图像 分块统计梯度直方图,组合邻域直方图为特征描述子,并归一化 通常每个特征点,选取邻域4*4块,每块对应8维直方图,共128维特征局部特征使用最广泛的局部特征:S I F T 生成梯度方向直方图,局部特征描述子 SIFT加速-SURF 不建立金字塔,而改变kernel 通过hessian矩阵计算极值点 计算harr小波响应,只有水平和垂直两个方向 从一个扇形方向开始,以固定步长进行旋转,找到其中最大响应的扇形为主方向 特征描述子维度为4*4*4=64维 速度是SIFT的3-7倍;大部分情况下它和SIFT的性能相当 SURF:speeded up robust
15、 features,Bay,Tuytelaars,Van Gool,ECCV06.局部特征描述子S I F T 加速-S U R F S U R F:s p e局部特征描述子 SIFT加速-DAISY sift特征点旋转时,需要重新计算梯度直方图 daisyk通过高斯核卷积替代方向投影,实现快速计算 DAISY:An Efficient Dense Descriptor Applied to Wide-Baseline Stereo.Engin Tola,Vincent Lepetit,Pascal Fua.PAMI10局部特征描述子S I F T 加速-D A I S Y D A I S Y
16、:A局部特征特征点检测XY特征描述子局部特征特征点检测X Y 特征描述子特征点检测 提供旋转不变性 减少特征描述子数目 重复性:相同的区域能被重复检测,且不受旋转模糊光照等影响 可区分:基于检测子抽取的特征能够相互匹配 数量适宜:减少匹配复杂度和提升精度 速度快:检测速度越快越好特征点检测提供旋转不变性特征点检测 传统的特征检测子 Maximally Stable Extremal Regions(MSER)Difference of Gaussians(DoG)Harris-Affine and Hessian-Affine A Comparison of Affine Region Det
17、ectors,K.Mikolajczyk,TuytelaarsC.SchmidA.ZissermanJ.MatasF.SchaffalitzkyT.KadirL.Van Gool,IJCV2004特征点检测传统的特征检测子A C o m p a r i s o n o f A特征点检测 Harris角点 一个patch向各方向移动时,patch内图像灰度没有变化,则patch内不存在角点 一个patch向某个方向移动时,patch内图像灰度发生了变化,而在另一些方向上没 有发生变化,则窗口内的图像可能是一条直线特征点检测H a r r i s 角点特征点检测 Fast/AGAST 若某像素点与
18、其周围领域内足够多的像素点处于不同的区域,则该像素点可能为角点 取每个像素p为中心的16邻域点 迭代计算:计算p1/p9与中心p的像素差,均超过阈值 计算p1/p9/p5/p13与中心p的像素差,至少3个超过阈值 计算p1-p16与中心p的像素差,至少9个超过阈值 对所有特征点进行非极大值抑制 Faster and better:A machine learning approach to corner detection,Edward Rosten,Reid Porter,Tom Drummond,PAMI2010特征点检测F a s t/A G A S T F a s t e r a n
19、d b e t t特征点检测 fast相比于SIFT/SURF 不具备尺度不变性 对噪声更加敏感 对旋转放射变换敏感特征点检测f a s t 相比于S I F T/S U R F特征描述子 二进制描述子:SIFT和SURF float特征维度过高 PCA特征降维 hash二值化 BRIEF 在特征点邻域内任意比较点对大小获得0/1编码,每个patch获得N维0/1向量 BRISK 以特征点为圆心,构建多个不同半径的离散化Bresenham同心圆,然后再每一个 同心圆上获得具有相同间距的N个采样点 FREAK 越靠近中心的区域采样更密集,四周区域采样稀疏,随机对比各区域的像素得到一 组2值特征特
20、征描述子二进制描述子:特征描述子 ORB(Oriented FAST and Rotated BRIEF):增加FAST的旋转不变性:角点的灰度与质心之间存在一个偏移 增加BRIEF的旋转不变性 BRIEF描述子是一个长度为n的二值码串,该2n点可以组成矩阵 根据角点方向投影每组向量到对应的角度空间 ORB:An efficient alternative to SIFT or SURF.Ethan Rublee,Vincent Rabaud,Kurt Konolige,Gary Bradski.ICCV2011特征描述子O R B (O r i e n t e d F A S T a n d
21、 R o图像特征 图像检测子和描述子紧密关联 检测子越多,抽取特征时间越长,噪声也越多;检测子越少,有效匹配对数越少;加速和场景紧密相关 FAST+ORB在物体跟踪与匹配上很有效 SIFT在图像检索中很有效SIFTSURFORBBRISKmatch time2.914.130.220.73match pairs1723/9202633/1173500/213660/313feature dim12864256256图像特征图像检测子和描述子紧密关联S I F T S U R F O R B B R分类器与降维 低维特征包含信息太少 高维特征包含噪声和冗余 非线性空间的表达能力 减小计算量分类器
22、与降维低维特征包含信息太少分类器与降维 PCA LLE 获得最进邻点 基于近邻点计算出局部重建权值矩阵 基于局部重建权值矩阵和近邻点得到投影点分类器与降维P C A L L E分类器与降维 Sparse Coding 基于一组给定的随机patches,学习一个字典 对其中每个向量,解一个LASSO使得 迭代优化 固定字典f,优化a 固定a,优化字典 对于输入的原始特征,计算基于字典的系数a作为降维后的表达分类器与降维S p a r s e C o d i n g 迭代优化分类器与降维 Sparse Coding 稀疏模型:f(x)=稀疏响应:a=f(x)Local coordinate cod
23、ing Hierarchical sparse coding Super-Vector Coding VQ coding分类器与降维S p a r s e C o d i n g分类器与降维 SVM分类器与降维S V M小结全局特征 局部特征Harris Fast DoG Hessian LoH MSER.输入图像特征滤波器分块输入图像特征点检测特征描述子Gabor LBP HOGGist CHOG.SIFT SURF DAISY BRIEF ORB BRISK.小结全局特征 局部特征H a r r i s F a s t D o G 小结特征抽取XY分类器特征降维小结特征抽取X Y 分类器特
24、征降维小结特征抽取XY分类器特征降维小结特征抽取X Y 分类器特征降维传统图像理解技术 图像分类的问题描述 图像分类的基本方法 图像搜索系统传统图像理解技术图像分类的问题描述评价指标 召回率recall:预测正确的正样本/所有正样本 正确率precision:预测正确的正样本/所有预测为正确的样本 F-score:召回与正确的调和平均 mAP:每个候选的检索正确率的平均(Mean Average Precision)img1有4个相似图,检索rank在1,2,4,7;ap=(1/1+2/2+3/4+4/7)/4=0.83img2有4个相似图,检索rank在1,3,5,6;ap=(1/1+2/3
25、+3/5+4/6)/4=0.73mAP=(0.83+0.73)/2=0.78评价指标召回率r e c a l l:预测正确的正样本/所有正样本相关数据库UKBenchhttp:/www.vis.uky.edu/stewe/ukbench/640*480图像,每组4张Stanford Mobile Visual Searchhttp:/purl.stanford.edu/rb470rw0983包括8种场景,如CD封面、油画等,采自不同相机(手机),共500张图Oxford Buildingshttp:/www.robots.ox.ac.uk/vgg/data/oxbuildings/VGG组从F
26、lickr搜集了5062张建筑物图像Oxford Parishttp:/www.robots.ox.ac.uk/vgg/data/parisbuildings/VGG组从Flickr搜集了6412张巴黎旅游图片INRIA Holidayshttp:/lear.inrialpes.fr/jegou/data.php来自Flickr60K共1491张图,500张query和991张相关图像相关数据库U K B e n c h相似图像检索如何将不定长的特征投影到定长的空间?如何进行海量比对?输入图像最近邻查找排序特征抽取相似图像检索如何将不定长的特征投影到定长的空间?输入图像最近BoW(Bag of
27、 Visual Word)特征抽取:对训练图象集进行预处理后抽取SIFT特征 构造码本:K-means对所有SIFT特征进行聚类得到字典字典的维度对应聚类中心 特征抽取:模板每幅图像的每个SIFT特征投影到K维字典中,对应第K维向量+1 向量归一化 K维字典对应K维特征向量 缺点:由于后台数据集一直更新,k-means重新聚类的代价太大 字典过大,单词缺乏一般性,对噪声敏感,计算量大;字典太小,单词区分性能差,对相似的目标特征无法表示 图像表示成一个无序局部特征集的特征包方法,丢掉了空间特征信息B o W(B a g o f V i s u a l Wo r d)特征抽取:对训VLAD(Vec
28、tor of Locally Aggregated Descriptors)BOV仅仅保存了字典中图像特征的分布仅仅保存了字典中图像特征的分布 特征抽取:对训练图象集进行预处理后抽取SIFT特征 构造码本:K-means对所有SIFT特征进行聚类得到字典字典的维度对应聚类中心 特征抽取:计算每副图像的SIFT特征在每个字典下与字典中心的偏差 向量归一化 K维字典对应K*128维特征V L A D(V e c t o r o f L o c a l l y A g g r e g aFV(Fisher Vector)FV进一步存储二阶进一步存储二阶矩矩 特征抽取:对训练图象集进行预处理后抽取SI
29、FT特征 构造码本:GMM对所有SIFT特征进行聚类得到字典字典的维度对应聚类中心 特征抽取:计算每副图像的SIFT特征在每个高斯模型下的均值和方差 向量归一化 K维字典对应K*2*128维特征F V(F i s h e r V e c t o r)F V 进一步存储二阶矩比较BoW和FV比较B o W和F V结果对比结果对比快速搜索 倒排索引 query的SIFT描述子投影到到字典中,以字典中心描述该图像为:(Y:X1,X2,.)查找模板库中分别包含每个字典中心的样本合并快速搜索倒排索引快速搜索 KD树搜索:按照特征每一维度开始检索快速搜索K D 树搜索:按照特征每一维度开始检索快速搜索 p
30、roduct quantization快速搜索p r o d u c t q u a n t i z a t i o n重排序 RANSAC几何校验 针对量化检索到的图像,进行重排序 随机计算任意两张图像之间任意两组SIFT特征匹配,以匹配点为基准重新投影其他特征点;判断投影特征点是否重叠重排序R A N S A C 几何校验图像检索pipeline训练集:从所有商品图像中抽取局部特征描述;计算k-mean聚类;模板集:基于聚类计算模板计算fv特征向量量化验证集:抽取局部特征描述,计算fv特征并量化比较模板集的量化表选取最大10候选几何校验重排序图像检索p i p e l i n e 训练集:
31、图像检索部署 每幅图像对应一个图像识别指纹;在图像云平台服务中,无需构建倒排表,开发者增、删图像时,后台只需在数据 库对应的增加、删除指纹即可。识别过程时,只需比对开发者数据库中的指纹即可。图像检索部署每幅图像对应一个图像识别指纹;传统图像理解方法总结 图像分类 图像特征学习 局部特征 全局特征 典型应用:图像搜索 图像特征抽取 向量量化 快速搜索 重排序传统图像理解方法总结图像分类相似图像检索角度,遮挡,遮挡,类内相似性,类间相似性等相似图像检索角度,遮挡,遮挡,类内相似性,类间相似性等什么是图像理解 传统图像理解技术深度学习基础知识深度学习图像理解技术 图像理解进阶什么是图像理解 传统图像
32、理解技术深度学习基础知识深度学习图像图像理解 如果没有人工设计的特征会如何:设计一组非线性函数来同时学习特征表示和分类器 如果更深的网络是否会效果更好:更深层的非线性表示图像理解如果没有人工设计的特征会如何:设计一组非线性函数来同AlexNetA l e x N e t深度学习基础知识 深度学习的基础模块 深度学习的模型设计 深度学习的训练技巧深度学习基础知识深度学习的基础模块多层感知机(multilayer perceptron)多层感知机(m u l t i l a y e r p e r c e p t r o n)基础模型结构 卷积层(Convolutional Layer)池化层(P
33、ooling Layer)全连接层(Fully-connected Layer)激活函数(activtion function)基础模型结构卷积层(C o n v o l u t i o n a l L a y e r)全连接层 y=W*x+b 没有考虑局部信息 特征存在冗余全连接层y =W*x+b局部连接层 参数大大减少 局部fliter之间没有联系局部连接层参数大大减少卷积层 保持输入图像的大小 连接隐含层与每个小patch 共享参数卷积层保持输入图像的大小全连接 vs 卷积层 卷积层优点:filter为底层特征 不同层之间参数共享,减少冗余 参数量少,计算量少 全连接层优点:全连接是卷积
34、核为h*w的卷积 冗余特征也会有帮助(global polling?)局部特征映射到全局空间全连接 v s 卷积层卷积层优点:池化层 增大感受野 去噪池化层增大感受野批量归一化层(Batch Normalization)减小每个minibatch方差,加速训练批量归一化层(B a t c h N o r m a l i z a t i o n)减小每DNN的基础模块 如何获得每个结点的参数?每次迭代:前向:Forward Propagation 后向:Backward Propagation 更新参数D N N 的基础模块如何获得每个结点的参数?前向(Forward Propagation)在
35、测试时,只需要前向 y对应输出的特征/分类结果前向(F o r w a r d P r o p a g a t i o n)在测试时,只需损失函数(Loss Function)训练过程中,需要给定loss function 迭代优化预测y与给定y之间error损失函数(L o s s F u n c t i o n)训练过程中,需要给定l回退(Backward Propagation)通过误差回传来更新参数回退(B a c k w a r d P r o p a g a t i o n)通过误差回传SGD 基于每个minibatch,更新每个权重(SGD)通常会带上MomentumS G D
36、通常会带上Mo m e n t u m有监督学习与无监督学习 有监督学习通常指给定标签 无监督学习的典型是auto-encoder,利用反向传播算法,让目标值等于输入值有监督学习与无监督学习有监督学习通常指给定标签深度学习基础知识 深度学习的基础模块 深度学习的模型设计 深度学习的训练技巧深度学习基础知识深度学习的基础模块非线性特征非线性特征线性投影非线性激活函数线性投影非线性激活函数相比于传统分类 联合学习:同时更新所有模块参数相比于传统分类联合学习:同时更新所有模块参数相比于传统分类 共享特征:全局特征与局部特征的层级学习相比于传统分类共享特征:全局特征与局部特征的层级学习相比于传统分类
37、深度非线性,学习能力更强 一个三层的NN可以表示任意分类函数 多任务学习可以共同完成相比于传统分类深度非线性,学习能力更强模型设计 越深,越宽 多分支(multi-path,multi-scale)残差 慎用激活函数 稀疏连接模型设计越深,越宽典型模型设计典型模型设计典型模型设计典型模型设计典型网络典型网络典型网络典型网络深度学习基础知识 深度学习的基础模块 深度学习的模型设计 深度学习的训练技巧深度学习基础知识深度学习的基础模块激活函数激活函数学习率学习率注意力机制注意力机制Bilinear CNNsB i l i n e a r C N N s其他预训练基于imagenet训练的结果优于直
38、接训练数据分布迭代选择分布均衡的数据/更准确的数据无监督训练增加无监督loss或弱监督数据其他预训练小结 网络结构 超参数学习 优化方法 模型表达能力 减少冗余,快速计算 减少过拟合 容易优化 超参数调节 联合学习 注意力机制小结网络结构什么是图像理解 传统图像理解技术 深度学习基础知识深度学习图像理解技术 图像理解进阶什么是图像理解 传统图像理解技术 深度学习基础知识深度学习图像分类深度学习图像分类深度学习图像分类深度学习图像分类深度学习图像理解 图像分类框架 模型加速与优化 图像检测/分割 图像分类应用场景深度学习图像理解图像分类框架图像检索数据搜集数据清洗模型训练图片索引重排序图像检索数
39、据搜集数据清洗模型训练图片索引重排序数据搜集 有监督学习主要依赖分类标签 模型提取特征能力的上限,体现在标签体系质量上 标签体系建立 多层标签体系:长裤,上衣 多类标签体系:花纹,V领 语义信息:潮款,年轻数据搜集有监督学习主要依赖分类标签数据清洗 人工清洗:解决标注和类别不一致的问题 模型预测 人工标注 模型自动更新 种子样本 人工标注,初始化模型 模型预测 增加高置信度样本finetune 模型迭代数据清洗人工清洗:解决标注和类别不一致的问题模型训练 模型结构 模型学习能力 pretrain model 考察flops模型训练模型结构模型训练 triplet loss 兼顾分类网络和类间差
40、 a的设计 hard sample mining模型训练t r i p l e t l o s s模型训练 TriHard loss 对于每一个训练batch,随机挑选 P 个ID的样本,每个ID随机挑选 K 张不同的图片,即一个batch含有 PK 张图片。对于batch中的每一张图片 a,我们可以挑选一个最难的正样本和一个最难的负样本 和 a 组成一个三元组。模型训练T r i H a r d l o s s模型训练 Quadruplet loss 四张图片为图片 a,正样本 p,负样本n1 和负样本n2组成 其中 n1 和 n2 是两张不同类别的图片 Margin sample mini
41、ng loss模型训练Q u a d r u p l e t l o s s模型训练 multi-task 同时出多标签模型训练m u l t i-t a s k重排序 基于k阶导数编码 计算出马氏距离和杰卡德距离的加权和重排序基于k 阶导数编码深度学习图像理解 图像分类框架 模型加速与优化 图像检测/分割 图像分类应用场景深度学习图像理解图像分类框架模型加速 pruning model模型加速p r u n i n g m o d e l模型加速 lowbit model 激活函数:ReLU-Hard TanH 低比特近似估计模型加速l o w b i t m o d e l模型加速 dee
42、p hash模型加速d e e p h a s h模型加速 deep hash模型加速d e e p h a s h模型加速 模型pruning有效但费力 离散情况下难以找到最优解 deephash不一定要end2end模型加速模型p r u n i n g 有效但费力深度学习图像理解 图像分类框架 模型加速与优化 物体检测/分割 图像分类应用场景深度学习图像理解图像分类框架物体检测/分割检测/分割的目的是为了精细分类/去除背景物体检测/分割检测/分割的目的是为了精细分类/去除背景物体检测:SSD/YOLO物体检测:S S D/Y O L O物体检测:R-CNN/FCN物体检测:R-C N N
43、/F C N物体检测:FPN物体检测:F P N物体检测one stage vs two stageLoss samplingLoss functionanchor and multi-scale物体检测o n e s t a g e v s t w o s t a g e图像分割:FCN图像分割:F C N图像分割:LDN图像分割:L D N图像分割:PSPNet图像分割:P S P N e t图像语义分割:FCN decoder vs encoder semantic vs segmentation attention model boundary loss图像语义分割:F C N d e
44、 c o d e r v s e n c o d e r深度学习图像理解 图像分类框架 模型加速与优化 物体检测/分割 图像分类应用场景深度学习图像理解图像分类框架图像分类应用场景相似图像检索:基于多类联合训练的模型抽取图像特征图像分类应用场景相似图像检索:基于多类联合训练的模型抽取图像图像分类应用场景图像自动标签:组合模型预测结果多类标签的概率分布多层次标签的组合图像分类应用场景图像自动标签:组合模型预测结果图像理解的典型问题 传统的图像理解技术 深度学习的基本方法 深度学习图像理解技术图像理解进阶图像理解的典型问题 传统的图像理解技术 深度学习的基本方法 图像理解进阶 图像细粒度分类 图像
45、嵌入 图像语义图像理解进阶图像细粒度分类图像细粒度识别 物体细分类识别 商品类型的精确识别与检索图像细粒度识别物体细分类识别图像细粒度识别 attention机制用于主体识别图像细粒度识别a t t e n t i o n 机制用于主体识别图像理解进阶 图像细粒度分类 图像嵌入 图像语义图像理解进阶图像细粒度分类图像嵌入 迭代构建类别体系 在不同类型的输入之间迁移模型图像嵌入迭代构建类别体系图像嵌入图像嵌入图像理解进阶 图像细粒度分类 图像嵌入 图像语义图像理解进阶图像细粒度分类图像语义 图像与文本之间的相互转换 先CNN抽取图像特征,再经过LSTM解码成文本 独立训练图像语义图像与文本之间的
46、相互转换图像语义 检索的思想:先检测到图像中每一个物体 基于语言模型生成句子 根据相关性对句子进行排序图像语义检索的思想:图像语义 机器学习的思想:先检测到图像中每一个物体将所有物体的标签作为单词和所有 句子一起联合训练 计算两者相关度得到最后的句子图像语义机器学习的思想:总结 传统图像理解的问题分析互联网中的图像理解图像理解的研究内容传统图像理解技术图像分类的问题描述图像分类的基本方法特征分类器图像搜索系统特征抽取特征量化快速检索重排序 深度学习基础知识深度学习的基础模块深度学习的模型设计深度学习的训练技巧深度学习图像理解技术图像分类框架数据搜集/清洗特征抽取重排序模型加速与优化lowbitpruningdeephash图像检测/分割图像分类应用场景 深度学习图像理解进阶图像细粒度分类图像嵌入图像语义总结传统图像理解的问题分析互联网中的图像理解传统图像理解技术深度学习在图像理解中的应用课件
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。