多模态深度学习及其视觉应用

下载 14

快召唤伙伴们来围观吧
微博 QQ QQ空间 贴吧
文档嵌入链接
<iframe src="https://www.slidestalk.com/u3507/Multimodal_indepth_learning_and_its_visual_application?embed" frame border="0" width="640" height="360" scrolling="no" allowfullscreen="true">复制
微信扫一扫分享
已成功复制到剪贴板

岁月静好

发布于

6年前

2788

人观看

#信息技术

多模态深度学习及其视觉应用

展开查看详情

1 . 中国大数据技术大会-深度学习论坛多模态深度学习及其视觉应用霍静南京大学软件新技术国家重点实验室 2018年12月10日

2 . 多模态数据图像模态音频模态多模态数据 William Shakespeare (/ˈʃeɪkspɪər/; 26 April 1564 (baptised) – 23 April 1616)[a] was an English poet, playwright and actor, widely regarded as the greatest writer in the English language and the world's pre-eminent dramatist.[2][3][4] He is often called England's national poet and the "Bard of 文字模态视频模态 Avon".[5][b] His extant works, including collaborations, consist of approximately 39 plays,[c] 154 sonnets, two long narrative poems and a few other verses, some of uncertain authorship. His plays have been translated into every major living language and are performed more often than those of any other playwright.[7] 2018/12/10 2

3 .多模态视觉应用 • 刑侦破案-异构人脸识别公安大规模高清嫌疑人1 二代身份证人像库素描人像嫌疑人2 二代身份证 …… 低分辨率人像嫌疑人3 低分辨率问题：跨多种图像红外视频人像模态的人脸识别 2018/12/10 3

4 .多模态视觉应用 • 寻找“可疑” 人员-行人重识别视角1 视角2 问题：跨视角行人匹配视角3 视角4 2018/12/10 4

5 .多模态视觉应用 • “图像视频-文本”跨模态检索 William Shakespeare (/ˈʃeɪkspɪər/; 26 April 1564 (baptised) – 23 April 1616)[a] was an English poet, playwright and actor, widely regarded as the greatest writer in the English language and the world's pre-eminent dramatist.] He is often called England's national poet and the "Bard of Avon". His extant works, including collaborations, consist of approximately 39 plays,[c] 154 sonnets, two long narrative poems and a few other verses, some of uncertain authorship. His plays have been translated into every major living language and are performed more often than those of any other playwright. 问题：跨图像视频以及文本检索北京故宫，即紫禁城，是明清两朝廿四位皇帝的皇宫。故宫始建于明成祖永乐四年（1406年），永乐十八年（1420年）落成；位于北京中轴线的中心，占地面积72万平方米，建筑面积约15万平方米，为世界上现存规模最大的宫殿型建筑。北京故宫是第一批全国重点文物保护单位、第一批国家5A级旅游景区，1987年入选《世界文化遗产》名录。故宫现为故宫博物院，藏品主要以明、清两代宫廷收藏为基础；是国家一级博物馆，与俄罗斯埃米塔什博物馆、法国卢浮宫、美国大都会博物馆、英国大英博物馆并称为世界五大博物馆。图像或视频文本 2018/12/10 5

6 . 多模态视觉应用 • “图像-音频”跨模态检索问题：根据音频检索人脸、根据人脸检索音频 [1] Nagrani A, Albanie S, Zisserman A. Seeing voices and hearing faces: Cross-modal biometric matching[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8427-8436. [2] Nagrani A, Albanie S, Zisserman A. Learnable PINs: Cross-Modal Embeddings for Person Identity[J]. arXiv preprint arXiv:1805.00833, 2018. 2018/12/10 6

7 .多模态视觉应用 • 融合“多视角摄像头” 数据的行为识别踢腿摇手摄像头1 摄像头2 2018/12/10 7

8 .主要研究方向 • 多模态数据表示 • 跨模态相似性计算、对齐 • 多模态数据转换 • 多模态数据融合 • 协同学习 Baltrušaitis T, Ahuja C, Morency L P. Multimodal machine learning: A survey and taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018. 2018/12/10 8

9 .主要研究方向 • 多模态数据表示 – 找到多模态数据中相似、互补、冗余的特征表示联合表示对齐表示 Baltrušaitis T, Ahuja C, Morency L P. Multimodal machine learning: A survey and taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018. 2018/12/10 9

10 .主要研究方向 • 跨模态相似性计算、对齐对齐图像区域与文字对齐不同模态图像上的语义相关区域 Karpathy A, Fei-Fei L. Deep visual-semantic alignments for generating image descriptions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 3128-3137. Jing Huo, Yang Gao, Yinghuan Shi, Hujun Yin, Variation Robust Cross-Modal Metric Learning for Caricature Recognition, ACM Multimedia 2017, Thematic Workshops, 2017: 340-348. 2018/12/10 10

11 .主要研究方向 • 多模态数据转换不同图像风格转换 Baltrušaitis T, Ahuja C, Morency L P. Multimodal machine learning: A survey and taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018. Taigman Y, Polyak A, Wolf L. Unsupervised cross-domain image generation[J]. arXiv preprint arXiv:1611.02200, 2016. 2018/12/10 11

12 .主要研究方向 • 多模态数据融合踢腿融合多个模态下的数据完成某个任务，如分类或回归摇手摄像头1 摄像头2 • 协同学习 – 通过其它模态的数据辅助某一个模态下的任务学习，包括迁移学习，零样本学习等 2018/12/10 12

13 .主要研究方向 • 多模态数据表示 • 跨模态相似性计算、对齐 • 多模态数据转换 • 多模态数据融合 • 协同学习 Baltrušaitis T, Ahuja C, Morency L P. Multimodal machine learning: A survey and taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018. 2018/12/10 13

14 . 多模态相似性计算与对齐图像纹理特征图像模态音频模态音频特征跨模态文字特征度量 William Shakespeare (/ˈʃeɪkspɪər/; 26 April 1564 视频特征 (baptised) – 23 April 1616)[a] was an English poet, playwright and actor, widely regarded as the greatest writer in the English language and the world's pre-eminent dramatist.[2][3][4] He is often called England's national poet and the "Bard of Avon".[5][b] His extant works, including collaborations, consist of …… approximately 39 plays,[c] 154 sonnets, two long narrative poems and a few other verses, some of uncertain authorship. His plays have been translated into every major living language and are performed more often than those of any other playwright.[7] 视频模态文字模态跨模态跨模态相跨模态查询、匹配特征表示似性计算 2018/12/10 14

15 .已有的度量方法 • 欧式距离度量 • 余弦相似性度量两个特征向量 • 马氏距离度量之间的距离 2018/12/10 15

16 .马氏距离度量学习 • 马氏距离度量 • 训练数据形式样本对三元组 • 学习目标损失函数正则化项 2018/12/10 16

17 .跨模态数据不可分问题 • 基于公共子空间的方法 – 公共判别性特征抽取 [Lin and Tang, ECCV 2006] – 耦合谱回归 [Lei and Li, CVPR 2009] – 耦合判别分析 [Lei et al., TIFS 2012] – 正则化谱回归[Huang et al., TIP 2013] 主要思路：对两个模态下的数据找两个投影方向，映射到公共子空间中进行距离度量 2018/12/10 17

18 .基于间隔的跨模态度量学习 • 目标 – 消除模态差异、使得跨模态同类与跨模态不同类距离可分 • 解决方法 – 基于公共子空间的跨模态度量+大间隔理论 2018/12/10 18

19 .跨模态度量定义与约束 • 跨模态度量定义模态1下模态2下模态1样本模态2样本的样本的样本的投影矩阵的投影矩阵距离度量说明：将两个模态下的样本投影到一个公共子空间中，在公共子空间中度量两个样本的欧氏距离 • 距离约束跨模态同类样本对第1类跨模态三元组第2类跨模态三元组跨模态同类样本对的三元组中的跨模态同类距离小于跨模态不同类距距离小离一个间隔 2018/12/10 19

20 .线性算法设计 • 目标函数跨模态同类样本对的距离小第1类跨模态三元组约束第2类跨模态三元组约束三元组中的跨模态同类距离小于跨模态不同类距离一个间隔目标函数说明：优化跨模态度量满足成对以及三元组定义的距离约束 2018/12/10 20

21 .核算法设计 • 目标函数跨模态同类样本对的距离小三元组中的跨模态同类距离小于跨模态不同类距离一个间隔 2018/12/10 21

22 .实验结果 • CASIA NIR-VIS 2.0数据集与子空间算法比较： • 所提算法中基于核方法的版本取得了最好的效果与其它特征学习算法比较： • 所提算法的核方法版本优于CDFL，弱于另两个算法 • 所提算法是通用的算法，可与这些算法结合使用 Jing Huo, Yang Gao, Yinghuan Shi, Wanqi Yang, Hujun Yin, Heterogeneous Face Recognition by Margin Based Cross-Modality Metric Learning, IEEE Transactions on Cybernetics, 2017, doi: 10.1109/TCYB.2017.2715660 2018/12/10 22

23 .样本对分布不均衡问题 • 基于跨模态样本对 – 跨模态匹配学习[Mignon and Jurie, ACCV 2012] – 跨模态相似性学习[Kang et al., CIKM 2015] – 深度耦合度量学习[Liong et al., TMM 2017] 同类与不同类的样 AUC指标本对比例不均衡优化 • 基于跨模态三元组 pAUC指标优化 2018/12/10 23

24 .基于AUC优化的跨模态度量学习 • 目标 – 跨模态同类样本对比例不均衡情况下的度量学习 • 解决方法 – 度量算法的AUC指标优化 – 度量算法的pAUC指标优化 2018/12/10 24

25 .基于AUC优化的跨模态度量学习 • 跨模态度量函数模态1下模态2下的样本的样本度量函数说明：将两个模态下的样本投影到公共子空间后，度量欧式距离，参数M约束为对称半正定矩阵指示函数 • 目标函数同类、不同类样跨模态同类样本对的距离是否小本对索引集合于跨模态不同类样本对的距离目标函数说明：AUC对应为跨模态同类样本对与跨模态不同类样本距离正确排序的比例 2018/12/10 25

26 .基于AUC优化的跨模态度量学习 • 最终的目标函数等价于AUC/ 带有LogDet pAUC优化正则化的 LogDet正则化项，优化问题最小化跨模态同使得M保持对称类距离半正定优化说明：提出了一种Mini-batch Proximal Point Algorithm的算法进行优化求解，每轮采样一部分跨模态同类样本对和跨模态不同类样本对进行优化 2018/12/10 26

27 .实验结果 • CUFSF数据集——与多模态算法对比结果说明： • 与对比算法中的较优的C SR，KCSR以及HMLCR相比，CMLAUC 与CMLpAUC 取得了较大的性能提升 • 在与AUC优化无关的 Rank-1指标上，所提的算法同样取得了很好的效果 Jing Huo, Yang Gao, Yinghuan Shi, Hujun Yin, Cross-Modal Metric Learning for AUC Optimization, IEEE Transactions on Neural Networks and Learning Systems, 2017, doi: 10.1109/TNNLS.2017.2769128 2018/12/10 27

28 .噪声干扰问题 • 稀疏度量学习 – 稀疏在线度量学习[Gao et al., AAAI 2014] – 稀疏组合度量学习[Shi et al., AAAI 2014] – 高维稀疏数据度量学习[Liu et al., AISTATS 2015] – 基于坐标下降的稀疏度量学习[Atzmon et al., JMLR 2015] 存在的问题： 1. 未考虑数据中存在的结构信息 2. 反过来考虑，数据扩充，引入有效特征 2018/12/10 28

29 .稀疏跨模态度量集成学习 • 目标 – 复杂结构带噪声的样本如何进行度量学习 • 解决方法 – 度量学习+稀疏结构化特征选择 2018/12/10 29

0点赞

0收藏

14下载