GDPR、数据短缺与人工智能

下载 6

快召唤伙伴们来围观吧
微博 QQ QQ空间 贴吧
文档嵌入链接
<iframe src="https://www.slidestalk.com/u37/GDPR70551?embed" frame border="0" width="640" height="360" scrolling="no" allowfullscreen="true">复制
微信扫一扫分享
已成功复制到剪贴板

梦里花非花

发布于

5年前

4387

人观看

#信息技术

GDPR、数据短缺与人工智能

展开查看详情

1 .GDPR、数据短缺与人工智能杨强香港科技大学微众银行 1

2 .人工智能与大数据 ImageNet 多年性能发展趋势（来源：维基 “回顾深度学习时代中不合理的数据有效性。”Google 百科）研究，2017 年 2

3 .1. 大多数应用仅拥有少量数据 • 合同审查律师事务所通常会使用带标注的 10K-20K 份标记合同作为样本 (Bradley Arsenau lt, Electric Brain 2018) • 在金融业，大额贷款并不多见，典型样本仅有大约 100 个 (4paradigm.com, 2017) • 在医疗影像识别中，高质量的标记数据很少(A Survey on Deep Learning in Medical Ima ge Analysis, Geert Litjens, et al.2017 Arxiv.) 3

4 .2. 多方数据共享：艰难、不可能或不道德 • 医学临床试验数据无法共享（R. Stegeman 于 2018 年发表于《遗传学》(Gen emetics)） • 我们的社会要求更严格地控制数据隐私和安全 • GDPR、政府法规 • 企业在安全与保密方面的顾虑 • 数据隐私方面的顾虑 4

5 .现实：数据往往表现为孤岛形式我们的预期：大数据我们看到的现实：碎片化的数据 5

6 .两大挑战和两种解决方案 • 小数据 • 碎片化的数据迁移学习将通过原联邦学习涉及到多方协作构建模型任务/领域获得的学习成果迁移到目标任务/领域这两类问题往往同时出现 6

7 .迁移学习 7

8 .迁移学习模型 8

9 .为什么要采用迁移学习？小数据 9

10 .为什么要采用迁移学习：可靠性领域 1 领域 2 模型领域 4 领域 3 10

11 .为什么要采用迁移学习？个性化 11

12 .要迁移的学习成果研究问题 • 何时迁移 • 如何迁移 • 要迁移什么 • 通过迁移学习掌握学习方法 12

13 .迁移学习的要领：找到不变项在中国大陆驾车在中国香港特别行政区驾车 13

14 .深度模型中的迁移学习 • 目标 ℒ = ℒ源+ ℒ距离关联层适应层源分类器源输入领域距离最小化目标输入 Learning transferable features with deep adaptation networks.M Long, Y Cao, J Wang, MI Jordan. Internation al Conference on Machine Learning (ICML) 2015 14

15 .深度模型中的迁移学习定量研究 ImageNet 不是随机拆分的，而是拆分为 A = {人为类} 和 B = {自然类} [3] 结论：较低层的特征更为通用且可迁移，较高层的特征则更为具体且不可迁移。 15 Yosinski, Jason, et al."How transferable are features in deep neural networks?."NIPS.2014.

16 .迁移学习设置 I: • 源领域：充足的标记数据 • 目标领域：无标记数据 • 领域适应迁移学习设置 II： • 源领域：充足的标记数据 • 目标领域：少量标记数据 • 有监督的迁移学习 16

17 .迁移学习设置 I 源领域：充足的标记数据；目标领域：无标记数据 17

18 .舆情分析评分  单领域解决方案依赖于充足的标记数据评分跨领域解决方案：迁移学习  将舆情分类知识从一个领域迁移到另一个领域 18

19 .跨领域特征：共享关键词 (Pivot) 源领域（电影）目标领域（电子产品）非常棒的电影。他出演的角色这款出色的触屏设备手感极好，而非常迷人，而且体贴入微。且响应速度很快。它是取代个人电脑、且非常这是一部精彩绝伦、发人深省的轻便的优秀影片。产品。这真是一部糟糕的电影，完全没它在光线极暗的环境下的显示有剧情可言，效果模糊不清。惠普这次而且乏味无趣。推出的产品可真是糟糕顶透。 Domain adaptation with structural correspondence learning, Blitzer et al.EMNLP 2006 19

20 . 非常迷人体贴入微响应发人深省非没有剧情可言乏速度很快极好常轻便味无趣模糊不清电影 1 0 0 0 1 0 0 0 1 培训 y= = (T), = [1, 1, −1] 预测非常迷人体贴入微响应发人深省非没有剧情可言乏速度很快极好常轻便味无趣模糊不清 1 0 0 电子产品 0 1 0 0 0 1 Sinno Jialin Pan et al.Cross-domain sentiment classification via spectral feature alignment.WWW-10. 20

21 .一种对抗式方法舆情分类领域分类领域分类目标：最大化领域分类错误源数据目标数据电影源 (S)非常棒的电影。他出演的角色非常迷人，而且体贴入微。电子产品目标 (T) 这款出色的触屏设备手感极好，而且响应速度很快。 Li, Zheng, Qiang Yang, et al."End-to-end adversarial memory network for cross-domain sentiment classification.”I JCAI 2017. 21

22 .与基准方法比较传统方法： SCL：《结构化对应学习》[Blitzer 等人，2006 年] SFA：《光谱特征对齐》 [Pan 等人，2010 年] AMN 模型在亚马逊评论数据集上的表现明显优于传统方法 SFA 和 SCL SFA S CL AM N 22

23 . 推荐系统利用-探索困境基于 RecSys 的受监督学习冷启动问题单一领域 RecSys•很容易卡在局部最优环节，不断推荐类似的 • 文章。对于新用户、新文章和新领域的表现不佳。上下文赌博机算法 • 对于快速发展变化的用户 • 同时利用和探索 • 兴趣不敏感。纯粹的探索式方法造跨领域 RecSys • 最大化长期累积奖励。成更糟的短期 CTR。 • 迁移学习利用源始冷 RecSys 中先前已有的知识开启动目标 RecSys。可迁移的上下文赌博机算法 Transferable Contextual Bandit for Cross-Domain Recommendation, Bo Liu, Yu Zhang, Qiang Yang et al. AAAI18 23

24 .迁移学习趋势：利用庞大且经过预先训练的模型  源领域：庞大的标记数据或无标记数据  目标领域：少数标记数据  目标：将模型从源领域迁移到目标领域以处理相同或不同的任务源目标 24

25 .源数据规模在迁移学习中意义重大（图）  Dhruv Mahajan, et al.: Exploring the Limits of Weakly Supervised Pretraining.ECCV (2) 2018  “不必借助手动数据集监护或复杂的数据清理，使用数千个不同主题标签的数十亿 Instagram 图像训练过的模型也能取得出极佳的迁移学习表现” 107 109 25

26 .通过学习迁移实现迁移学习标记示例 ImageNet 迁移学习医学书籍有必要开展外科手术胃炎可以 ImageNet 医学卫星图医学影卫星图像书籍像像治愈… 领域大脑医学影像肿瘤是一种的组成部分包 … 括… 领域 Transfer Learning via Learning to Transfer, Ying Wei, Qiang Yang et al.ICML 2018 26

27 .将通过大数据获得的学习成果迁移到小数据小数据小大数据数据小数据迁移 27

28 .下一个问题：数据支离破碎 28

29 . 对人工智能的挑战：数据隐私与机密 Facebook 的数据隐私丑闻 2019 年 1 月 19 日 • 2012 年，美国联邦贸易委员会 (FTC) 因 Google 未能改进隐私做法而对其处以 2250 万美元罚款，创下了同类罚款的纪录。 • 《华盛顿邮报》报道，Facebook 的罚款本应“比这高得多”。 • 超过 5000 万人受此事件影响 • 英国对 Facebook 处以 50 万英镑罚款 • 美国上市公司最严重的一次单日市值下滑，暴跌 1200 亿美元，即 19% 29

10点赞

6收藏

6下载