- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
3.高丰-AI数据开放的现状与治理
展开查看详情
1 .
2 .AI数据开放的 现状和治理 高丰,开放数据中国 & 白玉兰开源
3 .关于我们 开放数据中国是中国第一个聚焦开放 上海白玉兰开源开放研究院(以下简称白玉兰 式数据要素流通创新和开放式数字治 开源)依托上海交通大学人工智能研究院建设, 理的社会企业,旨在推进开放性的未 在梅宏院士“参与融入 蓄势引领”的精神指导 来数字时代(Open Digital Future)。 下开展工作。 其主要工作在「数字要素治理」、 白玉兰开源致力于推进人工智能软件框架研发 「数字权利」、「数字经济创新」三 与开源,以开源社区平台为牵引,推动人工智 个板块,旨在以「开放原则」(Open 能领域开源软件的国际规则互认,在重点领域 Principle)来推进数字时代的要素流 形成“算力、算法、数据、场景、合规”一体 通监管,公民权利保护,以及经济模 化的人工智能,建设国际人工智能开发生态网 式的创新。 络的关键节点。
4 .AI 发展离不开「开放数据」 高质量大规模开放数据集促进了深度学习算法的突飞猛进,开源框架极大地提升了算法开发效率 2010 2015 2020 156,979 15,892 + 1,619 开源框架 49,114 2,368+11,216 EfficientNet 6,151 ResNet 开源算法 5,719 Mask_RCNN YOLOv5 12,566 (Github stars) 20,181 Transformers 47,792 开放数据 5,935 4,031 (Papers) 628 741
5 .AI 发展需要「更开放」的数据 各国都将「开放」公共数据和关键领域数据 作为推动AI发展的重要抓手
6 .但对于AI发展而言, 数据「开放」的价值, 不应只在于「供给原材料」
7 .「开放」究竟意味着什么? 从开源视角来看,已验证其价值在于三方面 Fork 社区 Free (共建) (共治) (共益)
8 .「开放」的数据,为AI发展: • 更为开放的数据,可以激励更包容少偏见的人工智能 • 更为开放的数据,使得 AI 的协同合作更为便捷 • 更为开放的数据,能够一定程度破除 AI 的黑箱问题
9 .AI 数据工作依赖资源投入 大约 50%以上的ML研究论文所涉及的数据集是由 12 家顶尖高校和巨头企业所创建 Souce: “Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research”, Bernard Koch and Emily Denton and Alex Hanna and Jacob Gates Foster, NeurIPS 2021
10 .AI 数据工作缺乏价值认同 当前的学术界、工业界普遍对于数据工作的价值认同弱、激励不足。 Souce: “Everyone wants to do the model work, not the data work": Data Cascades in High-Stakes AI”, Sambasivan, Nithya, et al., CHI 2021
11 .全球的数据开放仍需努力 不止是AI数据,事实是关乎于社会经济价值的关键数据仅10.63% 真正开放 Souce: Global Data Barometer
12 .但,人们真需求「开放」吗? 在面临数据极度封闭稀缺的现状下,需求只能停留在底层的「访问」上,开放特性和现状需求是错位的 协作的 Collaborative 共益数据 理想主义的追求 可信的数据 透明的 Transparent 好用的数据 包容的 Inclusive 大多数人的需要 可获取的数据 非限制 UnRestricted 可访问的数据 对数据特性的需求层次
13 .研究中国AI数据开放的现状 由 白玉兰开源 和 开放数据中国 联合开展,我们试图通过桌面调研、访谈、问卷去 厘清: • 由中国机构所主导发布/开放的AI数据有哪些?在发布行为上有哪些特征? • 中国AI开发者如何看待当前的数据环境?他们的数据发现、获取、使用的行为和 体验如何? • 中国机构在发布/开放AI数据时面临哪些挑战?有哪些主要的有形或无形的成本/ 壁垒? 我们预期在今年年底前形成《中国AI数据开放的现状和未来》研究报告,并尽 可能将过程中的资源和数据予以开放,供进一步研究和社区使用
14 .国内AI数据开放怎么样? 我们通过下述方式对国内AI数据开放进行了快速的检视: • 搜索引擎:“AI+数据集”、“人工智能+数据集” • 专业平台:格物钛、PaperwithCodes • 专业数据商:Magic Data、希尔贝壳等 • 竞赛平台:天池、DF、Kesci等 共梳理 132个 独立的、由国内机构主导发布的 AI数据集 注: 1. 此处为了统计方便,并未进一步拆分千言、CLUE等包含多个子数据集的情况 2. 此处未统计地方政府开放数据门户等政府侧可提供的AI数据资源 3. 这并非一个穷尽式的扫描,且尚属于过程中的进展分享
15 .国内AI数据开放怎么样? 专业数据商 语音处理 4% 社区 联合 6% 1% 其他 14% 自然语言处理 5% 13% 学术机构 企业 35% 17% 机器视觉 76% 企业研究院 29% 技术方向 发布主体 典型主体
16 .国内AI数据开放怎么样? 26% v.s. 63.9% 采用标准协议 采用自主条款或协议 (如CC等)
17 .国内AI数据开放怎么样? 数据存储托管的方式前三名的是: 网盘 Github 或 私有 Gitlab 专业数据平台 或 私有服务 (包括百度、dropbox等)
18 .AI 开放者的数据行为和感受 白玉兰开源和开放数据中国在今年上半年,利用 3周 感谢下述社区合作伙伴 窗口期,通过 20 + 社区的合作,面向 AI 开发者收集 了 229 份有效问卷。 AI 开发者 包括哪些: - 在企业开展 AI 算法研发、开发测试的人员 - 在研究机构开展 AI 相关研究的人员 - AI 算法和技术的学习者 - AI 竞赛的参赛者 共性是他们都需要寻找、获取、使用数据用于 AI 目的
19 .开发者画像 语音交互 研究 21% 自然语言 学习竞赛 32% 33% 学生 在职 41% 48% 52% 工程 机器视觉 27% 46% 职业状态 职业类型 技术方向
20 .开发者多在哪发现数据? 通用搜索引擎 学术文献 Github 等开源代码托管平台 专业数据平台 媒体报道 人际网络 专业数据搜索引擎
21 .开发者多在哪获得数据? 数据集官方网站 或 Github 仓库 社群交流平台 AI 资讯类/媒体类平台 AI 竞赛 学习课程 专业数据平台或商店
22 .开发者需要什么样的数据? 前三位 后三位 • 获取方式公开 • 不限制使用用途 • 免费 • 无需申请 • 来源合法合规 • 不限制传播 恰恰是开放的特征
23 .开发者的数据体验 • 明确有使用过中国机构主导发布的开放AI数据集的开发者比例是 17.47% • 开发者对当前开放获取的数据的体验感受是:
24 .那么, 如何进一步推动 AI 数据开放?
25 .规则建设:数据协议的挑战 • 现状:多采用 OGL(The Open Government Licence)、CC-BY /CC-BY-SA 4.0、 ODbL(Open Database License)等传统标准开放内容协议 • 问题: • 关于Use(使用)的含义较为模糊 • 关于非商用的界定较为模糊 • 非为数据专门创建的协议 • 发展:近两年,Linux Foundation、微软、Element AI 等特别围绕数据在“计算使 用”(Computational Use)下推出了一批新的创新数据许可协议
26 .木兰-白玉兰协议(MB-ODL) 考虑到数据要素流通的合规复杂性,当前1.0 版本基于如下 原则和适用性拟定: ➢ 针对人工智能训练数据集的发布拟定适用的协议 ➢ 所发布数据应满足基本的公开发布、免费发布的前提 ➢ 所发布数据符合国家数据安全的要求,不涉及国家秘密、 国家安全、社会公共利益、商业秘密等 ➢ 所发布数据当前不涉及个人信息 项目 Repo (1.0 协议): * 「个人信息」依照《个人信息保护法》中的定义:个人信 https://github.com/Bai-Yu- 息是以电子或者其他方式记录的与已识别或者可识别的自 Lan/Mulan-Baiyulan-Data-License 然人有关的各种信息,不包括匿名化处理后的信息
27 .MB-ODL:两套授权思路 MB-ODL 自主拥有数据或拥有处置权 对于自主生产、拥有完全处置权的数据,我们采用直接授权的模式,对数据资源可以直接通过协议授权第三方 MB-ODL 汇编第三方内容形成数据集 类似 Open Database License (ODbL),采用「数据集结构和数据集内容分离」的策略 例子:鸟类图片数据集 图片数据根据来源可能原有分别授权在 CC 等开放授权协议下,整体数据集结构授权在 BODL 下,鸟类标 注数据可自主授权在 CC 下。
28 .MB-ODL:组合式套组协议 类似 CC(知识共享)的一个套组协议 SA:相同方式授权,使 MB-ODL 具备传染性 MB- NC:非商业,可配套不同非商业限定 + ODL CU:仅计算使用,限定模型和分析类使用 使用方式: 单组合: MB-ODL-SA 叠加组合:MB-ODL-NC-SA
29 .MB-ODL:「使用」的细化 将传统的「使用」一词,依照数据分析和机器学习的术语,做技术性分 解和定义,便于行业内的技术人员理解协议的制约 6. 计算使用:指对数据的 a. 分析:指对数据予以解读和应用工具而产出模式、趋势、关联性等洞察的操作。如:特征提取。 b. 训练:指向未训练模型提供数据,从而通过权重、参数、结构等调节而输出已训练模型的操作。 c. 表示:指将数据变形转化为另一种表现形式的操作,从而使得新表示形式下的每一个数据元素能够模 拟或映射原有数据的信息。预训练模型也是一种形式。 专家知识 分析 训练 表示 机器算力