- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
5.李薇-建设开源数据生态体系,助力高水平科技创新
展开查看详情
1 .建设开源数据生态体系 助力高水平科技创新 opendatalab.org.cn 开 放 数 据 平 台 汇 聚 高 质 量 开 源 数 据 李薇 上海人工智能实验室 OpenDataLab 2022.9.24
2 .上海人工智能实验室 上海人工智能实验室是我国人工智能领域的新型科研机构,开展战略性、原创性、前瞻性 的科学研究与技术攻关,突破人工智能的重要基础理论和关键核心技术,打造“突破型、 引领型、平台型”一体化的大型综合性研究基地,支撑我国人工智能产业实现跨越式发展, 目标建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地。 OpenXLab 包含9个开源项目,覆盖从感知、认知推理、决策 AI 到生成式 AI的系列原创 核心算法,以互联互通超大数据集和高性能计算编译为基础延展至人机互动、扩展现实、 教育、伦理治理等领域,全面赋能科研突破、技术创新和产业应用 ,聚力打造强国AI的超 级大脑。
3 .开源体系已经成为人工智能技术生态的中流砥柱 浦视 浦策 浦实 书生 蒲公英 人工智能开源开放体系 浦算 浦数 浦画 浦育
4 .浦 数 · OpenDataLab开 放 数 据 平 台 定位 一代内容消费工具的衰落 vs 新一代内容平台的崛起 为AI开发人员以及研究人员提供一站式的标准化开放数据 集的获取、贡献和共享 价值主张 便捷 互联 获取海量标准化数据集如获取 基于开放数据互通协议,实现 论文、代码、软件般便捷 跨领域的数据互联、检索与交 论文 代码 数据 换,促进交叉学科创新 科研领域的“生产要素”正以内容平台的方式逐步形成开放社区
5 .数据是人工智能重要的基础设施 “AI has Evolved. 迭代改进数据对AI的影响 Accelerate Machine Vision Innovation with Data-Centric AI.” —— Andrew Ng Model Centric Approach AI = Code + Data 数据准备 模型训练 模型监控 (algorithm/model) Data Centric Approach 在AI进化变革过程中,高质量数据发挥关键作用 AI = Code + Data 数据迭代在AI开发流程中受到关注,并成为重心 (algorithm/model)
6 .数据是人工智能重要的基础设施 Advances, challenges and opportunities in creating data for AI全流程中数据的影响 trustworthy Al - Weixin Liang、Fei Fei Li etc. 数据设计 数据改善 数据评估 实现可信AI,数据的设计,改善和评估是关键 为了持续获取和使用数据,用户需要将以数据为中心 的AI过程自动化
7 .浦数·开源数据生态体系 浦数 人工智能开放数据平台 开放互联的数据资源 开源智能的数据工具 标准通用的数据语言
8 .海量·高质量·前沿开放数据资源 50+ 800+ 标注类型 任务类型 2D矩形、2D关键点、2D折线、多标签分类、点云3D 图像分类、视频分类、目标检测、目标追踪 标注、多边形、文本、语音… 关键点检测、语义分割、实例分割、问答… 数量 3,500+ + 30+ 20+ 容量 40 TB 数据类型 应用场景 图片、文本、视频、音频、点云、3D、CAD、立体声 智能驾驶、智能城市、智能交通、智能医疗 多模态公开数据集 时间序列、激光雷达、医学影像… 智能文娱、智能零售、交通物流、智慧安防... 图像 视频 音频 三维 文本
9 .高速·免费·便捷获取开放数据资源 多维智能查询 对话式检索 多维信息检索 免费高速下载 稳定:断点续传 高速:下载更快
10 .持续打造前沿开放数据 全新发布6个高质量数字内容数据集 浦画·高质量数字内容开放平台 Renface Renbody Synbody 覆盖动静态 全面丰富的标注 OmniObject3D HuMMan GTA-Human 庞大的数据量 多视角视频与三维模型 10月全网上线
11 .面向青少年AI学习的数据集建设 浦育 青少年 AI 开放创新平台 AI 科创工具 AI 教育数据 生动有趣学习体验、丰富项目 青少年化、多样、易用 案例多 AI 主题、多学科融合 互连、可扩展、易创新 快速建立AI项目课程 助力青少年AI发展
12 .浦数·开源数据生态体系 浦数 人工智能开放数据平台 开放互联的数据资源 开源智能的数据工具 标准通用的数据语言
13 .浦数·开源智能标注工具库 通用 灵活 智能 开放 覆盖图片、视频、点云、文本等多 支持根据任务场景自定义配置 支持接入自定义算法集模型, 免费开源,支持单机部署和协 样化标注场景,支持常用标注工具 工具及多工具复合使用 实现辅助标注/半自动标注 同使用,灵活与各类平台集成
14 .浦数·开源智能标注工具库 任务类型 工具类型 目标检测 视频分段 标签分类 2D 矩形 2D 多边形 2D 关键点 2D 线 Label U 3D点云 语义分割 语音 文本 3D 立体框 分段截取 分类标签 关键点 文本 车道线 10月起陆续上线 https://github.com/opendatalab
15 .浦数·开源数据可视化分析工具库 直观 高效 灵活 数据准备 数据分析处理 模型评估 数据集概要信息 媒体数据统计 任务指标评估 原始数据可视化 标注数据统计 漏检目标分析 数据标注可视化 数据质量分析 误检目标分析 数据目录可视化 数据分布可视化 置信度分析
16 .浦数·开源数据生态体系 浦数 人工智能开放数据平台 开放互联的数据资源 开源智能的数据工具 标准通用的数据语言
17 .数据在AI流程中难解的问题 痛点1:数据格式不统一 痛点2:数据转换费时费力 痛点3:数据处理占用大量时间 ⚫ 数据形态差异大,无法直接使用 ⚫ 不同数据集标签体系不同,合并时需 ⚫ 数据集分析、处理、评估时都需要 要先对齐语义和标签 手动脚本进行 ⚫ 标注工具不同导致标注格式不同 [ x 1 , y 1 , x 2 , y 2 ] o r [ x 1 , y 1 , w, h ] ⚫ 大数据量转换时需耗费大量时间 ⚫ 缺少通用的高效的工具对数据进 ⚫ 无规范约束导致目录结构、描述类型 行处理、分析和评估 不同,例如 xml/json/txt
18 .数据描述语言DSDL (Data set description language) 可拓展性 创新性提出 (Extensible) 数据描述语言 DSDL 以统一规范对各类AI数据集进行描述并提供配套 AI数据处理、分析工具,提高数据处理及模型开发效率 通用性 便携性 (Generic) ( Po r t a b l e )
19 .DSDL规范及底层结构 DSDL 0.5.0 Application 5.2 上层应用(可视化、数据处理) Deployment 5.1 一键部署(install/pull/push) Description Deserialization 4 . 反 序 列 化 ( YA M L t o P y t h o n O b j e c t ) Template Definition 3. 预定义模板,支持import Type Definition Object Locator Definition 2.1 类型定义 2.2 定位器定义 DSDL Specification 1. 底层语言规范(DSDL) https://github.com/opendatalab
20 .D S D L 分布式数据互通体系 分布式媒体数据 中心化元数据索引仓库 L I C E N S E 可分发 D1 D2 D3 ∙∙∙ Dn 目标定位器 D1 D2 D3 ∙∙∙ Dn OpenDataLab 底层规范:DSDL LICENSE不可分发 标准化数据部署工具 D1 D2 D3 ∙∙∙ Dn 数据分析 可视化 官网 模型训练 其他
21 .统一规范构建数据互通互联 DEMO 统一表示规范 通用性 覆盖多领域 数据互联互通 解耦媒体文件,标注文件 便携性 轻量级标注,随处分发 文档说明 低层逻辑无需变动 可拓展性 框架便于扩展 提供主流任务模板,快速上手
22 .开放数据合作生态 生态合作伙伴 开源数据中国 自动驾驶之心 AI数据标注猿
23 .THANKS OpenDataLab开放数据平台 助力数据开放互联 微信公众号 小助手微信