- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- <iframe src="https://www.slidestalk.com/Baiyulan/OpenDatasetsGraviti0417146322?embed" frame border="0" width="640" height="360" scrolling="no" allowfullscreen="true">复制
- 微信扫一扫分享
公开数据集社区 Open Datasets-杨浩特
杨浩特,Graviti 算法专家,上海交通大学计算机硕士。
议题简介 :数据是深度学习的根本,然而当前的公开数据集生态略显原始,公开数据集的检索管理共享都缺乏高效的工具和平台。
为了解决这些痛点,Graviti搭建了公开数据集社区 Open Datasets,为广大AI开发者提供高效的数据集搜索途径,丰富的数据集管理工具和快捷的数据集共享平台。
展开查看详情
1 .公开数据集社区 Open Datasets 2021.04.16
2 .● 搭建数据集社区的初衷 ● Open Datasets 介绍 ● TensorBay 介绍
3 .公司介绍 Graviti成立于2019年,提供面向机器学习的数据管理 SAAS 产品和构建以 AI 开发者为核心的开源数据 集社区。致力于降低运用机器学习创新的团队和个人在AI开发过程中因处理非结构化数据带来的不断增 长的数据获取、存储和处理成本,通过为开发者提供云上的专业数据集管理服务助力机器学习,加速 AI 开发和产品创新,驱动产业升级提供坚实的机器学习基础设施。 投资方
4 .目前公开数据集的现状
5 .目前公开数据集的现状 ● 自建网站 COCO KITTI BDD100K Mapillary
6 .目前公开数据集的现状
7 .
8 .目前公开数据集的现状 ● GitHub Fashion-MNIST DuReader COVIDx Elpv
9 .目前公开数据集的现状
10 .代码开源 & 数据开源 Code + + 网页 邮件 压缩包 Datasets + + Open Datasets 网页 邮件 压缩包
11 .Open Datasets
12 .产品概览 代码上传方 代码使用方 任何人都能上传自己的代码,并 GitHub 搜寻并使用您想要的代码;直接 围绕代码建立自己的社群 开放软件平台 向代码上传者反馈意见 数据集上传方 数据集使用方 Open Datasets 任何人都能上传自己的数据集, 搜寻并使用您想要的数据集;加 并围绕数据集建立自己的社群 公开数据集平台 入社群向数据上传者反馈意见
13 . 产品概览 Open Datasets 海量优质公开数据集搜索、数据托管、一站式 搜索,与全球AI开发者共创公开数据集社区 • 1000+优质数据集 30+应用场景,20+标注类型,10+数据格式 • 免费获取 免费获取与使用数据集,助力AI开发落地 • 便捷云端使用 通过开发者工具无需下载即可云端读取数据
14 .基本功能 查找筛选 结构化信息 数据可视化 获取使用 社区支持 快捷的数据集 查找与筛选 通过数据集名称联想检索查找 通过数据集的数据类型筛选 通过数据集的应用场景筛选 通过数据集的标注类型筛选 通过推荐、更新时间及热度筛选
15 .基本功能 查找筛选 结构化信息 数据可视化 获取使用 社区支持 数据集信息 的结构化描述 明晰的信息展示方式,提升用户阅读体验 数据应用场景、标注信息结构化 数据概要信息结构化 数据License信息结构化
16 . 基本功能 查找筛选 结构化信息 数据可视化 获取使用 社区支持 支持查看主流的图片与视频数据 标注数据可视化 • 支持查看主流的图片与视频数据 • 支持查看主流的标注类型 标签分布可视化 • 多种样式查看标签分布
17 .数据可视化:支持主流视觉标注类型 2D 矩形 2D 多边形 2D 分类 2D 折线
18 .数据可视化:支持融合追踪等复杂场景 • 支持多传感器数据、标注交互展示 • 支持多种点云格式,三维交互展示 • 支持追踪标注,数据、标注连续帧播放 • 组件灵活分享展示,快速了解数据样例 KITTI nuScenes
19 .数据可视化:支持音频类数据集 • 支持音频在线播放 • 支持语音转写、语音分类 • 在线查看音频文本对应关系 Free Spoken Digit Newsgroups20
20 .数据分布 支持多种标签分布可视化 互动式数据分布可视化,明确数据特点,提升调试效率 Bar Chart Table Pie Chart
21 .基本功能 查找筛选 结构化信息 数据可视化 获取使用 社区支持 Fork - 获取数据集 Open Datasets TensorBay 统一数据结构调用代码,无需担心数据格式转换
22 .基本功能 查找筛选 结构化信息 数据可视化 获取使用 社区支持 完善的社区支持模块 为社区用户提供问题与需求的反馈渠道, 快速解决数据集需求与用户问题 ● 支持用户针对数据集创建问题/反馈 ● 支持用户创建数据集需求 ● 可实时同步最新的排期、解决进度
23 .平台用户增长概览 132% 3x 10000 + 用户增长 活跃指数 注册用户 连续3个月增长3.97倍,月平均增 活跃率超过38% 平台现有注册用户过万 长率132% 是GitHub的3倍
24 .客户案例 解决方案 解决方案 开放数据集 数据管理 数据管理 模型评估
25 .Motional同Graviti达成战略合作,在Open Datasets开放数据集平台发布其自动驾驶开源数据 集nuScenes 我们很高兴能够看到AI研究人员能通过Graviti的公开数据集平台更好地体验nuScenes数据集。 - Motional, Data Curation团队负责人, Holger Caesar 诉求 为何选择Graviti 我们带来的价值 nuScenes是Motional开发的大规 Open Dataset 平台: 为 • 为学术社区提供了使用 模自动驾驶公开数据集。 nuScenes提供了可靠的数据集托 nuScenes数据集的新方式 Motional致力于让安全可靠、自 管方式,支持高速下载,并对学 如无碍的自动驾驶变成现实,需 术社区免费开放 • 进一步加强nuScenes数据集 要寻找能够让AI研究者能够更好 数据可视化:支持数据的在线可 和用户之间的连结 地使用nuScenes的合作伙伴。 视化,下载前即可全面获悉数据 集详情 • 提升nuScenes数据集的影响 格式预处理:Graviti数据专家对 力(尤其是针对中国用户) 数据格式进行了预处理 社区:AI开发者能够迅速通过内 建功能向数据集提供商发起意见 反馈
26 .nuScenes在Open Datasets平台上的落地页
27 .NuScenes
28 .数据可视化
29 .UC伯克利,MSC Lab 自动驾驶团队 全球开发者竞赛,预测和路径规划技术,模型评估 诉求 为何选择Graviti 我们带来的价值 The Interaction Dataset 是伯克利 支持场景数据 全面提升数据下载体验 的MSC Lab同MINES ParisTech 场景数据和传感器数据的格式非常 参赛者无需再把时间浪费在数据下 以及KIT的FZI合作进行的数据集 不一样,而我们的平台在设计之初 项目。MSC Lab根据此数据集发 载上。 就考虑到了这方面的可扩展性。 起了一项全球的机器学习模型设 客制化评估指标 计竞赛,目的是推动自动驾驶领 MSC团队根据研究实际情况,设 域预测技术和路径规划技术的前 强大权限控制,阻挡恶意使用 计了最合适的评测指标。 沿探索。因此,他们需要寻找能 权限和协作功能让MSC团队能够完 提升竞赛体验 够帮助他们快速搭建评估系统的 全控制用户的访问权限,并且MSC 合作伙伴。 会定期收到数据集的访问记录。 参赛者不需要再等待数小时才能得 知模型评估结果,从而迅速进行下 一轮迭代。