- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
12-郑锴-大数据 meetup
郑锴,阿里云开源大数据平台数据湖存储负责人
议题:
高性能和低成本如何兼而有之?阿里云数据湖存储加速技术 JindoFS 的原理和最佳实践
议题介绍:这个 topic 主要讨论开源大数据领域数据湖存储技术的重要发展历程,分享我们在阿里云上这个领域一路走来的理念、探索和最佳实践。
展开查看详情
1 .性能和成本如何兼具,JindoFS 数据湖存储优化方案交流 郑锴(铁杰) 阿里云 开源大数据平台 数据湖存储 2021/06
2 .01 我为什么要在云上搞数据湖
3 .为什么是数据湖? 数据湖是在后 Hadoop 时代的新旗帜
4 .为什么是在云上? 数据湖成为开源大数据社区和云厂商之间的新纽带。 云最好地诠释了数据湖,云原生也必然是数据湖的最终归宿。
5 .每个开发者眼中的数据湖都不一样 数据湖核心三要素
6 .数据湖核心三要素 包罗万象的数据
7 .数据湖核心三要素 理想的数据湖存储
8 .数据湖核心三要素 开放、丰富的计算
9 .理想的数据湖存储 为什么 HDFS 不是?
10 .理想的数据湖存储 那自己搭个对象存储呢? 比如,我用 Hadoop Ozone。
11 .理想的数据湖存储 为什么公有云对象存储才是?
12 .理想的数据湖存储 公有云对象存储很好了,为什么还需要配套的优化方案? 比如,社区的 Alluxio、JuiceFS。 比如,我们大力打造的 JindoFS。
13 .02 阿里云上的 JindoFS
14 .一个大图:阿里云云原生数据湖图景 分析 Analytics 人工智能 Artificial Intelligence 生态产品 Eco-products MaxCompute EMR(Spark+Presto) 机器学习 PAI EMR DataScience Databricks 数据洞察 MC-Hologres 实时计算Flink版 自建 CDH 智能推荐AIRec 印刷文字识别 自建 Hadoop Elasticsearch DataWorks 数据湖存储 OSS 数据湖构建 Data Lake Formation 结构化/半结构化/非结构化 ETL数据清洗 / 元数据 / 权限管理 JindoFS + OSS 数据湖存储加速方案和实践 数据入湖 数据集成 DataHub 实时计算Flink版
15 .聚焦:大图下的 JindoFS E数据湖元数据、数据湖管理、数据湖治理 数据湖构建 Data Lake Formation DataWorks EE-MapReduce 开源数据湖分析套件(on ECS & ACK) 不断丰富和开放的计算 。。。 Kafka Jupyter PAI DataWorks ACK 上的大数据和 AI 训练 (Fluid) 智能运维管控 监控 Hadoop Hive Spark Flink Databricks DataInsight (DDI) Sqoop Druid Impala & Presto ClickHouse ECS 自建 Hadoop 告警 Flume Delta/Hudi、Parquet/Orc/Avro ECS 自建 CDH Alluxio JindoFS JindoFS 数据湖存储 OSS(标准、低频、归档、深度归档)
16 .JindoFS 核心能力一:数据湖超级 SDK 一个核心优化层(Native Core) • 优化元数据操作 • 优化 IO,支持多种缓存策略 • 灵活的 AK、STS token 配置策略 多个 接口适配和丰富的 SDK 支持 • HDFS SDK,对标 HCFS 接口 • HDFS SDK 是开源大数据兼容性最高的接口事实标准,对 OSS 支持 JindoFS 首先要提 • ObjectStore SDK,对标 OSS SDK 供性能领先 Hadoop 社区和友商的 SDK 方案 • POSIX/FUSE,对标 OSS/S3 FUSE • POSIX 是最通用的存储接口,没有 JVM 羁绊,JindoFS FUSE 性能大幅领先 S3/OSS FUSE • Python SDK,对标 OSS2,S3 Boto • 核心优势:一份数据,多个视图;一个核心优化,多个 SDK 共享,性能最关键。 JindoFS SDK 后来居上,到目前为止,大量用户在使用,逐渐成为阿里云 OSS 数据湖场 景的最佳实践。 Github: https://github.com/aliyun/alibabacloud-jindofs
17 . JindoFS 核心能力二:面向数据湖存储的缓存系统 Github: https://github.com/aliyun/alibabacloud-jindofs
18 .JindoFS 核心能力三:基于 OSS 的大数据存储系统 Github: https://github.com/aliyun/alibabacloud-jindofs
19 .JindoFS 核心能力四:首创业界多引擎列存加速 Github: https://github.com/aliyun/alibabacloud-jindofs
20 .JindoFS 核心能力五:数据热温冷分层,成本大幅优化 数据热温冷分层 • 热数据,默认走 OSS 1 备份 + 本地 1 备份 • 温数据,走 OSS 1 备份标准存储 • 冷数据,走 OSS 1 备份归档存储 核心功能 • 统计识别冷热,分级管理和存储,最 大化提供服务质量和降低存储成本 • 支持按目录设定存储策略 • 支持按表、分区设定存储策略
21 .数据热温冷分层,一个例子 Hive 冷热分层 以HDFS单副本10PB 每天partition数据50TB 高频率查询1-2周 <7天partition ECS本地盘 0.02 元/GB/月 10% 1 0.12 元/GB/月 12 最近30天partition OSS 标准型 20% 最近1月数据偶发查询 OSS 低频型 0.08 元/GB/月 8 20% 部分3月数据季报 部分1年数据年报 最近300天partition OSS 归档型 0.033 元/GB/月 8 60% 冷数据 >300天partition OSS 深度归档 0.015元/GB/月 以HDFS单副本10PB HDFS本地盘方案 125万/月 OSS数据湖方案 65万/月
22 .03 数据湖最佳实践
23 .数禾—云上数据湖最佳实践 简介: 数禾科技从成立伊始就组建了大数据团队并搭建了大数据平台。并在 ECS 上搭建了自己的 Cloudera Hadoop 集群。但随着公司互联网金融业务的快速扩张发展,大数据团队承担的责任也越来越重,实时数仓需求,日志分析需求, 即席查询需求,数据分析需求等,每个业务提出的需求都极大的考验这个 Cloudera Hadoop 集群的能力。为了减轻 Cloudera 集群的压力,我们结合自身业务情况,在阿里云上落地一个适合数禾当前现实状况的数据湖。 作者:程俊杰,当前在数禾科技大数据部担任大数据架构师的职位,负责阿里云平台产品的架构开发和维护,曾在1号店、拍拍贷、2345 从事大数据平台架构方面的工作。 某云 阿里云数据湖设计 阿里云 EMR 治理 阿里云 OSS 治理 阿里云湖仓一体 统一存储和元数据管理 数据湖构建 多EMR多OSS桶 调整EMR预伸缩时间 数仓ODS多版本桶治理 多样化入湖模版 云上自建 CDH EMR弹性伸缩 更改EMR弹性伸缩策略 数仓日志桶治理 数据湖元数据管理 云上混合架构 CDH + EMR 数据鉴权和脱敏 EMR机器组的选择 数仓桶和集市桶治理 打通 Dataphin 访问 监控告警管理 购买RI预留抵扣券 监控桶内对象 打通 MaxCompute 访问 … https://developer.aliyun.com/article/781803 Tips:数据湖的设计、构建、分析和治理是一个循序渐进的过程
24 .微博—海量小文件无须规整,直接训练加速 海量小文件加速场景 • AIoT 产生大量的小文件数据存放在 OSS 数据湖上 • TensorFlow/PyTorch 引擎直接基于这些材料进行 AI 训 练,需要极速优化小文件的加载读取效率 小文件缓存加速 • 小文件(< 1M)按照一致性 hash 算法分布式存放在多 个节点上的多块磁盘上,用 TitanDB 保存 • 客户端尽可能一次 RPC 即可读取到文件缓存数据 • 缓存节点上读取文件时,尽可能命中内存缓存、系统缓存 核心优势 • 海量训练数据集文件无须提前规整,直接训练 • 支持上亿超大训练数据集文件数 • 支持从 OSS、S3、HDFS 等各种数据源预热预加载 • 支持阿里云 ACK 上通过 Fluid 框架云原生部署 速度提升 18 倍!微博海量深度学习模型训练效率跃升的秘密
25 .JindoFS + OSS 最佳实践—集锦 Github: https://github.com/aliyun/alibabacloud-jindofs JindoFS + OSS 数据湖用户交流钉钉群: 33413498 每周二直播分享,在线专家答疑 数据迁移 OSS 访问加速 JindoFS 缓存和训练加速 JindoTable 计算加速 访问 OSS 这类对象存储最快的方式:JindoFS SDK Hadoop/Spark 访问 OSS 加速 Presto 如何高效查询 OSS 数据 高效迁移 HDFS 海量文件 到 OSS Impala 如何高效查询 OSS 数据 Spark 访问 OSS 透明缓存加速 数据无忧:利用 checksum 迁移 HDFS 数据 打开 OSS 多版本:合规和分析两不误 Presto 访问 OSS 透明缓存加速 Spark 对 OSS 上的 Parquet 数据进行查询加速 到 OSS 高效查看 OSS 数据的 access log 指定表和分区来预先缓存,查询分析更高效 Spark 对 OSS 上的 ORC 数据进行查询加速 如何将 HDFS 数据归档到 OSS Python 访问 OSS 加速 云上计算云下数据:HDFS 透明缓存加速 Hive 对 OSS 上的 Parquet 数据进行查询加速 如何将 Hive 数据按分区归档到 OSS POSIX/Fuse 访问 OSS 加速 结合 Fluid 对 OSS 上的数据进行训练加速 Spark 对 HDFS 上的 Parquet 数据进行查询加速 如何将 Kudu 数据备份到 OSS Tensorflow 访问 OSS 加 结合 Fluid 对 HDFS 上的小文件进行训练加速 Spark 对 HDFS 上的 ORC 数据进行查询加速 分层更高效,对 Hive 表进行热度/冷度统计 PyTorch 访问 OSS 加速 结合 Fluid 对 OSS 上的小文件进行训练加速 对 Hive 表进行高效小文件合并 Flink 高效 sink 写入 OSS Flume 高效写入 OSS Sqoop 高效写入 OSS Druid 如何高效查询 OSS 数据
26 . E-MapReduce | E-MapReduce | 对象存储 OSS 每周二 16:00 锁定系列直播 JindoFS + OSS 数据湖用户交流钉钉群: 33413498 ▲ 欢迎钉钉扫码入群交流 ▲