- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
云原生数据湖构建与分析最佳实践
“数据湖”正在被越来越多人提起,尽管定义并不统一,但企业们都已纷纷下水实践。
这里我们将告诉大家如何基于阿里云OSS、数据湖构建DLF、DataWorks等基础服务,结合阿里云E-MapReduce丰富的计算引擎和JindoFS企业级数据湖加速,打造一个全新云原生企业级数据湖体系。
展开查看详情
1 .云原生数据湖构建与分析最佳实践 阿里云开源大数据平台 健身
2 . 背景介绍 架构分析 CONTENT 性能与成本 客户案例
3 . 背景介绍 架构分析 CONTENT 性能与成本 客户案例
4 .大数据 海量数据 数据种类 丰富 Volume Variety Value Velocity 发掘数据 快速计算 的价值
5 .第一代云上开源大数据平台 用户 EMR 集群 MapReduce Hive HBase Spark Storm Kafka l 数据快速增长,存储成本高 l HDFS NameNode横向扩展 HDFS 磁盘 l HDFS Federation运维复杂度比较高 ECS (本地盘机型、云盘机型)
6 .第二代云上开源大数据平台 用户 EMR 集群 l 引入OSS Kafka 主要实现 HDFS 接口,体验一般 Hive HBase Spark l Storm Druid Impala Presto Flink l 成本没有明显降低 Kudu HDFS 磁盘 ECS (本地盘机型、云盘机型)
7 .第三代云上开源大数据平台 l 集中统一存储 l 数据分层存储 l 计算资源弹性伸缩 l 规避HDFS运维复杂度
8 . 背景介绍 架构分析 CONTENT 性能与成本 客户案例
9 .EMR 数据湖架构 PAI DataWorks NoteBook Application DEV & Jupyter/Zepplin Data Science workbench Metadata Job Scheduler 社区开源组件 Job Scheduler EMR-Workspace/ management 监 Permission& Hue/Superset EMR-Flow/Oozie DLF/Hive/Kafka 智 控 authorizatio MR Hive Spark Flink TensorFl Storm Impala Presto 能 n ow & EMR开源软件增强 Compute Engine 运 告 Kerberos YARN Click HBase Kafka Druid 维 Ranger house 警 管 Delta Lake Hudi JindoFS Alluxio EMR自研组件 HDFS Data Storage 控 Kudu OSS 阿里云其他云产品 Sqoop,DataX Flume,Kafka Logstash,SLS Data Intergration Data Platform EMR Agent Management Basic Compute ECS/ECI/ACK(K8s) Source
10 .数据湖计算 – 弹性伸缩 • 基于云的特性,获得资源的 Active Standby 弹性 阿里云 Master Master – 计算资源的弹性 ECS Resource pool – 存储资源的弹性 • 灵活的弹性集群 – 计算与存储分离,只在需要的时候 Core Task 才添加计算 – EMR的动态计算组,按照集群状态 Core Task 来进行伸缩 动态弹性资源 – Spot instance Core Task 常驻集群 – 包月+按量组合 • 弹性伸缩 Core Task – 按照时间 – 按照负载 计算和存储节点 计算节点
11 .数据湖计算 – 容器 • • •
12 .数据湖存储 – JindoFS 易用 l 支持主要开源计算框架,且对框架透明 l 无需修改用户对OSS的使用方案 l 多种缓存设备内存/SSD/HDD l 支持FUSE文件挂载 企业级 l 高数据可靠性,11个9 Jindo JindoFS SDK Namespace Service l 高可用架构,支持Auto Failover Block location Ops l 数据权限管理,Ranger列级别权限管理 Write/read local cached block l Audit Log审计 Sorag Jindo Storage Service Sorag Jindo Storage Service l 小文件分析 e Local Storage Write/read OSS object e Local Storage Servic HDD SSD DRAM Servic HDD SSD DRAM 高性能 e… e… 对比社区流行方案,TPC-DS 1TB l Spark SQL 2.4.5 性能提升27% l PrestoSQL 0.338 性能提升93% l Hive ETL 2.3.5性能提升42% https://github.com/aliyun/alibabacloud-jindofs
13 .数据湖元数据 Data Lake Formation 数据湖计算引擎 元数据管理 Databricks EMR PAI MaxCompute MC-Hologres l 统一元数据管理,解决元数据多引擎一致性问题 DataInsight l 自动生成元数据,降低使用成本 Data Lake Formation 访问控制 元数据管理 l 集中数据访问权限控制,多引擎统一集中式赋权 l 数据访问日志审计,统计数据访问信息 访问控制 数据入湖 l 支持多种数据源入湖,MySQL、SLS、OTS、Kafka等 l 离线/实时入湖,支持Delta/Hudi等多种数据湖格式 l 数据入湖预处理,支持字段mapping/转换/自定义udf操 数据入湖 作 数据湖存储OSS
14 . 背景介绍 架构分析 CONTENT 性能与成本 客户案例
15 .性能与成本 – Remote Shuffle Service • • •
16 .性能与成本 – 数据预计算 • • • •
17 .性能与成本 – 数据预组织 • • • •
18 .性能与成本 – 列存加速 • • • • •
19 .性能与成本 – 分层存储 ECS partition 50TB ECS 0.02 /GB/ <7 partition 1-2 Shuffle 0.12 /GB/ HDFS 3 + Shuffle <20TB OSS 30 partition OSS 0.12 /GB/ 20% 1 300 partition OSS 0.08 /GB/ 20% 3 1 OSS 0.033 /GB/ 60% >300 partition OSS 0.015 /GB/
20 . 背景介绍 架构分析 CONTENT 性能与成本 客户案例
21 . 数据湖最佳实践 客户需求 游戏业务 广告业务 Ø 数百节点HDP,版本维护成本高,软件升级困难 运营效果分析 DataWorks EMR Spark Ø 物理机弹性能力不足,需要云上的弹性能力和扩张能力 EMR Gateway AB测试 Ø 计算和存储绑定,硬件升级成本高 大数据 AI平台 开发平台 处理数据 关卡难度训练 EMR Druid 即席查询 Deep Storage EMR Hadoop 数据采集 数据湖方案 Ø 采用OSS替代HDFS,作为企业统一数据湖,采用分层存储降 统一数据平台 低用户使用成本 EMR Kafka MapReduce Hive Tez Presto 用户游戏 Ø 使用EMR JindoFS对接Hive/Presto/Tez计算引擎 行为数据 消息队列 EMR JindoFS Block模式 热数据 >300TB Ø AI模型训练采用Spark弹性伸缩集群,弹性伸缩资源比率占集 群算力的90% 阿里云 Ø Druid采用JindoFS做为Deep Storage,实现 标准型 XPB 低频型 XPB 归档型 XPB OSS
22 .数据湖最佳实践 客户简介 l 国内互联网金融头部客户 Xray业务平台 l 每个业务均采用独立的集群模式 EMR Presto EMR Gateway l AWS EMR典型客户,根据部门和数据划分20-30集群,每天 大数据 千台规模节点弹性伸缩 调度平台 分析 Jupyter 平台 Airflow 客户需求 l 用户服务了大量内部和外部用户,且数据较为敏感,要求严 EMR Hadoop 元数据 EMR Hadoop 格的数据权限隔离。 Hive Meta Jindo Meta l 大量OSS的rename等操作,性能要求高 Hive Hive 权限控制 l 根据任务自动大规模弹性扩缩容 RAM EMR JindoFS Cache模式 EMR JindoFS Cache模式 Ranger 客户价值 数据湖 业务OSS A Bucket 业务 B Bucket l 通过JindoFS满足了用户的数据计算性能需求,尤其是部分 操作场景上,在有限带宽的情况下和S3的性能表现一致。 l EMR Ranger对数据湖数据权限严格管控。 阿里云 日志数据 外部数据 RDS l 企业能力如资源组等的支持,协助进行负责的资源隔离能力
23 .