- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
AlluxioDay_finally
目录
▪ 腾讯云EMR介绍
▪ 大数据架构的革新
▪ 基于Alluxio存算分离架构优化及效果
▪ Alluxio存算分离优化后客户场景
▪ 腾讯在Alluxio社区的贡献
熊训德
腾讯云大数据资深高级工程师,目前在腾讯云从事 hadoop 生态相关的云存储和计算等后台开发,Alluxio, Impala等开源项目的贡献者。
展开查看详情
1 .腾讯云EMR基于Alluxio优化计算存储分离架构 最佳实践 熊训德 | 腾讯云大数据资深高级研发工程师 Alluxio Day 2021
2 .目录 ▪ 腾讯云EMR介绍 ▪ 大数据架构的革新 ▪ 基于Alluxio存算分离架构优化及效果 ▪ Alluxio存算分离优化后客户场景 ▪ 腾讯在Alluxio社区的贡献 Alluxio Day 2021
3 .腾讯云EMR是什么 弹性 MapReduce(EMR)是结合云技术和 Hadoop、Hive、Spark、Alluxio、Hbase、Presto、 Flink 、ClickHouse 等社区 30+ 开源技术的云端泛Hadoop大数据框架,为客户提供安全、低成本、 高可靠、可弹性伸缩的专属大数据集群。 EMR旨在帮助企业在提升研发效率、运维效率、降低硬件成本的同时,轻松应对 TB、PB 级的海 量数据的价值挖掘挑战。 Alluxio Day 2021
4 .腾讯云EMR能力 分钟级构建 云端运维基础设施保障 1 l 10分钟构建上百节点大数据集 群 4 l 百余监控指标覆盖(服务器级、服务级) l 异常事件秒级触达 l Ddos/VPC安全加固、 Kerberos节点级服务信 l 支持控制台/程序API灵活构建 任 极致弹性 云端数据服务无缝连接 2 l 十分钟节点级横向扩展(数节点扩展至 数百节点) l 十分钟集群级横向扩展(单一集群扩展 5 l 多源数据支持(云数据库、ES、 Ckafka、流计算、Snova云数仓) 至数个异构集群) l 云端可视化BI工具无缝对接 极致性能 持续性技术支撑 3 l 组件深度优化,与物理机构建 性能接近 6 l 云厂商雄厚Hadoop技术支撑 l 线上技术交流(论坛、视频、指南) l 线下技术沙龙 l PB至EB级COS数据高速分析 Alluxio Day 2021
5 .传统大数据架构问题 ▪ 资源利用率 EMR订单集群 EMR日志服务集群 EMR分析决策集群 ▪ 刚性扩容 计算 计算 30% 10% 计算 ▪ 数据孤岛 90% 存储 存储 存储 80% 85% 40% 存算一体集群 Alluxio Day 2021
6 .EMR计算存储分离架构 ▪ 计算-EMR EMR分析决策集群 • 业务高峰/上涨期,按需分钟级创建/扩容大数 EMR订单集群 日志服务 据算力 • 业务低峰期,按需缩容算力 … • 基于负载/时间段的自动扩缩容 统一访问 COS/CHDFS ▪ 存储 • COS:对象存储(Cloud Object Storage,COS) 存算分离集群 是由腾讯云推出的无目录层次结构、无数据格 式限制,可容纳海量数据支持 HTTP/HTTPS 协 特点 EMR-HDFS EMR-COS EMR-CHDFS 议访问的分布式存储服务。 集群规模 海量 海量 存储空间 • CHDFS:云 HDFS(Cloud HDFS,CHDFS)提供 标准 HDFS 访问协议,您无需更改现有代码, 元数据效率 高 中 高 即可使用高可用、高可靠、多维度安全、分层 弹性效率 中 高 高 命名空间的分布式文件系统 数据本地化 高 低 低 带宽成本 低 高 高 网络风暴 低 高 中 Alluxio Day 2021
7 .计算存储分离挑战--数据本地性&网络风暴 计算层 … ▪ 计算和数据不在一起 存储层 COS(cosn://data/) ▪ Shuffle数据的重复计算 丢失数据本地性 ▪ 跨网关的访问 云上EMR运营集群 云上EMR日志集群 IDC离线分析集群 ▪ 重复数据从网关重复计算 网关 COS(cosn://data/) 网络风暴 Alluxio Day 2021
8 . 腾讯云EMR基于Alluxio存算分离架构 ▪ 提高数据本地性 HOT(RAM) WARM(SSD) ▪ 提供内存级 I/O能力 COLD(CBS) ▪ 简化数据管理 COS/CHDFS Alluxio Day 2021
9 . 计算存储分离专项优化 ▪ 部署方式 NodeManager • 把alluxio-worker 同计算节点部署 在一起,这样yarn等计算服务节点 ResourceManager ResourceManager Job- 可以在同一个节点中与alluxio- Worker Worker worker节点通信,提升效率 Job- Job- EMR-CORE-1 Master Master Master Master EMR-MASTER-2 EMR-MASTER-1 NodeManager ▪ 参数调优 • ufs.block.read.location.policy&ufs.bl Zookeeper Worker Job- Worker ock.read.location.policy.deterministi Zookeeper EMR-COMMON-1 EMR-CORE-2 c.hash.shards Zookeeper … EMR-COMMON-1 • 开启short-circuit EMR-COMMONs • UFS Path Cache NodeManager • Catalog Service … Job- Worker Worker EMR-CORE-N 部署结构 Alluxio Day 2021
10 .腾讯云EMR的调优--GC影响 ▪ 高性能 • 腾讯内部大数据计算场景几万台服务 器生产集群验证,Kona JDK 8对比原 Oracle JDK 8吞吐提升8%; • CPU消耗和运行耗时提升超10%; ▪ 兼容性 • Java SE兼容 • 公司内部上几万台大数据场景业务替 换使用 ▪ 丰富的分析工具 • 提供了生产环境可用的全栈JVM Profiling能力 • 提供了基于Old Object Sampling可以 不用Heap Dump诊断memory leak的可 能 Alluxio Day 2021
11 .优化后性能评估 大幅优化计算存储分离网络带宽,节省峰值带宽(削峰)20%-50%,节省总带宽(10%-50%)。 Alluxio Day 2021
12 .优化后性能评估 在大部分场景下能优化性能,特别是IO密集型,优化性能5%-40%。 Alluxio Day 2021
13 .基于EMR开箱即用的Alluxio存算分离架构 ▪ 开箱即用 Alluxio Day 2021
14 .基于EMR开箱即用的Alluxio存算分离架构 ▪ 一键多层级存储 ▪ 秒级统一数据管理 Alluxio Day 2021
15 . 经典客户案例一 ▪ 痛点 • 使用太多的网络带宽,特别是晚 上离线计算峰值300GB CKAFKA • 接入CHDFS存算分离后,针对资源 EMR-Spark EMR-Presto 使用情况扩缩容方便了,但是性 能特别是spark/presto性能下降 • 绝大部分存储都在CHDFS,EMR- IT3机型SSD本地盘只有35%利用率 按天分区 EMR-Alluxio ▪ 优化落地 • 使用EMR-alluxio使得带宽峰值 300->220 CHDFS • 根据不同运行组件,利用alluxio缓 存专项优化,有至少30%性能提升 • SSD作为alluxio的layer0缓存,充分 利用空间 Alluxio Day 2021
16 . 经典客户案例二 ▪ 痛点 • 云上和IDC多schema管理复杂 EMR-Spark EMR-Presto • IDC到云虽然有专线,但完全跑满 用来计算不划算,带宽压力和网 络延时依然较大 EMR-Alluxio ▪ 优化落地 • 跨IDC到云的统一入口 • 热点数据distributeload到emr- alluxio,提升数据本地性,提升性 能 CHDFS IDC-HDFS • 一键API扩容EMR集群云上弹性 Alluxio Day 2021
17 .腾讯在Alluxio社区的贡献 ▪ 支持更丰富UFS--COS&CHDFS&Ozone ▪ 支持配置使用 IP 作为通信 host ▪ Prometheus + Grafana 监控 Dashboard 模板和配套文档分享 ▪ 挂载表可视化 ▪ 通用的打包脚本,支持集成指定内部 hadoop 版本 ▪ 优化JobService,避免死锁等严重问题潜在原因修复 ▪ 更多的指标监控,显示Lock pool 大小,block Remover 的删除块的数量等重要指标 ▪ 增加 ETAG header 到 alluxio s3 proxy ... Alluxio社区PMC 1名 Contributor 8名 Alluxio Day 2021
18 .Thank You Alluxio Day 2021