- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
11.毛宝龙-腾讯AlluxioOTeam与开源社区协同模式以及腾讯案例分享
毛宝龙,Alluxio PMC,Apache Ozone committer,多年专注数据编排,分布式存储等领域。
展开查看详情
1 .腾讯 Alluxio OTeam 与开源社区 协同模式以及腾讯案例分享 腾讯 Alluxio OTeam 负责人 Alluxio PMC Apache Ozone committer
2 .目录 Part 1 Alluxio 简介 Part 2 腾讯与 Alluxio 开源社区 Part 3 腾讯贡献 Part 4 腾讯案例 Part 5 未来方向
3 .Alluxio 介绍 Java File API HDFS Interface S3 Interface POSIX Interface REST API Data Orchestration VDFS HDFS Driver Swift Driver S3 Driver NFS Driver
4 .Alluxio 介绍
5 .腾讯与 Alluxio 开源社区——开源协同模式 § 公司内多个团队协同维护 Alluxio § 定期更新的内部 Alluxio 仓库 § 定期与开源社区进行开发同步会议 § 协同贡献开源仓库 § 保持内部功能与开源版本共存
6 .腾讯贡献——总览 PMC 1 分享 10+ 文章 10+ PR Merged Contributor 260+ 20+
7 .腾讯贡献——UnderFileSystem(UFS) ü Cephfs ü Ozone ü cosn
8 .腾讯贡献——FUSE Ø JNIFUSE 公共模块 Ø JNIFUSE 写支持 Ø FUSE 性能优化 Ø FUSE 开启LocalCache
9 .腾讯贡献——SDS Ø attachdb bypass table/partition Ø attachdb & syncdb 性能优化 Ø attachdb 挂载选项支持正则表达式 Ø attachdb 挂载点整合 Ø detachdb 挂在点清理 /catalogs/db1/fragments/hdfs-ns1/ -> hdfs://ns1/
10 .腾讯贡献——JobService Ø Distributed Load 分组功能
11 . 腾讯贡献——动态参数配置 pUpdate conf 发送变更配置项 pWorker & client 感知配置项变化并更新 p配置项变化应用到具体代码逻辑
12 .腾讯贡献——其它 Ø 易用性提升 Ø 更多有价值的监控指标 Ø stacks 页面展示线程信息 Ø Total.Blocks Ø 下线节点 Ø RpcOps Ø 挂载表可视化 Ø PendingQueue Ø 支持配置使用 IP 作为通信 host Ø Lock pool 大小 Ø 支持域名作为 host Ø block Remover 的删除块的数量 Ø 通用的打包脚本,支持集成指定内部 hadoop 版本 Ø 避免死锁等严重问题潜在原因修复
13 .腾讯案例——Alluxio 加速 ML 任务 on k8s p 挑战: ü 亲和性部署 ü 短路读 ü alluxio vs cephfs 性能提升 45%
14 .腾讯案例——Alluxio 加速 Impala on k8s 更高的查询性能 244% 121% I/O密集型的查询速度提升了244%, 所有查询提升的中位数水平是121%。 更高的集群稳定性 5% 背景 互联网级别规模的数据,一个典型查询的数据扫描范围包含百亿行并且有上百个并 29% 发访问, 高并发下的I/O瓶颈: 并发查询数量达到100+,会造成HDFS的IO数据扫 查询失败率降低了超过5% 描瓶颈,热盘利用率一直在100% 查询超时失败错误率降低29%的效果 集成Alluxio 综合利用SSD的速度优势以及HDD的空间优势,提升性能,另外,提升有助于跨 集群间的命名空间共享,使Impala更便捷的访问多个HDFS集群的数据资源。
15 . 腾讯案例——Presto with Alluxio SDS Ø 当前正在采用的方式是使用一个load和 free工具preload,这个工具可以手动的 load或free表或分区,同时对内部的oms 和presto 进行一些修改适配,实现存储资 源的隔离需求。 Ø 使用Alluxio作为缓存层,数据缓存到 Alluxio中后,不希望所有的计算引擎 (Hive\Spark\Presto)都通过Alluxio进行 读取数据,因为没有办法确定数据的本地 性对于计算而言是否合适使用alluxio作缓 存,同时也会使alluxio的访问压力以及空 间压力受到挑战。因此需要alluxio提供隔 离并且有预加载的需求。
16 .Future 1 SDS 落地业务 • 支持新的 UDB 2 可维护性增强 LIST • 更智能的 Load / Free 3 Alluxio HA相关必备功能开发 • Leader 切换到指定节点 • Leader 支持 debug 4 Alluxio worker 缓存空间管理 • 空间置换策略 • 异步置换 5 Alluxio master 服务能力可度量
17 . 引用 • Alluxio FUSE 实现原理 https://zhuanlan.zhihu.com/p/361151559 • Impala 案例https://blog.csdn.net/Alluxio/article/details/117532380 • HCFSFuse https://github.com/opendataio/hcfsfuse
18 .我们欢迎你 • baoloongmao@tencent.com THANKS