- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
1.刘嘉承-Alluxio – 云原生数据编排平台
刘嘉承,2017年哥伦比亚大学计算机科学硕士毕业。
2019年加入Alluxio开发团队,负责Alluxio和云场景相关及部分核心组件的开发工作。
展开查看详情
1 .Alluxio – 云原生数据编排平台 Data Orchestration for Analytics and AI in the Cloud 2021/06/26 - 刘嘉承
2 . 个人简介 刘嘉承,Alluxio开发工程师。香港城市大学CS本科, 哥伦比亚大学CS硕士。2019年加入Alluxio开发团队。 作为Alluxio核心维护成员,发布并维护Alluxio K8s Helm Chart,参与多个Alluxio组件的开发和优化。 jiacheng@alluxio.com ALLUXIO 2
3 . 内容概览 ● 大数据/AI世界现状:纷繁复杂的数据平台带来的新挑战 ● Alluxio开源项目和公司历史 ● Alluxio的核心技术革新 ○ 统一数据编排层 ○ 数据加速 & 数据管理 ○ 异构环境支持 ALLUXIO 3
4 .现状: 纷繁复杂的数据平台
5 . 分割的数据世界 数据系统日益丰富 业务团队对数据统 存储与计算分离的 数据获取的碎片化 一访问的强烈要求 架构创新 ALLUXIO 5
6 . 复杂的数据平台 数据复制 & 数据分析的多样性 & 技术变迁导致的多平台 显性数据同步的复杂性 数据平台适配的复杂性 混合架构&迁移的复杂性 ALLUXIO 6
7 . 大数据/AI之路的架构演进 混合异构 (Hybrid) 混合云化部署 将需要弹性伸缩的负载和 同置 解耦 数据迁移进公有云或者是 (Co-located ) (Disaggregated) 私有云 支持更多计算框架 计算引擎 & HDFS 在同一个集群上实现计算 紧密耦合在一起 引擎与HDFS的解耦 对应用透明, 充分支持 Presto, Spark, Impala等等 向对象存储过渡 MR / Hive Spark/Presto HDFS HDFS 允许从传统大数据存储向 对象存储过渡 ALLUXIO 7
8 . Alluxio 云原生的数据编排平台
9 . Alluxio项目与公司历史 源自加州大学伯克利分校AMP实验室(原名Tachyon Nexus),李 浩源博士的博士论文课题,李浩源现任Alluxio公司董事长兼CEO 2014 Spark专用的堆外存储 --> 面向所有数据应用的分布式文件系统 Alluxio项目自开源以来已经在全球有1000+贡献者,并于2015年 成立公司推动Alluxio项目的产品与商业化,2020年在Google OpenSSF最有影响力的Java开源项目中排名第9 2015 Alluxio = ALL User eXperience IO = Alluxio LightSpeed(Lux拉丁文意为light) IO 面向异构基础设施环境(本地、混合云、公有云)实现高效的数据统一管理编排,服务 大数据与AI应用! 2018 2018 2019 2020 2021 ALLUXIO 9
10 . 正在使用Alluxio的公司 TECHNOLOGY OTHERS FINANCIAL SERVICES INTERNET PUBLIC CLOUD PROVIDERS TELCO & MEDIA GENERAL E-COMMERCE LEARN MORE ALLUXIO 10
11 . 云原生数据编排平台 统一的数据湖 高效的数据访问 & 统一的数据编排层 异构环境的支持 便捷的数据管理 抽象的数据层为数据分析和AI提 实现跨数据中心、跨云等异构体 定制化数据策略,提供完整的数 供统一的数据访问接口 据呈现、加速数据访问 系的敏捷数据集成和编排 ALLUXIO 11
12 . Alluxio统一数据编排层 统一数据视图 HDFS #1 支持的底层系统 Object Store • HDFS • NFS NFS • Ceph • Amazon S3 HDFS #2 • Google Cloud • … ALLUXIO 12
13 . Alluxio统一数据编排层 在Presto中使用Alluxio 在Alluxio中创建表格 > CREATE TABLE alluxio_table (id varchar) WITH (external_location = 'alluxio:///Data/Reports'); 从Alluxio中读取表格 > SELECT * FROM alluxio_table ALLUXIO 13 13
14 . Alluxio统一数据编排层 在Spark中使用Alluxio: RDD 从Alluxio中读取文件 rdd = sc.textFile(“alluxio://master:19998/Data/Sales”); rdd = sc.objectFile(“alluxio://master:19998/Data/Sales”); 将文件写入Alluxio rdd.saveAsTextFile(“alluxio://master:19998/Sales”); rdd.saveAsObjectFile(“alluxio://master:19998/Sales”); ALLUXIO 14 14
15 . Alluxio统一数据编排层 在Spark中使用Alluxio: DataFrame 从Alluxio中读取文件 df = sc.read.parquet(“alluxio://master:19998/Data/Reports”) 将文件写入Alluxio df.write.parquet(“alluxio://master:19998/Reports”) ALLUXIO 15 15
16 . 云原生数据编排平台 统一的数据湖 高效的数据访问 & 统一的数据编排层 异构环境的支持 便捷的数据管理 抽象的数据层为数据分析和AI提 实现跨数据中心、跨云等异构体 定制化数据策略,提供完整的数 供统一的数据访问接口 据呈现、加速数据访问 系的敏捷数据集成和编排 ALLUXIO 16
17 . Alluxio高效数据访问 数据本地性 Model Training Big Data ETL 对应用透明的读写 缓存 内存 SSD HDD Big Data Query 热数据 温数据 冷数据 Hot Warm Cold 基于自定义策略的数据管理 ALLUXIO 17
18 . Alluxio高效数据访问 元数据本地性 Model Training Big Data ETL Alluxio Master Mutation 元数据同步 Big Data Query Old File at path New File at path /file1 -> /file1 -> ● 当底层数据发生变动时,Alluxio master与底层存储 同步,更新Alluxio中的元数据 ● 同步过程在下一次数据请求时延迟(lazy)发生 ALLUXIO 18
19 . Alluxio高效数据访问 异步读写 Distributed Load Fast Durable Write Alluxio Data Orchestration and Control File A (3 replicas, 3 blocks until HDFS write completed) Service Alluxio Data Orchestration and Control Service File D Async Caching Async write (3 replicas, 3 blocks) / file (3 replicas, 3 blocks) / file File A File B File C File D ALLUXIO 19
20 . Alluxio数据管理 策略化数据管理 hdfs://host:port/directory/ Alluxio将 HDFS数 据迁移进 S3 Reports Sales • 同一个Alluxio路径可以挂载多个底层存储,用户看到一个统一的视图 • 通过配置读/写策略指定读/写文件的先后顺序 • 通过配置迁移策略指定文件迁移方向 • Example: 将超过7天的数据从HDFS迁移入S3,节约HDFS资源 ALLUXIO 20
21 . 云原生数据编排平台 统一的数据湖 高效的数据访问 & 统一的数据编排层 异构环境的支持 便捷的数据管理 抽象的数据层为数据分析和AI提 实现跨数据中心、跨云等异构体 定制化数据策略,提供完整的数 供统一的数据访问接口 据呈现、加速数据访问 系的敏捷数据集成和编排 ALLUXIO 21
22 . Alluxio异构环境支持 数据向计算移动 计算集群1 v 云存储 存储集群1 存储集群2 ALLUXIO 22
23 . Alluxio异构环境支持 优势 ● 存算分离,独立扩展,快速响应资源需求 计算集群1 ● 省去了数据管理的操作和延迟,存储中的数 v 据对计算集群即时可用,快速响应业务需求 ● 计算端对不同存储间的数据迁移无感知,降 低运维对业务的影响 ● 计算端的数据缓存节约集群间网络开销,减 轻存储集群压力 云存储 存储集群1 存储集群2 23 ALLUXIO 23
24 . 欢迎加入Alluxio社区/团队 We are hiring! ● 研发工程师 ● 解决方案工程师 ● 销售工程师 ● 售后工程师 ● ... Alluxio钉钉群 投递简历: https://www.alluxio.io/careers xiao@alluxio.com ALLUXIO 24