- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
SeaTunnel with DolphinScheduler
展开查看详情
1 . 2021 SeaTunnel架构剖析 与DolphinScheduler 集成 讲师:rickyhuo https://github.com/InterestingLab/seatunnel
2 .个人介绍 霍晨(Ricky Huo) • SeaTunnel Committer • 主要负责数据应用开发
3 .关于我们 InterestingLab @Gary Gao @Ricky Huo @Kid Xiong
4 .目录 CONTENTS 01 SeaTunnel 概览 02 SeaTunnel架构剖析 03 SeaTunnel与DolphinScheduler 04 SeaTunnel Roadmap
5 . 01 SeaTunnel 基础介绍 SeaTunnel 概览 我们为什么开发 SeaTunnel
6 .基础介绍 SeaTunnel 是一个分布式、高性能、用于处理海量数据(离线&实时) 同步和转换的数据集成工具。 分布式:Yarn OR Mesos OR More... 离线&实时: 丰富的 Connector 且支持批流一体 同步和转换:多样的数据处理插件且极易拓展 https://github.com/InterestingLab/seatunnel
7 .基础介绍 ./bin/start-seatunnel.sh --master yarn --deploy-mode client --config ./conf/demo.conf souce + transforrm + sink 构建了数据处理的 Pipeline, 满足各种各样的数据处理需求。
8 .Why develop SeaTunnel
9 .复杂数据处理场景 场景1:
10 .复杂数据处理场景 场景2: 场景3:
11 .Why SeaTunnel? 开发成本(学习成本) Base On Spark/Flink 任务监控和统计 Running On Yarn SeaTunnel 项目工程管理 配置化生成Application 海量计算 一致性问题 Plugins and Easy to develop
12 . 02 SeaTunnel Apis SeaTunnel 架构剖析 SeaTunnel Core SeaTunnel Plugins
13 .SeaTunnel 的基石 Api
14 .SeaTunnel 的基石 Api
15 .SeaTunnel 的基石 Api
16 .SeaTunnel Api 实现 - Java Core
17 .SeaTunnel Api 实现 - Spark Core
18 .SeaTunnel Api 实现 - Spark Streaming Core
19 .SeaTunnel Api 实现 - Spark Core SeaTunnel Spark Spark SQL Streaming MLlib GraphX Spark Spark SQL Streaming MLlib GraphX Apache Spark Apache Spark
20 .SeaTunnel Api - Execution 批流一体处理 多Pipeline逻辑 多数据源JOIN
21 .SeaTunnel 核心 - Execution
22 .SeaTunnel - Plugins 1. 所见即所得 2. 将最佳实践落地到插件或者文档中 3. 解决普遍性问题而不是特例
23 .SeaTunnel Plugins - SQL 1. SQL简单易用 2. 提供基于SQL的ETL • select int(status) from nginx_info … • select to_date(datetime, 'yyyy-MM-dd’) from nginx_info … • select * from nginx_info where domain = ‘dolphinscheduler.apache.org’ … 3. 提供基于SQL数据聚合 • select count(1) as c, status, idc, domain, datetime from nginx_info group by domain, status, datetime, idc 4. 通过SQL实现多数据源JOIN
24 .SeaTunnel 架构总结 API 结构 - seatunnel-apis 数据流构建 - seatunnl-core 各插件的实现 - seatunnel- plugins
25 . 03 SeaTunnel 使用场景 SeaTunnel 与 Why DolphinScheduler DolphinScheduler 集成 集成介绍
26 .SeaTunnel 使用场景 实时数据同步 1. Kafka -> ClickHouse/ElasticSearch 异构数据源同步 1. Hive -> ClickHouse 2. MySQL -> ElasticSearch 3. JDBC -> JDBC OLAP CUBE计算 1. Kafka -> AGG -> ClickHouse/Elasticsearch 2. Hive -> Hive
27 .Why DolphinScheduler - Seatunnel痛点 场景一: 复杂数据依赖链路 场景二: 非数据处理依赖
28 .SeaTunnel With DolphinScheduler Thanks @xsbai
29 .SeaTunnel With DolphinScheduler