- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
从ETL到ELT,构建高效易用的数据Pipeline
展开查看详情
1 .从 ETL 到 ELT 构建高效易用的数据 Pipeline 镜舟科技 PM 董颖婷
2 .演讲大纲 01 ETL vs ELT 02 高效的 Data Pipeline 03 StarRocks MV 04 举个例子:日志分析场景的应用
3 .01 ETL vs ELT
4 .ETL vs ELT
5 .ETL vs ELT Cons • TB • • schemaless 去 • ETL Pros • • source transform destination • GDPR HIPAA CCPA • 模 模
6 .ETL vs ELT Pros transform / load 的 Cons
7 .02 Data pipeline
8 .Data Pipeline 灵活性和可扩展性是 Data Pipeline 关键 infomatica
9 .Pipeline 需求频繁变更、数据来源不对增加、数据量日益庞大的场景下 ETL 的模式有些力不从心 https://ilegra.com/blog/we-need-to-talk-about-data-build-tool-from-etl-to-dbt/
10 .Pipeline 抽取、落地、按需分析的模式是当下 Data Pipeline 更优的一种选择 https://ilegra.com/blog/we-need-to-talk-about-data-build-tool-from-etl-to-dbt/
11 .ELT 敏捷性 简便性 SQL SQL 自助服务分析 错误修正 BI ETL - -
12 .ELT Raw data 直接入湖,数据未加工清洗。数据的 schema 信息管理,加工处理的作业管理,调度 工具不成熟带来了更高的管理复杂度。 复杂性 数据按需使用,分析。而 ETL 流程下的数据是经过了清洗,转换,计算等一系列流程处理后的 结果数据。计算量成倍增长,计算引擎的负载极大。 查询性能 分析人员按需处理和加工,没有统一的元数据、指标管理工具。经常会造成重复的加工和计算, 可复用性 造成不必要的资源浪费。
13 .03 StarRocks MV
14 . 14 什么是物化视图 • • 模 schema
15 . 兼具灵活性与性能,弥补 ELT 的短板 1 性能 提升查询性能:查询改写, 透明加速 开销 2 降低计算开销:增量刷新, 流式计算 3 运维 减少运维复杂度:分层构 灵活 4 建,自动调度 灵活可扩展:作业修改代价 低,分布式计算可水平扩展
16 . -- 查询加速:单表同步物化视图 基础建模:多表异步刷新的物化视图 离线场景透明加速:支持查询改写 物化视图 物化视图 物化视图 + 基础表 基础表 基础表 基础表 外部表 物化视图 仅基础聚合精确、 • 支持基于 StarRocks 表的各类复杂查询以 支持多表物化视图 SPJG 的查询改写,支持 模糊去重算子 及多表关联 外表物化视图构建,支持嵌套物化视图 • 支持设置异步触发、定时、手动刷新方式
17 . 构建功能增强 优化刷新效率 支持物化视图 TTL 设置 新增刷新最大分区数 1 3 触发式刷新新增排除表 支持外表物化视图 Hive/Hudi/Iceberg catalog database 支持嵌套物化视图 新增定义自动刷新范围 3
18 .智能查询改写可以在不修改 SQL 的情况下透明加速查询 支持 SPJG 的查询改写 Select/Projection/Join/Group by 支持 Union 的查询改写 Union union base Union 支持嵌套物化视图改写 DWD DWS ADS SPJG 查询改写样例
19 . V3.x Base 表 3.0 物化视图查询改写优化,支持outter join, 支持配置创建MV 的时候刷新策略 物化视图 增量日志 3.1 • 支持外表物化视图的变更感知,保证外表物化视图的数据 一致性 • 支持物化视图的资源隔离 实时结果
20 . Ad Hoc 固定报表 OLAP 分析 自助分析 报表加速 ADS(roll up) 物化视图加速 指标平台 DWS(denormalized table) 视图/物化视图建模 数仓建模 DWD(normalized table) 数据湖 loading 加速 ODS(Hive/Hudi/Iceberg/Delta lake raw data)
21 .04 举个例子 分隔页副标题
22 .Step 1:创建一张日志明细表 DWD 日志明细表 对象存储
23 .Step 2:批量、实时加载日志数据 DWD 日志明细表 SeaTunnel batch load Routine load stream load 对象存储
24 .Step 3:日志表和用户表关联,按用户,区域,访问方式等多个维度统计用户的登录次数。统计频次 1 min DWS 维度聚和 DWD 日志明细表 SeaTunnel batch load Routine load stream load 对象存储
25 .Step 4:基于物化视图,统计每天用户登录数。统计频次 1 min ADS 聚和 DWS 维度聚和 DWD 日志明细表 SeaTunnel batch load Routine load stream load 对象存储
26 .Step 5:分析师按实际的业务语义查询,可以自动路由到对应的物化视图加速 ADS 聚和 DWS 维度聚和 DWD 日志明细表 SeaTunnel batch load Routine load stream load 对象存储
27 .谢谢观看 期待合作!