- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
PingCAP-Infra-Meetup-101-luoruixing-易果数据体系演进之路
展开查看详情
1 .易易果数据体系演进之路路 .罗瑞星 2019 / 5 / 11
2 .⾃自我介绍 罗瑞星 ⼤大数据⾼高级⼯工程师@51Job 数据架构专家@易易果集团 负责易易果集团⼤大数据体系建设,架构设计,优化;数据仓库、⼯工具及产品的落地
3 .⽬目录 CONTENTS 1 • 背景介绍. 2 • 数据体系的建设 3 • 未来规划
4 .易易果集团介绍 易易果⽣生鲜电商易易果创⽴立于2005年年, 易易果集团由易易果⽣生鲜成⽴立,未来将 着⼒力力打造三个业务板块:全渠道运营、安鲜达物流和采购供应链,2017 年年与天猫⽣生鲜全⾯面融合,GMV达到100亿。 SKU数超过4000,线上最⼤大 冷链仓全国布局最⼴广,15地24仓 ⾏行行业最⼤大的⽣生鲜电商运营平台 ⼋八⼤大品类涵盖,线上最全 产能全国最⼤大,180万件/天 订单量量近20万单/天 采购覆盖全球6⼤大洲 冷链物流全国规模最⼤大,覆盖全国近400 GMV100亿/年年 39个国家地区147个产地 个城市
5 .易易果数据体系的建设 接⼿手前的数据计算架构及团队 2台离线SqlServer + 1台离线SqlSever + 1台报表SqlServer 2平台 + 2ETL + 1⼯工具开发 + 2产品开发 懂Hadoop的很少,Java系
6 .易易果数据体系的建设 Java系为主,快速构建平台及调度⼯工具,完成离线SqlServer向Hadoop的转型 抽数⼯工具:DataX 调度⼯工具:Azkaban 存储计算:Hadoop + Hive Adhoc:Presto
7 .易易果数据体系的建设 2017所做的⼯工作: 1. 所有离线SqlServer任务迁移⾄至Hadoop 2. DataX集成拉链模板 3. 增加Presto权限控制(User – DB , Role - DB) 4. Azkaban添加可视化任务配置和任务抽取⻚页⾯面 5. Presto on Yarn
8 .易易果数据体系的建设
9 .易易果数据体系的建设 2018-2019: 1. 精细化项⽬目管理理 2. 实时数仓 3. 架构升级
10 .易易果数据体系的建设
11 .易易果数据体系的建设 数据的⽣生命周期管理理 --- 统⼀一⼯工具平台 --- 元数据管理理 --- 数据质量量平台 --- OneData
12 .易易果数据体系的建设 每个⼈人都有⾃自⼰己的标准 中间表的四种命名⽅方式: bdl. erp_rel_commoditydeliveryarea_temp 元数据统计完全不不可信 bdl. erp_rel_commoditydeliveryarea_tmp temp.bdl_erp_rel_commoditydeliveryarea bdl.interim_erp_rel_commoditydeliveryarea
13 .易易果数据体系的建设 – 命名规范 统计数据仓库的命名⽅方式 中间表的命名⽅方式: temp.bdl_erp_rel_commoditydeliveryarea sdl(ods)的命名⽅方式 系统名_原表名 bdl,idl,tdl(dwd,dws,ads)以及维度表的命名⽅方式 OneData
14 .易易果数据体系的建设 - OneData
15 .易易果数据体系的建设 – 备份恢复 数据的备份和恢复 为什什么要做? 拉链表 备份恢复⽅方式: 1.hdfs快照+distcopy 优点:快速备份,占⽤用空间中等 缺点:恢复速度中等 2.物理理快照+mv/cp 优点:恢复速度快 缺点:备份速度中等,占⽤用空间⼤大 采⽤用⽅方式:全库hdfs快照+核⼼心表物理理快照(保留留15天)
16 .易易果数据体系的建设 – 规范 统⼀一⼯工具开发 + git/svn + ⼀一⻚页纸规范 利利⽤用统⼀一开发⼯工具建⽴立表 – 创建⼈人 – 责任⼈人 – 任务的对应机制 利利⽤用git/svn做ETL脚本的管理理版本 ⼀一⻚页纸规范,简单⽅方便便 开发⼈人,时间,分组,责任⼈人,注释,输出表等
17 .易易果数据体系的建设 – 统⼀一数据平台
18 .易易果数据体系的建设 – 元数据管理理 参考Google的Goods论⽂文以及linkedin的WhereHows
19 .易易果数据体系的建设 – 数据质量量 同步 + 异步
20 .易易果数据体系的建设 1.精细化项⽬目管理理 2. 实时数仓 3. 架构升级
21 .易易果数据体系的建设 – 选择TiDB的理理由 TiSpark 简单易易⽤用 未来统⼀一的分析引擎 兼容MySQL协议,⽅方便便开发与 脚本迁移. 管理理和监控 ⼯工具⽅方便便易易⽤用 脚本化的部署,扩容; Syncer,loader,dm … Prometheus上详细的监控; 完善的权限管理理
22 .易易果数据体系的建设 – TiDB实时数仓架构
23 .易易果数据体系的建设 – 架构融合 • 1 测试TiFlash • 2、RPC + RestFul接⼝口层的保护和降级 • 3、抽数⼯工具统⼀一升级为Flink • 4、离线实时体系对接
24 .易易果数据体系的建设 1.精细化项⽬目管理理 2. 实时数仓 3. 架构升级
25 .易易果数据体系的建设 – 架构回顾
26 .易易果数据体系的建设 – 融合的⼤大数据架构 DataX ! FlinkX Syncer ! FlinkXING 由单机转为ON YARN 统⼀一管理理
27 .易易果数据体系的建设 – 说明 数据仓库说明: 1. Kafka:事务事实表 2.TiDB :快照事实表 3.HDFS :累积快照事实表 TiDB+TiFlash的好处: 1. 实时数据查询; ⾮非常适合中台概念 2. TiSpark统⼀一引擎; 3. TiFlash的复⽤用; 4. 备库。
28 .未来规划 TiDB逐步成为核⼼心 实时处理理统⼀一为Flink 存储多样化,⼯工具统⼀一化 数据管理理加⼊入图数据库,调研SQL on ML
29 .欢迎交流 Thank you!