- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
数据孤岛下的新破局Real Time DaaS:面向AP+TP业务的数据平台架构
从传统数仓、到大数据平台,再到数据中台和湖仓一体新数据平台,在日益加重的数据孤岛困扰下,面向AP场景的解决方案可谓浩如烟海。但实际上,企业在TP类型业务上的投入和AP的比率却高达9:1,为什么没有为TP业务的数据平台呢?
展开查看详情
1 .如何破局数据孤岛,数据中台,还是DaaS? 杨庆麟 / Arthur Tapdata 首席架构师
2 . 听完今天的分享,你会有这些收获 n 了解企业数据孤岛的形成原因,和对企业的影响 n 了解主流大数据平台解决方案的局限性 n 掌握 Real Time DaaS 架构的主要功能模块 n 从技术特性上了解DaaS 和 Big Data有什么主要不同点 n 能够了解到Big Data 的局限性 tapdata.net 2
3 . 关于我 • 3 年线上、线下企业培训 • CSDN 认证博客专家 • 公众号半年破万粉,运营矩阵号20+ • 周生生集团最了解数据的 top 5 • 主导多个实时数据融合平台项目,涉及零售、制造、教育、军方、交 通运输等行业。 • 交付 -> 售后 -> 测试 -> 产品 -> 售前 -> 销售 -> 商务 tapdata.net 3
4 .数据孤岛:现状,形成,及影响
5 . 企业业务系统概览 • 54%的企业有不到200个业务系统 • 23% 的企业有201 到 500个业务系统 • 15%的企业有 501 and 1000个业务系统 • 大部分时候这些系统是互不相通的 https://www.f5.com/company/blog/applications-applications-everywhere tapdata.net 5
6 . 数据孤岛: 你信息化了吗?大概率就有数据孤岛症状 • 早期系统设计,并不考虑数据互通 • 如果要互通: • Ad-hoc 开通API • 通过ESB消息机制 • 业务双写 tapdata.net 6
7 . 数据孤岛之成因 企业文化: 部门间相互竞争,导致重复建设 企业架构: 不同职能部门,具有天然的层级架构及平行架构。出于数据权限及管理原因,会进 行重复建设。 技术考量: • 单体式数据库,性能无法扩展,需求增加时候往往需要分库 • Microservices, 每个服务使用独立的存储 • Polygot Persistence 为不同的业务使用最合适的数据库 • Talent: 根据团队能力选择最合适的数据库 tapdata.net 7
8 . 企业多源异构数据库模式将常态式存在 主流的数据库:数十种 排的上名的数据库: 371 tapdata.net 8
9 . 数据孤岛的业务影响 不完整的客户视图 阻碍业务 开发慢,效率低 某航空公司有80多套系统存储客 某高端零售企业有多个品牌,多 某保险公司计划推出一个基于微 户信息,用于维护更新客户的系 个销售渠道,均试用了独立不联 信小程序的SCRM应用程序,来 统有10来套:门户,电商,常旅 通的应用系统。产品可以在多个 对多条业务线的客户进行多渠道 客,地勤,柜服,客服,营销等。 渠道售卖,通过每天晚上的盘点 关怀。但是客户数据在多套业务 来拉通库存 系统,而且经常频繁更新 客户体验差:新的联系方式可能 不会更新到所有系统 商机流失:无法知道其他渠道是 ETL开发 繁琐耗时 否有想要商品的库存 客服效率低:无法看到客户的全 70%时间花在数据准备 貌,比如客服系统的用户投诉可 商品信息在多套系统维护,没有 能不会及时让所有相关的服务人 准确一致的信息 上线慢,影响创新 员看到 tapdata.net 9
10 .数据孤岛常见解决方案
11 . 数据孤岛解决方案类型 人肉手工 消息中间件 中央化数据平台 • ETL • ESB/MQ • 2000 ~ 2010 企业数据仓库和BI平台 • 强耦合 • 定制API开发 • SOA nightmare • 2011 ~ 2018 数据湖/大数据平台 • 应用双写 • MQ / Kafka • 2018 ~2020 数据中台 • 很多开发量 tapdata.net 11
12 . 数据仓库 • 代表产品:Teradata, Vertica, Greenplum • 特点: • MPP分布式架构 • 需要大量的需求分析,设计及研发成本 • 支持核心业务场景 • 业务数据归档 • 数据分析 • 报表/可视化 • 局限性 • 贵! • 扩展性:跨节点关联计算有瓶颈,不能支 撑海量(100GB/TB) • 不支持半结构化、非结构化数据 tapdata.net 12
13 . 大数据平台/数据湖 • 基 于 Hadoop 大 数 据 生 态 , 代 表 产 品 : Cloudera, Hortonworks, 星环 • 特点: • 开源,低成本 • 开放式架构,横向扩展性很高,海纳百川 • 支持核心业务场景 • 历史数据归档 • 大数据分析、报表 • 客户画像,打标签 • 数据挖掘、机器学习,人工智能 • 局限性 • Easy In, Difficult Out • 技术组件众多,架构复杂 • 业务价值不明显!只有0.5%的数据被有效分析 tapdata.net 13
14 . 数仓及大数据平台的局限性 数据仓库 大数据平台 描述 技术形式 技术形式 主要时代 2000 ~ 2010 2010 ~ 2018 数据来源 各个业务数据库 业务数据库 日志 社交媒体 物联网 数据格式 结构化数据为主 结构化 + 非结构化 底层存储 关系型数据库 HDFS 文件系统 主要业务场景 报表 报表 数据分析 数据分析 客户画像 推荐 标签 数据归档 AP 型业务场景 tapdata.net 14
15 .我们来看看 TP vs AP
16 . TP vs. AP – 业务场景维度 n 卖机票 - 机票预定系统 n 产品洞察: 哪些航线最热销? 哪些产品最赚钱? n 租房子 - 房屋租赁平台 n 客户推荐: 根据客户行为打上标签,并推荐相应的房源 n 造手机 – MES 生产排程,质量检测 n 质量洞察: 次品率超标时,有哪些异常指标? n 提工单 – Ones Desk n 客户洞察:满意度分析,工单处理时间,客户响应语气 tapdata.net 16
17 . TP vs. AP - 技术维度 TP AP 目标用户 外部客户,员工,供应商 数据分析师 BI 团队 通常企业数量 2000 ~ 2010 2010 ~ 2018 数据响应速度 毫秒 数秒 – 分钟级 并发查询量 高 (数百 ~ 数十万) 低(数个 ~ 数十) 数据量 偏小,MB ~ GB 偏大, TB ~ PB 常见存储方案 Oracle Teradata MySQL Greenplum SQLServer Hadoop PostgreSQL DB2 MongoDB Elastic Redis tapdata.net 17
18 . TP vs. AP – 市场维度 TP/AP 比例 TP 应用业务系统 AP 分析系统 TP型数据场景的市场份额占 80%以上 企业预算TP vs AP: 9:1 tapdata.net 18
19 .1 9
20 .2 0
21 . 灵魂拷问 • TP型业务场景价值高,为什么看到的只有的面向AP型的数据平台?是伪需求? • Teradata, Vertica • Hadoop • 基于Hadoop生态的数据中台 • Kylingence, Oushu, Hashdata • Snowflake, Dremio • 答案: • 时间上,数据孤岛问题不严重的时候,TP业务只需要一个RDBMS就可以解决 • 技术上,缺乏合适的工具和技术架构,难以推广 tapdata.net 21
22 .Real Time DaaS: 孤岛终结者
23 . 什么是DaaS MySQL WEB LOW BI BIG DATA MONGO Data as a Service: 一个面向TP业务的数据平台架构 MOBILE CODE RDS VISUAL DW n 一切皆服务化 (XaaS)趋势下的数据即服务,介 于PaaS和SaaS中间 统一数据服务及数据发布 n 企业级数据抽象,提供面向领域的统一数据访问层 面向领域的数据模型 + 分布式数据库存储 n 使用统一的接口及语义访问企业所有可共享数据 数据虚拟化 n 通过数据虚拟化技术,隐藏企业多元异构数据库的 多样性和复杂性 n 可以为AP + TP业务提供最新最完整的企业数据 n 可以私有化或者公有云部署 tapdata.net 23
24 .什么不是DaaS 不是: 数据仓库 不是: 大数据平台 不是: 商业化数据产品,如企业数据,天气数据,商情数据 2 4
25 .为什么要 DaaS • 企业需要一个实时的主数据层, 解锁交互式业务场景 • 降低企业建立数据平台的复杂性 • 提高数据部门的效率,实现数据自助服务 2 5
26 . DaaS 如何工作 4. 自动发布API -》 APP Microservice PRODUCT CRUD API ERP ORDER OMS INVENTORY Push Sync WHS CUSTOMER CRM 1. CDC 实时采集 2. 流式计算合并建模 3. 形成物化视图 5. 或同步推送至数仓或APP数据库 2 6
27 .DaaS平台的技术特性 DaaS 大数据平台 平台数据时效 T+0, 和源库基本一致 T+1,每晚或者每小时更新 平台数据并发访问能力 支撑数万查询每秒 数十并发处理任务 平台数据查询响应时间 毫秒级响应 数秒至数分钟 数据更新能力 实时更新 (In Place) 不支持,每天晚上批量替换 支撑业务场景 TP + AP AP 为主 2 7
28 .DaaS 的核心技术路线 基于WAL日志的异构 分布式数据库存储 1 3 数据库复制技术 2 实时链式物化视图 主数据管理 4 (Delta Lake) 2 8
29 .异构数据库实时复制 T+1模式,晚上跑批,不支持实时获取数据 已有业务 系统 数据采集与处理 Inserts Connector Processor Transformer Updates 批量导入 Sink Oracle Connector Script Processor Field Processor Rule Processor Connector 实时获取 DaaS存储 CRM Sink Connector ERP T+0模式,实时将源库数据变化复制到目标 2 9