- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
大数据架构下的质量工具建设
展开查看详情
1 .大数据架构下的质量工具建设 孔祥云 2018/4/20
2 .
3 .
4 . 1 质量工具面临的数据挑战 2 稳定性监控系统的数据挑战 目录 CONTENTS 3 实时应对方案 4 智能接口平台的数据挑战 5 智能应对方案
5 .我是谁? 《京东系统质量保障技术实战》作者之一, 多年测试领域从业经验,擅长功能测试、自动 化测试、测试工具开发等。 在京东任职期间参与开发EAT测试框架、 Mock接口测试平台、自动部署系统、商城质量 门户等;主导应用大数据技术的接口稳定性监 控平台、接口变更探测工具等。
6 .质量工具面临的数据挑战 规模 计算 千万级别数据 操作百万级别数据 数据存储瓶颈 亚秒级响应
7 .稳定性监控系统的数据挑战——背景 接口 监控 稳定性
8 .稳定性监控系统的数据挑战——背景 接口 时间 可用率折线图 接口描述信息 Ø 接口的稳定性数据采集后,虽然直观,但是不能对整个应用有好的表达 Ø 一般查询只提供了单个接口的方式,不能查询较长时间、多接口的稳定性数据 Ø 不是基于业务场景的,非开发人员无法映射到具体的业务场景上
9 .稳定性监控系统的数据挑战——目标 l 直观展示多维度稳定性趋势 多时间跨度 多业务场景 多层次
10 .稳定性监控系统的数据挑战——难点分析 l 实时性 Ø 每秒稳定性数据采集频次: 100(应用)* 100(接口) * 5(分钟)/ 60(秒) = 833 ≈ 1000 Ø 及时反映稳定性变化 采集频率5分钟 变化频率10分钟
11 .稳定性监控系统的数据挑战——难点分析 l 海量数据 Ø 数据量大: 单个应用: 100(接口)* 24(小时)* 60(分钟)/ 5(分钟) = 28800 28800(条) * 365(天) = 10,512,000 Ø 维度多: 方法 应用 服务 系统
12 .实时应对方案 l 涉及到的技术模块 ü 采集worker ü 实时计算storm ü 前端展示pma
13 .实时应对方案 l 采集worker的及时性
14 .实时应对方案 l 采集worker的失败重采机制
15 .实时应对方案 l 及时展示变化数据的大数据方案 离线计算 准实时计算 实时计算
16 .实时应对方案 l Storm 特性 Ø 实时性
17 .实时应对方案 l Storm使用中的问题及解决 Ø 数据落盘方案:HBase ü 数据条数2000万+,数据量PB级别 ü 横向领域扩展:新维度tag ü 纵向字段扩展:新增字段 Ø 数据计算方案:Redis ü Set集合
18 .实时应对方案——效果展示
19 .智能接口平台的数据挑战 l 背景 数据准备 回归用例 用例选择
20 .智能接口平台的数据挑战 l 目标 分类
21 .智能接口平台的数据挑战 l 数据挑战 Ø 接口:1000(目前接入100个接口) Ø 每天积累数据:50万+ Ø 每天训练量:100万+
22 .智能应对方案
23 .智能应对方案 l 采集方案选择 日志 中间件 应用Filter
24 .整体方案之机器学习 l 机器学习工具选择 R Spark 机器学习类库 √ √ 语言支持 R语言 Scala, Java, Python, R 计算性能 几十万数据 百万以上级别数据
25 .整体方案之机器学习 l 数据建模过程中的点滴 u 预处理:混合型数据 —— Gower距离
26 .整体方案之机器学习 l 数据建模过程中的点滴 u Kmeans K中心点选择—— 轮廓系数 MLlib内置的WCSS类方法评估聚类模型的性能 WCSS for k=2 : 0.685 WCSS for k=3 : 0.71 WCSS for k=4 : 0.653 WCSS for k=5 : 0.676 WCSS for k=10 : 0.51465 WCSS for k=20 : 0.4684
27 .整体方案之机器学习 l 数据建模过程中的点滴 u 聚类后业务评估
28 .整体方案之未来规划 数据分类 1 优选数据集 2 3 精准测试 接口覆盖率 无人值守测试 Code Diff
29 .Q&A