- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
施立 - 阿里搜索数据化DevOps和AIOps的探索与实践
阿里巴巴搜索事业部技术专家施立分享《阿里搜索数据化DevOps和AIOps的探索与实践》
展开查看详情
1 . 阿里搜索数据化DevOps和AIOps 探索和实践 演讲人:隐元 2019 中国数据智能管理峰会
2 .Agenda 1. kmonitor 概述 2. 运维大数据平台 3. AIOPS探索 2019 中国数据智能管理峰会
3 .Why write 5 millions p/s 99.999% read 10 thousand p/s 100 thousand dimension 2019 中国数据智能管理峰会
4 .监控数据平台总结 运维数据仓库 基于大数据的 • Metric • 过去,现在,未 • Event 来 基于算法的 • Log • 数据标准统一 • 发现问题 特点 • 数据种类丰富 • 诊断问题 • 面向机器,面向管控 • 优化建议 • 决策建议 基于管控的 Razor + Apack 目标 • 可重入 • 助力运维能力升级 Action+Diagnose+管控 • 算法服务框架 • 自我保护 • 助力管控能力升级 • 时序数据分析 • 从手工处理到自愈 • 反馈和自动调优 • 诊断经验沉淀 • 算法持续迭代 2019 中国数据智能管理峰会
5 .kmonitor overview 2019 中国数据智能管理峰会
6 .异构数据源采集 Docker Log SDK plugins 日志ETL : select sum(line[4]) tag(cluster, line[2][4], scene_id, line[3] where line[6] > 3 and line[7][1] != “heart beat”) 2019 中国数据智能管理峰会
7 .时序数据库演进 2019 中国数据智能管理峰会
8 .海量指标存储Gnomon(分布式Influxdb) 5000w/s points scale out query ms latency 2019 中国数据智能管理峰会
9 .AIOps平台Razor OPS UDF Blink Job 规则报警 10w + rule DataPoints DownSample GroupBy Arithmetic stream 异常检测 1w + rule Event 巡检任务 定时batch TSDB 容量规划 OpenTsdb Query 统一表示 AIOPS Serverless Platform 2019 中国数据智能管理峰会
10 .Why AIOPS AIOPS意义:利用算法的能力进一步提升系统效率,降低成本 2019 中国数据智能管理峰会
11 .基于分解的异常检测算法 vs. 基于预测的算法 2019 中国数据智能管理峰会
12 .RobustSTL 2019 中国数据智能管理峰会
13 .异常检测 时序数据 异常检测自动调优流程 2019 中国数据智能管理峰会
14 .尖峰&深谷异常 2019 中国数据智能管理峰会
15 .均值变化 2019 中国数据智能管理峰会
16 .异常检测产品化 2019 中国数据智能管理峰会
17 .异常检测-现状 • 上线tisplus及tpp等头部业务5k+条核心指标,日均 调用量500w+ • 相比规则,报警量减少97%,避免了大量误报, 依据1000+(标注次数)人工标注,准确率和召回 率均>90% • 针对周期性,稀疏数据,均值变化做到了比较好 的识别和处理 2019 中国数据智能管理峰会
18 .通用的AutoScale 2019 中国数据智能管理峰会
19 .我们的AutoScale 2019 中国数据智能管理峰会
20 .弹性Quota 2019 中国数据智能管理峰会
21 .部署优化容量管理 2019 中国数据智能管理峰会
22 . THANK YOU! 2019 中国数据智能管理峰会