- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
海量在线交易背后的运维监控体系建设
展开查看详情
1 .
2 .
3 .海量在线交易背后的 运维监控体系建设 携程旅行网 程国强
4 . 作者介绍 程国强 (Taurus) 晓刚 (Kenny) 网站运营系统 发 总监 网站运营系统 发 高级经理
5 . 目录 u 挑战与困境 u 监控体系打造思路 u 携程监控工具集 u 实例分析 u 未来方向
6 . 挑战- 杂 访问渠道 在线 (web) ,电话语音,无线 平 台 复 杂 业务类型 机票,酒店,度假,攻略…. 性 高 子系统 公共服务,Call Center,供应商接口,BI,Cloud
7 . 挑 战 – 增 ⻓长 高增⻓长 vs 低成本 交易量 网站流量 服务器数量 代码发布数量 员工数量 2013 2014 2020
8 . 困境 网站故 Ø 用户比我们先发现故障 障几率 增加 Ø 网站宕机频繁 故障发 现滞后 损失 Ø 定位时间⻓长 营收 Ø 诊断问题缺乏有效工具 排障时 间长
9 . 监控体系打造思路 网站可用性(ATP) 途径与 Availability = UpLme / (UpLme + DownLme) 工具 Availability Down-me 90% 36.5 days/year 人员 99% 3.65 days/year 组织 99.9% 8.76 hours/year 可衡量的 99.99% 52 minutes/year 网站可用 性目标 99.999% 5 minutes/year 99.9999% 31 seconds/year!
10 . 组织方式 成立NOC团队 - 故障事件分级 - 定义SLA和故障升级流程
11 . 监控着手点 网 业务数据 • 有问题 1 网站前端 络 监控 吗? 登 2 应用层 业 流 录 • 问题在哪 务 量 服务与系 3 服务层 与 统监控 里? 订 / 注 4 数据库 单 防 应用内部 • 问题是 册 火 监控 什么? 5 基础架构 墙
12 .避免不合理的期望 多而全 代价 20/80原则 报警噪音 从无到有 监控点过多 计算/存储资 源 精细数据保 做精做细 留时间过长 工具维护成 本
13 . 携程监控工具集 CATS Alerts Alerts Eudemon (App 告警平台) Alerts Alerts Sysmon (Zabbix Dashboard) App Service Metrics Metrics Sitemon DB Monitor Zabbix Clogging & Dashboard ElasLcSearch Sys Metrics Biz Metrics Logs DB Metrics Logs 携程网站
14 . Sitemon(业务监控) 监控对象: • 订单,支付数据 • 关键URL服务质量 • ESB服务质量 • 第三方接口可用性 -‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐ 报警策略: • 对比预测线 • 周环比 • 深跌/突增 • 长时间微跌 • 跌0 -‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐ 报警方式: • Web弹窗+声音 • 邮件 + 短信 • IRC
15 .呼叫中心(offline) 万人级别的呼叫中心,携程独特的业务决定 。
16 . 系统层面监控 基于 基 容 础 量 设 分 施 析 层 与 监 管 控 理 数 据 库 监 控
17 . 应用与服务监控 应用报错 服务响应时间
18 . 监控有效的展现 周环比排名 percenLles
19 . 应用与服务的告警 应用与服务的告警,是业务告警的“冒烟警示” 告警一定是有级别,逐步升高的
20 . 告警– 活 vs 自服务 开发人员通过Python DSL开发trigger 阈值开放给用户自定义
21 .Sitemon移动客户端
22 .监控告警追踪管理- CATS • 处理报警统一入口 • 报警信息补充 • 重复报警去除 • 报警优先级区分 • 报警抑制 • 报警聚合 • 与工作流系统联动
23 . 实例分析 16:17 16:15 NOC开启电话会议,加PD、OPS-‐DBA、OPS-‐APP排查 通过查看相关工具定位问题在数据库方面 16:18 2014-‐08-‐15 OPS-‐DBA做出相应处理 16:14 NOC监控收到订单下降告警 16:20 订单恢复
24 . 未来方向 建立统一监控平台 快速定位与处理 完善的配置管理系统 § 解决监控系统分散问题 • 关系 § 数据间的关系是核心 • 属性 • 状态 § 监控技术栈 自动化控制 • 采集 • 传输 • 服务自动重启 • 聚合 • 限流,熔断 • 读取与计算 • 图形化展示 • 资源重新分配,扩容 • 支持灵活的告警规则 一体化 智能化
25 . 架构构想 Push Linux Windows Urls, Services, Logging Systems Monitoring Metrics APIs Profile collectD statD Nagios Core Metrics Bus (Kaba ) CMDB Storm RealLme Metrics (aggregaLon) Rule Engine Graphite/influxDB Data Warehouse Historic Metrics Python Esper DSL Alerts Dashboard CATs Capacity Management
26 .Q&A We are hiring
27 .@InfoQ infoqchina