监控告警是企业运维管理中重要的场景案例。用户如何循序渐进的使用监控平台?本篇文章将监控平台大致分为四个层面介绍。
- 第一层:开箱即用 — 适用于初级用户
- 第二层:扩展采集和告警自动处理 — 适用于高级用户
- 第三层:策略高级控制和配置分享 — 适用于专家级用户
- 第四层:平台管理和插件开发 — 适用于管理员和二次开发者
第一层:开箱即用
主机-操作系统监控
- CMDB 中纳管的机器并且安装了Agent的机器会默认进行采集
- 默认采集的指标
- 默认采集的事件
- 主机监控,主机图表查看和对比等功能
内置的默认策略
主机-进程监控
- CMDB 配置的进程默认就会进行采集
- 默认采集的进程指标和事件
官方插件: 内置 20 款官方插件,可直接在采集中使用,满足常用组件的监控需求。提供动态的采集需求,自动增删采集
策略配置:可满足 IP,服务实例,集群模块的监控需求,提供 8 种检测算法。并且支持数据平台的数据监控需求
监控屏蔽:提供服务实例,IP,集群模块,策略,事件的屏蔽粒度
仪表盘:提供不同的图表配置,支持日志数据、数据平台数据、监控采集的指标数据画图需求
服务拨测:提供模拟用户请求的监控需求。
日志采集和监控
- 通过日志平台可以进行日志采集和字段提取
- 方便的日志检索功能
- 日志关键字告警功能和日志的指标数据监控能力
- 日志的指标数据画图能力
- 如何监控日志平台的数据
第二层:扩展采集和告警自动处理
在线制作插件:通过在线插件制作来扩充采集能力,插件制作提供了脚本,Exporter,JMX,BK-Pull 5种便利的插件制作类型。可以几分种实现一个好用的采集插件。并且还提供远程采集的方式来满足不方便 Agent 部署的情况。
自定义上报: 通过自定义上报来扩充采集能力,通过HTTP方式上报可以满足业务灵活的业务指标数据上报的能力。
告警回调能力:通过HTTP的告警回调,可以进行自动触发。
故障自愈能力:通过故障自愈对接对接监控打通处理动作。
第三层:策略高级控制和配置分享
精细化控制:无数据告警,告警恢复,告警收敛和汇总控制
自定义告警通知模版:通过模版满足个性化需求
策略抑制能力:小范围优先级大于大范围
主机运营字段:通过主机的运营字段来控制是否要进行监控,可与发布和故障处理相关操作打通
忽略进程端口范围端:某些进程端口范围不是用于监控的
导入和导出:可以通过采集,策略,插件的批量导入导出来满足配置的快速分享
第四层:平台管理和插件开发
插件程序开发:当市面上没有合适的插件时,可以自己制作开发。Python和Golang两种语言可以选择自己更擅长的
全局管理:功能控制在全局配置,如磁盘的黑名单,告警风暴的阈值,通知渠道的设置
自监控:监控的监控,保证平台的稳定性
接入流程