安装 monitedge
monitedge 需要部署在用户私有网络内,负责从 SaaS 同步告警规则,周期性查询数据源并进行阈值判定,产生告警事件并推送给 SaaS 端。
菜单入口:告警引擎 → 引擎安装/升级
支持 Linux、Docker、Kubernetes 三种安装方式。
告警引擎状态
monitedge 安装完成后,会自动连接 SaaS 端并周期性同步告警规则。您可以在告警引擎状态页面查看当前状态信息。
长期没有心跳的引擎实例会展示删除按钮,可点击移除以避免引擎失联告警。
引擎失联告警
monitedge 挂掉影响很大,因此提供引擎失联告警。
多个实例组成的引擎集群,只要集群中有一个实例存活,就不会触发引擎失联告警。
创建数据源
菜单入口:数据源 → 新建
| 配置项 | 说明 |
|---|---|
| 关联告警引擎 | 指定该数据源由哪个告警引擎集群进行数据查询和告警判定,通常选择同机房的集群 |
| 数据源连接地址 | 给 monitedge 连接的地址,必须是 monitedge 能访问到的内网地址 |
创建告警规则
菜单入口:告警规则 告警规则可能会很多,Monitors 提供树形分组结构进行分类管理。每个告警规则都要属于某个分组,您可以先创建分组,再在分组下创建告警规则。基础配置
| 配置项 | 说明 |
|---|---|
| 规则名称 | 告警规则的名称,不支持引用变量(固定名称便于过滤、聚合操作) |
| 附加标签 | 类似 Prometheus 中的 labels,会附加到所有告警事件上,便于过滤、路由、抑制 |
数据源选择
Monitors 支持一个规则生效到多个数据源,可使用通配符,如 db-* 表示作用到所有以 db- 开头的数据源。
查询检测方式
配置如何查询数据源及如何判定告警条件。请阅读页面上 查询检测方式 右侧的使用说明。
检测频率与生效时间
| 配置项 | 说明 |
|---|---|
| 检测频率 | 通常是周期性检测,也支持 cron 表达式(精确到秒) |
| 生效时间 | 告警规则的生效时间段,非生效时间段内不会触发告警 |
事件配置
| 配置项 | 说明 |
|---|---|
| 自定义字段 | 类似 Prometheus 中的 annotations,可附加仪表盘 URL、SOP URL 等 |
| 关联查询 | 不作为阈值判定依据,但可放到备注中作为变量引用(如附加日志样例) |
| 备注描述 | 非结构化文本字段,支持引用变量,便于值班人员快速定位问题 |
| 协作空间 | 指定 Flashduty On-call 中的协作空间,不指定则根据集成路由规则投递 |
| 重复通知 | 告警未恢复时持续通知,可配置间隔和最大次数(默认 10000 次) |
最大通知次数并不代表终端用户收到的消息提醒次数。因为 Monitors 产生的告警事件会投递到 On-call,可能会被聚合降噪,最终发送次数取决于 On-call 配置。
查看效果
完成配置后,如果告警条件触发,告警规则前的状态会变成Triggered。
点击 Triggered 可以看到该规则产生的告警事件(也可到 On-call 中查看):
点击告警事件标题,可查看详情,分为三个标签页:告警概览、时间线、关联事件。
导入告警规则
如果您已有 Prometheus 告警规则,可使用导入功能快速迁移。 菜单入口:告警规则 → 导入
要求导入 Prometheus 告警规则的 YAML 格式文本,以
groups 为根节点的标准格式。YAML 缩进必须正确,否则会导入失败。