跳转到主要内容
要体验 Monitors 功能,核心包含三个步骤:
1

安装 monitedge

部署告警引擎到私有网络
2

创建数据源

配置要监控的数据来源
3

创建告警规则

定义告警条件和通知方式

安装 monitedge

monitedge 需要部署在用户私有网络内,负责从 SaaS 同步告警规则,周期性查询数据源并进行阈值判定,产生告警事件并推送给 SaaS 端。 菜单入口:告警引擎 → 引擎安装/升级 支持 Linux、Docker、Kubernetes 三种安装方式。
引擎集群名字非常重要:相同名字的 monitedge 会组成一个集群,共同分片处理告警规则,避免单点故障。
  • 单套集群:保持默认的 default 即可
  • 多套集群(如美东机房、华南机房各一套):请为每套集群指定不同的名字
告警引擎安装

告警引擎状态

monitedge 安装完成后,会自动连接 SaaS 端并周期性同步告警规则。您可以在告警引擎状态页面查看当前状态信息。 长期没有心跳的引擎实例会展示删除按钮,可点击移除以避免引擎失联告警。

引擎失联告警

monitedge 挂掉影响很大,因此提供引擎失联告警。
多个实例组成的引擎集群,只要集群中有一个实例存活,就不会触发引擎失联告警。

创建数据源

菜单入口:数据源 → 新建 创建数据源
配置项说明
关联告警引擎指定该数据源由哪个告警引擎集群进行数据查询和告警判定,通常选择同机房的集群
数据源连接地址monitedge 连接的地址,必须是 monitedge 能访问到的内网地址

创建告警规则

菜单入口:告警规则 告警规则可能会很多,Monitors 提供树形分组结构进行分类管理。每个告警规则都要属于某个分组,您可以先创建分组,再在分组下创建告警规则。

基础配置

基础配置
配置项说明
规则名称告警规则的名称,不支持引用变量(固定名称便于过滤、聚合操作)
附加标签类似 Prometheus 中的 labels,会附加到所有告警事件上,便于过滤、路由、抑制

数据源选择

数据源选择 Monitors 支持一个规则生效到多个数据源,可使用通配符,如 db-* 表示作用到所有以 db- 开头的数据源。
数据源配置存储的是名称而非 ID(因为要支持通配符)。如果数据源名称修改了,会影响告警规则的生效,请谨慎修改。

查询检测方式

查询检测方式 配置如何查询数据源及如何判定告警条件。请阅读页面上 查询检测方式 右侧的使用说明。

检测频率与生效时间

检测频率 & 生效时间
配置项说明
检测频率通常是周期性检测,也支持 cron 表达式(精确到秒)
生效时间告警规则的生效时间段,非生效时间段内不会触发告警

事件配置

配置项说明
自定义字段类似 Prometheus 中的 annotations,可附加仪表盘 URL、SOP URL 等
关联查询不作为阈值判定依据,但可放到备注中作为变量引用(如附加日志样例)
备注描述非结构化文本字段,支持引用变量,便于值班人员快速定位问题
协作空间指定 Flashduty On-call 中的协作空间,不指定则根据集成路由规则投递
重复通知告警未恢复时持续通知,可配置间隔和最大次数(默认 10000 次)
最大通知次数并不代表终端用户收到的消息提醒次数。因为 Monitors 产生的告警事件会投递到 On-call,可能会被聚合降噪,最终发送次数取决于 On-call 配置。

查看效果

完成配置后,如果告警条件触发,告警规则前的状态会变成 Triggered 告警规则列表页面 点击 Triggered 可以看到该规则产生的告警事件(也可到 On-call 中查看): 告警事件列表 点击告警事件标题,可查看详情,分为三个标签页:告警概览时间线关联事件

导入告警规则

如果您已有 Prometheus 告警规则,可使用导入功能快速迁移。 菜单入口:告警规则 → 导入 导入告警规则
要求导入 Prometheus 告警规则的 YAML 格式文本,以 groups 为根节点的标准格式。YAML 缩进必须正确,否则会导入失败。