快速开始

要体验 Monitors 功能，核心包含三个步骤：安装 monitedge、创建数据源、创建告警规则。

一、安装 monitedge

monitedge 需要部署在用户私有网络内，负责从 SaaS 同步告警规则，周期性查询数据源并进行阈值判定，产生告警事件并推送给 SaaS 端。要体验告警功能，必须先安装 monitedge。

菜单入口：告警引擎 → 引擎安装/升级。您可以选择 Linux、Docker、Kubernetes 三种安装方式中的任意一种进行安装。

尤其要注意的是 引擎集群名字，相同 引擎集群名字 的 monitedge 会组成一个集群，共同分片处理告警规则，避免单点故障风险。如果只规划一套 monitedge 集群，引擎集群名字可以维持默认的 default；如果规划多套 monitedge 集群，比如美东机房一套，华南机房一套，请为每套集群指定不同的引擎集群名字。

告警引擎状态

告警引擎 monitedge 安装完成后，会自动连接 SaaS 端并周期性同步告警规则，您可以在告警引擎状态页面查看当前告警引擎的状态信息。

一些长期没有心跳的告警引擎实例会展示删除按钮，您可以点击删除按钮将这些长期没有心跳的告警引擎实例从系统中移除，避免引擎失联告警。

引擎失联告警

告警引擎（monitedge）如果挂掉了，影响很大，因此提供引擎失联告警，在引擎挂掉时及时发出告警通知。多个实例组成的引擎集群，只要集群中有一个实例存活，就不会触发引擎失联告警，因为集群还可以正常工作。

二、创建数据源

菜单入口：数据源，点击新建按钮，即可创建数据源。

最关键的两个配置项：

关联告警引擎：通过此配置项，指定该数据源由哪个告警引擎集群进行数据查询和告警判定。通常选择同机房的告警引擎集群。

数据源连接地址：这个地址是给 monitedge 连接的地址，必须是 monitedge 能访问到的地址。通常是一个内网地址。

三、创建告警规则

菜单入口：告警规则。

告警规则可能会有很多，需要分门别类管理。Monitors 提供树形分组结构作为告警规则的分类管理方案。每个告警规则都要属于某个分组，您可以先创建分组，再在分组下创建告警规则。

下面详细介绍告警规则的各项配置。各个字段旁边通常会有帮助提示，您可以将鼠标悬停在帮助提示图标上查看具体说明。

基础配置

规则名称：告警规则的名称，便于识别和管理。不支持引用变量，因为未来可能会使用名称进行过滤、聚合等操作，固定的名称更便于处理。

附加标签：类似 Prometheus 告警规则中的 labels，会附加到该规则产生的所有告警事件上，便于在 On-call 中进行过滤、路由、抑制等操作。

数据源选择

Monitors 可以让一个规则生效到多个数据源，可以使用通配符，比如 db-*，表示该规则会作用到所有名称以 db- 开头的数据源上。

⚠️ 注意：数据源这里因为要支持通配符，所以存储的是数据源名称，而不是数据源 ID。如果数据源名称修改了，会影响告警规则的生效，请谨慎修改数据源名称。

查询检测方式

这部分用于配置如何查询数据源的数据，以及如何判定告警条件。这部分功能设计非常灵活，也带来了较高的复杂度。请阅读页面上 查询检测方式 右侧的使用说明，了解配置方法。

检测频率 & 生效时间

检测频率：通常是周期性检测，也支持配置 cron 表达式。Monitors 中的 cron 表达式精确到秒。

生效时间：配置告警规则的生效时间段，非生效时间段内不会触发告警。

事件配置

自定义字段：类似 Prometheus 告警规则中的 annotations，会附加到该规则产生的所有告警事件上，比如附加仪表盘的 URL、SOP 的 URL 等。

关联查询：关联查询的结果不作为告警阈值判定的数据依据，但可以放到备注中作为变量引用，便于在 On-call 中查看更多上下文信息，辅助排查问题。比如最近 5 分钟 Error 日志数量 1000，大于 0 告警了，想要附加一条日志样例到告警事件中，就可以使用附加查询来实现。

备注描述：这个字段极为关键，是一个非结构化的文本字段，支持引用变量。告警事件中会展示这个字段内容，便于值班人员快速定位和处理问题。具体配置方法请参考 备注描述 右侧的使用说明。

协作空间：指的是 Flashduty On-call 中的协作空间。如果指定了协作空间，告警事件会发送到指定的协作空间；如果不指定，告警事件就会发给集成，然后根据集成中配置的路由规则来决定投递到哪些协作空间。具体情况请参考 协作空间 右侧的提示说明。

重复通知：如果告警没有恢复，可以每隔指定的间隔持续通知，也可以指定最大通知次数，默认为 10000 次。

⚠️ 注意：最大通知次数，并不表示终端用户收到的消息提醒次数。因为 Monitors 产生的告警事件会投递到 On-call，On-call 可能会对告警事件做聚合降噪处理，最终发送给终端用户的消息提醒次数，取决于 On-call 的配置。

四、效果

完成上述配置后，如果告警条件触发，就会产生告警事件，告警规则前面的状态也会变成 Triggered。

点击 Triggered 会看到这个规则产生的告警事件（您也可以到 On-call 中查看）：

继续点击告警事件标题，可以看到告警事件的详情，分成三个标签页： 告警概览、时间线、关联事件。这些都是 On-call 体系的功能，各个字段的含义也较为明显，这里不再一一赘述。

五、导入告警规则

如果您已经有一批 Prometheus 告警规则，希望快速导入到 Monitors 中使用，可以使用告警规则导入功能。菜单入口：告警规则 → 导入。

要求导入的是 Prometheus 告警规则的 YAML 格式文本，以 groups 为根节点的标准 Prometheus 告警规则文件格式。YAML 的缩进必须正确，否则会导入失败。

一、安装 monitedge#

告警引擎状态#

引擎失联告警#

二、创建数据源#

三、创建告警规则#

基础配置#

数据源选择#

查询检测方式#

检测频率 & 生效时间#

事件配置#

四、效果#

五、导入告警规则#