产品介绍

什么是告警引擎（Monitors）？

告警引擎（Monitors）对接各类指标、日志数据源，根据您配置的告警规则，周期性查询数据并进行阈值判定，进而产生告警事件，最后推送给 Flashduty On-call 进行聚合发送。

Flashduty Monitors 可以替代 Nightingale、vmalert、elastalert 等产品的告警能力。Monitors 的告警引擎设计极为灵活，深度整合 On-call 产品，能够满足各种复杂的告警需求。

告警引擎（Monitors）架构设计

Flashduty 是一个 SaaS 服务，无法从 SaaS 侧访问用户私有网络内的数据源，因此告警引擎（Monitors）包含两部分：

SaaS 服务端：负责管理告警规则、管理权限

monitedge：部署在用户私有网络内，从 SaaS 同步告警规则，周期性查询数据源并进行阈值判定，产生告警事件并推送给 SaaS 端

架构图如下所示：

示意图中假设客户有两个机房，美东机房和华南机房，每个机房内都部署了一个 monitedge 实例，分别负责各自机房内数据源的告警判定，并将告警事件推送给 SaaS 端。

如果您只有一个机房，或者机房间网络质量很好，也可以只部署一个 monitedge 实例，负责所有数据源的告警判定。

如果部署一个 monitedge 担心单点故障风险，也可以部署多个 monitedge 实例组成集群。比如美东机房部署 2 个 monitedge 实例组成集群，实例启动时通过 --alerter.clusterName meidong 参数设置相同的集群名字；华南机房部署 2 个 monitedge 实例组成另一个集群，这两个实例启动时通过 --alerter.clusterName huanan 参数设置另一个集群名字。

一个告警引擎集群中的多个实例会自动分片处理告警规则。比如这个集群要处理 100 条告警规则，系统会自动均衡，让每一个 monitedge 实例分别处理 50 条。如果其中一个实例挂掉，另一个实例会接管所有的这 100 条告警规则的处理，既保证了高可用，又避免了告警事件重复发送。

什么是告警引擎（Monitors）？#

告警引擎（Monitors）架构设计#

什么是告警引擎（Monitors）？

告警引擎（Monitors）架构设计