跳转到主要内容

什么是 Monitors?

Flashduty Monitors 是一款统一告警引擎,能够对接各类指标、日志数据源,根据您配置的告警规则,周期性查询数据并进行阈值判定,产生告警事件后推送给 Flashduty On-Call 进行聚合发送。
Monitors 可以替代 Nightingale、vmalert、elastalert 等产品的告警能力,深度整合 On-Call 产品,满足各种复杂的告警需求。

核心能力

多数据源支持

支持 Prometheus、VictoriaMetrics、Elasticsearch、ClickHouse 等主流数据源

灵活告警规则

支持阈值告警、同环比告警、无数据告警等多种告警类型

分布式架构

支持多机房部署,自动分片处理,保证高可用

深度集成

与 On-Call 深度集成,告警直达值班人员

架构设计

Flashduty 是 SaaS 服务,无法直接访问用户私有网络内的数据源,因此 Monitors 采用边缘计算架构:
1

SaaS 服务端

负责管理告警规则、权限控制和告警事件聚合
2

monitedge 边缘节点

部署在用户私有网络内,从 SaaS 同步告警规则,周期性查询数据源并进行阈值判定
3

告警推送

边缘节点产生告警事件后,推送给 SaaS 端进行后续处理
如果您有多个机房,可以在每个机房部署独立的 monitedge 实例,分别负责各自机房内数据源的告警判定。

高可用部署

Monitors 支持集群部署,保证告警引擎的高可用:
在同一机房部署多个 monitedge 实例,通过 --alerter.clusterName 参数设置相同的集群名字,系统会自动分片处理告警规则。
不同机房部署独立的 monitedge 集群,每个集群使用不同的集群名字,分别处理各自机房的数据源。
如果集群中某个实例故障,其他实例会自动接管其负责的告警规则,既保证高可用,又避免告警重复发送。

告警规则类型

类型说明适用场景
阈值告警指标超过/低于阈值时触发CPU、内存、磁盘等资源监控
同比告警与历史同期对比,偏差超过阈值时触发业务量、流量异常检测
环比告警与前一周期对比,偏差超过阈值时触发突增突降检测
无数据告警指标停止上报时触发服务存活检测
复合告警多个条件组合判断复杂业务场景

支持的数据源

Prometheus

支持 PromQL 查询

VictoriaMetrics

兼容 Prometheus 协议

Elasticsearch

支持日志告警

ClickHouse

支持 SQL 查询

MySQL

支持 SQL 查询

更多...

持续扩展中

快速开始

部署指南

了解如何部署 monitedge 并创建首个告警规则

常见问题

使用过程中的常见问题解答