Flashduty Docs
中文EnglishRoadmapAPI官网控制台
中文EnglishRoadmapAPI官网控制台
  1. 快速开始
  • 简介
  • On-call
    • 快速开始
      • 快速开始
      • 常见问题
      • 产品对比
    • 故障管理
      • 什么是故障
      • 检索与查看故障
      • 处理与更新故障
      • 升级与分派故障
      • 自定义字段
      • 自定义操作
      • 了解降噪过程
      • 了解历史故障
      • 了解新奇故障
    • 配置On-call
      • 协作空间管理
      • 多种方式接入告警
      • 配置路由规则
      • 配置标签增强
      • 配置告警降噪
      • 配置分派策略
      • 故障静默与抑制
      • 配置值班规则
      • 配置通知模板
      • 配置服务日历
      • 配置个人信息
      • 配置过滤条件
      • 通知配置
      • 告警处理 pipeline
    • 高级功能
      • 引用变量
      • 动态分派
      • 分析数据
      • 作战室
    • 集成引导
      • 告警集成
        • 邮件 Email 集成指引
        • 夜莺 Flashcat 集成指引
        • Prometheus 集成指引
        • 标准告警事件集成指引
        • Grafana 集成指引
        • Zabbix 集成指引
        • Uptime Kuma 集成指引
        • 阿里云 ARMS 集成指引
        • 阿里云监控 CM 事件集成指引
        • 阿里云监控 CM 指标集成指引
        • 阿里云 SLS 集成指引
        • AWS CloudWatch 集成指引
        • Azure Monitor 集成指引
        • 百度云监控 BCM 集成指引
        • 华为云监控 CES 集成指引
        • 腾讯云 CLS 集成指引
        • 腾讯云监控 CM 集成指引
        • 腾讯云 Event Bridge 集成指引
        • Influxdata 集成指引
        • Open Falcon 集成指引
        • Pagerduty 集成指引
        • 蓝鲸智云集成指引
        • OceanBase 集成指引
        • Graylog 集成指引
        • Skywalking 集成指引
        • Sentry 集成指引
        • 监控宝告警集成指引
        • AWS EventBridge 集成指引
        • Dynatrace 集成指引
        • 华为云 LTS 集成指引
        • GoogleCloud 集成指引
        • Splunk 集成指引
        • AppDynamics 集成指引
        • SolarWinds 集成指引
        • 火山引擎CM 指标集成指引
        • 火山引擎CM 事件集成指引
        • 火山引擎日志服务 TLS 集成指引
        • Opmanager 告警事件
        • Meraki 告警事件
        • 天翼云告警集成
        • 观测云告警事件
        • zilliz 告警事件
        • 华为云 APM 告警事件
        • zstack 告警事件
        • Keep 告警集成指引
        • ElastAlert2 告警集成
        • Monit 告警集成指引
        • RUM 告警集成指引
      • 即时消息
        • 飞书 Lark 集成指引
        • 钉钉 Dingtalk 集成指引
        • 企业微信 Wecom 集成指引
        • Slack 集成指引
        • Microsoft Teams 集成指引
      • 单点登录
        • Authing 集成指引
        • Keycloak 集成指引
        • OpenLDAP 集成指引
      • Webhooks
        • 告警 webhook
        • 故障 webhook
        • 自定义操作
        • Jira 同步
        • ServiceNow 同步
        • ServiceDesk Plus 同步
      • 变更集成
        • 标准变更事件集成指引
      • 其他集成
        • Link 集成
  • RUM
    • 快速开始
      • 入门介绍
      • 快速开始
      • 常见问题
    • 应用管理
      • 应用管理
      • SDK接入
      • 高级配置
      • 分析看板
    • 性能监控
      • 概览
      • 指标上报
      • 性能分析
      • 诊断优化
    • 查看器
      • 概览
      • 数据查询
    • 异常追踪
      • 概览
      • 异常上报
      • 异常聚合
      • Issue状态
      • 异常查看
      • 源码映射
      • Issue告警
    • 会话重放
      • 概览
      • SDK配置
      • 查看 RUM 会话重放记录
      • 隐私保护说明
    • 最佳实践
      • 分布式追踪
    • 其他
      • 术语说明
      • 数据收集
      • 数据安全
  • Moniors
    • 快速开始
      • 产品介绍
      • 快速开始
    • 常见问题
      • 常见问题
  • 平台功能
    • 团队和成员
    • 了解权限设计
    • 配置单点登录
  • 服务协议
    • 服务条款
    • 用户协议/隐私政策
    • SLA承诺
    • 数据安全
  1. 快速开始

快速开始

要体验 Monitors 功能,核心包含三个步骤:安装 monitedge、创建数据源、创建告警规则。

一、安装 monitedge#

monitedge 需要部署在用户私有网络内,负责从 SaaS 同步告警规则,周期性查询数据源并进行阈值判定,产生告警事件并推送给 SaaS 端。要体验告警功能,必须先安装 monitedge。
菜单入口:告警引擎 → 引擎安装/升级。您可以选择 Linux、Docker、Kubernetes 三种安装方式中的任意一种进行安装。
尤其要注意的是 引擎集群名字,相同 引擎集群名字 的 monitedge 会组成一个集群,共同分片处理告警规则,避免单点故障风险。如果只规划一套 monitedge 集群,引擎集群名字可以维持默认的 default;如果规划多套 monitedge 集群,比如美东机房一套,华南机房一套,请为每套集群指定不同的引擎集群名字。
告警引擎安装

告警引擎状态#

告警引擎 monitedge 安装完成后,会自动连接 SaaS 端并周期性同步告警规则,您可以在告警引擎状态页面查看当前告警引擎的状态信息。
一些长期没有心跳的告警引擎实例会展示删除按钮,您可以点击删除按钮将这些长期没有心跳的告警引擎实例从系统中移除,避免引擎失联告警。

引擎失联告警#

告警引擎(monitedge)如果挂掉了,影响很大,因此提供引擎失联告警,在引擎挂掉时及时发出告警通知。多个实例组成的引擎集群,只要集群中有一个实例存活,就不会触发引擎失联告警,因为集群还可以正常工作。

二、创建数据源#

菜单入口:数据源,点击 新建 按钮,即可创建数据源。
创建数据源
最关键的两个配置项:
关联告警引擎:通过此配置项,指定该数据源由哪个告警引擎集群进行数据查询和告警判定。通常选择同机房的告警引擎集群。
数据源连接地址:这个地址是给 monitedge 连接的地址,必须是 monitedge 能访问到的地址。通常是一个内网地址。

三、创建告警规则#

菜单入口:告警规则。
告警规则可能会有很多,需要分门别类管理。Monitors 提供树形分组结构作为告警规则的分类管理方案。每个告警规则都要属于某个分组,您可以先创建分组,再在分组下创建告警规则。
下面详细介绍告警规则的各项配置。各个字段旁边通常会有帮助提示,您可以将鼠标悬停在帮助提示图标上查看具体说明。

基础配置#

基础配置
规则名称:告警规则的名称,便于识别和管理。不支持引用变量,因为未来可能会使用名称进行过滤、聚合等操作,固定的名称更便于处理。
附加标签:类似 Prometheus 告警规则中的 labels,会附加到该规则产生的所有告警事件上,便于在 On-call 中进行过滤、路由、抑制等操作。

数据源选择#

数据源选择
Monitors 可以让一个规则生效到多个数据源,可以使用通配符,比如 db-*,表示该规则会作用到所有名称以 db- 开头的数据源上。
⚠️ 注意:数据源这里因为要支持通配符,所以存储的是数据源名称,而不是数据源 ID。如果数据源名称修改了,会影响告警规则的生效,请谨慎修改数据源名称。

查询检测方式#

查询检测方式
这部分用于配置如何查询数据源的数据,以及如何判定告警条件。这部分功能设计非常灵活,也带来了较高的复杂度。请阅读页面上 查询检测方式 右侧的使用说明,了解配置方法。

检测频率 & 生效时间#

检测频率 & 生效时间
检测频率:通常是周期性检测,也支持配置 cron 表达式。Monitors 中的 cron 表达式精确到秒。
生效时间:配置告警规则的生效时间段,非生效时间段内不会触发告警。

事件配置#

自定义字段:类似 Prometheus 告警规则中的 annotations,会附加到该规则产生的所有告警事件上,比如附加仪表盘的 URL、SOP 的 URL 等。
关联查询:关联查询的结果不作为告警阈值判定的数据依据,但可以放到备注中作为变量引用,便于在 On-call 中查看更多上下文信息,辅助排查问题。比如最近 5 分钟 Error 日志数量 1000,大于 0 告警了,想要附加一条日志样例到告警事件中,就可以使用附加查询来实现。
备注描述:这个字段极为关键,是一个非结构化的文本字段,支持引用变量。告警事件中会展示这个字段内容,便于值班人员快速定位和处理问题。具体配置方法请参考 备注描述 右侧的使用说明。
协作空间:指的是 Flashduty On-call 中的协作空间。如果指定了协作空间,告警事件会发送到指定的协作空间;如果不指定,告警事件就会发给集成,然后根据集成中配置的路由规则来决定投递到哪些协作空间。具体情况请参考 协作空间 右侧的提示说明。
重复通知:如果告警没有恢复,可以每隔指定的间隔持续通知,也可以指定最大通知次数,默认为 10000 次。
⚠️ 注意:最大通知次数,并不表示终端用户收到的消息提醒次数。因为 Monitors 产生的告警事件会投递到 On-call,On-call 可能会对告警事件做聚合降噪处理,最终发送给终端用户的消息提醒次数,取决于 On-call 的配置。

四、效果#

完成上述配置后,如果告警条件触发,就会产生告警事件,告警规则前面的状态也会变成 Triggered。
告警规则列表页面
点击 Triggered 会看到这个规则产生的告警事件(您也可以到 On-call 中查看):
告警事件列表
继续点击告警事件标题,可以看到告警事件的详情,分成三个标签页: 告警概览、时间线、关联事件。这些都是 On-call 体系的功能,各个字段的含义也较为明显,这里不再一一赘述。

五、导入告警规则#

如果您已经有一批 Prometheus 告警规则,希望快速导入到 Monitors 中使用,可以使用告警规则导入功能。菜单入口:告警规则 → 导入。
导入告警规则
要求导入的是 Prometheus 告警规则的 YAML 格式文本,以 groups 为根节点的标准 Prometheus 告警规则文件格式。YAML 的缩进必须正确,否则会导入失败。

添加官方技术支持微信

在这里,获得使用上的任何帮助,快速上手FlashDuty

微信扫码交流
修改于 2025-11-08 06:21:29
上一页
产品介绍
下一页
常见问题
Built with