跳转到主要内容
告警引擎(monitedge)如果挂掉,会导致告警规则无法执行,影响非常大。引擎失联告警功能可以在引擎挂掉时及时发出告警通知,保障监控系统的可靠性。 菜单入口:告警引擎 → 引擎失联告警
多个实例组成的引擎集群,只要集群中有一个实例存活,就不会触发引擎失联告警。只有集群中所有实例都失联时才会触发。

告警规则列表

列表展示所有已配置的引擎失联告警规则,支持按关键字搜索和自定义显示列。
列信息说明
规则标题告警规则的名称
告警级别Critical(红色)、Warning(橙色)、Info(黄色)
匹配引擎名字该规则监控的引擎集群名称模式,支持通配符 *
排除引擎名字排除不需要监控的引擎集群名称模式
失联时长(秒)引擎集群无心跳超过该时长后触发告警
发给协作空间告警事件投递到的协作空间
事件生成次数失联期间最多生成的告警事件次数
事件生成频率(秒)重复生成告警事件的时间间隔
启用规则的启用/禁用开关

新建告警规则

点击新增按钮,在侧边抽屉中配置以下参数:
1

基本信息

配置项说明默认值
规则标题规则名称,用于标识和搜索monitedge lost
启用是否立即启用该规则启用
2

告警级别

选择告警事件的严重程度:
  • Critical:紧急,通常用于核心引擎
  • Warning:警告,默认级别
  • Info:信息级别
3

匹配和排除规则

配置项说明默认值
匹配引擎名字输入需要监控的引擎集群名称模式,支持多个值,* 表示匹配所有*
排除引擎名字输入需要排除的引擎集群名称模式
匹配引擎名字和排除引擎名字不能同时为空。
4

触发条件

配置项说明默认值
失联时长(秒)引擎集群中所有实例失联超过该时长后触发告警120
事件生成次数引擎持续失联时,最多重复生成多少次告警事件3
事件生成频率(秒)每次重复生成告警事件的最小时间间隔300
5

协作空间

选择告警事件要投递到的协作空间。告警事件会通过 Flashduty On-call 的协作空间进行后续的通知分派和处理。

编辑和删除

  • 编辑:在列表中点击编辑按钮修改规则配置。只有规则创建者、主账号或管理员角色可以编辑。
  • 删除:在列表中点击删除按钮。只有规则创建者、主账号或管理员角色可以删除。
  • 启用/禁用:通过列表中的开关快速切换规则状态。