配置告警降噪
title: "告警聚合、告警降噪"
description: "通过告警聚合,可以将多条相似的活跃告警聚合到同一条故障中,一起分派、通知和处理,这可以显著降低通知频次并提高处置效率"
date: "2024-06-18T10:00:00+08:00"
url: "https://docs.flashcat.cloud/zh/flashduty/noise-reduction-settings"
视频介绍
设置告警聚合
前往【协作空间详情】-【告警降噪】,可以设置 告警聚合 策略。当创建一个新的协作空间,默认关闭告警聚合,建议您手动开启并按需设置聚合策略。
:::tip
当不开启告警聚合,每一条告警都将创建一条故障,且二者基本信息完全相同。
:::
聚合维度:一个空间可以设置多组默认聚合维度,任一组维度匹配,即认为告警与故障相似,可以合入。
- 如果您期望对不同的告警进行分流处理,请打开
细粒度控制
。 - 细粒度控制支持您筛选故障,并设定一个特定的聚合维度。
- 系统总是优先匹配细粒度控制,如果没有匹配到,将使用默认聚合维度。
- 您可以前往 配置过滤条件,了解如何配置过滤条件。
- 如果您期望对不同的告警进行分流处理,请打开
聚合窗口:您可以选择仅聚合临近发生的告警(有更强的相关性),超出时间窗口的告警将触发新的故障。注意该窗口为滑动窗口,总是随着新告警合入而延长。
- 一般建议您以告警的平均达到时间,作为聚合窗口。比如10分钟。
风暴预警:故障触发后,系统将立即分派并通知(假设您没有设置延迟通知),随后持续合入新的告警,但不会触发新的通知,这会导致您无法及时感知到告警风暴。因此我们提供此阈值,当合入告警数量达到阈值,系统将触发风暴预警,提醒您加急处理。
- 我们总是建议您打开风暴预警。
预览:您可使用预览功能,拉取最近发生的事件,并实时渲染降噪结果,以此评估降噪效果。系统至多拉取
666
条历史事件。
查看聚合示例
设置空间按照 告警检查项 进行聚合,系统依次收到5次告警通知,这些通知依次触发了告警和故障:
故障:cpu idle < 20% / es.nj.03,Critical
- 告警cpu idle < 20% / es.nj.03:
- 事件1:es.nj.03,cpu.idle = 10%,Critical
- 事件2:es.nj.03,cpu.idle = 18%,Warning
- 事件4:es.nj.03,cpu.idle = 10%,Ok
- 告警cpu idle < 20% / es.nj.01:
- 事件3:es.nj.01,cpu.idle = 15%,Warning
- 告警cpu idle < 20% / es.nj.02:
- 事件5:es.nj.02,cpu.idle = 19%,Warning
我们通过控制台故障详情页,可以看到最终的【故障-告警-事件】关联关系:
- 点击告警标题,您可以查看关联告警的详情,包括告警的时间线和关联事件
- 点击事件点,您可以查看事件上报的具体内容,包括标签和描述
常见问题
故障的标题是否会随告警合入改变?
不会,默认故障的标题与触发该故障的第一条告警完全相同,您可以在任何时候手动修改故障标题,此标题不会随新告警合入发生变化。故障的标签是否会随告警合入改变?
- 手工创建的告警:不会,其标签列表将永远为空
- 自动触发的告警:有可能,此时故障的标签将与触发该故障的第一条告警的标签保持一致,如果告警的标签发生变化,那么故障的标签也会同步变化。
告警的标签是否会随事件合入改变?
会的,告警的标签总是与新合入的事件保持一致。比如,如果您10点钟收到一条告警”CPU idle 偏低“,触发值为10%,随着告警合入更多事件,该触发值标签可能会动态变化。但如果新收到的事件,是一条恢复事件,告警将保持已存在的标签不变,并增加之前不存在的标签。我们的原则是,告警展示的标签尽可能保持触发时的样子。故障合入的告警数量是否存在上限?
存在,我们设置了单个故障最多聚合1000条告警,这主要是为了降低控制台页面的渲染时间。但同时,Flashduty是一个高性能的事件处理系统,后台存在大量并发逻辑,因此当您看到故障聚合超过1000条告警时,这是可能出现的正常现象。告警合入的事件数量是否存在上限?
不存在。但一个告警聚合事件的窗口最大为24小时。这意味着,如果一个告警触发24小时后还没有恢复,未来也不会合入新的事件。如果Flashduty收到新的事件,会产生新的告警。为什么我推送的事件数量和告警关联的事件数量对不上?
事件到告警的合并也是一个降噪过程。如果Flashduty认为新上报的事件和告警变化不大(比如状态、严重程度、描述等都没有变化),Flashduty会直接丢弃新上报的事件,并使用新事件的标签来覆盖已有的标签。修改于 16 天前