处理与更新故障
调查故障,更新关键信息,并与他人同步情况。
修改信息
当故障触发后,其问题表现或随着时间推移逐渐明确,这时您可以修改故障的标题等关键信息,使其比原始告警信息更准确。
修改故障标题
- 控制台点开故障详情,在标题部分,点击修改按钮。
- 输入新标题,完成。
:::highlight orange 💡
修改后的标题,不会随着新告警合入发生变化。
:::
修改故障严重程度
- 控制台点开故障详情,在严重程度部分,选择新的严重程度。
- 鼠标失焦,完成。
:::highlight orange 💡
修改后的严重程度,不会随着新告警合入发生变化。
:::
修改故障描述与影响
- 控制台点开故障详情,在描述和影响部分,点击直接输入新的信息。
- 系统会自动进行保存。
您可以 Markdown 语法更新故障的描述和影响,也可以直接复制粘贴图片!
:::highlight orange 💡
修改后的描述,不会随着新告警合入发生变化。
:::
认领故障
您有三种方式认领一个新触发的故障。
通过控制台认领故障
- 单个认领:控制台点击故障详情,点击 认领 按钮,完成认领。
- 批量操作:控制台故障列表,选中多个待处理的故障,点击 认领 按钮,完成批量认领。
通过IM应用认领故障
- 应用消息:应用类消息主卡片,提供一个 认领 按钮,点击卡片即可完成认领。如果您点击卡片,没有任何反应,可能是您没有在应用内完成登录账户关联或其他原因。详情请参考 飞书 Lark 集成指引。
- 机器人消息:大部分机器人通道,均以 Markdown 形式推送消息。您可以修改通知模板,增加一个 认领 跳转链接,以实现跳转到控制台进行认领。详情请参考默认模板。
通过语音电话认领故障
Flashduty 推送的语音告警,在语音播报结束时,会提醒您 一键认领请按1。点击按键1,系统会以您的身份完成故障认领。
取消认领故障
只要有一个人认领,故障的处理进度就会从“待处理”变更为“已关闭”。其他人员再认领,将不会改变故障的处理进度。
一个人认领故障之后,可以选择 取消认领,这在误认领的情况下适用。当所有已认领人员,都取消了认领,故障将回退为 待处理 状态。
处理进度和 MTTA
您可以在控制台中查看到每一个人的分派时间和认领时间。我们按照以下规则计算故障的MTTA:
- MTTA(Mean Time to Acknowledge)定义为平均认领时长,即认领时间到触发时间之间的差值平均。
- 对于同一个故障,每个人可以有不同的分派时间和认领时间。因此对于一个故障,每个人的MTTA计算差值不同。
- 对于一个故障整体的MTTA,仅计算该故障的触发时间到首次被认领的时间之间的差值。
暂缓处理
故障的处理人,在认领故障之后,可能需要一些时间来调查和处理故障,暂缓操作可以暂时停止故障按照预期的分派策略进行升级。您可以在认领故障之后,设定一个暂缓时间,比如2小时、4小时,或设定一个24小时以内的自定义到期时间。
:::highlight orange 💡
如果您已经操作了暂缓,并且暂缓时间已过,且您仍然没有完成故障的处理,这时系统会自动将故障回退为 待处理 状态,并重新发起分派通知。
:::
通过控制台暂缓故障
控制台点击故障详情,点击 暂缓 按钮,选择暂缓时长,完成。
通过IM应用暂缓故障
故障消息卡片点击 暂缓 按钮,选择暂缓时长,完成。
关闭故障
您有多种方式关闭一个故障。
通过控制台关闭故障
- 单个关闭:控制台点击故障详情,点击 关闭 按钮,完成关闭。
- 批量操作:控制台故障列表,选中多个待处理的故障,点击 关闭 按钮,完成批量关闭。
通过IM应用关闭故障
应用类消息主卡片,提供一个 关闭 按钮,点击卡片即可完成认领。如果您点击卡片,没有任何反应,可能是您没有在应用内完成登录账户关联或其他原因。详情请参考 飞书 Lark 集成指引。
重新打开故障
手动关闭故障,会将故障的处理进度变更为 已关闭。您可以在任何状态下,点击 关闭 按钮。一个故障手动关闭之后,其关联的告警也将停止合入新的事件。如果告警在原告警系统中,没有恢复,可能会产生新的通知事件,这将导致在 Flashduty 触发新的告警和故障。
您可以在误关闭故障之后,重新打开故障。重新打开之后,故障将回退为 待处理 状态,并重新发起分派和通知。
合并处理
您可以手动在故障之间,或者故障和告警之间进行合并。将相似的告警和故障合并在一起,可以将信息收敛到同一个故障内,加速处理过程。
故障之间合并:您可以在控制台选中多个故障,合并到一个目标故障。也可以在某个故障详情下,选择其他的目标故障进行合入。
并入告警到故障:告警因为聚合策略合并到某故障中,但您可能想要调整故障和告警的关联关系。您可以进到告警详情下,点击 并入 按钮,将告警迁移至目标故障。
合并的本质是:改变告警和故障的关联关系。加入一个故障的告警全部并入其他故障,此故障将直接关闭,您后续只需要处理目标故障。
时间线完整将完整记录您的修改过程。
常见问题
我暂缓了故障,为什么系统还是触发了新的类似的故障?
您可能将 暂缓功能 误解为 静默功能,其实二者有很大的区别。
- 静默功能是需要您填写匹配策略,当新触发的故障匹配了静默策略,将不会进行通知提醒。静默策略可以影响新故障的触发通知。
- 暂缓功能无需您填写任何策略,仅在您认领故障之后,为您争取一段时间处理故障,防止处理过程中发生故障升级到下一环节的处理人。
如果您需要屏蔽一个告警策略,请使用 静默,而不是 暂缓。