Flashduty Docs
中文
English
Roadmap
API
官网
控制台
中文
English
Roadmap
API
官网
控制台
免费试用
故障管理
快速开始
入门介绍
快速开始
常见问题
产品对比
故障管理
什么是故障
检索与查看故障
处理与更新故障
升级与分派故障
自定义字段
自定义操作
了解降噪过程
了解历史故障
了解新奇故障
配置Flashduty
协作空间管理
多种方式接入告警
配置路由规则
配置标签增强
配置告警降噪
配置分派策略
故障静默与抑制
配置值班规则
配置通知模板
配置服务日历
配置个人信息
配置过滤条件
通知机器人
告警处理 pipeline
平台功能
团队和成员
了解权限设计
配置单点登录
分析数据
高级功能
引用变量
动态分派
集成引导
告警集成
邮件 Email 集成指引
夜莺 Flashcat 集成指引
Prometheus 集成指引
标准告警事件集成指引
Grafana 集成指引
Zabbix 集成指引
Uptime Kuma 集成指引
阿里云 ARMS 集成指引
阿里云监控 CM 事件集成指引
阿里云监控 CM 指标集成指引
阿里云 SLS 集成指引
AWS CloudWatch 集成指引
Azure Monitor 集成指引
百度云监控 BCM 集成指引
华为云监控 CES 集成指引
腾讯云 CLS 集成指引
腾讯云监控 CM 集成指引
腾讯云 Event Bridge 集成指引
Influxdata 集成指引
Open Falcon 集成指引
Pagerduty 集成指引
蓝鲸智云集成指引
OceanBase 集成指引
Graylog 集成指引
Skywalking 集成指引
Sentry 集成指引
监控宝告警集成指引
AWS EventBridge 集成指引
Dynatrace 集成指引
华为云 LTS 集成指引
GoogleCloud 集成指引
Splunk 集成指引
AppDynamics 集成指引
SolarWinds 集成指引
火山引擎CM 指标集成指引
火山引擎CM 事件集成指引
火山引擎日志服务 TLS 集成指引
Opmanager 告警事件
Meraki 告警事件
即时消息
飞书 Lark 集成指引
钉钉 Dingtalk 集成指引
企业微信 Wecom 集成指引
Slack 集成指引
Microsoft Teams 集成指引
单点登录
Authing 集成指引
Keycloak 集成指引
OpenLDAP 集成指引
Webhooks
告警 webhook
故障 webhook
自定义操作
变更集成
标准变更事件集成指引
Jira 事件集成指引
服务协议
服务条款
用户协议/隐私政策
SLA承诺
故障管理
处理与更新故障
调查故障,更新关键信息,并与他人同步情况。
修改信息
#
当故障触发后,其问题表现或随着时间推移逐渐明确,这时您可以修改故障的标题等关键信息,使其比原始告警信息更准确。
修改故障标题
#
1.
控制台点开故障详情,在标题部分,点击修改按钮。
2.
输入新标题,完成。
💡
修改后的标题,不会随着新告警合入发生变化。
修改故障严重程度
#
1.
控制台点开故障详情,在严重程度部分,选择新的严重程度。
2.
鼠标失焦,完成。
💡
修改后的严重程度,不会随着新告警合入发生变化。
修改故障描述与影响
#
1.
控制台点开故障详情,在描述和影响部分,点击直接输入新的信息。
2.
系统会自动进行保存。
您可以 Markdown 语法更新故障的描述和影响,也可以直接复制粘贴图片!
💡
修改后的描述,不会随着新告警合入发生变化。
认领故障
#
您有三种方式认领一个新触发的故障。
通过控制台认领故障
#
单个认领
:控制台点击故障详情,点击
认领
按钮,完成认领。
批量操作
:控制台故障列表,选中多个待处理的故障,点击
认领
按钮,完成批量认领。
通过IM应用认领故障
#
应用消息
:应用类消息主卡片,提供一个
认领
按钮,点击卡片即可完成认领。如果您点击卡片,没有任何反应,可能是您没有在应用内完成登录账户关联或其他原因。详情请参考
飞书 Lark 集成指引
。
机器人消息
:大部分机器人通道,均以 Markdown 形式推送消息。您可以修改通知模板,增加一个
认领
跳转链接,以实现跳转到控制台进行认领。详情请参考默认模板。
通过语音电话认领故障
#
Flashduty 推送的语音告警,在语音播报结束时,会提醒您
一键认领请按1
。点击按键1,系统会以您的身份完成故障认领。
取消认领故障
#
只要有一个人认领,故障的处理进度就会从“待处理”变更为“处理中”。其他人员再认领,将不会改变故障的处理进度。
一个人认领故障之后,可以选择
取消认领
,这在误认领的情况下适用。当所有已认领人员,都取消了认领,故障将回退为
待处理
状态。
处理进度和 MTTA
#
您可以在控制台中查看到每一个人的分派时间和认领时间。我们按照以下规则计算故障的MTTA:
MTTA(Mean Time to Acknowledge)定义为平均认领时长,即认领时间到触发时间之间的差值平均。
对于同一个故障,每个人可以有不同的分派时间和认领时间。因此对于一个故障,每个人的MTTA计算差值不同。
对于一个故障整体的MTTA,仅计算该故障的触发时间到首次被认领的时间之间的差值。
暂缓处理
#
故障的处理人,在认领故障之后,可能需要一些时间来调查和处理故障,
暂缓
操作可以暂时停止故障按照预期的分派策略进行升级。您可以在认领故障之后,设定一个暂缓时间,比如2小时、4小时,或设定一个24小时以内的自定义到期时间。
💡
如果您已经操作了暂缓,并且暂缓时间已过,且您仍然没有完成故障的处理,这时系统会自动将故障回退为
待处理
状态,并重新发起分派通知。
通过控制台暂缓故障
#
控制台点击故障详情,点击
暂缓
按钮,选择暂缓时长,完成。
通过IM应用暂缓故障
#
故障消息卡片点击
暂缓
按钮,选择暂缓时长,完成。
关闭故障
#
您有多种方式关闭一个故障。
通过控制台关闭故障
#
单个关闭
:控制台点击故障详情,点击
关闭
按钮,完成关闭。
批量操作
:控制台故障列表,选中多个待处理的故障,点击
关闭
按钮,完成批量关闭。
通过IM应用关闭故障
#
应用类消息主卡片,提供一个
关闭
按钮,点击卡片即可完成认领。如果您点击卡片,没有任何反应,可能是您没有在应用内完成登录账户关联或其他原因。详情请参考
飞书 Lark 集成指引
。
重新打开故障
#
手动关闭故障,会将故障的处理进度变更为
已关闭
。您可以在任何状态下,点击
关闭
按钮。一个故障手动关闭之后,其关联的告警也将停止合入新的事件。如果告警在原告警系统中,没有恢复,可能会产生新的通知事件,这将导致在 Flashduty 触发新的告警和故障。
您可以在误关闭故障之后,重新打开故障。重新打开之后,故障将回退为
待处理
状态,并重新发起分派和通知。
合并处理
#
您可以手动在故障之间,或者故障和告警之间进行合并。将相似的告警和故障合并在一起,可以将信息收敛到同一个故障内,加速处理过程。
故障之间合并
:您可以在控制台选中多个故障,合并到一个目标故障。也可以在某个故障详情下,选择其他的目标故障进行合入。
并入告警到故障
:告警因为聚合策略合并到某故障中,但您可能想要调整故障和告警的关联关系。您可以进到告警详情下,点击
并入
按钮,将告警迁移至目标故障。
合并的本质是:改变告警和故障的关联关系。加入一个故障的告警全部并入其他故障,此故障将直接关闭,您后续只需要处理目标故障。
时间线完整将完整记录您的修改过程。
常见问题
#
我暂缓了故障,为什么系统还是触发了新的类似的故障?
您可能将
暂缓功能
误解为
静默功能
,其实二者有很大的区别。
静默功能是需要您填写匹配策略,当新触发的故障匹配了静默策略,将不会进行通知提醒。静默策略可以影响新故障的触发通知。
暂缓功能无需您填写任何策略,仅在您认领故障之后,为您争取一段时间处理故障,防止处理过程中发生故障升级到下一环节的处理人。
如果您需要屏蔽一个告警策略,请使用
静默
,而不是
暂缓
。
修改于
2024-12-10 08:39:03
上一页
检索与查看故障
下一页
升级与分派故障