Flashduty Docs
中文EnglishRoadmapAPI官网控制台
中文EnglishRoadmapAPI官网控制台
  1. 故障管理
  • 快速开始
    • 入门介绍
    • 快速开始
    • 常见问题
    • 产品对比
  • 故障管理
    • 什么是故障
    • 检索与查看故障
    • 处理与更新故障
    • 升级与分派故障
    • 自定义字段
    • 自定义操作
    • 了解降噪过程
    • 了解历史故障
    • 了解新奇故障
  • 配置Flashduty
    • 协作空间管理
    • 多种方式接入告警
    • 配置路由规则
    • 配置标签增强
    • 配置告警降噪
    • 配置分派策略
    • 故障静默与抑制
    • 配置值班规则
    • 配置通知模板
    • 配置服务日历
    • 配置个人信息
    • 配置过滤条件
    • 通知机器人
    • 告警处理 pipeline
  • 平台功能
    • 团队和成员
    • 了解权限设计
    • 配置单点登录
    • 分析数据
  • 高级功能
    • 引用变量
    • 动态分派
  • 集成引导
    • 告警集成
      • 邮件 Email 集成指引
      • 夜莺 Flashcat 集成指引
      • Prometheus 集成指引
      • 标准告警事件集成指引
      • Grafana 集成指引
      • Zabbix 集成指引
      • Uptime Kuma 集成指引
      • 阿里云 ARMS 集成指引
      • 阿里云监控 CM 事件集成指引
      • 阿里云监控 CM 指标集成指引
      • 阿里云 SLS 集成指引
      • AWS CloudWatch 集成指引
      • Azure Monitor 集成指引
      • 百度云监控 BCM 集成指引
      • 华为云监控 CES 集成指引
      • 腾讯云 CLS 集成指引
      • 腾讯云监控 CM 集成指引
      • 腾讯云 Event Bridge 集成指引
      • Influxdata 集成指引
      • Open Falcon 集成指引
      • Pagerduty 集成指引
      • 蓝鲸智云集成指引
      • OceanBase 集成指引
      • Graylog 集成指引
      • Skywalking 集成指引
      • Sentry 集成指引
      • 监控宝告警集成指引
      • AWS EventBridge 集成指引
      • Dynatrace 集成指引
      • 华为云 LTS 集成指引
      • GoogleCloud 集成指引
      • Splunk 集成指引
      • AppDynamics 集成指引
      • SolarWinds 集成指引
      • 火山引擎CM 指标集成指引
      • 火山引擎CM 事件集成指引
      • 火山引擎日志服务 TLS 集成指引
      • Opmanager 告警事件
      • Meraki 告警事件
      • 天翼云告警集成
      • 观测云告警事件
      • zilliz 告警事件
      • 华为云 APM 告警事件
      • zstack 告警事件
      • Keep 告警集成指引
      • ElastAlert2 告警集成
    • 即时消息
      • 飞书 Lark 集成指引
      • 钉钉 Dingtalk 集成指引
      • 企业微信 Wecom 集成指引
      • Slack 集成指引
      • Microsoft Teams 集成指引
    • 单点登录
      • Authing 集成指引
      • Keycloak 集成指引
      • OpenLDAP 集成指引
    • Webhooks
      • 告警 webhook
      • 故障 webhook
      • 自定义操作
    • 变更集成
      • 标准变更事件集成指引
  • 服务协议
    • 服务条款
    • 用户协议/隐私政策
    • SLA承诺
    • 数据安全
  1. 故障管理

处理与更新故障

调查故障,更新关键信息,并与他人同步情况。

修改信息#


当故障触发后,其问题表现或随着时间推移逐渐明确,这时您可以修改故障的标题等关键信息,使其比原始告警信息更准确。

修改故障标题#

1.
控制台点开故障详情,在标题部分,点击修改按钮。
2.
输入新标题,完成。
💡
修改后的标题,不会随着新告警合入发生变化。

修改故障严重程度#

1.
控制台点开故障详情,在严重程度部分,选择新的严重程度。
2.
鼠标失焦,完成。
💡
修改后的严重程度,不会随着新告警合入发生变化。

修改故障描述与影响#

1.
控制台点开故障详情,在描述和影响部分,点击直接输入新的信息。
2.
系统会自动进行保存。
您可以 Markdown 语法更新故障的描述和影响,也可以直接复制粘贴图片!
💡
修改后的描述,不会随着新告警合入发生变化。

认领故障#


您有三种方式认领一个新触发的故障。

通过控制台认领故障#

单个认领:控制台点击故障详情,点击 认领 按钮,完成认领。
批量操作:控制台故障列表,选中多个待处理的故障,点击 认领 按钮,完成批量认领。

通过IM应用认领故障#

应用消息:应用类消息主卡片,提供一个 认领 按钮,点击卡片即可完成认领。如果您点击卡片,没有任何反应,可能是您没有在应用内完成登录账户关联或其他原因。详情请参考 飞书 Lark 集成指引。
机器人消息:大部分机器人通道,均以 Markdown 形式推送消息。您可以修改通知模板,增加一个 认领 跳转链接,以实现跳转到控制台进行认领。详情请参考默认模板。

通过语音电话认领故障#

Flashduty 推送的语音告警,在语音播报结束时,会提醒您 一键认领请按1。点击按键1,系统会以您的身份完成故障认领。

取消认领故障#

只要有一个人认领,故障的处理进度就会从“待处理”变更为“处理中”。其他人员再认领,将不会改变故障的处理进度。
一个人认领故障之后,可以选择 取消认领,这在误认领的情况下适用。当所有已认领人员,都取消了认领,故障将回退为 待处理 状态。

处理进度和 MTTA#

您可以在控制台中查看到每一个人的分派时间和认领时间。我们按照以下规则计算故障的MTTA:
MTTA(Mean Time to Acknowledge)定义为平均认领时长,即认领时间到触发时间之间的差值平均。
对于同一个故障,每个人可以有不同的分派时间和认领时间。因此对于一个故障,每个人的MTTA计算差值不同。
对于一个故障整体的MTTA,仅计算该故障的触发时间到首次被认领的时间之间的差值。

暂缓处理#


故障的处理人,在认领故障之后,可能需要一些时间来调查和处理故障,暂缓操作可以暂时停止故障按照预期的分派策略进行升级。您可以在认领故障之后,设定一个暂缓时间,比如2小时、4小时,或设定一个24小时以内的自定义到期时间。
💡
如果您已经操作了暂缓,并且暂缓时间已过,且您仍然没有完成故障的处理,这时系统会自动将故障回退为 待处理 状态,并重新发起分派通知。

通过控制台暂缓故障#

控制台点击故障详情,点击 暂缓 按钮,选择暂缓时长,完成。

通过IM应用暂缓故障#

故障消息卡片点击 暂缓 按钮,选择暂缓时长,完成。

关闭故障#


您有多种方式关闭一个故障。

通过控制台关闭故障#

单个关闭:控制台点击故障详情,点击 关闭 按钮,完成关闭。
批量操作:控制台故障列表,选中多个待处理的故障,点击 关闭 按钮,完成批量关闭。

通过IM应用关闭故障#

应用类消息主卡片,提供一个 关闭 按钮,点击卡片即可完成认领。如果您点击卡片,没有任何反应,可能是您没有在应用内完成登录账户关联或其他原因。详情请参考 飞书 Lark 集成指引。

重新打开故障#

手动关闭故障,会将故障的处理进度变更为 已关闭。您可以在任何状态下,点击 关闭 按钮。一个故障手动关闭之后,其关联的告警也将停止合入新的事件。如果告警在原告警系统中,没有恢复,可能会产生新的通知事件,这将导致在 Flashduty 触发新的告警和故障。
您可以在误关闭故障之后,重新打开故障。重新打开之后,故障将回退为 待处理 状态,并重新发起分派和通知。

合并处理#


您可以手动在故障之间,或者故障和告警之间进行合并。将相似的告警和故障合并在一起,可以将信息收敛到同一个故障内,加速处理过程。
故障之间合并:您可以在控制台选中多个故障,合并到一个目标故障。也可以在某个故障详情下,选择其他的目标故障进行合入。
并入告警到故障:告警因为聚合策略合并到某故障中,但您可能想要调整故障和告警的关联关系。您可以进到告警详情下,点击 并入 按钮,将告警迁移至目标故障。
合并的本质是:改变告警和故障的关联关系。加入一个故障的告警全部并入其他故障,此故障将直接关闭,您后续只需要处理目标故障。
时间线完整将完整记录您的修改过程。

常见问题#


我暂缓了故障,为什么系统还是触发了新的类似的故障?
您可能将 暂缓功能 误解为 静默功能,其实二者有很大的区别。
静默功能是需要您填写匹配策略,当新触发的故障匹配了静默策略,将不会进行通知提醒。静默策略可以影响新故障的触发通知。
暂缓功能无需您填写任何策略,仅在您认领故障之后,为您争取一段时间处理故障,防止处理过程中发生故障升级到下一环节的处理人。
如果您需要屏蔽一个告警策略,请使用 静默,而不是 暂缓。
修改于 2024-12-10 08:39:03
上一页
检索与查看故障
下一页
升级与分派故障
Built with