跳转到主要内容

故障列表

Flashduty On-call 提供了两个入口查看故障列表。一个是协作空间内,一个故障管理菜单下。区别在于,故障管理菜单下,可以看到多个协作空间,甚至是全公司的所有故障。
故障列表界面
序号功能说明
1分派人员默认聚焦为 分派给我 的故障,可切换为查看整个账户下的故障
2我的协作空间默认聚焦为全部协作空间,可切换为查看我的协作空间的故障
3处理进度按照处理进度筛选故障,默认为 全部
4时间筛选支持相对时间和自定义区间筛选
5键入检索支持搜索故障 ID,如果分派人员切换为”分派给我”,则同时支持模糊匹配”故障标题”
6更多筛选支持丰富的维度筛选,包括严重程度、协作空间、团队、标签或自定义字段等。其中团队筛选仅在全局故障管理入口下可见,按协作空间归属的团队过滤故障
7视图设置支持丰富的渲染形式,包括引入 自定义的展示属性,甚至是聚合视图
8分页设置分页和单页条数调整
为了查询性能,查询的时间范围存在限制。不同订阅版本对应不同的最大查询时间窗口:
  • 免费版:最多查询最近 30 天
  • 标准版:最多查询最近 180 天
  • 专业版:最多查询最近 366 天
如果要查询更早的数据,请调整起止时间,或通过 故障查询 API 获取。
为了提升性能,当检索条件匹配到超过 1000 条故障,系统仅展示 1000+,而不是精确的数字。因此,您通过跳页,也只能查看 1000 条故障,如果需要查看更多,请调整你的检索时间区间。或通过 故障查询 API 获取全部数据。

使用聚合视图

聚合视图提供了一个不同的视角来查看故障,您可以定义不同的聚合维度。聚合维度的本质是实时 Group By,比如按照严重程度来聚合查看。
聚合视图
切换到聚合视图后,列表顶部会出现 聚合规则 选择器:
  • 选择已有规则:点击下拉菜单,可在当前账户下所有已保存的聚合规则之间切换。每条规则定义了一组 Group By 属性(例如按 严重程度 + 协作空间 + labels.service
  • 新增规则:在下拉菜单底部点击 新增,可在弹出的卡片中勾选属性、标签、自定义字段,并为规则命名后保存,后续可直接复用
  • 编辑/删除规则:将鼠标悬停在已有规则上,可通过内嵌图标编辑或删除该规则
  • 规则会话共享:所选规则的 view_id 会随列表 URL 参数变更,便于分享同一视角给其他成员
为了提升性能,在聚合视图下,系统最多匹配 100 条 数据进行聚合。因此,您看到的列表页,很可能不包含全部匹配数据。如果您介意这一点,请切换为列表视图。

使用更多筛选

Flashduty On-call 提供各种维度的筛选能力,并给您足够多的灵活度。最典型的场景是:
  • 根据 check 标签,检索由告警策略”主机宕机”触发的相关故障
  • 根据误报字段,检索被标记为”误报”的相关故障
灵活常常意味着低性能,在 Flashduty On-call 也不例外,尽管我们已经做了很多性能优化的工作。我们永远建议,缩小您的时间查询区间,尽量通过 分派给我处理进度 等条件缩小查询范围。

列表内容说明

每条故障除了标题和处理进度,还会展示两个关键计数:
  • 关联告警:当前故障聚合到的告警总数
  • 告警事件:告警经过聚合后累计的事件数量。当最近 5 分钟 内有新事件合入时,合并图标会以橙色高亮显示,用来提示故障可能仍在持续聚合中
悬浮计数区域可展开详细提示,显示关联告警数、关联事件数和最后一次事件合入的相对时间。

自定义渲染

点击故障列表右上角的 设置 按钮,可以定制化展示内容和交互行为:
选项说明
展示类型选择 列表聚合 视图模式
详情展示选择 页面 模式(跳转新页面查看详情)或 右侧 模式(在右侧面板内查看详情)
自动刷新设置列表自动刷新间隔,也可以关闭自动刷新
展示属性点击切换展示或隐藏持续时间、处理人员、协作空间等基本属性列
自定义字段选择平台定义的自定义字段作为额外展示列,如果故障未设置此字段,将展示”-“
故障标签选择或输入标签 key 作为额外展示列,如果故障不存在此标签,将展示”-“

故障详情

故障详情是调查故障的主入口,这里展示了我们能拿到的所有信息。尤其是在故障概览页面,Flashduty On-call 集中展示了您最需要的信息。
故障详情界面
序号区域说明
1关键信息故障的标题、严重程度、处理进度、ID 编号
2操作区域各类高频操作按钮,在更多操作中,包含了自定义操作和低频操作按钮,其中创建作战室需要在 IM 集成中开启作战室。暂缓按钮支持自定义快捷时长预设,您可以在暂缓下拉菜单中进入设置,配置 3 个预设时长(支持小时或分钟),默认为 2 小时、4 小时和 12 小时
3详细信息故障的描述、标签信息和 AI 总结(详见下方说明),标签内容支持拖拽排序和以 JSON 视图展示
4Tab 区域通过上方 Tab 页查看更详细的内容,详见下方 详情 Tab 说明
5综合信息集中展示故障的属性、关键时间节点、处理人员、关联链接、图片、自定义字段以及外部工单等辅助信息(详见下方 综合信息面板

详情 Tab

故障详情页共包含 7 个 Tab,部分 Tab 会根据故障状态条件显示:
Tab内容显示条件
故障概览故障摘要、关键属性、最近时间线、处理人员、关联事件等全景信息,是打开详情时的默认 Tab始终显示
关联告警该故障所关联的全部被聚合的告警,支持按处理进度筛选并切换视图仅当故障关联告警数 alert_cnt > 0 时显示
时间线故障完整的生命周期记录,包括触发、分派、通知、认领、暂缓、关闭、评论等所有动作,顶部提供 Markdown 评论框始终显示
历史变更与当前故障在时间上相关联的变更事件,帮助定位故障与部署或配置变更的关系始终显示
问题修复记录故障的影响(impact)、根因(root_cause)与解决方案(resolution)等结构化字段仅当故障存在任一 impact / root_cause / resolution 字段时显示
故障复盘内置复盘编辑器,无需离开详情即可完成复盘报告的创建、编辑、AI 生成与发布按订阅版本开启,始终显示
历史故障展示与当前故障相似的历史故障,便于借鉴以往的处置经验始终显示

时间线评论

时间线 Tab 顶部提供了一个 Markdown 评论框,支持以下能力:
  • 使用 Markdown 语法撰写备注、排查笔记或沟通纪要
  • 直接粘贴或上传图片,截图会自动上传并转为图片链接
  • 评论发布后会作为一条记录追加到当前故障的时间线上,与系统产生的事件并列展示,便于回溯
评论需要您对该故障有更新权限。若您仅需查看故障,详情页不会展示评论输入框。

作战室运营

如果故障已创建作战室(需在 IM 集成中开启作战室),操作栏的 更多 菜单会额外出现两项作战室管理操作:
操作说明
添加关注人员进入作战室将更多成员拉入已经创建的 IM 作战群组,便于多方协同处置
解散作战室结束当前作战,关闭 IM 作战群组。解散后若后续需要再次协作,可重新创建作战室
作战室相关操作仅当当前故障已存在作战室时可见;创建动作仍由操作栏的 创建作战室 按钮发起。

故障复盘

故障详情页内置了完整的复盘编辑器,您无需离开当前页面即可完成整个复盘流程。操作区域的快捷按钮可以直接跳转到 故障复盘 页签。 在故障复盘页签中,您可以进行以下操作:
操作说明
创建复盘点击创建按钮,开始编写复盘报告
AI 生成借助 AI 自动生成复盘报告的初始内容,您可以在此基础上进行修改
编辑标题修改复盘报告的标题,使其准确反映故障本质
编辑内容使用富文本编辑器编写和修改复盘内容
发布完成编辑后发布复盘报告,使其对团队可见
重新编辑已发布的复盘报告支持重新进入编辑状态进行修改
删除删除不再需要的复盘报告
导出 Markdown将复盘报告导出为 Markdown 格式,便于在其他平台分享或归档
详见故障复盘

历史变更

历史变更 Tab 展示与当前故障在时间上相关联的变更事件,帮助你快速定位故障根因是否与近期的部署或配置变更有关。 变更事件列表展示以下信息:
说明
状态变更事件的当前状态,包括已提单、即将开始、进行中、已取消、已完成
Change Key变更事件的唯一标识
标题变更事件的简要描述
描述变更事件的详细说明
创建时间变更事件的开始时间
结束时间变更事件的结束时间
时长变更事件的持续时长,进行中的事件将实时更新
链接跳转到变更事件原始来源的外部链接
你可以通过顶部的筛选条件调整变更事件的查询范围,包括时间范围和变更来源。展开任意一行,可查看该变更事件的时间线可视化,与故障触发时间进行对比分析。

AI 总结

故障详情页支持一键生成 AI 总结,帮助您快速理解故障全貌。点击详细信息区域的 AI 总结 按钮,系统将基于故障关联的告警内容(最多 20 条),自动生成结构化摘要,包括:
  • 概述:一句话描述发生了什么
  • 影响:受影响的关键资源,如服务、系统、环境、实例等
  • 建议:即时可执行的排查和修复操作(最多 3 条)
您可以选择不同的 AI 模型(默认为 DeepSeek V3,也可选择 DeepSeek R1 以获得深度思考和推理能力),并支持重新生成。生成的摘要可以实时流式输出,也可以保存为故障描述。
AI 总结仅适用于由告警自动触发的故障,手动创建的故障不支持此功能。

综合信息面板

故障详情右侧的综合信息面板集中展示围绕该故障的辅助信息,自上而下依次为:
区块说明
属性协作空间、故障触发时间、告警数量等基础属性
图片当故障关联的告警通过 API 上报了图片信息时展示。点击缩略图可预览,悬浮可查看图片的 Alt 描述和来源链接
关键时间节点以时间轴形式展示故障生命周期中的关键时间戳,包括 触发时间首次认领时间关闭时间 以及重新打开等节点,便于快速掌握故障进展
处理人员列出分派到该故障的所有处理人员(个人或值班人员)及其认领状态
关联链接所属协作空间预配置的快捷链接(如监控大盘、Runbook、知识库),支持基于当前故障的标签或字段动态渲染参数,便于一键跳转到相关系统。关联链接的模板在协作空间设置中维护
自定义字段展示并允许编辑该故障的自定义字段取值,未设置的字段以 - 显示
外部工单如果您配置了 Jira、ServiceNow 或 ServiceDesk Plus 等工单集成,此处展示由该故障联动生成的外部工单,可直接点击跳转查看详情

常见问题

这个错误经常出现于故障、告警列表查询、分析看板等页面。主要是因为系统匹配到的数据过多,查询超时。这种情况下,请您缩小查询范围,比如时间区间,或使用精确的查询条件。如果还有问题,请联系我们。