故障列表
Flashduty On-call 提供了两个入口查看故障列表。一个是协作空间内,一个故障管理菜单下。区别在于,故障管理菜单下,可以看到多个协作空间,甚至是全公司的所有故障。
| 序号 | 功能 | 说明 |
|---|
| 1 | 分派人员 | 默认聚焦为 分派给我 的故障,可切换为查看整个账户下的故障 |
| 2 | 我的协作空间 | 默认聚焦为全部协作空间,可切换为查看我的协作空间的故障 |
| 3 | 处理进度 | 按照处理进度筛选故障,默认为 全部 |
| 4 | 时间筛选 | 支持相对时间和自定义区间筛选 |
| 5 | 键入检索 | 支持搜索故障 ID,如果分派人员切换为”分派给我”,则同时支持模糊匹配”故障标题” |
| 6 | 更多筛选 | 支持丰富的维度筛选,包括严重程度、协作空间、团队、标签或自定义字段等。其中团队筛选仅在全局故障管理入口下可见,按协作空间归属的团队过滤故障 |
| 7 | 视图设置 | 支持丰富的渲染形式,包括引入 自定义的展示属性,甚至是聚合视图 |
| 8 | 分页设置 | 分页和单页条数调整 |
为了查询性能,查询的时间范围存在限制。不同订阅版本对应不同的最大查询时间窗口:
- 免费版:最多查询最近 30 天
- 标准版:最多查询最近 180 天
- 专业版:最多查询最近 366 天
如果要查询更早的数据,请调整起止时间,或通过 故障查询 API 获取。
为了提升性能,当检索条件匹配到超过 1000 条故障,系统仅展示 1000+,而不是精确的数字。因此,您通过跳页,也只能查看 1000 条故障,如果需要查看更多,请调整你的检索时间区间。或通过 故障查询 API 获取全部数据。
使用聚合视图
聚合视图提供了一个不同的视角来查看故障,您可以定义不同的聚合维度。聚合维度的本质是实时 Group By,比如按照严重程度来聚合查看。
切换到聚合视图后,列表顶部会出现 聚合规则 选择器:
- 选择已有规则:点击下拉菜单,可在当前账户下所有已保存的聚合规则之间切换。每条规则定义了一组 Group By 属性(例如按 严重程度 + 协作空间 +
labels.service)
- 新增规则:在下拉菜单底部点击 新增,可在弹出的卡片中勾选属性、标签、自定义字段,并为规则命名后保存,后续可直接复用
- 编辑/删除规则:将鼠标悬停在已有规则上,可通过内嵌图标编辑或删除该规则
- 规则会话共享:所选规则的
view_id 会随列表 URL 参数变更,便于分享同一视角给其他成员
为了提升性能,在聚合视图下,系统最多匹配 100 条 数据进行聚合。因此,您看到的列表页,很可能不包含全部匹配数据。如果您介意这一点,请切换为列表视图。
使用更多筛选
Flashduty On-call 提供各种维度的筛选能力,并给您足够多的灵活度。最典型的场景是:
- 根据
check 标签,检索由告警策略”主机宕机”触发的相关故障
- 根据误报字段,检索被标记为”误报”的相关故障
灵活常常意味着低性能,在 Flashduty On-call 也不例外,尽管我们已经做了很多性能优化的工作。我们永远建议,缩小您的时间查询区间,尽量通过 分派给我、处理进度 等条件缩小查询范围。
列表内容说明
每条故障除了标题和处理进度,还会展示两个关键计数:
- 关联告警:当前故障聚合到的告警总数
- 告警事件:告警经过聚合后累计的事件数量。当最近 5 分钟 内有新事件合入时,合并图标会以橙色高亮显示,用来提示故障可能仍在持续聚合中
悬浮计数区域可展开详细提示,显示关联告警数、关联事件数和最后一次事件合入的相对时间。
自定义渲染
点击故障列表右上角的 设置 按钮,可以定制化展示内容和交互行为:
| 选项 | 说明 |
|---|
| 展示类型 | 选择 列表 或 聚合 视图模式 |
| 详情展示 | 选择 页面 模式(跳转新页面查看详情)或 右侧 模式(在右侧面板内查看详情) |
| 自动刷新 | 设置列表自动刷新间隔,也可以关闭自动刷新 |
| 展示属性 | 点击切换展示或隐藏持续时间、处理人员、协作空间等基本属性列 |
| 自定义字段 | 选择平台定义的自定义字段作为额外展示列,如果故障未设置此字段,将展示”-“ |
| 故障标签 | 选择或输入标签 key 作为额外展示列,如果故障不存在此标签,将展示”-“ |
故障详情
故障详情是调查故障的主入口,这里展示了我们能拿到的所有信息。尤其是在故障概览页面,Flashduty On-call 集中展示了您最需要的信息。
| 序号 | 区域 | 说明 |
|---|
| 1 | 关键信息 | 故障的标题、严重程度、处理进度、ID 编号 |
| 2 | 操作区域 | 各类高频操作按钮,在更多操作中,包含了自定义操作和低频操作按钮,其中创建作战室需要在 IM 集成中开启作战室。暂缓按钮支持自定义快捷时长预设,您可以在暂缓下拉菜单中进入设置,配置 3 个预设时长(支持小时或分钟),默认为 2 小时、4 小时和 12 小时 |
| 3 | 详细信息 | 故障的描述、标签信息和 AI 总结(详见下方说明),标签内容支持拖拽排序和以 JSON 视图展示 |
| 4 | Tab 区域 | 通过上方 Tab 页查看更详细的内容,详见下方 详情 Tab 说明 |
| 5 | 综合信息 | 集中展示故障的属性、关键时间节点、处理人员、关联链接、图片、自定义字段以及外部工单等辅助信息(详见下方 综合信息面板) |
详情 Tab
故障详情页共包含 7 个 Tab,部分 Tab 会根据故障状态条件显示:
| Tab | 内容 | 显示条件 |
|---|
| 故障概览 | 故障摘要、关键属性、最近时间线、处理人员、关联事件等全景信息,是打开详情时的默认 Tab | 始终显示 |
| 关联告警 | 该故障所关联的全部被聚合的告警,支持按处理进度筛选并切换视图 | 仅当故障关联告警数 alert_cnt > 0 时显示 |
| 时间线 | 故障完整的生命周期记录,包括触发、分派、通知、认领、暂缓、关闭、评论等所有动作,顶部提供 Markdown 评论框 | 始终显示 |
| 历史变更 | 与当前故障在时间上相关联的变更事件,帮助定位故障与部署或配置变更的关系 | 始终显示 |
| 问题修复 | 记录故障的影响(impact)、根因(root_cause)与解决方案(resolution)等结构化字段 | 仅当故障存在任一 impact / root_cause / resolution 字段时显示 |
| 故障复盘 | 内置复盘编辑器,无需离开详情即可完成复盘报告的创建、编辑、AI 生成与发布 | 按订阅版本开启,始终显示 |
| 历史故障 | 展示与当前故障相似的历史故障,便于借鉴以往的处置经验 | 始终显示 |
时间线评论
时间线 Tab 顶部提供了一个 Markdown 评论框,支持以下能力:
- 使用 Markdown 语法撰写备注、排查笔记或沟通纪要
- 直接粘贴或上传图片,截图会自动上传并转为图片链接
- 评论发布后会作为一条记录追加到当前故障的时间线上,与系统产生的事件并列展示,便于回溯
评论需要您对该故障有更新权限。若您仅需查看故障,详情页不会展示评论输入框。
作战室运营
如果故障已创建作战室(需在 IM 集成中开启作战室),操作栏的 更多 菜单会额外出现两项作战室管理操作:
| 操作 | 说明 |
|---|
| 添加关注人员进入作战室 | 将更多成员拉入已经创建的 IM 作战群组,便于多方协同处置 |
| 解散作战室 | 结束当前作战,关闭 IM 作战群组。解散后若后续需要再次协作,可重新创建作战室 |
作战室相关操作仅当当前故障已存在作战室时可见;创建动作仍由操作栏的 创建作战室 按钮发起。
故障复盘
故障详情页内置了完整的复盘编辑器,您无需离开当前页面即可完成整个复盘流程。操作区域的快捷按钮可以直接跳转到 故障复盘 页签。
在故障复盘页签中,您可以进行以下操作:
| 操作 | 说明 |
|---|
| 创建复盘 | 点击创建按钮,开始编写复盘报告 |
| AI 生成 | 借助 AI 自动生成复盘报告的初始内容,您可以在此基础上进行修改 |
| 编辑标题 | 修改复盘报告的标题,使其准确反映故障本质 |
| 编辑内容 | 使用富文本编辑器编写和修改复盘内容 |
| 发布 | 完成编辑后发布复盘报告,使其对团队可见 |
| 重新编辑 | 已发布的复盘报告支持重新进入编辑状态进行修改 |
| 删除 | 删除不再需要的复盘报告 |
| 导出 Markdown | 将复盘报告导出为 Markdown 格式,便于在其他平台分享或归档 |
详见故障复盘。
历史变更
历史变更 Tab 展示与当前故障在时间上相关联的变更事件,帮助你快速定位故障根因是否与近期的部署或配置变更有关。
变更事件列表展示以下信息:
| 列 | 说明 |
|---|
| 状态 | 变更事件的当前状态,包括已提单、即将开始、进行中、已取消、已完成 |
| Change Key | 变更事件的唯一标识 |
| 标题 | 变更事件的简要描述 |
| 描述 | 变更事件的详细说明 |
| 创建时间 | 变更事件的开始时间 |
| 结束时间 | 变更事件的结束时间 |
| 时长 | 变更事件的持续时长,进行中的事件将实时更新 |
| 链接 | 跳转到变更事件原始来源的外部链接 |
你可以通过顶部的筛选条件调整变更事件的查询范围,包括时间范围和变更来源。展开任意一行,可查看该变更事件的时间线可视化,与故障触发时间进行对比分析。
AI 总结
故障详情页支持一键生成 AI 总结,帮助您快速理解故障全貌。点击详细信息区域的 AI 总结 按钮,系统将基于故障关联的告警内容(最多 20 条),自动生成结构化摘要,包括:
- 概述:一句话描述发生了什么
- 影响:受影响的关键资源,如服务、系统、环境、实例等
- 建议:即时可执行的排查和修复操作(最多 3 条)
您可以选择不同的 AI 模型(默认为 DeepSeek V3,也可选择 DeepSeek R1 以获得深度思考和推理能力),并支持重新生成。生成的摘要可以实时流式输出,也可以保存为故障描述。
AI 总结仅适用于由告警自动触发的故障,手动创建的故障不支持此功能。
综合信息面板
故障详情右侧的综合信息面板集中展示围绕该故障的辅助信息,自上而下依次为:
| 区块 | 说明 |
|---|
| 属性 | 协作空间、故障触发时间、告警数量等基础属性 |
| 图片 | 当故障关联的告警通过 API 上报了图片信息时展示。点击缩略图可预览,悬浮可查看图片的 Alt 描述和来源链接 |
| 关键时间节点 | 以时间轴形式展示故障生命周期中的关键时间戳,包括 触发时间、首次认领时间、关闭时间 以及重新打开等节点,便于快速掌握故障进展 |
| 处理人员 | 列出分派到该故障的所有处理人员(个人或值班人员)及其认领状态 |
| 关联链接 | 所属协作空间预配置的快捷链接(如监控大盘、Runbook、知识库),支持基于当前故障的标签或字段动态渲染参数,便于一键跳转到相关系统。关联链接的模板在协作空间设置中维护 |
| 自定义字段 | 展示并允许编辑该故障的自定义字段取值,未设置的字段以 - 显示 |
| 外部工单 | 如果您配置了 Jira、ServiceNow 或 ServiceDesk Plus 等工单集成,此处展示由该故障联动生成的外部工单,可直接点击跳转查看详情 |
常见问题
控制台报错:Due to the large volume of data, we are unable to respond...
这个错误经常出现于故障、告警列表查询、分析看板等页面。主要是因为系统匹配到的数据过多,查询超时。这种情况下,请您缩小查询范围,比如时间区间,或使用精确的查询条件。如果还有问题,请联系我们。