AI SRE 产品概述 - Flashduty Docs

内测功能：AI SRE 目前处于内测阶段，仅对受邀账户开放。如需参与白名单测试，请联系 Flashduty 商务团队申请开通；内测期间功能与界面可能调整。

什么是 AI SRE

AI SRE 是 Flashduty 推出的自治 SRE Agent 平台。您通过对话向 AI 下达指令，由它自主调查故障、排查根因、调用工具执行诊断，并把每次排障中沉淀的运维知识固化下来供后续复用。它不是一个只会问答的聊天机器人，而是一个能动手的排障工作者：会自己规划步骤、读写文件、查询监控与日志、执行命令、调用外部工具（MCP），并在需要时把子任务委派出去，最终给出有调查过程支撑的结论。 AI SRE 与 Flashduty 的故障响应体系深度联动：当 Flashduty 产生故障（incident）或开启作战室协作时，可直接触发一个 AI SRE 会话，让 Agent 带着故障上下文进入排查现场——既可以在控制台里对话，也可以直接在你的 IM 群（Slack / 飞书 / 钉钉 / 企业微信）里 @ 它。

对话即排障

用自然语言描述问题，Agent 自主规划、调用工具、给出调查过程与结论，无需您逐条编排脚本。

与故障响应联动

从故障或作战室一键拉起会话，Agent 携带故障上下文进入排查，沉淀的知识反哺下一次响应。

典型场景

AI SRE 不止是控制台里的一个对话框——它围绕「故障从触发到复盘」的完整生命周期，覆盖多个协作入口：

对话式排障

在控制台的对话工作区里主动提问：某个服务为何异常、一条告警的根因、一次变更的影响范围。Agent 流式输出规划、工具调用与中间发现，最终给出结论。

IM 内随手召唤

无需切换工具——在 Slack、飞书、钉钉、企业微信的群聊或私聊里 @ AI SRE 即可发起或续接一次排查，它在线程内回答，团队成员全程可见。详见 IM 集成。

作战室自动诊断

为故障开启 IM 作战室时，AI SRE 自动跑一轮初步诊断并把结论回贴到作战室——人还没开始排查，第一手分析就已经在群里了。

运营复盘洞察

用 /insight 复盘最近 30 天的会话，量化你把时间花在了哪里、哪些 runbook 缺失、哪些上下文被反复粘贴，输出可复制的改进建议。

内测与开通

AI SRE 当前处于内测阶段，开通需要同时满足两个条件：

订阅门槛：专业版及以上

AI SRE 需要 专业版及以上的订阅。与 Status Page、告警接入等专业能力一致，未达版本时无法使用 AI SRE，界面会提示升级。

白名单开通

内测期间 AI SRE 仅对受邀账户开放，需要由 Flashduty 为您的账户加入白名单。即使已具备专业版订阅，未进入白名单的账户也不会看到 AI SRE 入口。

如需参与内测，请联系 Flashduty 商务团队申请开通白名单。

核心能力

AI SRE 围绕”对话排障 + 知识沉淀 + 自主执行”构建了一套完整能力，每一项都可在控制台中配置和管理。

对话式排障

以会话为单位与 Agent 协作。会话按顺序处理你的每条消息，支持流式输出、随时取消、长对话自动压缩上下文，以及从故障一键拉起。

IM 平台

在 Slack / 飞书 / 钉钉 / 企业微信中 @ Agent 发起或续接排查，并在故障作战室里自动给出初步诊断。

Skill

可被 Agent 调用的 Skill 包，封装可复用的排障流程。范围可设为账户或团队，启用后在会话中按需加载。

管理知识

以 DUTY.md 为入口、按 @-引用索引的知识包，承载服务清单、runbook、值班路径等长期上下文，按账户/团队分层加载。

MCP（外部工具）

通过 Model Context Protocol 接入外部工具与数据源。MCP 服务器不预连接，Agent 在调用时按需建连、执行、断连。

Agent

通过标准 A2A 协议把任务委派给外部远端 Agent；AI SRE 自身也对外暴露 Agent Card，供外部客户端反向调用。

BYOC

Agent 的执行面：默认使用 Flashduty 托管的云端沙箱；也可在自己机器上部署常驻 Runner，让排障进入您的内网。

使用洞察

通过 /insight 复盘最近 30 天的 AI SRE 会话，输出量化概览、工作叙述与可复制的运维改进建议（只读，不自动落地）。

控制台导航

进入 AI SRE 后，顶部导航按以下四个区域组织（菜单名与控制台一致）：

区域	菜单名	作用
对话	对话（Chat）	与 Agent 协作排障的主工作区。左侧为会话列表（支持搜索、筛选、置顶、归档），右侧为对话与调查过程。
插件	插件（Plugins）	管理 Agent 可调用的扩展资源，下分三个子标签：Skill（Skill 包）、Agents（A2A 远端 Agent）、MCP（外部工具）。
知识库	知识库（Knowledges）	管理 Knowledge Pack。每个目标最多一个：账户级（对所有 Agent 可见）+ 各团队级（仅在该团队会话中加载）。
运行环境	环境（Environments）	管理自托管 Runner。常驻进程负责执行 Agent 的工具、Skill 与 MCP 调用；无可用项时会话回退到云端沙箱。

各区域的可见性由您在该账户下的访问权限决定：没有对应权限的菜单或子标签不会在导航中展示。

快速开始

开通访问

确认账户已具备专业版及以上订阅，并已加入 AI SRE 内测白名单（联系商务团队申请）。

进入 AI SRE

在 Flashduty 控制台侧边菜单中打开 AI SRE，默认进入”对话”工作区。

新建会话

点击”新建对话”创建一个会话。会话默认使用 app_name=ai-sre Agent，并自动选择一个在线的运行环境（无可用项时回退到云端沙箱）。

用自然语言提问

在对话框中描述您要排查的问题，例如某个服务的异常、一条告警的根因，或一项变更的影响范围。

查看调查过程与结论

Agent 会流式输出它的规划、工具调用与中间发现，最终给出结论。您可以随时追问、取消，或从故障/作战室带上下文重新拉起会话。

排查过程中沉淀的可复用知识，可保存为 Knowledge Pack，让后续会话自动加载；常用的排障流程可固化为 Skill 包。

下一步

控制台

了解会话、流式输出、取消与上下文压缩，以及如何从故障拉起排查。

IM 平台

在 Slack / 飞书 / 钉钉 / 企业微信里 @ Agent 排障，并了解作战室自动诊断。

使用洞察

使用 /insight 复盘近 30 天会话，发现重复上下文、缺失 runbook 等运维摩擦。

​什么是 AI SRE

对话即排障

与故障响应联动

​典型场景

对话式排障

IM 内随手召唤

作战室自动诊断

运营复盘洞察

​内测与开通

​核心能力

对话式排障

IM 平台

Skill

管理知识

MCP（外部工具）

Agent

BYOC

使用洞察

​控制台导航

​快速开始

​下一步

控制台

IM 平台

使用洞察

什么是 AI SRE

典型场景

内测与开通

核心能力

控制台导航

快速开始

下一步