内测功能:AI SRE 目前处于内测阶段,仅对受邀账户开放。如需参与白名单测试,请联系 Flashduty 商务团队申请开通;内测期间功能与界面可能调整。
什么是 AI SRE
AI SRE 是 Flashduty 推出的自治 SRE Agent 平台。您通过对话向 AI 下达指令,由它自主调查故障、排查根因、调用工具执行诊断,并把每次排障中沉淀的运维知识固化下来供后续复用。 它不是一个只会问答的聊天机器人,而是一个能动手的排障工作者:会自己规划步骤、读写文件、查询监控与日志、执行命令、调用外部工具(MCP),并在需要时把子任务委派出去,最终给出有调查过程支撑的结论。 AI SRE 与 Flashduty 的故障响应体系深度联动:当 Flashduty 产生故障(incident)或开启作战室协作时,可直接触发一个 AI SRE 会话,让 Agent 带着故障上下文进入排查现场——既可以在控制台里对话,也可以直接在你的 IM 群(Slack / 飞书 / 钉钉 / 企业微信)里 @ 它。
对话即排障
用自然语言描述问题,Agent 自主规划、调用工具、给出调查过程与结论,无需您逐条编排脚本。
与故障响应联动
从故障或作战室一键拉起会话,Agent 携带故障上下文进入排查,沉淀的知识反哺下一次响应。
典型场景
AI SRE 不止是控制台里的一个对话框——它围绕「故障从触发到复盘」的完整生命周期,覆盖多个协作入口:
对话式排障
在控制台的对话工作区里主动提问:某个服务为何异常、一条告警的根因、一次变更的影响范围。Agent 流式输出规划、工具调用与中间发现,最终给出结论。
IM 内随手召唤
无需切换工具——在 Slack、飞书、钉钉、企业微信的群聊或私聊里 @ AI SRE 即可发起或续接一次排查,它在线程内回答,团队成员全程可见。详见 IM 集成。
作战室自动诊断
为故障开启 IM 作战室时,AI SRE 自动跑一轮初步诊断并把结论回贴到作战室——人还没开始排查,第一手分析就已经在群里了。
运营复盘洞察
用
/insight 复盘最近 30 天的会话,量化你把时间花在了哪里、哪些 runbook 缺失、哪些上下文被反复粘贴,输出可复制的改进建议。内测与开通
AI SRE 当前处于内测阶段,开通需要同时满足两个条件:
订阅门槛:专业版及以上
订阅门槛:专业版及以上
AI SRE 需要 专业版及以上的订阅。与 Status Page、告警接入等专业能力一致,未达版本时无法使用 AI SRE,界面会提示升级。
白名单开通
白名单开通
内测期间 AI SRE 仅对受邀账户开放,需要由 Flashduty 为您的账户加入白名单。即使已具备专业版订阅,未进入白名单的账户也不会看到 AI SRE 入口。
核心能力
AI SRE 围绕”对话排障 + 知识沉淀 + 自主执行”构建了一套完整能力,每一项都可在控制台中配置和管理。
对话式排障
以会话为单位与 Agent 协作。会话按顺序处理你的每条消息,支持流式输出、随时取消、长对话自动压缩上下文,以及从故障一键拉起。
IM 平台
在 Slack / 飞书 / 钉钉 / 企业微信中 @ Agent 发起或续接排查,并在故障作战室里自动给出初步诊断。
Skill
可被 Agent 调用的 Skill 包,封装可复用的排障流程。范围可设为账户或团队,启用后在会话中按需加载。
管理知识
以 DUTY.md 为入口、按 @-引用索引的知识包,承载服务清单、runbook、值班路径等长期上下文,按账户/团队分层加载。
MCP(外部工具)
通过 Model Context Protocol 接入外部工具与数据源。MCP 服务器不预连接,Agent 在调用时按需建连、执行、断连。
Agent
通过标准 A2A 协议把任务委派给外部远端 Agent;AI SRE 自身也对外暴露 Agent Card,供外部客户端反向调用。
BYOC
Agent 的执行面:默认使用 Flashduty 托管的云端沙箱;也可在自己机器上部署常驻 Runner,让排障进入您的内网。
使用洞察
通过 /insight 复盘最近 30 天的 AI SRE 会话,输出量化概览、工作叙述与可复制的运维改进建议(只读,不自动落地)。
控制台导航
进入 AI SRE 后,顶部导航按以下四个区域组织(菜单名与控制台一致):
| 区域 | 菜单名 | 作用 |
|---|---|---|
| 对话 | 对话(Chat) | 与 Agent 协作排障的主工作区。左侧为会话列表(支持搜索、筛选、置顶、归档),右侧为对话与调查过程。 |
| 插件 | 插件(Plugins) | 管理 Agent 可调用的扩展资源,下分三个子标签:Skill(Skill 包)、Agents(A2A 远端 Agent)、MCP(外部工具)。 |
| 知识库 | 知识库(Knowledges) | 管理 Knowledge Pack。每个目标最多一个:账户级(对所有 Agent 可见)+ 各团队级(仅在该团队会话中加载)。 |
| 运行环境 | 环境(Environments) | 管理自托管 Runner。常驻进程负责执行 Agent 的工具、Skill 与 MCP 调用;无可用项时会话回退到云端沙箱。 |
各区域的可见性由您在该账户下的访问权限决定:没有对应权限的菜单或子标签不会在导航中展示。
快速开始
下一步
控制台
了解会话、流式输出、取消与上下文压缩,以及如何从故障拉起排查。
IM 平台
在 Slack / 飞书 / 钉钉 / 企业微信里 @ Agent 排障,并了解作战室自动诊断。
使用洞察
使用 /insight 复盘近 30 天会话,发现重复上下文、缺失 runbook 等运维摩擦。