跳转到主要内容
内测功能:AI SRE 目前处于内测阶段,仅对受邀账户开放。如需参与白名单测试,请联系 Flashduty 商务团队申请开通;内测期间功能与界面可能调整。

什么是 AI SRE


AI SRE 是 Flashduty 推出的自治 SRE Agent 平台。您通过对话向 AI 下达指令,由它自主调查故障、排查根因、调用工具执行诊断,并把每次排障中沉淀的运维知识固化下来供后续复用。 它不是一个只会问答的聊天机器人,而是一个能动手的排障工作者:会自己规划步骤、读写文件、查询监控与日志、执行命令、调用外部工具(MCP),并在需要时把子任务委派出去,最终给出有调查过程支撑的结论。 AI SRE 与 Flashduty 的故障响应体系深度联动:当 Flashduty 产生故障(incident)或开启作战室协作时,可直接触发一个 AI SRE 会话,让 Agent 带着故障上下文进入排查现场——既可以在控制台里对话,也可以直接在你的 IM 群(Slack / 飞书 / 钉钉 / 企业微信)里 @ 它

对话即排障

用自然语言描述问题,Agent 自主规划、调用工具、给出调查过程与结论,无需您逐条编排脚本。

与故障响应联动

从故障或作战室一键拉起会话,Agent 携带故障上下文进入排查,沉淀的知识反哺下一次响应。

典型场景


AI SRE 不止是控制台里的一个对话框——它围绕「故障从触发到复盘」的完整生命周期,覆盖多个协作入口:

对话式排障

在控制台的对话工作区里主动提问:某个服务为何异常、一条告警的根因、一次变更的影响范围。Agent 流式输出规划、工具调用与中间发现,最终给出结论。

IM 内随手召唤

无需切换工具——在 Slack、飞书、钉钉、企业微信的群聊或私聊里 @ AI SRE 即可发起或续接一次排查,它在线程内回答,团队成员全程可见。详见 IM 集成

作战室自动诊断

为故障开启 IM 作战室时,AI SRE 自动跑一轮初步诊断并把结论回贴到作战室——人还没开始排查,第一手分析就已经在群里了。

运营复盘洞察

/insight 复盘最近 30 天的会话,量化你把时间花在了哪里、哪些 runbook 缺失、哪些上下文被反复粘贴,输出可复制的改进建议。

内测与开通


AI SRE 当前处于内测阶段,开通需要同时满足两个条件:
AI SRE 需要 专业版及以上的订阅。与 Status Page、告警接入等专业能力一致,未达版本时无法使用 AI SRE,界面会提示升级。
内测期间 AI SRE 仅对受邀账户开放,需要由 Flashduty 为您的账户加入白名单。即使已具备专业版订阅,未进入白名单的账户也不会看到 AI SRE 入口。
如需参与内测,请联系 Flashduty 商务团队申请开通白名单。

核心能力


AI SRE 围绕”对话排障 + 知识沉淀 + 自主执行”构建了一套完整能力,每一项都可在控制台中配置和管理。

对话式排障

以会话为单位与 Agent 协作。会话按顺序处理你的每条消息,支持流式输出、随时取消、长对话自动压缩上下文,以及从故障一键拉起。

IM 平台

在 Slack / 飞书 / 钉钉 / 企业微信中 @ Agent 发起或续接排查,并在故障作战室里自动给出初步诊断。

Skill

可被 Agent 调用的 Skill 包,封装可复用的排障流程。范围可设为账户或团队,启用后在会话中按需加载。

管理知识

以 DUTY.md 为入口、按 @-引用索引的知识包,承载服务清单、runbook、值班路径等长期上下文,按账户/团队分层加载。

MCP(外部工具)

通过 Model Context Protocol 接入外部工具与数据源。MCP 服务器不预连接,Agent 在调用时按需建连、执行、断连。

Agent

通过标准 A2A 协议把任务委派给外部远端 Agent;AI SRE 自身也对外暴露 Agent Card,供外部客户端反向调用。

BYOC

Agent 的执行面:默认使用 Flashduty 托管的云端沙箱;也可在自己机器上部署常驻 Runner,让排障进入您的内网。

使用洞察

通过 /insight 复盘最近 30 天的 AI SRE 会话,输出量化概览、工作叙述与可复制的运维改进建议(只读,不自动落地)。

控制台导航


进入 AI SRE 后,顶部导航按以下四个区域组织(菜单名与控制台一致):
区域菜单名作用
对话对话(Chat)与 Agent 协作排障的主工作区。左侧为会话列表(支持搜索、筛选、置顶、归档),右侧为对话与调查过程。
插件插件(Plugins)管理 Agent 可调用的扩展资源,下分三个子标签:Skill(Skill 包)、Agents(A2A 远端 Agent)、MCP(外部工具)。
知识库知识库(Knowledges)管理 Knowledge Pack。每个目标最多一个:账户级(对所有 Agent 可见)+ 各团队级(仅在该团队会话中加载)。
运行环境环境(Environments)管理自托管 Runner。常驻进程负责执行 Agent 的工具、Skill 与 MCP 调用;无可用项时会话回退到云端沙箱。
各区域的可见性由您在该账户下的访问权限决定:没有对应权限的菜单或子标签不会在导航中展示。

快速开始


1

开通访问

确认账户已具备专业版及以上订阅,并已加入 AI SRE 内测白名单(联系商务团队申请)。
2

进入 AI SRE

在 Flashduty 控制台侧边菜单中打开 AI SRE,默认进入”对话”工作区。
3

新建会话

点击”新建对话”创建一个会话。会话默认使用 app_name=ai-sre Agent,并自动选择一个在线的运行环境(无可用项时回退到云端沙箱)。
4

用自然语言提问

在对话框中描述您要排查的问题,例如某个服务的异常、一条告警的根因,或一项变更的影响范围。
5

查看调查过程与结论

Agent 会流式输出它的规划、工具调用与中间发现,最终给出结论。您可以随时追问、取消,或从故障/作战室带上下文重新拉起会话。
排查过程中沉淀的可复用知识,可保存为 Knowledge Pack,让后续会话自动加载;常用的排障流程可固化为 Skill 包。

下一步


控制台

了解会话、流式输出、取消与上下文压缩,以及如何从故障拉起排查。

IM 平台

在 Slack / 飞书 / 钉钉 / 企业微信里 @ Agent 排障,并了解作战室自动诊断。

使用洞察

使用 /insight 复盘近 30 天会话,发现重复上下文、缺失 runbook 等运维摩擦。