跳转到主要内容
内测功能:AI SRE 目前处于内测阶段,仅对受邀账户开放。如需参与白名单测试,请联系 Flashduty 商务团队申请开通;内测期间功能与界面可能调整。

概述


在任意 AI SRE 会话的输入框中输入 /init,Agent 会切换成一名运维 onboarding 访谈者,带你从零搭建一份运维知识库——也就是这个团队的「运营作战图」。它会扫描你的 Flashduty 故障与通知渠道、向你提问、把你口述的服务拓扑、排查手册、集群访问方式等沉淀成知识文件,并在需要时帮你接入外部工具(MCP)。 /init 是知识库的起点。AI SRE 的诊断质量直接取决于它能读到多少关于你系统的真实知识:知识库维护得越完整、越准确,Agent 定位根因就越快、越靠谱。/init 就是把这份知识从零建立起来的引导流程,建完之后每一次会话都会自动加载它。
/init 不会在未经你同意的情况下写入或安装任何东西。每个阶段在写入文件前都会列出「将要创建/更新哪些文件」的清单,由你逐条确认后才执行。凭证(token、密码、AK/SK)永远不会在对话里明文回显,只记为 <已记录(长度=N)>。详见 安全与同意

何时用 /init,何时直接说


/init 解决的是结构化的从零搭建 / 系统性补全;零散的小修小补不需要它。
场景用法
第一次给某个账户 / 团队搭知识库/init——它会成体系地走完服务、可观测性、runbook、常见故障、集群访问等主题
系统性地补全或重整一个已有知识库/init——可随时重跑,它会基于现有内容继续,而非推倒重来
「补一篇 runbook」「更新 services.md」「记一下这个故障模式」直接用自然语言说,无需 /init——Agent 会就当前会话作用域读取、编辑、保存
/init 与零散的自然语言编辑是互补的:用 /init 把底子打全,之后在日常排障里随手让 Agent「把这条经验记进知识库」做增量维护。两者写入的是同一个知识库。

如何运行


1

在会话中输入 /init

在任意一个 AI SRE 会话的输入框输入 /init 并发送。无需参数。
2

确认作用域

/init 先锁定本次要写入的范围:账户级(账户内所有会话可见)或某个团队级(仅该团队会话加载)。范围由当前会话是否绑定团队决定,Agent 会先反问你确认;一次会话只锁定一个范围,中途不切换。
3

跟着访谈走

Agent 按主题逐阶段提问(服务与拓扑、可观测性、runbook、常见故障、集群访问……),把你的回答整理成知识文件草稿。每个阶段结束都会问你「继续下一项,还是先停在这里」。
4

逐项确认后写入

每个阶段写入文件前,Agent 会给出一份「将创建/更新哪些文件」的清单,每个文件配 3–5 行摘要。你确认后它才写入知识库,并把新文件链接进 DUTY.md 目录。
5

随时暂停或重跑

你可以随时说「跳过这项」「回到第 N 步」「先到这里」。/init 不是一次性的——之后任何时候重新输入 /init 都能基于已有知识继续补全。

访谈流程


/init 按固定顺序走一套阶段,每个阶段有明确的进入与退出条件。你可以随时跳过、回退或叫停。
读取当前会话绑定的团队:若绑定了团队,本次 /init 落在该团队级;若是账户级会话,则落在账户级(对所有团队可见)。Agent 会先和你确认这一点,确认后整场会话固定使用这个范围。想换团队范围,需退出后从目标团队重新打开 /init
通过 Flashduty MCP 拉取你的渠道、近 30 天故障、团队与成员,归纳出你在用的集成类型与高频故障标签。若扫描结果为空(全新账户),切换到「冷启动」模式,改为完全靠访谈采集。
Agent 用一段话回述它看到的画面:「我看到 N 个渠道、近 30 天 M 个故障、你似乎在用 [列表]、高频标签包括 [列表]。对吗?还缺什么?」等你确认或纠正,此时还不写入任何文件
按主题逐阶段采集并成文,每一阶段都遵循「采集 → 草拟文件 → 出清单预览 → 你确认 → 写入并更新 DUTY.md 目录」:
阶段主题产出
3服务与拓扑services.md(+ 可选 topology.md
4可观测性栈observability.md + 在 tools.md 登记相关 MCP
5运行手册runbooks/<主题>.md,一类故障一文件
6常见故障common-failures.md
7集群访问与运行时探查clusters.md(k8s)/ 追加到 tools.md(MCP)
当你表示完成时,Agent 给出一段小结:本次创建/更新了哪些文件、登记了哪些 MCP,并提示「任何时候重跑 /init 都能继续」。知识库本身就是这次会话的持久成果。

安全与同意


/init 会写知识、可能装 MCP、还会碰到凭证,因此同意与最小权限是它的硬性约束:
任何写入或安装都必须经你明确同意。每个采集阶段在写入文件前都会列出「将创建/更新哪些文件」的清单(每项配 3–5 行摘要),你点头后才执行——绝不会拿一句模糊的「好」直接触发写入。
当你提供 token、密码、AK/SK 等敏感信息时,Agent 只确认「已记录(长度=N)」,绝不在对话里重复打印明文。
每当需要你提供或生成凭证(kubeconfig、云 AK/SK、数据库账号、API token),Agent 都会要求你按只读 / 最小权限来配置;在边界可机器校验时,它会先做一次只读边界检查再记录。
不是所有信息都值得写进知识库。Agent 只写「缺了它,AI 在故障里会做出更糟决定」的内容——可有可无的细节不会被塞进去,避免知识库变臃肿。

产出什么


/init 的成果是一份可被后续每次会话自动加载的知识库
  • DUTY.md——知识库的目录入口,只放一句话导引和一份 @文件名 链接清单,指向各主题文件;
  • 主题文件——services.mdtopology.mdobservability.mdrunbooks/<主题>.mdcommon-failures.mdclusters.md 等,实质内容都在这里;
  • MCP 登记(可选)——若访谈中接入了外部工具,会在 tools.md 记录并完成 MCP 服务器注册。
/init 的主要产出是知识,不是 Skill。它不会把内容存成 Skill,除非你明确要求。它也不会自动安装 Agent——这类资源目前需你在控制台手动添加。

/init 与 /insight:一对最佳实践


/init/insight 是运维知识「建立 → 打磨」闭环的两端:

/init — 建底子

从零把知识库搭起来:服务、拓扑、runbook、集群访问一次成体系地沉淀,让 Agent 一上来就懂你的系统。

/insight — 持续打磨

回看近 30 天会话,找出反复粘贴的上下文、缺失的 runbook、用错的数据源,告诉你下一步该往知识库里补什么
推荐的节奏:先用 /init 打好底子,跑几次真实排障后再用 /insight 复盘,把它指出的摩擦补回知识库——必要时重跑 /init 做系统性整理。知识库越完善,AI SRE 越精准好用。

相关页面


管理知识

/init 的产出落在这里——了解 DUTY.md 结构、文件约束,以及如何手动编辑与维护。

使用洞察

/insight 复盘会话、发现运维摩擦,指导你持续补全知识库。

MCP(外部工具)

/init 可在访谈中帮你接入的外部工具,了解 MCP 的连接与管理。