第 11 讲
AI DevOps 与生产系统
核心主题
AI Agents for Production Systems
传统生产运维之困
痛点
- 70% 工程时间花在运维而非编码
- 工具割裂、知识孤岛
- 云原生复杂性加剧
- SRE 疲劳 burnout
AI SRE 核心能力
- 动态知识图谱映射
- 跨云/跨栈可观测性聚合
- 实时因果推理
- 可操作建议生成(prescriptive remediation)
知识民主化
- 打破"只有老工程师知道的隐性知识"
- AI 将散落于日志、指标、变更记录、文档中的知识结构化
- 动态关联、即时调用
运维即对话
"为什么订单服务延迟突增?对比上周同时段,列出 Top3 可能原因及证据链"
重要警示
当前局限
- RCA-first,not Remediation-first
- 自动修复(如热补丁、配置回滚)仍是远期目标
- 现阶段需严格人机协同闭环
安全双刃剑
- AI 模型本身成新攻击面(对抗样本欺骗根因分析)
- 训练数据泄露敏感架构信息
- 建议被恶意利用等风险
💡 对 Vibe Coding 学员的启示
- DevOps 的 AI 升级:不是自动化替代人,而是"增强智能"(Augmented Intelligence)
- 可观测性是基础:每个项目添加日志、配置监控告警、学会分析指标
- 人机协同是未来:AI 辅助,不是替代;人在回路(Human-in-the-loop)
- 知识管理至关重要:记录根因案例、标注解决方案、建立最佳实践