第 11 讲

AI DevOps 与生产系统

📅 2025 年 11 月 17 日 👨‍🏫 Mayank Agarwal(Resolve CTO) 🏫 斯坦福大学

核心主题

AI Agents for Production Systems

传统生产运维之困

痛点

  • 70% 工程时间花在运维而非编码
  • 工具割裂、知识孤岛
  • 云原生复杂性加剧
  • SRE 疲劳 burnout

AI SRE 核心能力

  • 动态知识图谱映射
  • 跨云/跨栈可观测性聚合
  • 实时因果推理
  • 可操作建议生成(prescriptive remediation)

知识民主化

  • 打破"只有老工程师知道的隐性知识"
  • AI 将散落于日志、指标、变更记录、文档中的知识结构化
  • 动态关联、即时调用

运维即对话

"为什么订单服务延迟突增?对比上周同时段,列出 Top3 可能原因及证据链"

重要警示

当前局限

  • RCA-first,not Remediation-first
  • 自动修复(如热补丁、配置回滚)仍是远期目标
  • 现阶段需严格人机协同闭环

安全双刃剑

  • AI 模型本身成新攻击面(对抗样本欺骗根因分析)
  • 训练数据泄露敏感架构信息
  • 建议被恶意利用等风险

💡 对 Vibe Coding 学员的启示

  • DevOps 的 AI 升级:不是自动化替代人,而是"增强智能"(Augmented Intelligence)
  • 可观测性是基础:每个项目添加日志、配置监控告警、学会分析指标
  • 人机协同是未来:AI 辅助,不是替代;人在回路(Human-in-the-loop)
  • 知识管理至关重要:记录根因案例、标注解决方案、建立最佳实践