Skip to main content
AI 实践7 min read

AI 编程 Agent 在生产中的三个真实案例:从架构设计到落地全流程

Written by

Nubank 用 Devin 完成 10 万级 Clojure 代码迁移、Anthropic 自己用 Claude Code 让 70% 代码由 AI 自主编写、OpenAI Codex 90% 的代码自己写自己——三个全流程深度案例,含系统架构图、Agent 角色定义和真实数据。

这不是又一篇「AI Agent 很酷」的泛泛介绍。

下面三个案例来自 Nubank(1.1 亿用户的拉美最大数字银行)、Anthropic(Claude 的创造者)和 OpenAI(Codex 的创造者)。每个案例都包含:他们遇到了什么问题 → 怎么设计架构 → Agent 扮演什么角色 → 配了什么工具链 → 最终效果如何

所有数据来自官方博客、技术演讲和已公开文档。


案例一:Nubank × Devin — 10 万级 Clojure 代码迁移

背景:一个不可能的人工任务

Nubank 是拉丁美洲最大的数字银行,拥有超过 1.1 亿用户。他们的核心 ETL 系统是一个 8 年历史、600 万行 Clojure 代码的单体应用,需要拆分为子模块。

拆分意味着要迁移 约 10 万个数据类实现(data class implementations),依赖链深达 70 层。

初步估算:1000+ 工程师,耗时 18 个月

这些任务有个特点——太复杂无法脚本化(每种迁移都有不同变体和边界情况),但量太大无法人工完成。

架构设计

Nubank 和 Cognition(Devin 的开发团队)一起设计了一套「微调 + 评估 + 人机协作」的闭环架构:

Agent 角色:Devin 具体做了什么

每个数据类迁移是一个独立的 Devin 任务,执行流程如下:

Devin 的一个独特行为:自我工具化(Self-tooling)

Devin 在执行过程中会自主编写辅助脚本来加速后续工作。例如,它发现需要从文件路径中识别国家代码(br/co/mx),于是自己写了一个脚本把这个多步判断变成单次调用。这种"元工具"行为是传统脚本无法做到的。

关键技术细节

维度实现
微调方式用 Clojure 迁移样本对 Devin 进行领域特定微调
评估框架自建 cognition-golden 评估集 + evaluator agent 自动打分
安全边界Devin 运行在沙箱化云端 VM 中,有 root 权限但与生产环境隔离
人机比工程师从「执行者」变成「审查者」,CTO Vitor Olivier 原话:"reviewing, not writing"
反馈循环每次人工修正都成为新的训练样本,Devin 持续学习

结果

指标之前之后提升
单任务耗时~40 分钟~10 分钟4x
工程师效率手动迁移Prompt + 审查8-12x
迁移时间线18 个月 / 1000 人每业务单元数周月→周
微调后任务完成率基准线基准线 2 倍2x

Jose Carlos Castro(Nubank 高级 PM)原话"Devin provided an easy way to reduce the number of engineering hours for the migration, in a way that was more stable and less prone to human error."


案例二:Anthropic × Claude Code — 132 名工程师的内部实践

背景:造工具的人怎么用工具

Anthropic 研究了自己 132 名工程师 横跨 10 个部门使用 Claude Code 的实际数据。这不是概念验证——是他们真实的日常工作流。

系统架构

10 个团队的真实用法

重点场景:增长营销的双 Agent 广告生成系统

这个场景特别值得展开——它展示了多个 Agent 分工协作的生产级架构:

技术细节:

  • 分析 Agent:处理 CSV → 按 ROI 排序 → 标记低效广告 → 生成变体策略
  • 创意 Agent:根据策略生成 30 字标题 + 90 字描述 → 调用 Figma 插件批量渲染
  • Figma 插件:100 条广告变体,每批次 0.5 秒
  • 之前这个流程需要营销团队手工逐条制作,耗时数小时

三种经过验证的采用模式

Anthropic 总结了三种成功模式,适用于任何想引入 AI Agent 的团队:

模式适用场景关键做法
自主执行外围功能、非核心逻辑Auto-accept 模式 + 从干净 git 状态开始 + 频繁 commit 检查点
同步协作核心业务逻辑详细 prompt + 具体实现指令 + 实时监控
知识提取新人入职、代码导航用 Agent 理解大型代码库,替代传统文档/数据目录

结果

指标数值
工程师日使用率(12 个月)28% → 59%
自评生产力提升+20% → +50%
人均日合并 PR 数+67%
"没有 AI 就不会做的事"占比27%
Vim 模式:AI 自主编码占比70%
推理团队调研时间-80%

案例三:OpenAI × Codex — 一个自己写自己的 Agent

背景:造 Agent 的终极测试

OpenAI 的 2025 年最高目标是构建一个自主软件工程师(aSWE)。Codex 团队的终极验证方式:用 Codex 开发 Codex

目前 Codex 每周有超过 100 万活跃开发者,自 CLI 发布以来使用量增长 20 倍

核心架构:状态机 Agent 循环

指令级联系统(AGENTS.md 解析)

Codex 有一个精密的指令解析机制,确保 Agent 在不同项目中都能获得正确上下文:

性能优化:让 Agent 跑得快

两个关键优化让 Codex 能处理数百次模型-工具迭代:

内部工作流:每个工程师 4-8 个并行 Agent

100+ 内部 Agent Skills 示例

Skill 名称功能技术实现
Security Best Practices对照团队安全规范检查代码,生成修复补丁自定义规则集 + 代码 diff 分析
Yeet代码变更 → 自动写 PR 标题/描述 → 创建 Draft PRGit 集成 + LLM 生成
Datadog Integration读取告警 → 定位问题 → 生成修复方案API 轮询 + 日志分析
Linear/Slack在 Slack @Codex 分配任务 → 自动创建 PR → 线程内审查Slack Bot + Linear API

结果

指标数值
Codex 代码由 Codex 自己编写90%+
周活跃开发者100 万+
CLI 发布后增长20x
AI 代码审查有效率~90%
Sora Android App4 人 18 天从零构建
Sam Altman 评价"Most loved internal product we've ever had"

三个案例的共同模式

把三个案例放在一起看,会发现一个清晰的模式:

给想落地 AI Agent 的团队的建议

  1. 从文档开始,不要从代码开始 — Anthropic 的经验表明,写好 CLAUDE.md / AGENTS.md 比写代码更重要。Agent 需要上下文,就像新人需要读文档。

  2. 设计人机协作流程,而不是追求全自动 — Nubank 的成功不是让 Devin 全自动迁移,而是让工程师从「执行者」变成「审查者」。27% 的 Anthropic 工程师做了"没有 AI 就不会做的事"——这意味着 Agent 不是替代人,而是让人做以前做不到的事。

  3. 建立评估体系 — Nubank 建了 cognition-golden 评估集,OpenAI 有 ~90% 有效率的 AI 代码审查。没有度量就没有改进。

  4. 让 Agent 自己造工具 — Devin 的自我工具化行为、Codex 的 100+ Skills 库,都指向同一个方向:最好的 Agent 工作流是 Agent 自己设计的。

  5. 选对语言/框架 — Codex 选择 Rust 是因为性能和正确性;Claude Code 选择 MCP 是因为安全控制。技术选型要匹配你的约束。


数据来源:

Luke

Written by

Luke

Developer, AI enthusiast, open-source contributor.