AI 编程 Agent 在生产中的三个真实案例:从架构设计到落地全流程
Nubank 用 Devin 完成 10 万级 Clojure 代码迁移、Anthropic 自己用 Claude Code 让 70% 代码由 AI 自主编写、OpenAI Codex 90% 的代码自己写自己——三个全流程深度案例,含系统架构图、Agent 角色定义和真实数据。
这不是又一篇「AI Agent 很酷」的泛泛介绍。
下面三个案例来自 Nubank(1.1 亿用户的拉美最大数字银行)、Anthropic(Claude 的创造者)和 OpenAI(Codex 的创造者)。每个案例都包含:他们遇到了什么问题 → 怎么设计架构 → Agent 扮演什么角色 → 配了什么工具链 → 最终效果如何。
所有数据来自官方博客、技术演讲和已公开文档。
案例一:Nubank × Devin — 10 万级 Clojure 代码迁移
背景:一个不可能的人工任务
Nubank 是拉丁美洲最大的数字银行,拥有超过 1.1 亿用户。他们的核心 ETL 系统是一个 8 年历史、600 万行 Clojure 代码的单体应用,需要拆分为子模块。
拆分意味着要迁移 约 10 万个数据类实现(data class implementations),依赖链深达 70 层。
初步估算:1000+ 工程师,耗时 18 个月。
这些任务有个特点——太复杂无法脚本化(每种迁移都有不同变体和边界情况),但量太大无法人工完成。
架构设计
Nubank 和 Cognition(Devin 的开发团队)一起设计了一套「微调 + 评估 + 人机协作」的闭环架构:
Agent 角色:Devin 具体做了什么
每个数据类迁移是一个独立的 Devin 任务,执行流程如下:
Devin 的一个独特行为:自我工具化(Self-tooling)
Devin 在执行过程中会自主编写辅助脚本来加速后续工作。例如,它发现需要从文件路径中识别国家代码(br/co/mx),于是自己写了一个脚本把这个多步判断变成单次调用。这种"元工具"行为是传统脚本无法做到的。
关键技术细节
| 维度 | 实现 |
|---|---|
| 微调方式 | 用 Clojure 迁移样本对 Devin 进行领域特定微调 |
| 评估框架 | 自建 cognition-golden 评估集 + evaluator agent 自动打分 |
| 安全边界 | Devin 运行在沙箱化云端 VM 中,有 root 权限但与生产环境隔离 |
| 人机比 | 工程师从「执行者」变成「审查者」,CTO Vitor Olivier 原话:"reviewing, not writing" |
| 反馈循环 | 每次人工修正都成为新的训练样本,Devin 持续学习 |
结果
| 指标 | 之前 | 之后 | 提升 |
|---|---|---|---|
| 单任务耗时 | ~40 分钟 | ~10 分钟 | 4x |
| 工程师效率 | 手动迁移 | Prompt + 审查 | 8-12x |
| 迁移时间线 | 18 个月 / 1000 人 | 每业务单元数周 | 月→周 |
| 微调后任务完成率 | 基准线 | 基准线 2 倍 | 2x |
Jose Carlos Castro(Nubank 高级 PM)原话: "Devin provided an easy way to reduce the number of engineering hours for the migration, in a way that was more stable and less prone to human error."
案例二:Anthropic × Claude Code — 132 名工程师的内部实践
背景:造工具的人怎么用工具
Anthropic 研究了自己 132 名工程师 横跨 10 个部门使用 Claude Code 的实际数据。这不是概念验证——是他们真实的日常工作流。
系统架构
10 个团队的真实用法
重点场景:增长营销的双 Agent 广告生成系统
这个场景特别值得展开——它展示了多个 Agent 分工协作的生产级架构:
技术细节:
- 分析 Agent:处理 CSV → 按 ROI 排序 → 标记低效广告 → 生成变体策略
- 创意 Agent:根据策略生成 30 字标题 + 90 字描述 → 调用 Figma 插件批量渲染
- Figma 插件:100 条广告变体,每批次 0.5 秒
- 之前这个流程需要营销团队手工逐条制作,耗时数小时
三种经过验证的采用模式
Anthropic 总结了三种成功模式,适用于任何想引入 AI Agent 的团队:
| 模式 | 适用场景 | 关键做法 |
|---|---|---|
| 自主执行 | 外围功能、非核心逻辑 | Auto-accept 模式 + 从干净 git 状态开始 + 频繁 commit 检查点 |
| 同步协作 | 核心业务逻辑 | 详细 prompt + 具体实现指令 + 实时监控 |
| 知识提取 | 新人入职、代码导航 | 用 Agent 理解大型代码库,替代传统文档/数据目录 |
结果
| 指标 | 数值 |
|---|---|
| 工程师日使用率(12 个月) | 28% → 59% |
| 自评生产力提升 | +20% → +50% |
| 人均日合并 PR 数 | +67% |
| "没有 AI 就不会做的事"占比 | 27% |
| Vim 模式:AI 自主编码占比 | 70% |
| 推理团队调研时间 | -80% |
案例三:OpenAI × Codex — 一个自己写自己的 Agent
背景:造 Agent 的终极测试
OpenAI 的 2025 年最高目标是构建一个自主软件工程师(aSWE)。Codex 团队的终极验证方式:用 Codex 开发 Codex。
目前 Codex 每周有超过 100 万活跃开发者,自 CLI 发布以来使用量增长 20 倍。
核心架构:状态机 Agent 循环
指令级联系统(AGENTS.md 解析)
Codex 有一个精密的指令解析机制,确保 Agent 在不同项目中都能获得正确上下文:
性能优化:让 Agent 跑得快
两个关键优化让 Codex 能处理数百次模型-工具迭代:
内部工作流:每个工程师 4-8 个并行 Agent
100+ 内部 Agent Skills 示例
| Skill 名称 | 功能 | 技术实现 |
|---|---|---|
| Security Best Practices | 对照团队安全规范检查代码,生成修复补丁 | 自定义规则集 + 代码 diff 分析 |
| Yeet | 代码变更 → 自动写 PR 标题/描述 → 创建 Draft PR | Git 集成 + LLM 生成 |
| Datadog Integration | 读取告警 → 定位问题 → 生成修复方案 | API 轮询 + 日志分析 |
| Linear/Slack | 在 Slack @Codex 分配任务 → 自动创建 PR → 线程内审查 | Slack Bot + Linear API |
结果
| 指标 | 数值 |
|---|---|
| Codex 代码由 Codex 自己编写 | 90%+ |
| 周活跃开发者 | 100 万+ |
| CLI 发布后增长 | 20x |
| AI 代码审查有效率 | ~90% |
| Sora Android App | 4 人 18 天从零构建 |
| Sam Altman 评价 | "Most loved internal product we've ever had" |
三个案例的共同模式
把三个案例放在一起看,会发现一个清晰的模式:
给想落地 AI Agent 的团队的建议
-
从文档开始,不要从代码开始 — Anthropic 的经验表明,写好 CLAUDE.md / AGENTS.md 比写代码更重要。Agent 需要上下文,就像新人需要读文档。
-
设计人机协作流程,而不是追求全自动 — Nubank 的成功不是让 Devin 全自动迁移,而是让工程师从「执行者」变成「审查者」。27% 的 Anthropic 工程师做了"没有 AI 就不会做的事"——这意味着 Agent 不是替代人,而是让人做以前做不到的事。
-
建立评估体系 — Nubank 建了
cognition-golden评估集,OpenAI 有 ~90% 有效率的 AI 代码审查。没有度量就没有改进。 -
让 Agent 自己造工具 — Devin 的自我工具化行为、Codex 的 100+ Skills 库,都指向同一个方向:最好的 Agent 工作流是 Agent 自己设计的。
-
选对语言/框架 — Codex 选择 Rust 是因为性能和正确性;Claude Code 选择 MCP 是因为安全控制。技术选型要匹配你的约束。
数据来源:
- Nubank × Devin: devin.ai/customers/nubank, Nubank Engineering Blog, Clojure Conj 2024
- Anthropic × Claude Code: cdn.anthropic.com, Anthropic Research Blog (Dec 2025)
- OpenAI × Codex: Pragmatic Engineer Newsletter, Ars Technica, github.com/openai/codex
Related Articles
三个中国人用 AI Agent 创业的真实故事:从腾讯辞职的、做动画的、不会写代码的产品经理
艾逗笔从腾讯辞职用 Cursor 一年半做出 10+ 产品,ShipAny 预售 4 小时卖了 1 万美元;苏魁一个人做 AI 骨骼动画平台,用国产免费 AI 工具月成本几十块;产品经理七吟覃完全不会写代码,用 Cursor 10 小时做出了微信小程序——三个人、三条路径、全是中国人。
他们是怎么用 AI Agent 赚到钱的:三个人、三种技术栈、三条完整路径
Pieter Levels 用一个 4 万行 PHP 文件做出月入 13 万美元的 PhotoAI、Jon Cheney 从钢琴作曲家用 Replit 周末花 400 块搭出一年赚 250 万美元的 AI 教育平台、Maor Shlomo 用 Cursor 独自开发被 Wix 8000 万美元收购的 Base44——不是报菜名,是三个人从打开工具到赚到钱的每一步。
知乎团队用 Cursor 重构开发流程:从踩坑到全团队落地的真实经历
知乎 B 端开发团队从 2024 年 11 月首次尝试 Cursor 失败,到 2025 年 2 月模型升级后全团队采纳——完整踩坑记录、最佳实践、以及 Dify 企业知识库如何让信息检索效率提升 70%。