AI 编程 Agent 在生产中的三个真实案例：从架构设计到落地全流程

这不是又一篇「AI Agent 很酷」的泛泛介绍。

下面三个案例来自 Nubank（1.1 亿用户的拉美最大数字银行）、Anthropic（Claude 的创造者）和 OpenAI（Codex 的创造者）。每个案例都包含：他们遇到了什么问题 → 怎么设计架构 → Agent 扮演什么角色 → 配了什么工具链 → 最终效果如何。

所有数据来自官方博客、技术演讲和已公开文档。

案例一：Nubank × Devin — 10 万级 Clojure 代码迁移

背景：一个不可能的人工任务

Nubank 是拉丁美洲最大的数字银行，拥有超过 1.1 亿用户。他们的核心 ETL 系统是一个 8 年历史、600 万行 Clojure 代码的单体应用，需要拆分为子模块。

拆分意味着要迁移 约 10 万个数据类实现（data class implementations），依赖链深达 70 层。

初步估算：1000+ 工程师，耗时 18 个月。

这些任务有个特点——太复杂无法脚本化（每种迁移都有不同变体和边界情况），但量太大无法人工完成。

架构设计

Nubank 和 Cognition（Devin 的开发团队）一起设计了一套「微调 + 评估 + 人机协作」的闭环架构：

Agent 角色：Devin 具体做了什么

每个数据类迁移是一个独立的 Devin 任务，执行流程如下：

Devin 的一个独特行为：自我工具化（Self-tooling）

Devin 在执行过程中会自主编写辅助脚本来加速后续工作。例如，它发现需要从文件路径中识别国家代码（br/co/mx），于是自己写了一个脚本把这个多步判断变成单次调用。这种"元工具"行为是传统脚本无法做到的。

关键技术细节

维度	实现
微调方式	用 Clojure 迁移样本对 Devin 进行领域特定微调
评估框架	自建 `cognition-golden` 评估集 + evaluator agent 自动打分
安全边界	Devin 运行在沙箱化云端 VM 中，有 root 权限但与生产环境隔离
人机比	工程师从「执行者」变成「审查者」，CTO Vitor Olivier 原话："reviewing, not writing"
反馈循环	每次人工修正都成为新的训练样本，Devin 持续学习

结果

指标	之前	之后	提升
单任务耗时	~40 分钟	~10 分钟	4x
工程师效率	手动迁移	Prompt + 审查	8-12x
迁移时间线	18 个月 / 1000 人	每业务单元数周	月→周
微调后任务完成率	基准线	基准线 2 倍	2x

Jose Carlos Castro（Nubank 高级 PM）原话： "Devin provided an easy way to reduce the number of engineering hours for the migration, in a way that was more stable and less prone to human error."

案例二：Anthropic × Claude Code — 132 名工程师的内部实践

背景：造工具的人怎么用工具

Anthropic 研究了自己 132 名工程师 横跨 10 个部门使用 Claude Code 的实际数据。这不是概念验证——是他们真实的日常工作流。

系统架构

10 个团队的真实用法

重点场景：增长营销的双 Agent 广告生成系统

这个场景特别值得展开——它展示了多个 Agent 分工协作的生产级架构：

技术细节：

分析 Agent：处理 CSV → 按 ROI 排序 → 标记低效广告 → 生成变体策略
创意 Agent：根据策略生成 30 字标题 + 90 字描述 → 调用 Figma 插件批量渲染
Figma 插件：100 条广告变体，每批次 0.5 秒
之前这个流程需要营销团队手工逐条制作，耗时数小时

三种经过验证的采用模式

Anthropic 总结了三种成功模式，适用于任何想引入 AI Agent 的团队：

模式	适用场景	关键做法
自主执行	外围功能、非核心逻辑	Auto-accept 模式 + 从干净 git 状态开始 + 频繁 commit 检查点
同步协作	核心业务逻辑	详细 prompt + 具体实现指令 + 实时监控
知识提取	新人入职、代码导航	用 Agent 理解大型代码库，替代传统文档/数据目录

结果

指标	数值
工程师日使用率（12 个月）	28% → 59%
自评生产力提升	+20% → +50%
人均日合并 PR 数	+67%
"没有 AI 就不会做的事"占比	27%
Vim 模式：AI 自主编码占比	70%
推理团队调研时间	-80%

案例三：OpenAI × Codex — 一个自己写自己的 Agent

背景：造 Agent 的终极测试

OpenAI 的 2025 年最高目标是构建一个自主软件工程师（aSWE）。Codex 团队的终极验证方式：用 Codex 开发 Codex。

目前 Codex 每周有超过 100 万活跃开发者，自 CLI 发布以来使用量增长 20 倍。

核心架构：状态机 Agent 循环

指令级联系统（AGENTS.md 解析）

Codex 有一个精密的指令解析机制，确保 Agent 在不同项目中都能获得正确上下文：

性能优化：让 Agent 跑得快

两个关键优化让 Codex 能处理数百次模型-工具迭代：

内部工作流：每个工程师 4-8 个并行 Agent

100+ 内部 Agent Skills 示例

Skill 名称	功能	技术实现
Security Best Practices	对照团队安全规范检查代码，生成修复补丁	自定义规则集 + 代码 diff 分析
Yeet	代码变更 → 自动写 PR 标题/描述 → 创建 Draft PR	Git 集成 + LLM 生成
Datadog Integration	读取告警 → 定位问题 → 生成修复方案	API 轮询 + 日志分析
Linear/Slack	在 Slack @Codex 分配任务 → 自动创建 PR → 线程内审查	Slack Bot + Linear API

结果

指标	数值
Codex 代码由 Codex 自己编写	90%+
周活跃开发者	100 万+
CLI 发布后增长	20x
AI 代码审查有效率	~90%
Sora Android App	4 人 18 天从零构建
Sam Altman 评价	"Most loved internal product we've ever had"

三个案例的共同模式

把三个案例放在一起看，会发现一个清晰的模式：

给想落地 AI Agent 的团队的建议

从文档开始，不要从代码开始 — Anthropic 的经验表明，写好 CLAUDE.md / AGENTS.md 比写代码更重要。Agent 需要上下文，就像新人需要读文档。
设计人机协作流程，而不是追求全自动 — Nubank 的成功不是让 Devin 全自动迁移，而是让工程师从「执行者」变成「审查者」。27% 的 Anthropic 工程师做了"没有 AI 就不会做的事"——这意味着 Agent 不是替代人，而是让人做以前做不到的事。
建立评估体系 — Nubank 建了 cognition-golden 评估集，OpenAI 有 ~90% 有效率的 AI 代码审查。没有度量就没有改进。
让 Agent 自己造工具 — Devin 的自我工具化行为、Codex 的 100+ Skills 库，都指向同一个方向：最好的 Agent 工作流是 Agent 自己设计的。
选对语言/框架 — Codex 选择 Rust 是因为性能和正确性；Claude Code 选择 MCP 是因为安全控制。技术选型要匹配你的约束。

数据来源：

Nubank × Devin: devin.ai/customers/nubank, Nubank Engineering Blog, Clojure Conj 2024
Anthropic × Claude Code: cdn.anthropic.com, Anthropic Research Blog (Dec 2025)
OpenAI × Codex: Pragmatic Engineer Newsletter, Ars Technica, github.com/openai/codex