第5A篇:研究到底说了什么——关于 AI 取代工程师(数据篇)

系列:“我们构建了一条数万行代码的流水线。智能体为何做不到。”
每次 AI 行业有风吹草动——新模型、新智能体框架、新基准测试——Twitter 和公众号上都有无数人发“一切都变了”。然而,研究说了件更有意思、也更实用的事。
上篇比较了流水线和智能体:成本相差几个数量级,失败率会指数级叠加,100 个连续决策全部正确的概率可能只有 0.6%。但研究人员——不是风投,不是社交媒体——怎么说?
人人都有观点。很少有人有数据。
每次 AI 行业有点风吹草动——新模型发布、新智能体框架、新基准测试刷榜——Twitter 和公众号上就会准时出现一波帖子:“大的要来了……”“世界已经根本性地改变了……”“工程师们的前景不太妙……”语气一个比一个末日,好像每次发布会都是人类最后一天上班。
这跟天气预报的感觉差不多:每周都有“百年一遇的暴风雨”,听多了你就开始穿短裤出门了。
风投圈在鼓吹“智能体将接管一切工作流”。
也有一部分开发者觉得:我的饭碗稳得很。
声量很大。数据很安静。而数据讲述的故事两边都不爱听——因为它既不支持炒作,也不支持否认。就像这个系列一样。
让我们看看有人真正测量之后发生了什么。
METR 的时间尺度:可靠性断崖
METR——Model Evaluation & Threat Research——一直在追踪智能体能力中可能最重要的一个指标:在给定的成功率阈值下,模型能自主完成多复杂的任务?
他们用“时间尺度”(time horizon)来量化复杂度:一个任务需要人类专家花多少时间完成,就代表它有多复杂。然后问:在 50% 或 80% 的成功率下,当前最好的模型能搞定多“长”的任务?
METR 在 2026 年 5 月更新的 v1.1 结果讲了一个快速进步与硬性瓶颈并存的故事。下面是几个代表性模型的 50% 时间尺度点估计:
| 模型 | 50% 时间尺度 |
|---|---|
| GPT-2(2019) | 约 3 秒 |
| GPT-4(2023) | 约 4 分钟 |
| Claude 3.5 Sonnet(2024 年 10 月版) | 约 21 分钟 |
| o3(2025) | 约 2 小时 |
| GPT-5(2025) | 约 3 小时 23 分 |
| Claude Opus 4.5(2025) | 约 4 小时 53 分 |
| Claude Opus 4.6(2026) | 约 12 小时 |
从 3 秒到约 12 小时——七年增长了一万多倍。如果你家孩子以这个速度长个子,出生时 50 厘米,七岁就已经高得不适合继续讨论育儿问题了。
这个曲线不是线性的,是指数级的。METR v1.1 给出的整体翻倍时间约为 6.2 个月;只看 2023 年之后,约为 4.2 个月。做生产系统的人应该认真对待这个趋势。能力曲线比大多数人想象的陡得多。
但真正改变整个讨论的是下面这组数字。
上面那些时间尺度,都是在 50% 成功率阈值下的——模型完成任务的概率是一半一半。
到了 80% 成功率阈值——更接近生产环境真正需要的可靠性——数字直接塌了:
| 模型 | 50% 时间尺度 | 80% 时间尺度 |
|---|---|---|
| Claude Opus 4.5 | 约 4 小时 53 分 | 约 49 分钟 |
| Claude Opus 4.6 | 约 12 小时 | 约 1 小时 10 分 |
再看一遍。Claude Opus 4.6 能应对约 12 小时的任务——如果你能接受它有一半概率会失败。如果你需要 80% 的成功率,你又回到了一小时级别的任务。
打个比方:你的车理论时速 300 公里,但刹车只在 50% 的情况下能踩住。你敢开到 300 吗?大概率你会老老实实开 120——那个你确定能刹住的速度。“Demo 能跑通”和“生产能跑通”之间的差距不是一点点。是一个数量级。
这就是可靠性断崖。
这里也必须把 METR 自己强调的边界说清楚。单个模型的点估计误差区间很宽,尤其是长任务;而且这些任务主要来自软件工程、机器学习和网络安全,定义清晰、可自动评分、上下文相对干净。它们并不等于现实工作中的全部任务,更不等于一名工程师可以被替代多少小时。
即便如此,可靠性断崖仍然直接映射到第4篇看到的问题:给 5000 家公司跑流水线,不是一个需要成功一次的一小时任务。它是数千个都需要可靠运行的任务,失败率是乘法叠加的。每一步 80% 成功率,一条 10 步的流水线正确完成的概率是 10.7%。如果每一步只有 50%,最终只有约 0.1%。
这就像过十道安检门,每道门有 80% 的概率放行。听着还行,对吧?但十道走下来,能顺利通关的人只剩十分之一。剩下的全卡在某一道门前面,行李散落一地,保安在对讲机里叫支援。
我们的流水线没有这个问题——不是因为它更聪明,而是因为 90% 的步骤是确定性代码。在输入和外部环境符合预期时,这些步骤不会每次重新“判断”该怎么做。LLM 只处理分类步骤,在那里概率性输出是可以接受、可以验证、也可以被后续机制约束的。
METR 的数据精确解释了为什么这个架构能用:把不可靠的组件限制在不可靠也不会让整个系统失控的地方。
而且这个差距不只是统计学上的趣闻。一个能正确处理 80% 公司、但在 20% 上静默失败的智能体,对机构级使用来说可能比没用还糟——因为你不知道哪 20% 出了问题。生产系统的全部意义在于:要么可验证地成功,要么明确地失败。优雅降级,而非静默损坏。
50% 和 80% 的差距,就是“精彩 Demo”和“我可以把关键业务数据交给它”之间的区别。
Anthropic 两篇研究都说:“还没有”
Anthropic 在 2025–2026 年间连续发布了两项相关的劳动力市场研究。方向一致,但测量的是不同的事情。
第一篇:经济指数任务映射
第一项研究基于数百万次真实 Claude 对话,映射 AI 在整个经济中的实际使用方式。核心发现:
AI 距离理论上限还很远。 即使是计算机程序员——研究中 AI 覆盖率最高的职业之一,任务覆盖率约 75%——仍有约 25% 的任务没有被触及。大多数职业远低于三分之一。
57% 增强,43% 自动化。 现实中专业 AI 使用的主导模式是人与 AI 协作,而不是 AI 自主执行完整任务。“智能体取代人”的模式是少数,不是常态。
换句话说:大多数人把 AI 当切菜备料的帮厨,不是把整个厨房交出去让它掌勺。
第二篇:新指标与初步就业证据
第二项研究《AI 对劳动力市场的影响:新指标与初步证据》发表于 2026 年 3 月 5 日。它引入“观测暴露度”指标,把理论上的 LLM 能力与实际使用数据结合,再与真实就业结果对照。
标题结论是:从 2022 年底到论文观察期,高暴露职业的失业率没有出现系统性增加,估计的就业效应“与零不可区分”。
这不是说 AI 没有影响。论文也明确提醒,企业采用可能有滞后,公开使用数据也无法覆盖所有内部部署,现有证据仍然只是早期信号。
对普通读者来说,更重要的不是逐图细节,而是这篇论文传递的结构性信号:高暴露度与就业前景存在压力相关,但不是一刀切。
整体上,暴露度越高,官方预测的就业增长越弱;但具体职业会出现分化。有些岗位更像被 AI 直接替代,承压更早;有些岗位更像被 AI 放大产出,即使暴露度高,增长也可能保持正向。
这就是“杠杆分化”的核心:高暴露度不等于统一命运。问题不只是“你会不会用 AI”,而是“AI 是在替代你的核心价值,还是在放大你的核心价值”。
这里有个术语点值得直接说清:在美国劳工统计局的职业分类体系里,“计算机程序员”和“软件开发者”是两个不同职业。研究中的程序员显示出很高的暴露度;软件开发者则是另一个类别,不能把两组结果混为一谈。
而且即使在“软件开发者”内部,方差也很大:标准化、按规格实现的开发工作暴露度更高;依赖领域上下文、架构权衡和专家判断的开发工作暴露度更低。
另外还有一个值得关注、但必须谨慎解读的早期信号:在高暴露职业中,22–25 岁年轻人的就业进入率相对于 ChatGPT 发布前的趋势低了约 14%,而较年长人群暂未出现同样清晰的变化。论文强调,这个估计不够精确,可能存在趋势差异,不能直接解释为 AI 已经造成了这一下降。
但这个可能性值得认真对待:AI 也许没有取代有经验的工程师,却可能正在减少新人获得经验的机会。第6篇会回到这一点。
两项研究合起来的关键洞察是:自主任务执行——智能体承诺的那种——仍然不是今天专业 AI 使用的主导模式。主导模式是增强。
这把前面讨论的流水线放到了一个有意思的位置。设计架构的工程师——那是增强。LLM 在架构内处理分类——那是把自动化模式用在唯一合适的任务上。
更有意思的是,高暴露度不只可能意味着更高替代风险,也可能意味着更强的增强杠杆。真正重要的工作是 AI 周围的架构,不是 AI 本身。
数据说完了。但什么框架能帮我们理解这些数字背后的“为什么”?Karpathy 的 Software 1.0/2.0/3.0、SWE-CI 长期维护基准测试,以及长尾问题,都指向同一个方向。
系列目录
| 篇目 | 核心观点 |
|---|---|
| 00 — 引言 | 这个系列为什么存在 |
| 01 — 不可能的任务 | 一切的起点 |
| 02 — 7400+ 行代码是怎么来的 | 流水线是怎样滚雪球的 |
| 03A — 大脑与身体 | LLM = 10% 大脑,代码 = 90% 身体 |
| 03B — 六个看起来简单的问题 | 让智能体翻车的边缘情况 |
| 04 — 诚实的对比 | 流水线 vs. 智能体,用数字说话 |
| 05A — 研究到底说了什么:数据篇 | 你在这里 |
| 05B — 研究到底说了什么:框架篇 | 数据背后的“为什么” |
| 06 — 杠杆差距 | 谁从 AI 中受益,谁没有 |
| 07 — 上下文积累 | 智能体永远学不会的东西 |
| 08A — 委托问题 | 为什么你不能直接丢给它 |
| 08B — 自主性光谱 | 找到合适的级别 |
| 09 — 另一个极端 | 当怀疑变成瘫痪 |
| 10 — 两个房间 | Demo 狂热者 vs. 领域怀疑论者 |
| 11 — 证据 | 流水线作为证据 |
| 番外 — 反方论点 | AI 反驳整个系列 |
| 番外 — 站在中间地带 | 半夜醒来的那个念头 |
参考文献
- METR. “Measuring AI Ability to Complete Long Tasks.” v1.1,2026 年 5 月更新。
- Handa, K. 等. “Which Economic Tasks are Performed with AI? Evidence from Millions of Claude Conversations.” arXiv:2503.04761,2025。
- Massenkoff, M. & McCrory, P. “Labor Market Impacts of AI: A New Measure and Early Evidence.” Anthropic,2026。