Jun 11, 2026

第5A篇：研究到底说了什么——关于 AI 取代工程师（数据篇）

系列：“我们构建了一条数万行代码的流水线。智能体为何做不到。”

每次 AI 行业有风吹草动——新模型、新智能体框架、新基准测试——Twitter 和公众号上都有无数人发“一切都变了”。然而，研究说了件更有意思、也更实用的事。

上篇比较了流水线和智能体：成本相差几个数量级，失败率会指数级叠加，100 个连续决策全部正确的概率可能只有 0.6%。但研究人员——不是风投，不是社交媒体——怎么说？

人人都有观点。很少有人有数据。

每次 AI 行业有点风吹草动——新模型发布、新智能体框架、新基准测试刷榜——Twitter 和公众号上就会准时出现一波帖子：“大的要来了……”“世界已经根本性地改变了……”“工程师们的前景不太妙……”语气一个比一个末日，好像每次发布会都是人类最后一天上班。

这跟天气预报的感觉差不多：每周都有“百年一遇的暴风雨”，听多了你就开始穿短裤出门了。

风投圈在鼓吹“智能体将接管一切工作流”。

也有一部分开发者觉得：我的饭碗稳得很。

声量很大。数据很安静。而数据讲述的故事两边都不爱听——因为它既不支持炒作，也不支持否认。就像这个系列一样。

让我们看看有人真正测量之后发生了什么。

METR 的时间尺度：可靠性断崖

METR——Model Evaluation & Threat Research——一直在追踪智能体能力中可能最重要的一个指标：在给定的成功率阈值下，模型能自主完成多复杂的任务？

他们用“时间尺度”（time horizon）来量化复杂度：一个任务需要人类专家花多少时间完成，就代表它有多复杂。然后问：在 50% 或 80% 的成功率下，当前最好的模型能搞定多“长”的任务？

METR 在 2026 年 5 月更新的 v1.1 结果讲了一个快速进步与硬性瓶颈并存的故事。下面是几个代表性模型的 50% 时间尺度点估计：

模型	50% 时间尺度
GPT-2（2019）	约 3 秒
GPT-4（2023）	约 4 分钟
Claude 3.5 Sonnet（2024 年 10 月版）	约 21 分钟
o3（2025）	约 2 小时
GPT-5（2025）	约 3 小时 23 分
Claude Opus 4.5（2025）	约 4 小时 53 分
Claude Opus 4.6（2026）	约 12 小时

从 3 秒到约 12 小时——七年增长了一万多倍。如果你家孩子以这个速度长个子，出生时 50 厘米，七岁就已经高得不适合继续讨论育儿问题了。

这个曲线不是线性的，是指数级的。METR v1.1 给出的整体翻倍时间约为 6.2 个月；只看 2023 年之后，约为 4.2 个月。做生产系统的人应该认真对待这个趋势。能力曲线比大多数人想象的陡得多。

但真正改变整个讨论的是下面这组数字。

上面那些时间尺度，都是在 50% 成功率阈值下的——模型完成任务的概率是一半一半。

到了 80% 成功率阈值——更接近生产环境真正需要的可靠性——数字直接塌了：

模型	50% 时间尺度	80% 时间尺度
Claude Opus 4.5	约 4 小时 53 分	约 49 分钟
Claude Opus 4.6	约 12 小时	约 1 小时 10 分

再看一遍。Claude Opus 4.6 能应对约 12 小时的任务——如果你能接受它有一半概率会失败。如果你需要 80% 的成功率，你又回到了一小时级别的任务。

打个比方：你的车理论时速 300 公里，但刹车只在 50% 的情况下能踩住。你敢开到 300 吗？大概率你会老老实实开 120——那个你确定能刹住的速度。“Demo 能跑通”和“生产能跑通”之间的差距不是一点点。是一个数量级。

这就是可靠性断崖。

这里也必须把 METR 自己强调的边界说清楚。单个模型的点估计误差区间很宽，尤其是长任务；而且这些任务主要来自软件工程、机器学习和网络安全，定义清晰、可自动评分、上下文相对干净。它们并不等于现实工作中的全部任务，更不等于一名工程师可以被替代多少小时。

即便如此，可靠性断崖仍然直接映射到第4篇看到的问题：给 5000 家公司跑流水线，不是一个需要成功一次的一小时任务。它是数千个都需要可靠运行的任务，失败率是乘法叠加的。每一步 80% 成功率，一条 10 步的流水线正确完成的概率是 10.7%。如果每一步只有 50%，最终只有约 0.1%。

这就像过十道安检门，每道门有 80% 的概率放行。听着还行，对吧？但十道走下来，能顺利通关的人只剩十分之一。剩下的全卡在某一道门前面，行李散落一地，保安在对讲机里叫支援。

我们的流水线没有这个问题——不是因为它更聪明，而是因为 90% 的步骤是确定性代码。在输入和外部环境符合预期时，这些步骤不会每次重新“判断”该怎么做。LLM 只处理分类步骤，在那里概率性输出是可以接受、可以验证、也可以被后续机制约束的。

METR 的数据精确解释了为什么这个架构能用：把不可靠的组件限制在不可靠也不会让整个系统失控的地方。

而且这个差距不只是统计学上的趣闻。一个能正确处理 80% 公司、但在 20% 上静默失败的智能体，对机构级使用来说可能比没用还糟——因为你不知道哪 20% 出了问题。生产系统的全部意义在于：要么可验证地成功，要么明确地失败。优雅降级，而非静默损坏。

50% 和 80% 的差距，就是“精彩 Demo”和“我可以把关键业务数据交给它”之间的区别。

Anthropic 两篇研究都说：“还没有”

Anthropic 在 2025–2026 年间连续发布了两项相关的劳动力市场研究。方向一致，但测量的是不同的事情。

第一篇：经济指数任务映射

第一项研究基于数百万次真实 Claude 对话，映射 AI 在整个经济中的实际使用方式。核心发现：

AI 距离理论上限还很远。 即使是计算机程序员——研究中 AI 覆盖率最高的职业之一，任务覆盖率约 75%——仍有约 25% 的任务没有被触及。大多数职业远低于三分之一。

57% 增强，43% 自动化。 现实中专业 AI 使用的主导模式是人与 AI 协作，而不是 AI 自主执行完整任务。“智能体取代人”的模式是少数，不是常态。

换句话说：大多数人把 AI 当切菜备料的帮厨，不是把整个厨房交出去让它掌勺。

第二篇：新指标与初步就业证据

第二项研究《AI 对劳动力市场的影响：新指标与初步证据》发表于 2026 年 3 月 5 日。它引入“观测暴露度”指标，把理论上的 LLM 能力与实际使用数据结合，再与真实就业结果对照。

标题结论是：从 2022 年底到论文观察期，高暴露职业的失业率没有出现系统性增加，估计的就业效应“与零不可区分”。

这不是说 AI 没有影响。论文也明确提醒，企业采用可能有滞后，公开使用数据也无法覆盖所有内部部署，现有证据仍然只是早期信号。

对普通读者来说，更重要的不是逐图细节，而是这篇论文传递的结构性信号：高暴露度与就业前景存在压力相关，但不是一刀切。

整体上，暴露度越高，官方预测的就业增长越弱；但具体职业会出现分化。有些岗位更像被 AI 直接替代，承压更早；有些岗位更像被 AI 放大产出，即使暴露度高，增长也可能保持正向。

这就是“杠杆分化”的核心：高暴露度不等于统一命运。问题不只是“你会不会用 AI”，而是“AI 是在替代你的核心价值，还是在放大你的核心价值”。

这里有个术语点值得直接说清：在美国劳工统计局的职业分类体系里，“计算机程序员”和“软件开发者”是两个不同职业。研究中的程序员显示出很高的暴露度；软件开发者则是另一个类别，不能把两组结果混为一谈。

而且即使在“软件开发者”内部，方差也很大：标准化、按规格实现的开发工作暴露度更高；依赖领域上下文、架构权衡和专家判断的开发工作暴露度更低。

另外还有一个值得关注、但必须谨慎解读的早期信号：在高暴露职业中，22–25 岁年轻人的就业进入率相对于 ChatGPT 发布前的趋势低了约 14%，而较年长人群暂未出现同样清晰的变化。论文强调，这个估计不够精确，可能存在趋势差异，不能直接解释为 AI 已经造成了这一下降。

但这个可能性值得认真对待：AI 也许没有取代有经验的工程师，却可能正在减少新人获得经验的机会。第6篇会回到这一点。

两项研究合起来的关键洞察是：自主任务执行——智能体承诺的那种——仍然不是今天专业 AI 使用的主导模式。主导模式是增强。

这把前面讨论的流水线放到了一个有意思的位置。设计架构的工程师——那是增强。LLM 在架构内处理分类——那是把自动化模式用在唯一合适的任务上。

更有意思的是，高暴露度不只可能意味着更高替代风险，也可能意味着更强的增强杠杆。真正重要的工作是 AI 周围的架构，不是 AI 本身。

数据说完了。但什么框架能帮我们理解这些数字背后的“为什么”？Karpathy 的 Software 1.0/2.0/3.0、SWE-CI 长期维护基准测试，以及长尾问题，都指向同一个方向。

下一篇：第5B篇——研究到底说了什么：框架篇。

系列目录

篇目	核心观点
00 — 引言	这个系列为什么存在
01 — 不可能的任务	一切的起点
02 — 7400+ 行代码是怎么来的	流水线是怎样滚雪球的
03A — 大脑与身体	LLM = 10% 大脑，代码 = 90% 身体
03B — 六个看起来简单的问题	让智能体翻车的边缘情况
04 — 诚实的对比	流水线 vs. 智能体，用数字说话
05A — 研究到底说了什么：数据篇	你在这里
05B — 研究到底说了什么：框架篇	数据背后的“为什么”
06 — 杠杆差距	谁从 AI 中受益，谁没有
07 — 上下文积累	智能体永远学不会的东西
08A — 委托问题	为什么你不能直接丢给它
08B — 自主性光谱	找到合适的级别
09 — 另一个极端	当怀疑变成瘫痪
10 — 两个房间	Demo 狂热者 vs. 领域怀疑论者
11 — 证据	流水线作为证据
番外 — 反方论点	AI 反驳整个系列
番外 — 站在中间地带	半夜醒来的那个念头

参考文献

METR. “Measuring AI Ability to Complete Long Tasks.” v1.1，2026 年 5 月更新。
Handa, K. 等. “Which Economic Tasks are Performed with AI? Evidence from Millions of Claude Conversations.” arXiv:2503.04761，2025。
Massenkoff, M. & McCrory, P. “Labor Market Impacts of AI: A New Measure and Early Evidence.” Anthropic，2026。