Jun 22, 2026

第9篇：另一种极端——为什么“LLM 已死”也不对

系列：“我们构建了一条数万行代码的流水线。智能体为何做不到。”

上一篇：第8B篇——自主性光谱。

Read the English version.

“LLM 不是 AGI 的终点”这句话，很可能成立；但它还不能直接推出“LLM 对现实系统没价值”。前者是研究判断，后者是产品判断。把两者压成一句“LLM 已死”，只是另一种低分辨率叙事。

上篇：第8篇——自主性光谱——真正的问题不是“要不要自主”，而是“哪一层可以交”（Part B）。“完全自主”叙事的问题，不在它一点都不真，而在它把局部成立误写成整体成立，把分层扩张误写成整体替换。

第8B篇谈的是一种压扁：

把一个本来应该按层、按块、按成熟度判断的问题，压成一句“智能体将接管一切”。

这一篇谈的是镜像的另一边：不是把局部能力夸成整体替代，而是把某条研究路线的局限压成整项技术的无效。它并非全错，甚至常常抓住了一部分真实问题。真正的问题在于：

它把“某条研究路线的局限”，压成了“这项技术对现实系统没价值”。

从系列结构上看，这一步其实很像第6篇相对于前五篇的位置。

前五篇一路在证明：AI 不能自主构建系统。最容易顺手得出的结论，就是“既然它做不到这些，那它大概也没那么有用”。第6篇真正做的，就是把这个偷懒的外推翻过来：恰恰因为判断力稀缺，AI 的杠杆反而巨大。

第8A 和第8B之后，也存在一个几乎一模一样的偷懒外推。

既然“全自主”叙事被拆掉了，既然模型不是终点，既然它有明确天花板，那是不是说明这条路本身就不值得认真构建？

很多人最后会把这一步压成一句更短、更像结论的话：“LLM 已死。”

这一篇要翻过来的，就是这个结论。它的重点，不是重新论证“AI 有用”这种今天几乎已经成了常识的判断，而是处理另一种更容易在反炒作之后顺手滑过去的误判。

这里也有一个需要说清的背景：本系列前面之所以花了大量篇幅去对抗 AI 炒作，并不是因为我们认为 AI 没用，恰恰相反——正是因为“AI 很强”“AI 会重塑工作方式”“不用就会落后”在今天几乎已经成了默认共识，成了不言自明的环境噪音，所以真正需要被补上的，反而是那些炒作叙事自动省略掉的边界、代价、失败模式和判断条件。

也正因为如此，前面的篇章有时读起来会像是在反 AI。但真正的立场一直是：价值非常大；但越是价值大，越不能靠低分辨率叙事来理解它。这就是“LLM 已死”叙事真正错的地方。错的不是说 LLM 有局限。错的是把一种关于终局能力的判断，直接翻译成一种关于当前工程价值的判断。

真正被混在一起的，其实是三句话

公开讨论里，这三句话经常被混着说：

LLM 有明确局限。
LLM 不是通往 AGI 的最终路线。
LLM 对现实系统没有长期价值。

第一句很可能是对的。第二句也完全可能是对的。但第三句，并不从前两句自动推出。

这里真正发生的，不是推理，而是滑坡。从“这项技术不是一切”，滑到“这项技术什么都不是”。从“这条路线有天花板”，滑到“今天用它搭系统就是误入歧途”。从“它不是终点”，滑到“它不值得认真构建基础设施”。

这篇要处理的，正是这个滑坡。

LeCun 真正在说什么，人们又误读了什么

Yann LeCun 是深度学习领域最有代表性的人物之一，也是长期公开质疑“仅靠当前 LLM 路线能否走到更高阶智能”的声音之一。很多人对他的印象，并不是来自完整论述，而更像是来自社交媒体上一段接一段的短视频切片、截短转述和被抽离上下文的强烈印象：好像连这样的人都已经在说，LLM 这条路没什么意思了，差不多就是死胡同了。

如果只按这些短句去理解他，通常一开始就已经把问题读偏了。如果只挑这个阵营里最强、最严肃的版本来谈，Yann LeCun 当然值得认真对待。他最强的论点，并不是“LLM 没用”，而是：如果目标是具有人类级世界理解、因果推理、规划能力的通用智能，那么仅靠自回归文本预测并不够。这是一个研究判断。

它讨论的是：

什么样的架构更可能通向更高阶的智能；
语言建模的能力边界在哪里；
世界模型、多模态学习、表征预测是否是更重要的下一步。

这是严肃判断。但它讨论的，是通往什么目标。它并没有自动回答另一个完全不同的问题：

在今天的产品与工程现实里，LLM 到底有没有巨大价值。

这两个问题不是一个问题。一个在问研究路线。一个在问工程杠杆。把它们压成一句“LLM 已死”，不是看得更深了，只是把两套判断系统硬焊在了一起。

错误发生在那个看似自然的“所以”

“LLM 不能实现通用智能。”

所以——

“LLM 不值得投资。”“LLM 只是过渡技术。”“LLM 搭出来的东西迟早都要推倒重来。”“现在认真做 LLM 产品，是站错了队。”这些“所以”，没有一个是自动成立的。

因为它们在偷偷跨越一个巨大的判断断层：

从研究目标，跳到了工程价值。

这就像有人说：

电子表格不能自动经营一家公司；
数据库不是组织智能的终极形态；
搜索引擎并不理解世界；

但没有人会因此得出：

那电子表格、数据库、搜索引擎在现实系统里都不重要。

工具不需要成为终局，才能成为基础设施。

这和第8B篇其实是同一种错误

第8B篇里，问题是把：

某些任务块上可以高度自主，

压成：

所以系统整体都可以全自主。

这一篇里，问题是把：

某条架构路线可能不足以通向 AGI，

压成：

所以它对现实系统没有长期价值。

两边的具体立场不同。但压扁方式是同一个：

把一个高分辨率判断，改写成一个低分辨率结论。

前者把局部成立，写成整体成立。后者把特定目标上的不足，写成普遍无效。这也是为什么它们都特别适合标题。标题不喜欢层次。标题喜欢立场。而工程真正需要的，恰恰是层次。

对工程团队真正重要的问题，根本不是那个问题

如果你今天真的在做系统，真正该问的通常不是：

LLM 是不是 AGI 的终点；
Transformer 会不会被替代；
世界模型会不会在五年内赢；

你真正该问的是：

这个任务里最贵、最难结构化的部分是什么；
LLM 在这里能不能创造今天真实可见的杠杆；
哪些部分必须由确定性系统兜底；
哪些失败模式今天已经足够清楚，可以被工程化；
这个组合现在能不能稳定跑起来。

研究社区当然要问：下一代架构是什么。但产品团队首先要问的，是：

今天哪种能力，和什么系统结构组合之后，能稳定地产生价值。

杠杆是真实的。如果你真的知道 AI 在哪里强、在哪里弱，知道哪些部分可以放大、哪些部分必须亲自把关，它就不是一个可有可无的玩具，而是一个会把你的有效产出成倍放大的系统部件。

反过来，如果你既高估它、又不理解它，它当然会显得像个靠不住的半成品。问题不在“它到底神不神”，而在你有没有能力把它放进一个正确的位置。

这两个问题都重要，但不是一个问题。

流水线恰好说明了为什么这个区别不能被跳过

如果你只看“通用智能”这个目标，这条流水线没有证明任何终局性判断：它没有证明 LLM 会变成世界模型，没有证明自回归文本预测足够支撑机器人规划，也没有证明当前架构就是 AI 的终点。

它证明的是另一件更朴素、也更重要的事：

在语言密集、语义模糊、规则难以穷举的任务块上，LLM 已经能提供非常真实的工程杠杆。

换句话说，AI 在这里被大量使用的，恰恰不是那些最容易被规则化的边角料，而是传统确定性方法开始失效、必须真的用到“判断力”的那一层。如果说这条流水线有一个“脑子”，那一层基本就在这里。

LLM在这条流水线里做的，不是世界建模，而是那些最难被规则穷举的语义判断：链接相关性、域名与页面语义、模糊上下文中的分类，以及其他人类很难提前写死的语言判断。

这些事情，恰恰是确定性系统最难做、但现实工作里又大量存在的部分。你当然可以继续尝试用规则、模板、关键词黑名单白名单、越来越长的例外表去逼近它。但做到一定程度以后，你会发现这不再是“工程上多花点功夫”的问题，而是任务本身已经进入了需要语义判断、上下文吸收和模糊边界处理的区域。

也正是在这个意义上，模型不是这条系统边上的装饰件，而是它在某些关键环节里的认知核心。然后其余部分——预算、重试、限速、日志、域名边界、回退、审计——由确定性工程托住。

如果没有 Opus，这个项目并不是完全做不出来。

但它很可能会被拖慢几个月；而在组织摩擦、需求拉扯、用户耐心不断消耗的过程中，项目“慢慢死掉”的概率也会越来越高。不是因为核心想法不成立，而是因为 owner 会被拖进无穷无尽的坑里，来不及把真正关键的结构搭起来。

有了足够强的模型，变化不是“你不再需要判断力”，而是你不再需要先凑齐一个完整小团队，才能知道一个想法到底站不站得住。在更早期的探索阶段，这一点尤其重要：一个 owner 加上一周高强度的推进，很多时候就已经足够把核心路径试出来、把错误方向排掉、把真正值得继续投入的部分识别出来。探索早期首先需要的，常常不是把方向过早摊平在平均协商里，而是速度、聚焦和一条能被迅速证伪的路线。

除了前面那类模糊语义判断，另一块同样重要的杠杆就发生在编码本身——而且写代码大概是今天最早让这种能力以一种既高级、又足够普遍、也足够有吸引力的方式被广泛感受到的领域。变化并不在于模型替你拥有了架构判断，而在于当方向、边界和验收标准还掌握在人手里时，那些原本必须靠人慢慢敲出来的大量实现、重构、胶水代码和局部修补，可以被显著压缩。编码现实也因此逐渐从“人主 AI 辅”走到并肩推进，再到很多实现层面越来越像是“人定方向与约束，模型承担大部分展开与填充”。

这就是为什么我们一边反对炒作，一边又必须承认杠杆之大。不是因为 AI 替你解决了问题。而是因为它极大压缩了从“有一个方向”到“知道这个方向到底值不值得继续”的距离。

这不是“LLM 什么都能做”。也不是“LLM 根本不行”。这是一种更无聊、但更真的说法：

LLM 在某一类能力上已经非常有用，而真正把这种有用变成产品的，是系统。

所以说它“已死”，不是过于尖锐。而是判断层级错了。

下一代路线值得研究，但它不是今天的反证

这也是为什么“更好的下一代路线正在来临”这句话，本身并不能推翻今天的 LLM 价值。

如果把视野放到当前以自回归语言建模为中心的 LLM 范式之外，当然还有很多值得认真做的新方向。它们如果成功，当然可能在一些真正关键的能力上超越今天的 LLM。

但这句话的关键词是：

如果。

以及：

未来。

而工程团队面对的约束通常是：

今天。

你今天上线的系统，不会因为某个理论上更优的未来架构可能出现，就自动失去价值。否则任何一代基础设施都不值得建。

数据库不是终局。云计算不是终局。搜索引擎不是终局。它们都不是“最后的答案”。但这从来不妨碍它们成为一代系统的基础设施。

搜索其实是个很贴切的类比。如果把时间拉回二十年前，网页搜索刚进入大众生活时，那种震撼感是真实存在的。它极大改变了我们获取信息的方式，改变了很多行业的组织方式，也让日常生活方便了太多。但直到今天，你也不会把搜索理解成一个“100% 替你完成判断”的产品。它做得非常好，甚至好到已经成为社会基础设施；可最后要搜什么、点哪一个结果、信哪一个来源、怎么把信息变成决定，仍然是人的事。

LLM 不是魔法，不是梦想一步到位的兑现，也不会把判断从系统里彻底拿走。

但它完全可能像搜索那样，把整个系统往前推很大一步——大到某些没有及时跟上的人，最后会发现自己已经不在同一个效率刻度上了。

它未必是最后的认知架构。但它已经足够改变大量语言任务的工程经济学。这就够它成为重要的基础设施了。

也正因为如此，“LLM 已死”这类说法才这么有传播力：它和“全自主”一样，短、硬、像裁决，把原本需要区分层次的问题，压成了一种立场选择。

但真正搭系统的人，最后迟早都得回到那些标题故意跳过的问题：输入长什么样，失败怎么暴露，回退怎么设计，哪些判断可以交，哪些不能交，哪些能力今天已经值钱，哪些还只是研究愿景。也正因为这些问题没有一句话答案，所以标题永远比工程热闹。

LLM 到底是什么

把围绕它的炒作和反向贬低都拨开之后，2026 年的 LLM 更像什么？更像语言处理领域的一次革命性进步。

这句话听起来不如“通用智能”宏大，也不如“死胡同”刺激，但它更接近现实。语言当然不是一切；可合同、报告、代码，以及大量分类、提取、总结、判断、解释工作，本来就高度依赖语言处理。

如果一种技术在这个维度上带来了真实跃迁，它就已经足够重要。它不需要先证明自己会成为“最后的智能架构”，才能被认真对待。

收束：另一种极端，错在把研究问题写成产品问题

如果把这一篇压缩成一句话，它真正想说的是：“LLM 不是 AGI 的终点”这句话，很可能成立；但它不能被直接改写成“LLM 对现实系统没价值”。前者是研究判断，后者是产品判断。把两者压成一句“LLM 已死”，并没有提高分辨率，它只是把另一类复杂性抹平了。

所以，第8B篇之后真正该补上的，不是一个新的立场口号，而是另一个同样重要的区分：

不是终点，不等于没价值。

至于 AGI 到底是什么、应该怎样定义、哪条路线才真正通向它，说到底并不是我们今天最有资格下结论的问题。那类更大的问题，可以留给那些站在更好位置、拥有更长研究视角的人去争论。

我们眼下真正看得见的，是另一件更朴素也更可靠的事：这已经是一个非常强大的工具，而且这种强大不是抽象口号，而是每天都能在现实系统里被感受到的。它最值得被利用的地方，也未必是去满足某种终极幻想。很多时候，它更实际的意义在于：把那些原本机械、重复、耗时、但又不得不做的部分压缩掉，让系统往前走一大步，也把人的时间还给判断、创造，或者干脆更有趣的事情。

这条流水线没有证明 LLM 是一切。

当一项能力已经足够强，并且被放进正确的系统结构里时，它完全可能不是终点，却已经是基础设施。

真正值得守住的，也不是某种“纯手工时代”的自尊，而是那些短期内仍然最难被替代的核心能力：判断边界、识别失真、定义问题、决定什么时候该停、什么时候该改、什么时候不能把责任继续往下交。

能把 AI 的杠杆吃满、同时又不把这些能力外包掉的人，才最不容易在下一轮变化里被替代。

下篇：第10篇——两个房间——Demo爱好者为什么永远做不完，领域专家为什么迟迟不开始。

本文是系列的第9篇。从头开始阅读。

系列目录

篇目	核心观点
00 — 引言	这个系列为什么存在
01 — 不可能的任务	一切的起点
02 — 7400+ 行代码是怎么来的	流水线是怎样滚雪球的
03A — 大脑与身体	LLM = 10% 大脑，代码 = 90% 身体
03B — 六个看起来简单的问题	让智能体翻车的边缘情况
04 — 诚实的对比	流水线 vs 智能体，用数字说话
05A — 研究到底说了什么：数据篇	METR 的可靠性断崖，Anthropic 的劳动力研究
05B — 研究到底说了什么：框架篇	Karpathy、SWE-CI、长尾、汇聚
06 — 杠杆差距	谁真正从 AI 中受益
07 — 上下文积累	智能体难以自然拥有的东西
08A — 委托问题	为什么你不能直接丢给它
08B — 自主性光谱	找到合适的级别
09 — 另一个极端	你在这里
10 — 两个房间	Demo 狂热者 vs 领域怀疑论者
11 — 证据	流水线作为证据
番外 — 反方论点	AI 反驳整个系列
番外 — 站在中间地带	半夜醒来的那个念头