第9篇:另一种极端——为什么“LLM 已死”也不对

系列:“我们构建了一条数万行代码的流水线。智能体为何做不到。”
“LLM 不是 AGI 的终点”这句话,很可能成立;但它还不能直接推出“LLM 对现实系统没价值”。前者是研究判断,后者是产品判断。把两者压成一句“LLM 已死”,只是另一种低分辨率叙事。
上篇:第8篇——自主性光谱——真正的问题不是“要不要自主”,而是“哪一层可以交”(Part B)。“完全自主”叙事的问题,不在它一点都不真,而在它把局部成立误写成整体成立,把分层扩张误写成整体替换。
第8B篇谈的是一种压扁:
把一个本来应该按层、按块、按成熟度判断的问题,压成一句“智能体将接管一切”。
这一篇谈的是镜像的另一边:不是把局部能力夸成整体替代,而是把某条研究路线的局限压成整项技术的无效。它并非全错,甚至常常抓住了一部分真实问题。真正的问题在于:
它把“某条研究路线的局限”,压成了“这项技术对现实系统没价值”。
从系列结构上看,这一步其实很像第6篇相对于前五篇的位置。
前五篇一路在证明:AI 不能自主构建系统。最容易顺手得出的结论,就是“既然它做不到这些,那它大概也没那么有用”。第6篇真正做的,就是把这个偷懒的外推翻过来:恰恰因为判断力稀缺,AI 的杠杆反而巨大。
第8A 和第8B之后,也存在一个几乎一模一样的偷懒外推。
既然“全自主”叙事被拆掉了,既然模型不是终点,既然它有明确天花板,那是不是说明这条路本身就不值得认真构建?
很多人最后会把这一步压成一句更短、更像结论的话:“LLM 已死。”
这一篇要翻过来的,就是这个结论。它的重点,不是重新论证“AI 有用”这种今天几乎已经成了常识的判断,而是处理另一种更容易在反炒作之后顺手滑过去的误判。
这里也有一个需要说清的背景:本系列前面之所以花了大量篇幅去对抗 AI 炒作,并不是因为我们认为 AI 没用,恰恰相反——正是因为“AI 很强”“AI 会重塑工作方式”“不用就会落后”在今天几乎已经成了默认共识,成了不言自明的环境噪音,所以真正需要被补上的,反而是那些炒作叙事自动省略掉的边界、代价、失败模式和判断条件。
也正因为如此,前面的篇章有时读起来会像是在反 AI。但真正的立场一直是:价值非常大;但越是价值大,越不能靠低分辨率叙事来理解它。这就是“LLM 已死”叙事真正错的地方。错的不是说 LLM 有局限。错的是把一种关于终局能力的判断,直接翻译成一种关于当前工程价值的判断。
真正被混在一起的,其实是三句话
公开讨论里,这三句话经常被混着说:
- LLM 有明确局限。
- LLM 不是通往 AGI 的最终路线。
- LLM 对现实系统没有长期价值。
第一句很可能是对的。第二句也完全可能是对的。但第三句,并不从前两句自动推出。
这里真正发生的,不是推理,而是滑坡。从“这项技术不是一切”,滑到“这项技术什么都不是”。从“这条路线有天花板”,滑到“今天用它搭系统就是误入歧途”。从“它不是终点”,滑到“它不值得认真构建基础设施”。
这篇要处理的,正是这个滑坡。
LeCun 真正在说什么,人们又误读了什么
Yann LeCun 是深度学习领域最有代表性的人物之一,也是长期公开质疑“仅靠当前 LLM 路线能否走到更高阶智能”的声音之一。很多人对他的印象,并不是来自完整论述,而更像是来自社交媒体上一段接一段的短视频切片、截短转述和被抽离上下文的强烈印象:好像连这样的人都已经在说,LLM 这条路没什么意思了,差不多就是死胡同了。
如果只按这些短句去理解他,通常一开始就已经把问题读偏了。如果只挑这个阵营里最强、最严肃的版本来谈,Yann LeCun 当然值得认真对待。他最强的论点,并不是“LLM 没用”,而是:如果目标是具有人类级世界理解、因果推理、规划能力的通用智能,那么仅靠自回归文本预测并不够。这是一个研究判断。
它讨论的是:
- 什么样的架构更可能通向更高阶的智能;
- 语言建模的能力边界在哪里;
- 世界模型、多模态学习、表征预测是否是更重要的下一步。
这是严肃判断。但它讨论的,是通往什么目标。它并没有自动回答另一个完全不同的问题:
在今天的产品与工程现实里,LLM 到底有没有巨大价值。
这两个问题不是一个问题。一个在问研究路线。一个在问工程杠杆。把它们压成一句“LLM 已死”,不是看得更深了,只是把两套判断系统硬焊在了一起。
错误发生在那个看似自然的“所以”
“LLM 不能实现通用智能。”
所以——
“LLM 不值得投资。”“LLM 只是过渡技术。”“LLM 搭出来的东西迟早都要推倒重来。”“现在认真做 LLM 产品,是站错了队。”这些“所以”,没有一个是自动成立的。
因为它们在偷偷跨越一个巨大的判断断层:
从研究目标,跳到了工程价值。
这就像有人说:
- 电子表格不能自动经营一家公司;
- 数据库不是组织智能的终极形态;
- 搜索引擎并不理解世界;
但没有人会因此得出:
那电子表格、数据库、搜索引擎在现实系统里都不重要。
工具不需要成为终局,才能成为基础设施。
这和第8B篇其实是同一种错误
第8B篇里,问题是把:
- 某些任务块上可以高度自主,
压成:
- 所以系统整体都可以全自主。
这一篇里,问题是把:
- 某条架构路线可能不足以通向 AGI,
压成:
- 所以它对现实系统没有长期价值。
两边的具体立场不同。但压扁方式是同一个:
把一个高分辨率判断,改写成一个低分辨率结论。
前者把局部成立,写成整体成立。后者把特定目标上的不足,写成普遍无效。这也是为什么它们都特别适合标题。标题不喜欢层次。标题喜欢立场。而工程真正需要的,恰恰是层次。
对工程团队真正重要的问题,根本不是那个问题
如果你今天真的在做系统,真正该问的通常不是:
- LLM 是不是 AGI 的终点;
- Transformer 会不会被替代;
- 世界模型会不会在五年内赢;
你真正该问的是:
- 这个任务里最贵、最难结构化的部分是什么;
- LLM 在这里能不能创造今天真实可见的杠杆;
- 哪些部分必须由确定性系统兜底;
- 哪些失败模式今天已经足够清楚,可以被工程化;
- 这个组合现在能不能稳定跑起来。
研究社区当然要问:下一代架构是什么。但产品团队首先要问的,是:
今天哪种能力,和什么系统结构组合之后,能稳定地产生价值。
杠杆是真实的。如果你真的知道 AI 在哪里强、在哪里弱,知道哪些部分可以放大、哪些部分必须亲自把关,它就不是一个可有可无的玩具,而是一个会把你的有效产出成倍放大的系统部件。
反过来,如果你既高估它、又不理解它,它当然会显得像个靠不住的半成品。问题不在“它到底神不神”,而在你有没有能力把它放进一个正确的位置。
这两个问题都重要,但不是一个问题。
流水线恰好说明了为什么这个区别不能被跳过
如果你只看“通用智能”这个目标,这条流水线没有证明任何终局性判断:它没有证明 LLM 会变成世界模型,没有证明自回归文本预测足够支撑机器人规划,也没有证明当前架构就是 AI 的终点。
它证明的是另一件更朴素、也更重要的事:
在语言密集、语义模糊、规则难以穷举的任务块上,LLM 已经能提供非常真实的工程杠杆。
换句话说,AI 在这里被大量使用的,恰恰不是那些最容易被规则化的边角料,而是传统确定性方法开始失效、必须真的用到“判断力”的那一层。如果说这条流水线有一个“脑子”,那一层基本就在这里。
LLM在这条流水线里做的,不是世界建模,而是那些最难被规则穷举的语义判断:链接相关性、域名与页面语义、模糊上下文中的分类,以及其他人类很难提前写死的语言判断。
这些事情,恰恰是确定性系统最难做、但现实工作里又大量存在的部分。你当然可以继续尝试用规则、模板、关键词黑名单白名单、越来越长的例外表去逼近它。但做到一定程度以后,你会发现这不再是“工程上多花点功夫”的问题,而是任务本身已经进入了需要语义判断、上下文吸收和模糊边界处理的区域。
也正是在这个意义上,模型不是这条系统边上的装饰件,而是它在某些关键环节里的认知核心。然后其余部分——预算、重试、限速、日志、域名边界、回退、审计——由确定性工程托住。
如果没有 Opus,这个项目并不是完全做不出来。
但它很可能会被拖慢几个月;而在组织摩擦、需求拉扯、用户耐心不断消耗的过程中,项目“慢慢死掉”的概率也会越来越高。不是因为核心想法不成立,而是因为 owner 会被拖进无穷无尽的坑里,来不及把真正关键的结构搭起来。
有了足够强的模型,变化不是“你不再需要判断力”,而是你不再需要先凑齐一个完整小团队,才能知道一个想法到底站不站得住。在更早期的探索阶段,这一点尤其重要:一个 owner 加上一周高强度的推进,很多时候就已经足够把核心路径试出来、把错误方向排掉、把真正值得继续投入的部分识别出来。探索早期首先需要的,常常不是把方向过早摊平在平均协商里,而是速度、聚焦和一条能被迅速证伪的路线。
除了前面那类模糊语义判断,另一块同样重要的杠杆就发生在编码本身——而且写代码大概是今天最早让这种能力以一种既高级、又足够普遍、也足够有吸引力的方式被广泛感受到的领域。变化并不在于模型替你拥有了架构判断,而在于当方向、边界和验收标准还掌握在人手里时,那些原本必须靠人慢慢敲出来的大量实现、重构、胶水代码和局部修补,可以被显著压缩。编码现实也因此逐渐从“人主 AI 辅”走到并肩推进,再到很多实现层面越来越像是“人定方向与约束,模型承担大部分展开与填充”。
这就是为什么我们一边反对炒作,一边又必须承认杠杆之大。不是因为 AI 替你解决了问题。而是因为它极大压缩了从“有一个方向”到“知道这个方向到底值不值得继续”的距离。
这不是“LLM 什么都能做”。也不是“LLM 根本不行”。这是一种更无聊、但更真的说法:
LLM 在某一类能力上已经非常有用,而真正把这种有用变成产品的,是系统。
所以说它“已死”,不是过于尖锐。而是判断层级错了。
下一代路线值得研究,但它不是今天的反证
这也是为什么“更好的下一代路线正在来临”这句话,本身并不能推翻今天的 LLM 价值。
如果把视野放到当前以自回归语言建模为中心的 LLM 范式之外,当然还有很多值得认真做的新方向。它们如果成功,当然可能在一些真正关键的能力上超越今天的 LLM。
但这句话的关键词是:
如果。
以及:
未来。
而工程团队面对的约束通常是:
今天。
你今天上线的系统,不会因为某个理论上更优的未来架构可能出现,就自动失去价值。否则任何一代基础设施都不值得建。
数据库不是终局。云计算不是终局。搜索引擎不是终局。它们都不是“最后的答案”。但这从来不妨碍它们成为一代系统的基础设施。
搜索其实是个很贴切的类比。如果把时间拉回二十年前,网页搜索刚进入大众生活时,那种震撼感是真实存在的。它极大改变了我们获取信息的方式,改变了很多行业的组织方式,也让日常生活方便了太多。但直到今天,你也不会把搜索理解成一个“100% 替你完成判断”的产品。它做得非常好,甚至好到已经成为社会基础设施;可最后要搜什么、点哪一个结果、信哪一个来源、怎么把信息变成决定,仍然是人的事。
LLM 不是魔法,不是梦想一步到位的兑现,也不会把判断从系统里彻底拿走。
但它完全可能像搜索那样,把整个系统往前推很大一步——大到某些没有及时跟上的人,最后会发现自己已经不在同一个效率刻度上了。
它未必是最后的认知架构。但它已经足够改变大量语言任务的工程经济学。这就够它成为重要的基础设施了。
也正因为如此,“LLM 已死”这类说法才这么有传播力:它和“全自主”一样,短、硬、像裁决,把原本需要区分层次的问题,压成了一种立场选择。
但真正搭系统的人,最后迟早都得回到那些标题故意跳过的问题:输入长什么样,失败怎么暴露,回退怎么设计,哪些判断可以交,哪些不能交,哪些能力今天已经值钱,哪些还只是研究愿景。也正因为这些问题没有一句话答案,所以标题永远比工程热闹。
LLM 到底是什么
把围绕它的炒作和反向贬低都拨开之后,2026 年的 LLM 更像什么?更像语言处理领域的一次革命性进步。
这句话听起来不如“通用智能”宏大,也不如“死胡同”刺激,但它更接近现实。语言当然不是一切;可合同、报告、代码,以及大量分类、提取、总结、判断、解释工作,本来就高度依赖语言处理。
如果一种技术在这个维度上带来了真实跃迁,它就已经足够重要。它不需要先证明自己会成为“最后的智能架构”,才能被认真对待。
收束:另一种极端,错在把研究问题写成产品问题
如果把这一篇压缩成一句话,它真正想说的是:“LLM 不是 AGI 的终点”这句话,很可能成立;但它不能被直接改写成“LLM 对现实系统没价值”。前者是研究判断,后者是产品判断。把两者压成一句“LLM 已死”,并没有提高分辨率,它只是把另一类复杂性抹平了。
所以,第8B篇之后真正该补上的,不是一个新的立场口号,而是另一个同样重要的区分:
不是终点,不等于没价值。
至于 AGI 到底是什么、应该怎样定义、哪条路线才真正通向它,说到底并不是我们今天最有资格下结论的问题。那类更大的问题,可以留给那些站在更好位置、拥有更长研究视角的人去争论。
我们眼下真正看得见的,是另一件更朴素也更可靠的事:这已经是一个非常强大的工具,而且这种强大不是抽象口号,而是每天都能在现实系统里被感受到的。它最值得被利用的地方,也未必是去满足某种终极幻想。很多时候,它更实际的意义在于:把那些原本机械、重复、耗时、但又不得不做的部分压缩掉,让系统往前走一大步,也把人的时间还给判断、创造,或者干脆更有趣的事情。
这条流水线没有证明 LLM 是一切。
当一项能力已经足够强,并且被放进正确的系统结构里时,它完全可能不是终点,却已经是基础设施。
真正值得守住的,也不是某种“纯手工时代”的自尊,而是那些短期内仍然最难被替代的核心能力:判断边界、识别失真、定义问题、决定什么时候该停、什么时候该改、什么时候不能把责任继续往下交。
能把 AI 的杠杆吃满、同时又不把这些能力外包掉的人,才最不容易在下一轮变化里被替代。
下篇:第10篇——两个房间——Demo爱好者为什么永远做不完,领域专家为什么迟迟不开始。
本文是系列的第9篇。从头开始阅读。
系列目录
| 篇目 | 核心观点 |
|---|---|
| 00 — 引言 | 这个系列为什么存在 |
| 01 — 不可能的任务 | 一切的起点 |
| 02 — 7400+ 行代码是怎么来的 | 流水线是怎样滚雪球的 |
| 03A — 大脑与身体 | LLM = 10% 大脑,代码 = 90% 身体 |
| 03B — 六个看起来简单的问题 | 让智能体翻车的边缘情况 |
| 04 — 诚实的对比 | 流水线 vs 智能体,用数字说话 |
| 05A — 研究到底说了什么:数据篇 | METR 的可靠性断崖,Anthropic 的劳动力研究 |
| 05B — 研究到底说了什么:框架篇 | Karpathy、SWE-CI、长尾、汇聚 |
| 06 — 杠杆差距 | 谁真正从 AI 中受益 |
| 07 — 上下文积累 | 智能体难以自然拥有的东西 |
| 08A — 委托问题 | 为什么你不能直接丢给它 |
| 08B — 自主性光谱 | 找到合适的级别 |
| 09 — 另一个极端 | 你在这里 |
| 10 — 两个房间 | Demo 狂热者 vs 领域怀疑论者 |
| 11 — 证据 | 流水线作为证据 |
| 番外 — 反方论点 | AI 反驳整个系列 |
| 番外 — 站在中间地带 | 半夜醒来的那个念头 |