第9篇:另一种极端——为什么“LLM 已死”也不对

系列:“我们构建了一条数万行代码的流水线。智能体为何做不到。”

上一篇:第8B篇——自主性光谱。

Read the English version.

“LLM 不是 AGI 的终点”这句话,很可能成立;但它还不能直接推出“LLM 对现实系统没价值”。前者是研究判断,后者是产品判断。把两者压成一句“LLM 已死”,只是另一种低分辨率叙事。

上篇:第8篇——自主性光谱——真正的问题不是“要不要自主”,而是“哪一层可以交”(Part B)。“完全自主”叙事的问题,不在它一点都不真,而在它把局部成立误写成整体成立,把分层扩张误写成整体替换。

第8B篇谈的是一种压扁:

把一个本来应该按层、按块、按成熟度判断的问题,压成一句“智能体将接管一切”。

这一篇谈的是镜像的另一边:不是把局部能力夸成整体替代,而是把某条研究路线的局限压成整项技术的无效。它并非全错,甚至常常抓住了一部分真实问题。真正的问题在于:

它把“某条研究路线的局限”,压成了“这项技术对现实系统没价值”。

从系列结构上看,这一步其实很像第6篇相对于前五篇的位置。

前五篇一路在证明:AI 不能自主构建系统。最容易顺手得出的结论,就是“既然它做不到这些,那它大概也没那么有用”。第6篇真正做的,就是把这个偷懒的外推翻过来:恰恰因为判断力稀缺,AI 的杠杆反而巨大。

第8A 和第8B之后,也存在一个几乎一模一样的偷懒外推。

既然“全自主”叙事被拆掉了,既然模型不是终点,既然它有明确天花板,那是不是说明这条路本身就不值得认真构建?

很多人最后会把这一步压成一句更短、更像结论的话:“LLM 已死。”

这一篇要翻过来的,就是这个结论。它的重点,不是重新论证“AI 有用”这种今天几乎已经成了常识的判断,而是处理另一种更容易在反炒作之后顺手滑过去的误判。

这里也有一个需要说清的背景:本系列前面之所以花了大量篇幅去对抗 AI 炒作,并不是因为我们认为 AI 没用,恰恰相反——正是因为“AI 很强”“AI 会重塑工作方式”“不用就会落后”在今天几乎已经成了默认共识,成了不言自明的环境噪音,所以真正需要被补上的,反而是那些炒作叙事自动省略掉的边界、代价、失败模式和判断条件。

也正因为如此,前面的篇章有时读起来会像是在反 AI。但真正的立场一直是:价值非常大;但越是价值大,越不能靠低分辨率叙事来理解它。这就是“LLM 已死”叙事真正错的地方。错的不是说 LLM 有局限。错的是把一种关于终局能力的判断,直接翻译成一种关于当前工程价值的判断。

真正被混在一起的,其实是三句话

公开讨论里,这三句话经常被混着说:

  1. LLM 有明确局限。
  2. LLM 不是通往 AGI 的最终路线。
  3. LLM 对现实系统没有长期价值。

第一句很可能是对的。第二句也完全可能是对的。但第三句,并不从前两句自动推出。

这里真正发生的,不是推理,而是滑坡。从“这项技术不是一切”,滑到“这项技术什么都不是”。从“这条路线有天花板”,滑到“今天用它搭系统就是误入歧途”。从“它不是终点”,滑到“它不值得认真构建基础设施”。

这篇要处理的,正是这个滑坡。

LeCun 真正在说什么,人们又误读了什么

Yann LeCun 是深度学习领域最有代表性的人物之一,也是长期公开质疑“仅靠当前 LLM 路线能否走到更高阶智能”的声音之一。很多人对他的印象,并不是来自完整论述,而更像是来自社交媒体上一段接一段的短视频切片、截短转述和被抽离上下文的强烈印象:好像连这样的人都已经在说,LLM 这条路没什么意思了,差不多就是死胡同了。

如果只按这些短句去理解他,通常一开始就已经把问题读偏了。如果只挑这个阵营里最强、最严肃的版本来谈,Yann LeCun 当然值得认真对待。他最强的论点,并不是“LLM 没用”,而是:如果目标是具有人类级世界理解、因果推理、规划能力的通用智能,那么仅靠自回归文本预测并不够。这是一个研究判断。

它讨论的是:

  • 什么样的架构更可能通向更高阶的智能;
  • 语言建模的能力边界在哪里;
  • 世界模型、多模态学习、表征预测是否是更重要的下一步。

这是严肃判断。但它讨论的,是通往什么目标。它并没有自动回答另一个完全不同的问题:

在今天的产品与工程现实里,LLM 到底有没有巨大价值。

这两个问题不是一个问题。一个在问研究路线。一个在问工程杠杆。把它们压成一句“LLM 已死”,不是看得更深了,只是把两套判断系统硬焊在了一起。

错误发生在那个看似自然的“所以”

“LLM 不能实现通用智能。”

所以——

“LLM 不值得投资。”“LLM 只是过渡技术。”“LLM 搭出来的东西迟早都要推倒重来。”“现在认真做 LLM 产品,是站错了队。”这些“所以”,没有一个是自动成立的。

因为它们在偷偷跨越一个巨大的判断断层:

从研究目标,跳到了工程价值。

这就像有人说:

  • 电子表格不能自动经营一家公司;
  • 数据库不是组织智能的终极形态;
  • 搜索引擎并不理解世界;

但没有人会因此得出:

那电子表格、数据库、搜索引擎在现实系统里都不重要。

工具不需要成为终局,才能成为基础设施。

这和第8B篇其实是同一种错误

第8B篇里,问题是把:

  • 某些任务块上可以高度自主,

压成:

  • 所以系统整体都可以全自主。

这一篇里,问题是把:

  • 某条架构路线可能不足以通向 AGI,

压成:

  • 所以它对现实系统没有长期价值。

两边的具体立场不同。但压扁方式是同一个:

把一个高分辨率判断,改写成一个低分辨率结论。

前者把局部成立,写成整体成立。后者把特定目标上的不足,写成普遍无效。这也是为什么它们都特别适合标题。标题不喜欢层次。标题喜欢立场。而工程真正需要的,恰恰是层次。

对工程团队真正重要的问题,根本不是那个问题

如果你今天真的在做系统,真正该问的通常不是:

  • LLM 是不是 AGI 的终点;
  • Transformer 会不会被替代;
  • 世界模型会不会在五年内赢;

你真正该问的是:

  • 这个任务里最贵、最难结构化的部分是什么;
  • LLM 在这里能不能创造今天真实可见的杠杆;
  • 哪些部分必须由确定性系统兜底;
  • 哪些失败模式今天已经足够清楚,可以被工程化;
  • 这个组合现在能不能稳定跑起来。

研究社区当然要问:下一代架构是什么。但产品团队首先要问的,是:

今天哪种能力,和什么系统结构组合之后,能稳定地产生价值。

杠杆是真实的。如果你真的知道 AI 在哪里强、在哪里弱,知道哪些部分可以放大、哪些部分必须亲自把关,它就不是一个可有可无的玩具,而是一个会把你的有效产出成倍放大的系统部件。

反过来,如果你既高估它、又不理解它,它当然会显得像个靠不住的半成品。问题不在“它到底神不神”,而在你有没有能力把它放进一个正确的位置。

这两个问题都重要,但不是一个问题。

流水线恰好说明了为什么这个区别不能被跳过

如果你只看“通用智能”这个目标,这条流水线没有证明任何终局性判断:它没有证明 LLM 会变成世界模型,没有证明自回归文本预测足够支撑机器人规划,也没有证明当前架构就是 AI 的终点。

它证明的是另一件更朴素、也更重要的事:

在语言密集、语义模糊、规则难以穷举的任务块上,LLM 已经能提供非常真实的工程杠杆。

换句话说,AI 在这里被大量使用的,恰恰不是那些最容易被规则化的边角料,而是传统确定性方法开始失效、必须真的用到“判断力”的那一层。如果说这条流水线有一个“脑子”,那一层基本就在这里。

LLM在这条流水线里做的,不是世界建模,而是那些最难被规则穷举的语义判断:链接相关性、域名与页面语义、模糊上下文中的分类,以及其他人类很难提前写死的语言判断。

这些事情,恰恰是确定性系统最难做、但现实工作里又大量存在的部分。你当然可以继续尝试用规则、模板、关键词黑名单白名单、越来越长的例外表去逼近它。但做到一定程度以后,你会发现这不再是“工程上多花点功夫”的问题,而是任务本身已经进入了需要语义判断、上下文吸收和模糊边界处理的区域。

也正是在这个意义上,模型不是这条系统边上的装饰件,而是它在某些关键环节里的认知核心。然后其余部分——预算、重试、限速、日志、域名边界、回退、审计——由确定性工程托住。

如果没有 Opus,这个项目并不是完全做不出来。

但它很可能会被拖慢几个月;而在组织摩擦、需求拉扯、用户耐心不断消耗的过程中,项目“慢慢死掉”的概率也会越来越高。不是因为核心想法不成立,而是因为 owner 会被拖进无穷无尽的坑里,来不及把真正关键的结构搭起来。

有了足够强的模型,变化不是“你不再需要判断力”,而是你不再需要先凑齐一个完整小团队,才能知道一个想法到底站不站得住。在更早期的探索阶段,这一点尤其重要:一个 owner 加上一周高强度的推进,很多时候就已经足够把核心路径试出来、把错误方向排掉、把真正值得继续投入的部分识别出来。探索早期首先需要的,常常不是把方向过早摊平在平均协商里,而是速度、聚焦和一条能被迅速证伪的路线。

除了前面那类模糊语义判断,另一块同样重要的杠杆就发生在编码本身——而且写代码大概是今天最早让这种能力以一种既高级、又足够普遍、也足够有吸引力的方式被广泛感受到的领域。变化并不在于模型替你拥有了架构判断,而在于当方向、边界和验收标准还掌握在人手里时,那些原本必须靠人慢慢敲出来的大量实现、重构、胶水代码和局部修补,可以被显著压缩。编码现实也因此逐渐从“人主 AI 辅”走到并肩推进,再到很多实现层面越来越像是“人定方向与约束,模型承担大部分展开与填充”。

这就是为什么我们一边反对炒作,一边又必须承认杠杆之大。不是因为 AI 替你解决了问题。而是因为它极大压缩了从“有一个方向”到“知道这个方向到底值不值得继续”的距离。

这不是“LLM 什么都能做”。也不是“LLM 根本不行”。这是一种更无聊、但更真的说法:

LLM 在某一类能力上已经非常有用,而真正把这种有用变成产品的,是系统。

所以说它“已死”,不是过于尖锐。而是判断层级错了。

下一代路线值得研究,但它不是今天的反证

这也是为什么“更好的下一代路线正在来临”这句话,本身并不能推翻今天的 LLM 价值。

如果把视野放到当前以自回归语言建模为中心的 LLM 范式之外,当然还有很多值得认真做的新方向。它们如果成功,当然可能在一些真正关键的能力上超越今天的 LLM。

但这句话的关键词是:

如果。

以及:

未来。

而工程团队面对的约束通常是:

今天。

你今天上线的系统,不会因为某个理论上更优的未来架构可能出现,就自动失去价值。否则任何一代基础设施都不值得建。

数据库不是终局。云计算不是终局。搜索引擎不是终局。它们都不是“最后的答案”。但这从来不妨碍它们成为一代系统的基础设施。

搜索其实是个很贴切的类比。如果把时间拉回二十年前,网页搜索刚进入大众生活时,那种震撼感是真实存在的。它极大改变了我们获取信息的方式,改变了很多行业的组织方式,也让日常生活方便了太多。但直到今天,你也不会把搜索理解成一个“100% 替你完成判断”的产品。它做得非常好,甚至好到已经成为社会基础设施;可最后要搜什么、点哪一个结果、信哪一个来源、怎么把信息变成决定,仍然是人的事。

LLM 不是魔法,不是梦想一步到位的兑现,也不会把判断从系统里彻底拿走。

但它完全可能像搜索那样,把整个系统往前推很大一步——大到某些没有及时跟上的人,最后会发现自己已经不在同一个效率刻度上了。

它未必是最后的认知架构。但它已经足够改变大量语言任务的工程经济学。这就够它成为重要的基础设施了。

也正因为如此,“LLM 已死”这类说法才这么有传播力:它和“全自主”一样,短、硬、像裁决,把原本需要区分层次的问题,压成了一种立场选择。

但真正搭系统的人,最后迟早都得回到那些标题故意跳过的问题:输入长什么样,失败怎么暴露,回退怎么设计,哪些判断可以交,哪些不能交,哪些能力今天已经值钱,哪些还只是研究愿景。也正因为这些问题没有一句话答案,所以标题永远比工程热闹。

LLM 到底是什么

把围绕它的炒作和反向贬低都拨开之后,2026 年的 LLM 更像什么?更像语言处理领域的一次革命性进步。

这句话听起来不如“通用智能”宏大,也不如“死胡同”刺激,但它更接近现实。语言当然不是一切;可合同、报告、代码,以及大量分类、提取、总结、判断、解释工作,本来就高度依赖语言处理。

如果一种技术在这个维度上带来了真实跃迁,它就已经足够重要。它不需要先证明自己会成为“最后的智能架构”,才能被认真对待。

收束:另一种极端,错在把研究问题写成产品问题

如果把这一篇压缩成一句话,它真正想说的是:“LLM 不是 AGI 的终点”这句话,很可能成立;但它不能被直接改写成“LLM 对现实系统没价值”。前者是研究判断,后者是产品判断。把两者压成一句“LLM 已死”,并没有提高分辨率,它只是把另一类复杂性抹平了。

所以,第8B篇之后真正该补上的,不是一个新的立场口号,而是另一个同样重要的区分:

不是终点,不等于没价值。

至于 AGI 到底是什么、应该怎样定义、哪条路线才真正通向它,说到底并不是我们今天最有资格下结论的问题。那类更大的问题,可以留给那些站在更好位置、拥有更长研究视角的人去争论。

我们眼下真正看得见的,是另一件更朴素也更可靠的事:这已经是一个非常强大的工具,而且这种强大不是抽象口号,而是每天都能在现实系统里被感受到的。它最值得被利用的地方,也未必是去满足某种终极幻想。很多时候,它更实际的意义在于:把那些原本机械、重复、耗时、但又不得不做的部分压缩掉,让系统往前走一大步,也把人的时间还给判断、创造,或者干脆更有趣的事情。

这条流水线没有证明 LLM 是一切。

当一项能力已经足够强,并且被放进正确的系统结构里时,它完全可能不是终点,却已经是基础设施。

真正值得守住的,也不是某种“纯手工时代”的自尊,而是那些短期内仍然最难被替代的核心能力:判断边界、识别失真、定义问题、决定什么时候该停、什么时候该改、什么时候不能把责任继续往下交。

能把 AI 的杠杆吃满、同时又不把这些能力外包掉的人,才最不容易在下一轮变化里被替代。

下篇:第10篇——两个房间——Demo爱好者为什么永远做不完,领域专家为什么迟迟不开始。

本文是系列的第9篇。从头开始阅读。

系列目录

篇目核心观点
00 — 引言这个系列为什么存在
01 — 不可能的任务一切的起点
02 — 7400+ 行代码是怎么来的流水线是怎样滚雪球的
03A — 大脑与身体LLM = 10% 大脑,代码 = 90% 身体
03B — 六个看起来简单的问题让智能体翻车的边缘情况
04 — 诚实的对比流水线 vs 智能体,用数字说话
05A — 研究到底说了什么:数据篇METR 的可靠性断崖,Anthropic 的劳动力研究
05B — 研究到底说了什么:框架篇Karpathy、SWE-CI、长尾、汇聚
06 — 杠杆差距谁真正从 AI 中受益
07 — 上下文积累智能体难以自然拥有的东西
08A — 委托问题为什么你不能直接丢给它
08B — 自主性光谱找到合适的级别
09 — 另一个极端你在这里
10 — 两个房间Demo 狂热者 vs 领域怀疑论者
11 — 证据流水线作为证据
番外 — 反方论点AI 反驳整个系列
番外 — 站在中间地带半夜醒来的那个念头