Jun 23, 2026

第10篇：两个房间——Demo爱好者永远做不完，领域专家迟迟不开始

系列：“我们构建了一条数万行代码的流水线。智能体为何做不到。”

上一篇：第9篇——另一个极端。

Read the English version.

Demo爱好者看见能力，领域专家看见风险；真正缺的，是把两者接起来的责任结构。

上篇：第9篇——另一个极端。“LLM已死”和“智能体统治世界”一样引人注目。两个都以同样的方式错了。中间立场，才是生产系统存在的地方。

第8篇和第9篇讨论的是公开话语中的两个极端：“智能体什么都能干”和“LLM已死”。两者都是媒体对细致观点的简化放大。

但极端叙事不只活在标题里。它们活在会议室里——活在那些真正要决定搭什么、信任什么的人身上。

这篇讲的是几乎每个跟AI打交道的机构里都存在的两拨人。你见过他们。

房间1：Demo爱好者

Demo爱好者真心喜欢AI。他们跟踪每次发布，试用每个新框架，参加各种技术会议。他们能在三十分钟内给你展示一个让人印象深刻的东西：一个回答ESG问题的聊天机器人、一个分类链接的原型、一个能浏览网站下载PDF的智能体。

Demo是能跑的。它总是能跑的。而且要承认：Demo也不是没价值。Demo本来就不是拿来证明一切都已经完成的。它的作用，是先把能力亮出来，让人第一次看见原来什么是可能的。

三年过去了。没有一个生产系统被投资团队真正用上。

Demo爱好者的本能是追求通用性。标准封装。平台方案。已经有框架了为什么还要自己造？不要重复造轮子。接上接口。发布封装。

更麻烦的是，很多 Demo 爱好者其实只熟悉 API 层。他们懂接口，不等于懂模型；懂平台，不等于看得见边界。会接厂商平台、会调通一个模型、会包一层产品界面，不等于知道模型能力差异在哪里、失真会从哪里开始、失败边界落在什么地方。于是他们很容易把“能调通一个模型”，误以为“理解了模型能力”。但看不见这些边界的人，很容易做出演示；很难判断这个演示能不能变成产品。

问题在于：封装没有解决领域特定的那部分。它解决的是本来就容易的那部分。真正难的问题——这个系列前面九篇一直在描述的——藏在“demo能跑”和“在5000家公司上可靠地、大规模地、正确地跑”之间的鸿沟里。

Demo爱好者的话术听起来像效率：“ChatGPT都能做，为什么还要建那么多？”

而对面的反问也是真的：一个通用封装的价值在哪？如果你搭的东西不过是LLM外面包了一层皮——没有领域逻辑、没有边界情况处理、没有积累的工程判断——那用户确实不如直接用ChatGPT。封装没有增加任何东西。它是一个假装成产品的demo。

价值增量来自另外那90%。分类层。预算逻辑。重试策略。域名范围规则。robots.txt合规。PDF评分。推迟队列。所有让“一家公司的demo能跑”变成“几千家公司的生产系统在跑”的东西。

那不叫重复造轮子。那叫给轮子修路。

但如果没有业务领域一侧给方向，Demo爱好者也很容易停在这里：不断展示能力，不断制造“有意思的东西”，最后却只是又搭出一个主要让自己兴奋的工具。因为他们不知道业务真正卡在哪里，不知道该优先解决什么，也不知道一个工具怎样才算被积极地、负责任地用进现实流程里。

但Demo爱好者不修路。他们造轮子——一个又一个，一个比一个亮，但没有一个装到能去某个地方的车上。更讽刺的是，他们也常常会反过来嘲笑深度定制 AI 应用的人是在“重复造轮子”。如果只站在通用模型和平台封装那一层，很多领域工程确实看起来像迟早会被大厂迭代吞掉的临时工作。可真正落到生产里，价值往往不在通用能力本身，而在谁能把能力安放到具体业务边界、责任结构和可靠性要求里。

Demo爱好者的失败模式：永远快做完了。从来没有交付。

房间2：领域专家

领域专家懂业务。深度地懂。他们做了多年甚至几十年的ESG分析、投资组合管理、投研。他们见过技术浪潮来来去去。他们以前也被告诉过某个东西会改变一切。

他们也看过demo。而那些demo没有变成产品。聊天机器人胡编了一家公司的碳排放数据。“AI驱动”的报告里有初级分析师都能发现的错误。智能体下载了错误的PDF，直到客户会议上才有人注意到。

而且，很多领域专家最初并不是完全不为所动。恰恰相反，他们往往先被这些能力真的震一下：如果系统已经能回答、总结、分类、生成，那自己多年积累的判断，会不会突然没那么稀缺了？这种不安并不难理解。也正因为它真实，当demo在关键处失手时，人很容易本能地松一口气：至少世界还没有一下子改写，自己熟悉的专业价值还在。这里面未必有什么恶意，更多是一种专业身份受到冲击之后的自我保护。问题只在于，如果这口气松得太快，就很容易把“这个demo不行”直接读成“这条路都不行”。

所以领域专家说——合情合理地说：

“AI会编造。” “不够可靠。” “我只需要流程顺畅。” “别往我头上堆工具了。”

每一条都是对的。幻觉是真实的。可靠性顾虑是合理的。流程中断有真实成本。被塞一堆不好用的工具比没有工具更糟。

领域专家不是在抵触。他们在精确地描述自己需要什么：准确、可靠、尊重现有工作流程。三年的demo没有交付这些东西，这不是他们的问题。是 Demo 爱好者的问题。

但领域专家的应对方式产生了自身的问题。完全退出AI意味着退回到无法规模化的主观判断——无法被检验、无法被系统性地改进、无法跟上市场产生信息的速度。

而且，没有技术一侧持续把能力边界往前推，领域专家往往也很难知道：到底哪些事已经可以做，哪些过去不现实的流程现在开始现实了，哪些真正有意思的新做法会从组合里冒出来。Demo常常确实浅，但它至少在提示可能性空间。

“我自己读报告，自己形成观点”——对50家公司来说是可以坚持的哲学。对几千家公司来说不是。而当竞争对手在用AI——不是demo版的，而是工程化版的——更快、更一致、更大规模地处理信息时，纯主观方式就变成了一个随时间复合的竞争劣势。

领域专家对问题的诊断没有错。他们对结论的判断错了。对“AI会编造”的正确回应不是“不用AI”。而是“搭一个系统，让编造被捕获、被限制、被纠正。”

这就是流水线做的事。也是领域专家一直在要的东西。他们只是没被展示过——因为Demo爱好者每次展示的都是demo，不是这个。

领域专家的失败模式：顾虑合理，结论偏了。一直没有开始。

碰撞

这两拨人会碰撞。这种碰撞并不罕见。

一边说：“别重复造轮子了。有框架。有平台。用标准方案。”

另一边说——或者心里想：“你的价值增量在哪？如果只是个ChatGPT的壳，用户为什么不直接用ChatGPT？”

两边对对方的弱点看得都很准。

这也是为什么，去看一些真正资深、而且在各自领域里非常受尊重的软件工程师或领域从业者的反应，会很有意思。

有些人会热情拥抱这波变化；也确实有一些人，会非常明确地站在另一边：强调严谨性，强调工程责任，强调“我们绝不会把 AI 生成的东西直接放进产品”。

这些辩护并不愚蠢，很多时候甚至相当有道理。

但在很多机构里，争论往往也不只是技术判断。

它还混着一种更难明说的东西：一种职业身份正在被挤压的感觉，一种“这已经不是我所认识、也不再是我所热爱的工作了”的失落感，甚至是一种核心自我定义正在被侵蚀的不安。

这也是为什么，很多机构里的 AI 争论越来越不像单纯的技术讨论，而更像一种身份和生存讨论。对管理层、厂商和 Demo 爱好者来说，AI 常常首先意味着能力扩展、效率提升、不要掉队；但对许多必须在这个市场里找位置、守住位置、证明自己仍然有独特价值的人来说，它首先听起来像另一件事：议价能力被压缩，入口岗位被重写，多年积累出来的技能信号正在贬值。同一句“拥抱 AI”，到了不同房间里，听起来根本不是同一句话。

这类错位有时会被公开地暴露出来：台上说的是能力、杠杆和机会，台下听到的却是岗位压缩、入口需求下降，以及自己在系统里的位置正在变得不确定。这里面并没有谁“听错了”。同一句技术叙事，本来就会因为人处在系统里的位置不同，而被解释成完全不同的东西。

台上说的是能力，台下听到的是风险。

这不自动让他们错。

但它提醒我们：很多看起来像纯粹技术立场的分歧，实际都混着情绪、身份、防御和时代感的变化。

也正因为如此，这些讨论才特别容易被压成一句话：要么彻底拥抱，要么彻底拒绝；要么变成谁更会用 AI 写代码的身份竞赛，要么“AI越多，麻烦越多”；要么“未来已来”，要么“绝不进产品”。

可真正需要被解决的，不是立场姿态，而是怎么把能力、责任和约束重新组合起来。

还有一种更隐蔽、也更有意思的变体，常常出现在工程团队自己内部。

有些人愿意给业务用户做 LLM 封装层，愿意把 AI 包装成应用、助手、分析工具、自动化界面；但一旦话题变成“我们自己的编码流程要不要让 LLM 深度参与”，态度就会突然谨慎很多，甚至直接转向拒绝。

同一批人，可以很自然地说：

用户应该用 AI 提高效率。

但轮到自己时，又会说：

真正的工程还是要自己写。 AI 写的代码我不放心。我们是真正写代码的人，不能靠这个。

这里当然有合理的一面。AI 生成代码确实会出错，确实可能写出看起来能跑、实际难维护的东西，也确实不能替代架构判断、边界判断和责任承担。这个系列前面已经反复说过：把模型输出直接当成产品，本来就是危险的。

但问题在于，很多时候这种拒绝并不只是工程严谨。它还混着一种更隐蔽的身份防御。

因为写代码不只是交付手段。对很多工程师来说，它也是身份本身的一部分：谁能写复杂代码、排查底层问题、在别人看不懂的地方稳定推进，长期以来都代表着地位、资历和专业尊严。

所以，当 LLM 被拿去给业务用户做demo时，它是“我们的产品能力”；但当 LLM 被拿来参与自己的编码时，它触碰的却是另一件事：

它不只是在帮你工作，它也在改变别人识别你是否厉害的方式。

这种错位有时会以很日常的方式出现：一边很愿意把模型额度、工具权限和新框架介绍给别人，让别人去试；一边又会把 AI 编码能力变成新的技术身份游戏。表面上看，这仍然是在拥抱 AI；更深一层看，它说明旧的专业信号正在被重新排序，而新的信号还没有稳定下来。

这就解释了一个看起来矛盾的现象：有些人愿意把 AI 卖成别人的杠杆，却不愿意把 AI 内化成自己的杠杆。他们愿意让 LLM 帮用户写总结、查资料、分类、生成报告；但当 LLM 开始帮自己写脚手架、改接口、补测试、重构胶水代码时，问题就不再只是“它准不准”，而变成了：

那我过去那些靠慢慢敲、慢慢调、慢慢积累出来的专业身份，应该怎么重新定义？

这不是一句“拥抱未来”就能打发的问题。但它也不能成为拒绝变化的理由。

因为真正成熟的工程判断，不是“我永远亲手写每一行代码”，而是知道：

哪些代码可以让模型生成；
哪些边界必须自己定义；
哪些结构必须自己把关；
哪些输出必须审查；
哪些地方不能为了速度牺牲可维护性；
哪些地方让模型参与，反而能更快暴露设计问题。

换句话说，LLM辅助编码的成熟用法，和这条流水线里的 LLM 用法是同一个结构：

模型负责压缩实现成本，人负责判断方向、边界和验收标准。

如果你把模型当成替代判断的东西，它当然危险。但如果你把它当成实现层杠杆，它就不是对工程能力的羞辱，而是工程能力的放大器。

真正成熟的工程能力，不是坚持每一行都必须亲手敲出来，而是知道哪一层可以交、哪一层不能交；什么时候该让模型加速，什么时候该把它按住，什么时候该重写，什么时候该直接丢掉。

这也正是第9篇反驳“LLM 已死”时真正想说的：不是因为 LLM 不能替你成为架构师，它就没有价值。很多时候，它最有价值的地方，恰恰是替你压缩那些原本消耗大量时间、但并不真正体现核心判断力的实现成本。

所以，这个隐藏的工程师版本，其实也是两个房间问题的一部分。

Demo爱好者的错误，是把 AI 能力卖给别人，却低估了领域系统的复杂性。领域专家的错误，是因为不信任demo，而退回到无法规模化的经验判断。而某些工程师的错误，则是愿意把 AI 当成产品能力，却不愿意承认它也应该改变自己的生产方式。

三者表面不同，本质相似：

都没有把 AI 放在正确的位置。

不是让它接管一切。也不是把它挡在门外。而是让它进入那些可以被放大的层，同时把真正需要人负责的层牢牢留在人手里。

Demo爱好者说得对：如果领域不需要，从头造一切是浪费。领域专家说得也对：通用封装比免费可用的东西多不了什么。

解法不是折中。是组合：

LLM做它真正擅长的事：在模糊上下文中做语义判断。这是LLM比手写规则更适合承担的那10%。别在这上面造轮子。
围绕它搭建领域特定的工程：编码业务逻辑、边界情况、可靠性保证、积累的经验的那90%。别跳过这个——所有价值都在这里。
把领域专家的要求当设计输入来尊重：当他们说“必须可靠”，那是系统需求，不是抵触。当他们说“AI会编造”，那是需要工程化解决的约束，不是需要反驳的异议。

Demo爱好者带来能力边界，也带来对“什么可能成立”的直觉。领域专家带来业务上下文、优先级、验收标准，以及“这个东西怎样才算被正面地用起来”的判断。两者都不能单独产出有用的东西。

来自投资行业自身的教训

两个房间之间的张力并不新鲜。投资行业自己经历了几十年同样的版本。

好多年来，叙事是一切都会走向量化。因子投资。统计模型。系统化策略。人类判断是负债——情绪化、有偏见、不一致。让数据来决定。

然后现实介入了。大型机构的因子投资团队正在被拆解。统计方法并没有持续跑赢市场。业绩逐年波动，经过足够多的周期之后，更大的投资者不再相信纯量化就是答案。

但故事的另一面同样令人清醒。那些纯粹依赖信念的基本面经理——其中一些人五年前还在杂志封面上——现在活在媒体批评的阴影里。在牛市看起来像天才的高信念押注，事后看起来像傲慢。

笔者10多年前的硕士论文分析了大约30万条分析师和投资者推荐，回答一个简单的问题：推荐有价值吗？答案是：看情况。看分析师。看上下文。看时间跨度。不是对纯信念的有力背书。也不是死刑判决。结果似乎有点无聊。

模式和这个系列一直在描述的完全一样：

纯量化（投资界的Demo爱好者）有工具但缺判断。它处理一切但不深入理解任何具体事物。
纯信念（投资界的领域专家）有判断但无法规模化。它深度理解但处理得太少。
组合——由领域专业知识指导的系统化工具，由系统化工具延伸的领域专业知识——才是真正有效的。

听着耳熟吗？

方式	特征	结果
纯量化	全是数据，没有判断	回报不稳定
纯信念	全是判断，没有规模	覆盖不了投资范围
组合	判断 × 规模	能复合的优势

这和流水线是同一个结构。没有领域工程（判断）的LLM（能力）产出demo。没有AI的领域专业能力产出无法规模化的深度。两者在一起，产出任何一方单独都达不到的东西。

把自己的私有框架喂进AI增强系统的基本面经理，不是在放弃信念。他们在规模化信念。吸收领域专家输入的量化团队，不是在放弃严谨。他们在扎根严谨。

未来十年蓬勃发展的经理，不会是选了某一边的。而是把两者组合起来的。

领域专家需要听到的话

这一节专门写给投资经理、ESG分析师、组合策略师——那些被反复告知AI要取代他们、因而合理地变得警惕的领域专家。

你的专业能力现在比以前更值钱，不是更不值钱。

原因如下：AI非常擅长大规模处理语言。它能读几千页文档，分类，提取模式。但它做不到你做的事：运用来自多年理解市场、公司、监管环境的判断力，以及那上千个区分真正披露和精心包装的空话的微妙信号。

那个判断力就是你的竞争优势。在一个AI赋能的世界里，这个优势不会缩小——它会被放大。

想一想：如果每个基金经理都能用一样的LLM、一样的聊天机器人、一样的通用AI工具——什么能让他们拉开差距？不是AI。AI对每个人都一样。能拉开差距的是喂给AI的东西：私有的框架、独特的评估标准、公开模型没有的领域特定知识。

如果你相信自己有让投资判断优于他人的独门配方——你确实有，否则你不会在这个位置上——那么AI就是让你把这些配方规模化应用的机制。

没有AI：你把判断力深度应用到50家公司。有AI（工程化的那种，不是演示那种）：你把判断力应用到5000家公司，因为系统编码了你的标准，LLM帮助在你的标准要求的规模上进行分类。

这不是替代。这是杠杆。你的秘密配方，以你独自永远达不到的规模运行。

但这只有在你参与进来的时候才有效。把你的框架喂进系统。说清楚什么叫“好”，让工程能编码它。把AI当成延伸你触及范围的工具，而不是削弱你角色的威胁。

参与进来的领域专家会成为房间里最有价值的人——因为他们拥有Demo爱好者和AI都没有的东西：决定系统到底在解决对不对问题的领域知识。

退出的领域专家会越来越孤立——不是因为他们对质量的坚持有错，而是因为人工审阅速度的质量追不上每年加速运转的市场。

你的审慎是工程设计的输入，不是性格缺陷。但审慎如果不参与，就只是弃权。

Demo爱好者需要听到的话

这一节写给搭建者、框架爱好者、“直接接接口”派——那些真心热爱AI能做到的事、想把它推向市场的人。

你对能力的判断是对的。但能力不等于产品。

Demo能跑，因为demo就是被设计成能跑的。它展示的是最好情况。它跑在筛选过的输入上。它没有碰到规模化运行、长时间运行、跨越几千个实体时才浮出水面的边界情况。

当领域专家说“不够可靠”——听进去。他们不是在当保守派。他们在给你那个把demo变成产品的需求。可靠性是功能。准确性是功能。“不会在客户报告里编造一个错误的碳排放数字”是功能。

当他们问“比ChatGPT多了什么”——认真对待。如果你说不出你的系统做了什么ChatGPT做不了的事——如果答案只是“我们包了个更好看的界面”——那你还什么都没有搭。

价值增量在领域逻辑里。在分类层里。在边界情况处理里。在可靠性工程里。在多年深耕这个领域的人的积累判断被编码成确定性规则、让LLM在其中运行的时候。

搭这个，你搭出了通用工具无法匹敌的东西。跳过这个，你搭的就是个demo。

别再单纯展示demo了。开始编码领域知识。产品就在那里。

桥梁

流水线是一个证明：两拨人可以同时是对的——如果他们不再自说自话。

Demo爱好者是对的：Claude分类ESG链接的准确度是任何规则系统都匹配不了的。能力是真的。对于一个需要处理几千个多样化企业网站的系统来说，用它不是可选项。

领域专家是对的：LLM单独不够可靠，不能直接上生产。它需要预算控制、范围规则、验证层、回退策略、确定性保证——确保输出达到业务要求的标准。

流水线两者都用。10% LLM。90%工程。100%基于多年积累的领域专业知识。

Demo爱好者贡献了能力，也贡献了对新可能性的探测。领域专家贡献了业务上下文，也贡献了该把力量集中在哪里、怎样避免做成又一个自娱自乐工具的判断。工程团队把它们组合成了能用的东西。

三者中任何一方单独都搭不出来。

一个诚实的观察

看到这里，技术读者关心的是系统怎么搭。领域读者关心的是：好不好用？可不可靠？会不会打乱我的工作流程？

这不是理解能力的差异，而是位置不同。技术人看见的是结构，领域专家看见的是风险、信任和工作流。

所以，如果把这条流水线说给领域专家听，版本应该更短：

它从几千个企业网站采集 ESG 信息。在需要理解语言的地方用 AI。在需要可靠性的地方用代码。它由理解这个领域的人设计。它能用。

领域专家真正需要参与定义的，不是编排层怎么写，而是什么叫“好用”、什么叫“可信”、什么样的结果值得进入工作流。

这也是两个房间必须接上的地方。

到这里，系列的立场已经很清楚

写到这里，一个论点已经很清楚。它其实是说给两个房间听的：

给Demo爱好者：你的工具是真的。你的技术能力是真的。但demo不是产品。两者之间的鸿沟需要用你没有的领域知识和你没做的工程来填。别再单纯展示了。是时候开始搭建。而且要跟领域专家一起搭，不是替他们搭。

给领域专家：你的顾虑是合理的。你的专业能力并没有因为 AI 出现而自动失效。不与新工具互动的专业能力是无法规模化的专业能力。AI不替代你的判断力——它延伸判断力的触及范围。把你的框架喂进来。参与塑造系统。你的审慎让产品更好，但前提是你在房间里。

给两边：未来不是AI做一切。也不是人类做一切。而是组合——智能和精确和经验，各司其职，由理解这三者的人组合在一起。

但讲到这里，还可以把一切都当成立场。所以下一篇不再讲结构，不再讲判断，也不再讲这两拨人为什么彼此需要。

下一篇，也是整个正文系列的最后一篇，只讲一件更硬的事：证据。不是这个组合听起来对不对，而是它到底有没有在现实里交付出能用的东西。

下篇：第11篇——证据。从头开始阅读。

系列目录

篇目	核心观点
00 — 引言	这个系列为什么存在
01 — 不可能的任务	一切的起点
02 — 7400+ 行代码是怎么来的	流水线是怎样滚雪球的
03A — 大脑与身体	LLM = 10% 大脑，代码 = 90% 身体
03B — 六个看起来简单的问题	让智能体翻车的边缘情况
04 — 诚实的对比	流水线 vs 智能体，用数字说话
05A — 研究到底说了什么：数据篇	METR 的可靠性断崖，Anthropic 的劳动力研究
05B — 研究到底说了什么：框架篇	Karpathy、SWE-CI、长尾、汇聚
06 — 杠杆差距	谁真正从 AI 中受益
07 — 上下文积累	智能体难以自然拥有的东西
08A — 委托问题	为什么你不能直接丢给它
08B — 自主性光谱	找到合适的级别
09 — 另一个极端	不是终点，不等于没价值
10 — 两个房间	你在这里
11 — 证据	流水线作为证据
番外 — 反方论点	AI 反驳整个系列
番外 — 站在中间地带	半夜醒来的那个念头