第10篇:两个房间——Demo爱好者永远做不完,领域专家迟迟不开始

系列:“我们构建了一条数万行代码的流水线。智能体为何做不到。”

上一篇:第9篇——另一个极端。

Read the English version.

Demo爱好者看见能力,领域专家看见风险;真正缺的,是把两者接起来的责任结构。

上篇:第9篇——另一个极端。“LLM已死”和“智能体统治世界”一样引人注目。两个都以同样的方式错了。中间立场,才是生产系统存在的地方。

第8篇和第9篇讨论的是公开话语中的两个极端:“智能体什么都能干”和“LLM已死”。两者都是媒体对细致观点的简化放大。

但极端叙事不只活在标题里。它们活在会议室里——活在那些真正要决定搭什么、信任什么的人身上。

这篇讲的是几乎每个跟AI打交道的机构里都存在的两拨人。你见过他们。

房间1:Demo爱好者

Demo爱好者真心喜欢AI。他们跟踪每次发布,试用每个新框架,参加各种技术会议。他们能在三十分钟内给你展示一个让人印象深刻的东西:一个回答ESG问题的聊天机器人、一个分类链接的原型、一个能浏览网站下载PDF的智能体。

Demo是能跑的。它总是能跑的。而且要承认:Demo也不是没价值。Demo本来就不是拿来证明一切都已经完成的。它的作用,是先把能力亮出来,让人第一次看见原来什么是可能的。

三年过去了。没有一个生产系统被投资团队真正用上。

Demo爱好者的本能是追求通用性。标准封装。平台方案。已经有框架了为什么还要自己造?不要重复造轮子。接上接口。发布封装。

更麻烦的是,很多 Demo 爱好者其实只熟悉 API 层。他们懂接口,不等于懂模型;懂平台,不等于看得见边界。会接厂商平台、会调通一个模型、会包一层产品界面,不等于知道模型能力差异在哪里、失真会从哪里开始、失败边界落在什么地方。于是他们很容易把“能调通一个模型”,误以为“理解了模型能力”。但看不见这些边界的人,很容易做出演示;很难判断这个演示能不能变成产品。

问题在于:封装没有解决领域特定的那部分。它解决的是本来就容易的那部分。真正难的问题——这个系列前面九篇一直在描述的——藏在“demo能跑”和“在5000家公司上可靠地、大规模地、正确地跑”之间的鸿沟里。

Demo爱好者的话术听起来像效率:“ChatGPT都能做,为什么还要建那么多?”

而对面的反问也是真的:一个通用封装的价值在哪?如果你搭的东西不过是LLM外面包了一层皮——没有领域逻辑、没有边界情况处理、没有积累的工程判断——那用户确实不如直接用ChatGPT。封装没有增加任何东西。它是一个假装成产品的demo。

价值增量来自另外那90%。分类层。预算逻辑。重试策略。域名范围规则。robots.txt合规。PDF评分。推迟队列。所有让“一家公司的demo能跑”变成“几千家公司的生产系统在跑”的东西。

那不叫重复造轮子。那叫给轮子修路。

但如果没有业务领域一侧给方向,Demo爱好者也很容易停在这里:不断展示能力,不断制造“有意思的东西”,最后却只是又搭出一个主要让自己兴奋的工具。因为他们不知道业务真正卡在哪里,不知道该优先解决什么,也不知道一个工具怎样才算被积极地、负责任地用进现实流程里。

但Demo爱好者不修路。他们造轮子——一个又一个,一个比一个亮,但没有一个装到能去某个地方的车上。更讽刺的是,他们也常常会反过来嘲笑深度定制 AI 应用的人是在“重复造轮子”。如果只站在通用模型和平台封装那一层,很多领域工程确实看起来像迟早会被大厂迭代吞掉的临时工作。可真正落到生产里,价值往往不在通用能力本身,而在谁能把能力安放到具体业务边界、责任结构和可靠性要求里。

Demo爱好者的失败模式:永远快做完了。从来没有交付。

房间2:领域专家

领域专家懂业务。深度地懂。他们做了多年甚至几十年的ESG分析、投资组合管理、投研。他们见过技术浪潮来来去去。他们以前也被告诉过某个东西会改变一切。

他们也看过demo。而那些demo没有变成产品。聊天机器人胡编了一家公司的碳排放数据。“AI驱动”的报告里有初级分析师都能发现的错误。智能体下载了错误的PDF,直到客户会议上才有人注意到。

而且,很多领域专家最初并不是完全不为所动。恰恰相反,他们往往先被这些能力真的震一下:如果系统已经能回答、总结、分类、生成,那自己多年积累的判断,会不会突然没那么稀缺了?这种不安并不难理解。也正因为它真实,当demo在关键处失手时,人很容易本能地松一口气:至少世界还没有一下子改写,自己熟悉的专业价值还在。这里面未必有什么恶意,更多是一种专业身份受到冲击之后的自我保护。问题只在于,如果这口气松得太快,就很容易把“这个demo不行”直接读成“这条路都不行”。

所以领域专家说——合情合理地说:

“AI会编造。” “不够可靠。” “我只需要流程顺畅。” “别往我头上堆工具了。”

每一条都是对的。幻觉是真实的。可靠性顾虑是合理的。流程中断有真实成本。被塞一堆不好用的工具比没有工具更糟。

领域专家不是在抵触。他们在精确地描述自己需要什么:准确、可靠、尊重现有工作流程。三年的demo没有交付这些东西,这不是他们的问题。是 Demo 爱好者的问题。

但领域专家的应对方式产生了自身的问题。完全退出AI意味着退回到无法规模化的主观判断——无法被检验、无法被系统性地改进、无法跟上市场产生信息的速度。

而且,没有技术一侧持续把能力边界往前推,领域专家往往也很难知道:到底哪些事已经可以做,哪些过去不现实的流程现在开始现实了,哪些真正有意思的新做法会从组合里冒出来。Demo常常确实浅,但它至少在提示可能性空间。

“我自己读报告,自己形成观点”——对50家公司来说是可以坚持的哲学。对几千家公司来说不是。而当竞争对手在用AI——不是demo版的,而是工程化版的——更快、更一致、更大规模地处理信息时,纯主观方式就变成了一个随时间复合的竞争劣势。

领域专家对问题的诊断没有错。他们对结论的判断错了。对“AI会编造”的正确回应不是“不用AI”。而是“搭一个系统,让编造被捕获、被限制、被纠正。”

这就是流水线做的事。也是领域专家一直在要的东西。他们只是没被展示过——因为Demo爱好者每次展示的都是demo,不是这个。

领域专家的失败模式:顾虑合理,结论偏了。一直没有开始。

碰撞

这两拨人会碰撞。这种碰撞并不罕见。

一边说:“别重复造轮子了。有框架。有平台。用标准方案。”

另一边说——或者心里想:“你的价值增量在哪?如果只是个ChatGPT的壳,用户为什么不直接用ChatGPT?”

两边对对方的弱点看得都很准。

这也是为什么,去看一些真正资深、而且在各自领域里非常受尊重的软件工程师或领域从业者的反应,会很有意思。

有些人会热情拥抱这波变化;也确实有一些人,会非常明确地站在另一边:强调严谨性,强调工程责任,强调“我们绝不会把 AI 生成的东西直接放进产品”。

这些辩护并不愚蠢,很多时候甚至相当有道理。

但在很多机构里,争论往往也不只是技术判断。

它还混着一种更难明说的东西:一种职业身份正在被挤压的感觉,一种“这已经不是我所认识、也不再是我所热爱的工作了”的失落感,甚至是一种核心自我定义正在被侵蚀的不安。

这也是为什么,很多机构里的 AI 争论越来越不像单纯的技术讨论,而更像一种身份和生存讨论。对管理层、厂商和 Demo 爱好者来说,AI 常常首先意味着能力扩展、效率提升、不要掉队;但对许多必须在这个市场里找位置、守住位置、证明自己仍然有独特价值的人来说,它首先听起来像另一件事:议价能力被压缩,入口岗位被重写,多年积累出来的技能信号正在贬值。同一句“拥抱 AI”,到了不同房间里,听起来根本不是同一句话。

这类错位有时会被公开地暴露出来:台上说的是能力、杠杆和机会,台下听到的却是岗位压缩、入口需求下降,以及自己在系统里的位置正在变得不确定。这里面并没有谁“听错了”。同一句技术叙事,本来就会因为人处在系统里的位置不同,而被解释成完全不同的东西。

台上说的是能力,台下听到的是风险。

这不自动让他们错。

但它提醒我们:很多看起来像纯粹技术立场的分歧,实际都混着情绪、身份、防御和时代感的变化。

也正因为如此,这些讨论才特别容易被压成一句话:要么彻底拥抱,要么彻底拒绝;要么变成谁更会用 AI 写代码的身份竞赛,要么“AI越多,麻烦越多”;要么“未来已来”,要么“绝不进产品”。

可真正需要被解决的,不是立场姿态,而是怎么把能力、责任和约束重新组合起来。

还有一种更隐蔽、也更有意思的变体,常常出现在工程团队自己内部。

有些人愿意给业务用户做 LLM 封装层,愿意把 AI 包装成应用、助手、分析工具、自动化界面;但一旦话题变成“我们自己的编码流程要不要让 LLM 深度参与”,态度就会突然谨慎很多,甚至直接转向拒绝。

同一批人,可以很自然地说:

用户应该用 AI 提高效率。

但轮到自己时,又会说:

真正的工程还是要自己写。 AI 写的代码我不放心。 我们是真正写代码的人,不能靠这个。

这里当然有合理的一面。AI 生成代码确实会出错,确实可能写出看起来能跑、实际难维护的东西,也确实不能替代架构判断、边界判断和责任承担。这个系列前面已经反复说过:把模型输出直接当成产品,本来就是危险的。

但问题在于,很多时候这种拒绝并不只是工程严谨。它还混着一种更隐蔽的身份防御。

因为写代码不只是交付手段。对很多工程师来说,它也是身份本身的一部分:谁能写复杂代码、排查底层问题、在别人看不懂的地方稳定推进,长期以来都代表着地位、资历和专业尊严。

所以,当 LLM 被拿去给业务用户做demo时,它是“我们的产品能力”;但当 LLM 被拿来参与自己的编码时,它触碰的却是另一件事:

它不只是在帮你工作,它也在改变别人识别你是否厉害的方式。

这种错位有时会以很日常的方式出现:一边很愿意把模型额度、工具权限和新框架介绍给别人,让别人去试;一边又会把 AI 编码能力变成新的技术身份游戏。表面上看,这仍然是在拥抱 AI;更深一层看,它说明旧的专业信号正在被重新排序,而新的信号还没有稳定下来。

这就解释了一个看起来矛盾的现象:有些人愿意把 AI 卖成别人的杠杆,却不愿意把 AI 内化成自己的杠杆。他们愿意让 LLM 帮用户写总结、查资料、分类、生成报告;但当 LLM 开始帮自己写脚手架、改接口、补测试、重构胶水代码时,问题就不再只是“它准不准”,而变成了:

那我过去那些靠慢慢敲、慢慢调、慢慢积累出来的专业身份,应该怎么重新定义?

这不是一句“拥抱未来”就能打发的问题。但它也不能成为拒绝变化的理由。

因为真正成熟的工程判断,不是“我永远亲手写每一行代码”,而是知道:

  • 哪些代码可以让模型生成;
  • 哪些边界必须自己定义;
  • 哪些结构必须自己把关;
  • 哪些输出必须审查;
  • 哪些地方不能为了速度牺牲可维护性;
  • 哪些地方让模型参与,反而能更快暴露设计问题。

换句话说,LLM辅助编码的成熟用法,和这条流水线里的 LLM 用法是同一个结构:

模型负责压缩实现成本,人负责判断方向、边界和验收标准。

如果你把模型当成替代判断的东西,它当然危险。 但如果你把它当成实现层杠杆,它就不是对工程能力的羞辱,而是工程能力的放大器。

真正成熟的工程能力,不是坚持每一行都必须亲手敲出来,而是知道哪一层可以交、哪一层不能交;什么时候该让模型加速,什么时候该把它按住,什么时候该重写,什么时候该直接丢掉。

这也正是第9篇反驳“LLM 已死”时真正想说的:不是因为 LLM 不能替你成为架构师,它就没有价值。很多时候,它最有价值的地方,恰恰是替你压缩那些原本消耗大量时间、但并不真正体现核心判断力的实现成本。

所以,这个隐藏的工程师版本,其实也是两个房间问题的一部分。

Demo爱好者的错误,是把 AI 能力卖给别人,却低估了领域系统的复杂性。领域专家的错误,是因为不信任demo,而退回到无法规模化的经验判断。而某些工程师的错误,则是愿意把 AI 当成产品能力,却不愿意承认它也应该改变自己的生产方式。

三者表面不同,本质相似:

都没有把 AI 放在正确的位置。

不是让它接管一切。也不是把它挡在门外。而是让它进入那些可以被放大的层,同时把真正需要人负责的层牢牢留在人手里。

Demo爱好者说得对:如果领域不需要,从头造一切是浪费。领域专家说得也对:通用封装比免费可用的东西多不了什么。

解法不是折中。是组合:

  • LLM做它真正擅长的事:在模糊上下文中做语义判断。这是LLM比手写规则更适合承担的那10%。别在这上面造轮子。
  • 围绕它搭建领域特定的工程:编码业务逻辑、边界情况、可靠性保证、积累的经验的那90%。别跳过这个——所有价值都在这里。
  • 把领域专家的要求当设计输入来尊重:当他们说“必须可靠”,那是系统需求,不是抵触。当他们说“AI会编造”,那是需要工程化解决的约束,不是需要反驳的异议。

Demo爱好者带来能力边界,也带来对“什么可能成立”的直觉。领域专家带来业务上下文、优先级、验收标准,以及“这个东西怎样才算被正面地用起来”的判断。两者都不能单独产出有用的东西。

来自投资行业自身的教训

两个房间之间的张力并不新鲜。投资行业自己经历了几十年同样的版本。

好多年来,叙事是一切都会走向量化。因子投资。统计模型。系统化策略。人类判断是负债——情绪化、有偏见、不一致。让数据来决定。

然后现实介入了。大型机构的因子投资团队正在被拆解。统计方法并没有持续跑赢市场。业绩逐年波动,经过足够多的周期之后,更大的投资者不再相信纯量化就是答案。

但故事的另一面同样令人清醒。那些纯粹依赖信念的基本面经理——其中一些人五年前还在杂志封面上——现在活在媒体批评的阴影里。在牛市看起来像天才的高信念押注,事后看起来像傲慢。

笔者10多年前的硕士论文分析了大约30万条分析师和投资者推荐,回答一个简单的问题:推荐有价值吗?答案是:看情况。看分析师。看上下文。看时间跨度。不是对纯信念的有力背书。也不是死刑判决。结果似乎有点无聊。

模式和这个系列一直在描述的完全一样:

  • 纯量化(投资界的Demo爱好者)有工具但缺判断。它处理一切但不深入理解任何具体事物。
  • 纯信念(投资界的领域专家)有判断但无法规模化。它深度理解但处理得太少。
  • 组合——由领域专业知识指导的系统化工具,由系统化工具延伸的领域专业知识——才是真正有效的。

听着耳熟吗?

方式特征结果
纯量化全是数据,没有判断回报不稳定
纯信念全是判断,没有规模覆盖不了投资范围
组合判断 × 规模能复合的优势

这和流水线是同一个结构。没有领域工程(判断)的LLM(能力)产出demo。没有AI的领域专业能力产出无法规模化的深度。两者在一起,产出任何一方单独都达不到的东西。

把自己的私有框架喂进AI增强系统的基本面经理,不是在放弃信念。他们在规模化信念。吸收领域专家输入的量化团队,不是在放弃严谨。他们在扎根严谨。

未来十年蓬勃发展的经理,不会是选了某一边的。而是把两者组合起来的。

领域专家需要听到的话

这一节专门写给投资经理、ESG分析师、组合策略师——那些被反复告知AI要取代他们、因而合理地变得警惕的领域专家。

你的专业能力现在比以前更值钱,不是更不值钱。

原因如下:AI非常擅长大规模处理语言。它能读几千页文档,分类,提取模式。 但它做不到你做的事:运用来自多年理解市场、公司、监管环境的判断力,以及那上千个区分真正披露和精心包装的空话的微妙信号。

那个判断力就是你的竞争优势。在一个AI赋能的世界里,这个优势不会缩小——它会被放大。

想一想:如果每个基金经理都能用一样的LLM、一样的聊天机器人、一样的通用AI工具——什么能让他们拉开差距?不是AI。AI对每个人都一样。能拉开差距的是喂给AI的东西:私有的框架、独特的评估标准、公开模型没有的领域特定知识。

如果你相信自己有让投资判断优于他人的独门配方——你确实有,否则你不会在这个位置上——那么AI就是让你把这些配方规模化应用的机制。

没有AI:你把判断力深度应用到50家公司。有AI(工程化的那种,不是演示那种):你把判断力应用到5000家公司,因为系统编码了你的标准,LLM帮助在你的标准要求的规模上进行分类。

这不是替代。这是杠杆。你的秘密配方,以你独自永远达不到的规模运行。

但这只有在你参与进来的时候才有效。把你的框架喂进系统。说清楚什么叫“好”,让工程能编码它。把AI当成延伸你触及范围的工具,而不是削弱你角色的威胁。

参与进来的领域专家会成为房间里最有价值的人——因为他们拥有Demo爱好者和AI都没有的东西:决定系统到底在解决对不对问题的领域知识。

退出的领域专家会越来越孤立——不是因为他们对质量的坚持有错,而是因为人工审阅速度的质量追不上每年加速运转的市场。

你的审慎是工程设计的输入,不是性格缺陷。但审慎如果不参与,就只是弃权。

Demo爱好者需要听到的话

这一节写给搭建者、框架爱好者、“直接接接口”派——那些真心热爱AI能做到的事、想把它推向市场的人。

你对能力的判断是对的。但能力不等于产品。

Demo能跑,因为demo就是被设计成能跑的。它展示的是最好情况。它跑在筛选过的输入上。它没有碰到规模化运行、长时间运行、跨越几千个实体时才浮出水面的边界情况。

当领域专家说“不够可靠”——听进去。他们不是在当保守派。他们在给你那个把demo变成产品的需求。可靠性是功能。准确性是功能。“不会在客户报告里编造一个错误的碳排放数字”是功能。

当他们问“比ChatGPT多了什么”——认真对待。如果你说不出你的系统做了什么ChatGPT做不了的事——如果答案只是“我们包了个更好看的界面”——那你还什么都没有搭。

价值增量在领域逻辑里。在分类层里。在边界情况处理里。在可靠性工程里。在多年深耕这个领域的人的积累判断被编码成确定性规则、让LLM在其中运行的时候。

搭这个,你搭出了通用工具无法匹敌的东西。跳过这个,你搭的就是个demo。

别再单纯展示demo了。开始编码领域知识。产品就在那里。

桥梁

流水线是一个证明:两拨人可以同时是对的——如果他们不再自说自话。

Demo爱好者是对的:Claude分类ESG链接的准确度是任何规则系统都匹配不了的。能力是真的。对于一个需要处理几千个多样化企业网站的系统来说,用它不是可选项。

领域专家是对的:LLM单独不够可靠,不能直接上生产。它需要预算控制、范围规则、验证层、回退策略、确定性保证——确保输出达到业务要求的标准。

流水线两者都用。10% LLM。90%工程。100%基于多年积累的领域专业知识。

Demo爱好者贡献了能力,也贡献了对新可能性的探测。领域专家贡献了业务上下文,也贡献了该把力量集中在哪里、怎样避免做成又一个自娱自乐工具的判断。工程团队把它们组合成了能用的东西。

三者中任何一方单独都搭不出来。

一个诚实的观察

看到这里,技术读者关心的是系统怎么搭。领域读者关心的是:好不好用?可不可靠?会不会打乱我的工作流程?

这不是理解能力的差异,而是位置不同。技术人看见的是结构,领域专家看见的是风险、信任和工作流。

所以,如果把这条流水线说给领域专家听,版本应该更短:

它从几千个企业网站采集 ESG 信息。 在需要理解语言的地方用 AI。 在需要可靠性的地方用代码。 它由理解这个领域的人设计。 它能用。

领域专家真正需要参与定义的,不是编排层怎么写,而是什么叫“好用”、什么叫“可信”、什么样的结果值得进入工作流。

这也是两个房间必须接上的地方。

到这里,系列的立场已经很清楚

写到这里,一个论点已经很清楚。它其实是说给两个房间听的:

给Demo爱好者: 你的工具是真的。你的技术能力是真的。但demo不是产品。两者之间的鸿沟需要用你没有的领域知识和你没做的工程来填。别再单纯展示了。是时候开始搭建。而且要跟领域专家一起搭,不是替他们搭。

给领域专家: 你的顾虑是合理的。你的专业能力并没有因为 AI 出现而自动失效。不与新工具互动的专业能力是无法规模化的专业能力。AI不替代你的判断力——它延伸判断力的触及范围。把你的框架喂进来。参与塑造系统。你的审慎让产品更好,但前提是你在房间里。

给两边: 未来不是AI做一切。也不是人类做一切。而是组合——智能和精确和经验,各司其职,由理解这三者的人组合在一起。

但讲到这里,还可以把一切都当成立场。所以下一篇不再讲结构,不再讲判断,也不再讲这两拨人为什么彼此需要。

下一篇,也是整个正文系列的最后一篇,只讲一件更硬的事:证据。不是这个组合听起来对不对,而是它到底有没有在现实里交付出能用的东西。

下篇:第11篇——证据。从头开始阅读。

系列目录

篇目核心观点
00 — 引言这个系列为什么存在
01 — 不可能的任务一切的起点
02 — 7400+ 行代码是怎么来的流水线是怎样滚雪球的
03A — 大脑与身体LLM = 10% 大脑,代码 = 90% 身体
03B — 六个看起来简单的问题让智能体翻车的边缘情况
04 — 诚实的对比流水线 vs 智能体,用数字说话
05A — 研究到底说了什么:数据篇METR 的可靠性断崖,Anthropic 的劳动力研究
05B — 研究到底说了什么:框架篇Karpathy、SWE-CI、长尾、汇聚
06 — 杠杆差距谁真正从 AI 中受益
07 — 上下文积累智能体难以自然拥有的东西
08A — 委托问题为什么你不能直接丢给它
08B — 自主性光谱找到合适的级别
09 — 另一个极端不是终点,不等于没价值
10 — 两个房间你在这里
11 — 证据流水线作为证据
番外 — 反方论点AI 反驳整个系列
番外 — 站在中间地带半夜醒来的那个念头