第11篇:证据——当我们真正搭出来之后,发生了什么

系列:“我们构建了一条数万行代码的流水线。智能体为何做不到。”

上一篇:第10篇——两个房间。

Read the English version.

投资团队以为又是一次演示。结果拿到了生产系统。决定成败的不是模型——是工程。

上篇:第10篇——两个房间。演示爱好者做不完。领域专家不开始。流水线交付了——因为它听了两边的话。

前面十篇都是论证。这一篇是证据。

证据不是“模型能不能在演示里回答问题”。证据是:系统搭出来之后,真实团队是否开始依赖它。

更具体地说:

生产系统的证据,不是它能演示,而是它开始进入团队的时间表、判断流程和责任结构。

起点

投资团队的期望值其实很低。不是因为他们愤世嫉俗——而是因为他们有经验。他们以前见过多次 AI 的演示。也听过那些承诺。年度计划里写的是什么?和所有机构写 AI 项目时一模一样的措辞:

探索 AI 应用。

分配给它的时间是 5–10%,优先级是中低。“探索”两个字说明一切。“探索”就是没人指望它能真正跑起来。预算是为学习批的,不是为生产。团队会礼貌地参加演示,点点头,然后回去继续用老办法干活。

这就是起点。

搭了什么

不是聊天机器人。不是套壳接口。不是演示。是一个完整融入日常投资流程的工具。这个系列主要讲的是这个项目的第一层:一个生产级 ESG 数据采集引擎。它做的事很简单:

从几千个企业网站里,系统性地收集尽可能完整的 ESG 相关材料,并把它们以可追溯、可审计的方式交给下游分析流程。

具体来说,它会:

  • 爬取数千个企业网站的特定 ESG 相关信息;
  • 用大语言模型驱动的语义判断分类链接;
  • 处理 JavaScript 重度网站、跟踪重定向、管理 cookies;
  • 下载 PDF 并对相关性评分;
  • 遵守 robots.txt、管理访问频率、在预算内运行;
  • 每一步都产出可追溯、可审计的输出;
  • 向团队的下游分析流水线输送结构化数据。

这部分已经在前十篇反复讲过,不需要再展开一次。

一句话概括:

大语言模型做需要理解语言的那一层。确定性代码做需要控制、精度和可靠性的那一层。

前十篇一直在说的,就是这个架构。

为什么它有效

团队很少在输出中发现问题。偶尔有——大概率是因为某些问题没有事先厘清,或者流水线忽略了某种边缘例子——他们会给反馈,反馈会被集成到下一次迭代中,不再犯同样错误。改进循环快速、可预期,团队能看到每一个变更的具体位置和原因。但最重要的是这一点:

它能用,不是因为 AI 模型多强大。

真实系统里,模型选择不是一句“用最强的”就结束了。它不是信仰问题,而是系统设计问题。

简单分类、格式转换、局部抽取,较小模型可能已经足够;复杂推理、长上下文、多步任务,则会很快撞到能力墙。所以成熟的做法从来不是盲目追最强模型,也不是以为所有模型都差不多,而是知道:哪个任务块需要多强的模型,哪里可以降级,哪里必须由确定性代码和人的判断兜底。

最强模型裸跑,不如足够强的模型放在正确的层里。

这也解释了另一件常被误解的事:这条流水线不是“模型自己做出来了”。就算给一个很强的模型很长时间,它也不会自动把整条链路收敛出来——不是因为它不够强,而是因为收敛需要反馈、约束、验收和责任结构。生成不是收敛;能写出一段东西,不等于能把整条系统逼到可交付状态。

它能用,是因为:

  • 受控的输入管道。进入系统的每一条数据都经过定义好的、可审计的步骤。没有黑箱。
  • 可预测性。相同的输入产出相同的输出。不一致的时候,系统会记录原因。
  • 全面性。引擎覆盖团队需要的完整公司列表,不是一个让演示好看的精选子集。
  • 可追溯性。系统做的每一个决定——跟踪哪些链接、下载哪些 PDF、把哪些页面归类为相关——都被记录,可以回溯审查。
  • 可审计性。团队能把任何输出追溯到它的原始来源。在受监管的投资环境里,这不是锦上添花,而是基本要求。

以上每一条,都不是“模型能力”自然长出来的。它们来自围绕大语言模型的工程。模型聪明。流水线可靠。团队真正在用的,是两者的组合。

他们怎么用

投资会议之前,团队希望模型输出已经就绪。不是因为他们盲目信任——而是因为手动收集整理 ESG 数据曾经是会前准备里最枯燥的部分,动辄几小时甚至几天。

现在不用了。

系统替他们做——而且是全面地做,覆盖管理的全部公司,不只是有时间手动研究的那几个。但——这是关键——打分还是他们的。方法论还是他们的。投资决策还是他们做的。

系统收集、分类、整理。团队验证、判断、决定。机械的部分自动化了。专家的部分留在专家手里。

这不是替代。这才是“副驾驶式协作”在搭对了的时候真正的意思。

很多现实任务也不是一次性做对的。哪怕是很强的模型,让它从一张表格里直接生成正确的图表代码,第一版也常常会看错字段、选错图型、处理不好日期、分组或缺失值;后面几轮才逐步修正。

它能做好,是进步。它不能一次性做好,是边界。

采集流水线也是一样:真正让结果落地的,不是一次生成,而是带着反馈不断逼近。这也是为什么,更自动的智能体模式并不天然更高级。

已成形的问题可以更多自动化;还在形成的问题只能协作化。

目标清楚、约束稳定时,更高自动化当然可能更省事;但在很多真实业务里,人不是先完整知道自己要什么,再把任务整段外包。目标本身,往往是在反馈里慢慢长出来的。

过早全权委托,更容易偏航。

更好的做法,常常是人和系统边走边看、边生成边校正,让目标在推进中逐渐显形,也让人逐渐学会哪些地方可以放手,哪些地方必须亲自盯住。

早上 7:58 的请求

还有一个很小的场景,比很多正式评价更能说明问题。

某天早上 7:58,一位同事来找开发者。她需要系统尽快生成某家候选公司的报告,因为这家公司下午就要进投资决策会议讨论。

这个时间点本身就很说明问题。开发者其实 9 点才上班,那时还在吃早饭;但她已经等不及了,因为她们团队需要模型结果。如果报告能在上午生成出来,团队下午就可以看,可以拍板。如果不能,就只能等到下个月。

这不是演示场景。

演示只需要证明“模型能不能回答”。真实工作流里,问题变成了:系统能不能在会议节奏、候选名单和实际决策时间表里,把一家公司推进到可讨论状态。

对团队来说,这种差别很重要。

以前,材料没准备好,讨论就要等。现在,系统把准备工作的时间压缩下来,候选公司就可以进入当天的讨论。

这不是替代投资判断。恰恰相反,它让投资判断能更及时地发生。不是模型替你决定。而是它让你来得及判断:

演示证明的是可能性。生产系统改变的是时间表。

生产系统的证据,不是有人说它好,而是有人开始在实际工作中等它的输出。

反应

投资团队感到惊讶。不是被 AI 惊到——他们见过 AI 演示。他们惊讶的是:

这东西在生产环境里居然真能用。

数据是全面的。有些公司在过去几年居然有几千个 ESG 相关文档,以及动不动几百页的 PDF。

输出可以追溯。这个结论是根据什么来的,系统能说明白。它融入了他们的工作流程,而没有造成干扰。

他们原本的期望——又一次探索,又一次演示,又一个在演示里好看但实际中不好用的东西——是错的。而他们乐于承认这个错。

有一次会议上,一位投资组合经理把差别说得很直白:真正把这个系统和其他工具拉开的,不是它“也用了大语言模型”,而是它真的能把分散在各处、格式各异的完整 ESG 材料筛出来、收进来、整理出来。

他们觉得被系统赋能了。不是被威胁。不是被替代。赋能。

“赋能”和“威胁”之间的差别在哪?全在架构里。

系统想替代你的判断——你会感到威胁。系统替你干苦活、让你专注于判断——你会感到赋能。

底层技术看起来相似,人与系统的关系完全不同。

他们不是不懂 AI,而是知道自己要什么

还有一件事,也很能说明这个项目为什么最后能留下来。

在一次和团队的长会里,笔者其实有点担心:他们会不会把这个项目看成又一个 AI 演示?会不会分不清它和市场上各种 ESG AI 工具、数据供应商、研究平台之间的区别?

这种担心不是凭空来的。

当时确实有外部 ESG AI 数据公司在接触团队负责人,也有类似 AlphaSense 这样的 AI 研究 / 搜索服务摆在桌面上。这些工具听起来都很先进,也都可以讲出很漂亮的 AI 故事。

但团队最后很清醒地没有走那条路。

原因不是他们保守,也不是他们不相信 AI。恰恰相反,他们很看重 AI 的潜力,也很高兴看到这个内部项目继续发展。但他们有一个基本判断:团队存在的理由,不是因为市场上没有数据,也不是因为没人能生成摘要,而是因为他们有自己的基本面判断逻辑。

他们需要的不是一个替他们下结论的黑箱,也不是一个把材料扔进搜索框、让分析师自己重新判断的通用工具。他们真正需要的是:系统把分散、混乱、重复、耗时的材料收集和初步整理做好,同时保留他们的方法论、判断权和最终责任。

普通演示展示的是:

模型也能回答问题。

而这个系统展示的是:

我们可以把完整几千家公司的相关 ESG 材料找出来,按可追溯、可审计的方式整理好,让投资团队在自己的判断框架里使用。

这两件事看起来都叫 AI,但对团队来说完全不同。

前者可能削弱他们的判断位置。后者是在扩大他们的判断半径。

团队不是被 AI 说服的。他们是被一个符合自己投资哲学的系统说服的。

这比被演示打动更慢。

但也更稳。

另一种对照

这个差别,在组织内部的其他 AI 项目上也能看出来。

同一时期,也有一些更偏通用封装或轻量定制的大语言模型项目。它们并不是没有价值,也不是没有人努力。相反,很多项目一开始都很合理:先把大厂能力包装起来,解决权限、数据安全、访问控制和内部使用边界;或者在已有工具上加一点搜索、摘要、问答和结构化输出,让用户自己决定怎么用。

这些方向听起来都没错。

但真正推进起来,很容易陷入另一种困境:大量时间消耗在治理、权限、审批、数据供应商评估、接入流程和内部规则讨论上。与此同时,前线业务用户拿到的东西又太轻,既不像完整产品,也不像可直接验证的工作流。

于是用户会有一种很典型的感受:

食之无味,弃之可惜。

说它没用,好像也不公平。说它好用,又很难具体说出它到底解决了哪个关键问题。

更麻烦的是,这类工具往往很难测试。

如果系统只是给出一段摘要、一个搜索结果、一个聊天回答,用户很难知道应该从哪里开始验证。错了,是模型错?是输入错?是提示词错?是权限没开?是数据源不完整?还是业务定义本来就没说清?

用户觉得无从下手。开发者觉得用户不配合测试。双方都觉得对方没有把事情往前推。

这不是简单的态度问题,而是产品结构问题。

如果输出没有进入用户真实的工作流,用户就很难给出高质量反馈。如果反馈无法具体落到输入、规则、证据、指标和最终判断上,开发者也很难把系统推进到下一层。

所以很多轻量定制项目最痛苦的地方,不是第一版做不出来,而是做出来之后无法收敛。

它们既很难被直接判定为失败,也很难真正进入生产。它们停在一个尴尬的位置:看起来还有点价值,但很难成为用户每天依赖的东西。

这和这条流水线形成了很强的对照。

这条流水线没有从“我们先搭一个通用入口”开始,而是从一个具体、沉重、重复、耗时的业务问题开始:几千家公司,分散披露,格式各异,必须筛出相关 ESG 材料,并且每一步都要可追溯、可审计、可复核。

它不是先问:

我们能把模型包装成什么?

而是先问:

投资团队到底卡在哪里? 哪些输入必须控制? 哪些结果必须可验证? 哪些地方必须保留人的判断权?

这个差别决定了后面的走向。

通用封装容易陷入治理和接口问题。轻量定制容易卡在“有点用但不好测”。深度定制很慢,但一旦把输入、范围、证据、判断和责任结构打通,用户就能真正开始反馈,系统也就能继续收敛。

对照的意义不在于谁努力不够,而在于什么样的产品结构能让反馈真正发生。

所以,生产系统和演示的差别,不只是技术深度。还在于它是否给用户一个可以测试、可以质疑、可以修改、可以负责的对象。

可移植性

团队现在主动要求把工具扩展到 ESG 之外:风险因子。治理指标。监管风险敞口。

架构支持这一点。

同样的模式——大语言模型做语义分类、确定性代码做其他一切、领域专家定义每个新维度里“相关”是什么意思——直接适用。

这不是巧合。

这是搭建可组合架构而非专用架构的结果。流水线不“知道”ESG。它知道的是:从非结构化网络来源收集结构化信息,根据领域专家定义的标准分类相关性,产出可追溯的输出。

ESG 是一个投资实例。可以有其他投资甚至非投资实例。

可移植性验证了设计。它不是为单一用例过度设计的。它是为一类问题恰当地设计的——而这类问题的范围,远比想象中大。

有意思的是,一开始看起来像“重复造轮子”的深度定制,最后反而可能沉淀成真正可复用的框架。

真正可复用的框架,往往不是从抽象平台开始的,而是从一个足够深、足够真的具体问题里长出来的。

这证明了什么

整个系列一直在论证一件事:

组合——大语言模型的判断力 + 工程的精度 + 人的专业经验——才是生产级 AI 系统的正确架构。

这就是证据。

这条流水线证明了几件事:

  • 演示爱好者的封装不会有效。一个通用 ChatGPT 界面无法爬取数千个网站、处理 JavaScript 导航、管理预算、遵守 robots.txt、对 PDF 评分、产出可审计的输出。那 90% 很重要。
  • 领域专家的退缩没有必要。系统不会编造投资决策。它收集数据——可追溯、可审计、全面地。专家的判断没有被削弱。它被延伸了。
  • “智能体什么都能干”的叙事会失败。一个被给予“从企业网站收集 ESG 数据”指令的自主智能体会撞上第3到第8篇描述的每个问题:编排失败、成本爆炸、静默工具错误、目标漂移。
  • “大语言模型已死”的叙事无关紧要。流水线里的大语言模型在工作。它以任何规则系统无法匹敌的准确度分类链接。它是不是通往超级智能的道路不重要——它是通往一个投资团队每天使用的生产级 ESG 数据引擎的道路。

从头到尾,观点从来不是“AI 不行”,也不是“AI 万能”。就一句话:

搭对。

搭对意味着:模型做判断,代码做控制,领域经验定方向。可追溯。可审计。是专家的工具,不是专家的替代品。

这就是我们搭的东西:

团队在用。他们信任它。他们想要更多。

这就是证据。

还有第二层

这个系列到这里,其实只讲完了第一层:

为什么“把 ESG 信息采回来”本身已经需要工程、模型和领域经验的组合。

但这个项目不只停在第一层。

当材料真的被采回来之后,还有第二层问题:采回来的 ESG 文档,如何被系统化地阅读?披露语言如何变成指标判断?模型给出的判断如何被证据约束?分析师如何覆盖、修正、确认,而不是被迫相信一个黑箱答案?最终,这些判断又如何进入组合经理真正会使用的工作流?

那是另一个系列要讲的事。

如果说这个系列的主题是:

为什么智能体做不出这条流水线。

那么下一个系列要讨论的是:

当流水线真的采回了文档,怎样让大语言模型把它们变成可审阅、可追溯、可负责的投资判断。

答案不是简单的又一个RAG系统。

上一组文章讨论的是能力如何被安放进系统。

下一组文章讨论的是判断如何在系统里形成。

但那是下一组文章了。

收束

这个系列正文到此就完结了。一条流水线。一个论点。

AI 擅长理解语义。代码擅长保证行为。经验决定什么时候用哪个。三者缺一不可。

这是起点。也是终点。

不是以理论收束——而是以一个真实投资团队使用的生产系统收束,让他们更快、更全面、更大规模地做出更好的决策。

这个故事,讲完了。

但是还没完全完,还有一件事:我们做了 Karpathy 测试。把整个系列喂给大语言模型,让它拆掉我们的论点。多轮攻防,诚实回应,以及我们从这次练习中学到的东西:

番外篇——反驳。

系列回顾

篇次标题核心一句
1不可能的任务投资组合经理需要 5000 个网站的 ESG 数据。聊天机器人和正则都失败了。
27400行是怎么来的七层分类,每一层都是前一次失败的教训。
3A智能体会毁掉的90%(上)大语言模型在语义判断上不可替代;剩下 90% 全是编排。
3B智能体会毁掉的90%(下)六个看起来简单的问题,每一个都会让智能体翻车。
4诚实的对比流水线 vs. 智能体:贵 3–10 倍,指数级失败率,完美运行概率 0.6%。
5A研究怎么说:数据篇METR 的可靠性断崖;Anthropic 发现增强而非自动化。
5B研究怎么说:框架篇Karpathy 说组合而非替代。
6杠杆差距资深 + AI = 团队。职业阶梯的第一级台阶升高了。
7上下文积累编码能力已解决。工程判断没有。
8A委托难题模糊目标静默漂移。工具有天花板,模型看不见。
8B自主性光谱连倡导者说的都比标题复杂。未来是差异化自主。
9另一个极端“大语言模型已死”和“智能体统治世界”一样引人注目。两个都以同样的方式错了。
10两个房间演示爱好者做不完。领域专家不开始。流水线交付了——因为它听了两边的话。
11证据(本篇)团队以为又是一次演示。他们拿到了生产系统。成功不在模型,在工程。

番外

番外标题核心一句
A反驳我们让 AI 拆自己的系列。五轮攻防,诚实回应。
B理解系统,才有资格委托系统AI 降低了学习系统的门槛,但没有取消理解系统的必要。提问不是理解的替代。
C站在中间地带半夜醒来的那个念头。不是恐惧——是一种更复杂的东西。

本文是系列终篇。番外继续:番外篇——反驳 · 番外篇——理解系统,才有资格委托系统 · 番外篇——站在中间地带。从头开始阅读。