Jun 24, 2026

第11篇：证据——当我们真正搭出来之后，发生了什么

系列：“我们构建了一条数万行代码的流水线。智能体为何做不到。”

上一篇：第10篇——两个房间。

Read the English version.

投资团队以为又是一次演示。结果拿到了生产系统。决定成败的不是模型——是工程。

上篇：第10篇——两个房间。演示爱好者做不完。领域专家不开始。流水线交付了——因为它听了两边的话。

前面十篇都是论证。这一篇是证据。

证据不是“模型能不能在演示里回答问题”。证据是：系统搭出来之后，真实团队是否开始依赖它。

更具体地说：

生产系统的证据，不是它能演示，而是它开始进入团队的时间表、判断流程和责任结构。

起点

投资团队的期望值其实很低。不是因为他们愤世嫉俗——而是因为他们有经验。他们以前见过多次 AI 的演示。也听过那些承诺。年度计划里写的是什么？和所有机构写 AI 项目时一模一样的措辞：

探索 AI 应用。

分配给它的时间是 5–10%，优先级是中低。“探索”两个字说明一切。“探索”就是没人指望它能真正跑起来。预算是为学习批的，不是为生产。团队会礼貌地参加演示，点点头，然后回去继续用老办法干活。

这就是起点。

搭了什么

不是聊天机器人。不是套壳接口。不是演示。是一个完整融入日常投资流程的工具。这个系列主要讲的是这个项目的第一层：一个生产级 ESG 数据采集引擎。它做的事很简单：

从几千个企业网站里，系统性地收集尽可能完整的 ESG 相关材料，并把它们以可追溯、可审计的方式交给下游分析流程。

具体来说，它会：

爬取数千个企业网站的特定 ESG 相关信息；
用大语言模型驱动的语义判断分类链接；
处理 JavaScript 重度网站、跟踪重定向、管理 cookies；
下载 PDF 并对相关性评分；
遵守 robots.txt、管理访问频率、在预算内运行；
每一步都产出可追溯、可审计的输出；
向团队的下游分析流水线输送结构化数据。

这部分已经在前十篇反复讲过，不需要再展开一次。

一句话概括：

大语言模型做需要理解语言的那一层。确定性代码做需要控制、精度和可靠性的那一层。

前十篇一直在说的，就是这个架构。

为什么它有效

团队很少在输出中发现问题。偶尔有——大概率是因为某些问题没有事先厘清，或者流水线忽略了某种边缘例子——他们会给反馈，反馈会被集成到下一次迭代中，不再犯同样错误。改进循环快速、可预期，团队能看到每一个变更的具体位置和原因。但最重要的是这一点：

它能用，不是因为 AI 模型多强大。

真实系统里，模型选择不是一句“用最强的”就结束了。它不是信仰问题，而是系统设计问题。

简单分类、格式转换、局部抽取，较小模型可能已经足够；复杂推理、长上下文、多步任务，则会很快撞到能力墙。所以成熟的做法从来不是盲目追最强模型，也不是以为所有模型都差不多，而是知道：哪个任务块需要多强的模型，哪里可以降级，哪里必须由确定性代码和人的判断兜底。

最强模型裸跑，不如足够强的模型放在正确的层里。

这也解释了另一件常被误解的事：这条流水线不是“模型自己做出来了”。就算给一个很强的模型很长时间，它也不会自动把整条链路收敛出来——不是因为它不够强，而是因为收敛需要反馈、约束、验收和责任结构。生成不是收敛；能写出一段东西，不等于能把整条系统逼到可交付状态。

它能用，是因为：

受控的输入管道。进入系统的每一条数据都经过定义好的、可审计的步骤。没有黑箱。
可预测性。相同的输入产出相同的输出。不一致的时候，系统会记录原因。
全面性。引擎覆盖团队需要的完整公司列表，不是一个让演示好看的精选子集。
可追溯性。系统做的每一个决定——跟踪哪些链接、下载哪些 PDF、把哪些页面归类为相关——都被记录，可以回溯审查。
可审计性。团队能把任何输出追溯到它的原始来源。在受监管的投资环境里，这不是锦上添花，而是基本要求。

以上每一条，都不是“模型能力”自然长出来的。它们来自围绕大语言模型的工程。模型聪明。流水线可靠。团队真正在用的，是两者的组合。

他们怎么用

投资会议之前，团队希望模型输出已经就绪。不是因为他们盲目信任——而是因为手动收集整理 ESG 数据曾经是会前准备里最枯燥的部分，动辄几小时甚至几天。

现在不用了。

系统替他们做——而且是全面地做，覆盖管理的全部公司，不只是有时间手动研究的那几个。但——这是关键——打分还是他们的。方法论还是他们的。投资决策还是他们做的。

系统收集、分类、整理。团队验证、判断、决定。机械的部分自动化了。专家的部分留在专家手里。

这不是替代。这才是“副驾驶式协作”在搭对了的时候真正的意思。

很多现实任务也不是一次性做对的。哪怕是很强的模型，让它从一张表格里直接生成正确的图表代码，第一版也常常会看错字段、选错图型、处理不好日期、分组或缺失值；后面几轮才逐步修正。

它能做好，是进步。它不能一次性做好，是边界。

采集流水线也是一样：真正让结果落地的，不是一次生成，而是带着反馈不断逼近。这也是为什么，更自动的智能体模式并不天然更高级。

已成形的问题可以更多自动化；还在形成的问题只能协作化。

目标清楚、约束稳定时，更高自动化当然可能更省事；但在很多真实业务里，人不是先完整知道自己要什么，再把任务整段外包。目标本身，往往是在反馈里慢慢长出来的。

过早全权委托，更容易偏航。

更好的做法，常常是人和系统边走边看、边生成边校正，让目标在推进中逐渐显形，也让人逐渐学会哪些地方可以放手，哪些地方必须亲自盯住。

早上 7:58 的请求

还有一个很小的场景，比很多正式评价更能说明问题。

某天早上 7:58，一位同事来找开发者。她需要系统尽快生成某家候选公司的报告，因为这家公司下午就要进投资决策会议讨论。

这个时间点本身就很说明问题。开发者其实 9 点才上班，那时还在吃早饭；但她已经等不及了，因为她们团队需要模型结果。如果报告能在上午生成出来，团队下午就可以看，可以拍板。如果不能，就只能等到下个月。

这不是演示场景。

演示只需要证明“模型能不能回答”。真实工作流里，问题变成了：系统能不能在会议节奏、候选名单和实际决策时间表里，把一家公司推进到可讨论状态。

对团队来说，这种差别很重要。

以前，材料没准备好，讨论就要等。现在，系统把准备工作的时间压缩下来，候选公司就可以进入当天的讨论。

这不是替代投资判断。恰恰相反，它让投资判断能更及时地发生。不是模型替你决定。而是它让你来得及判断：

演示证明的是可能性。生产系统改变的是时间表。

生产系统的证据，不是有人说它好，而是有人开始在实际工作中等它的输出。

反应

投资团队感到惊讶。不是被 AI 惊到——他们见过 AI 演示。他们惊讶的是：

这东西在生产环境里居然真能用。

数据是全面的。有些公司在过去几年居然有几千个 ESG 相关文档，以及动不动几百页的 PDF。

输出可以追溯。这个结论是根据什么来的，系统能说明白。它融入了他们的工作流程，而没有造成干扰。

他们原本的期望——又一次探索，又一次演示，又一个在演示里好看但实际中不好用的东西——是错的。而他们乐于承认这个错。

有一次会议上，一位投资组合经理把差别说得很直白：真正把这个系统和其他工具拉开的，不是它“也用了大语言模型”，而是它真的能把分散在各处、格式各异的完整 ESG 材料筛出来、收进来、整理出来。

他们觉得被系统赋能了。不是被威胁。不是被替代。赋能。

“赋能”和“威胁”之间的差别在哪？全在架构里。

系统想替代你的判断——你会感到威胁。系统替你干苦活、让你专注于判断——你会感到赋能。

底层技术看起来相似，人与系统的关系完全不同。

他们不是不懂 AI，而是知道自己要什么

还有一件事，也很能说明这个项目为什么最后能留下来。

在一次和团队的长会里，笔者其实有点担心：他们会不会把这个项目看成又一个 AI 演示？会不会分不清它和市场上各种 ESG AI 工具、数据供应商、研究平台之间的区别？

这种担心不是凭空来的。

当时确实有外部 ESG AI 数据公司在接触团队负责人，也有类似 AlphaSense 这样的 AI 研究 / 搜索服务摆在桌面上。这些工具听起来都很先进，也都可以讲出很漂亮的 AI 故事。

但团队最后很清醒地没有走那条路。

原因不是他们保守，也不是他们不相信 AI。恰恰相反，他们很看重 AI 的潜力，也很高兴看到这个内部项目继续发展。但他们有一个基本判断：团队存在的理由，不是因为市场上没有数据，也不是因为没人能生成摘要，而是因为他们有自己的基本面判断逻辑。

他们需要的不是一个替他们下结论的黑箱，也不是一个把材料扔进搜索框、让分析师自己重新判断的通用工具。他们真正需要的是：系统把分散、混乱、重复、耗时的材料收集和初步整理做好，同时保留他们的方法论、判断权和最终责任。

普通演示展示的是：

模型也能回答问题。

而这个系统展示的是：

我们可以把完整几千家公司的相关 ESG 材料找出来，按可追溯、可审计的方式整理好，让投资团队在自己的判断框架里使用。

这两件事看起来都叫 AI，但对团队来说完全不同。

前者可能削弱他们的判断位置。后者是在扩大他们的判断半径。

团队不是被 AI 说服的。他们是被一个符合自己投资哲学的系统说服的。

这比被演示打动更慢。

但也更稳。

另一种对照

这个差别，在组织内部的其他 AI 项目上也能看出来。

同一时期，也有一些更偏通用封装或轻量定制的大语言模型项目。它们并不是没有价值，也不是没有人努力。相反，很多项目一开始都很合理：先把大厂能力包装起来，解决权限、数据安全、访问控制和内部使用边界；或者在已有工具上加一点搜索、摘要、问答和结构化输出，让用户自己决定怎么用。

这些方向听起来都没错。

但真正推进起来，很容易陷入另一种困境：大量时间消耗在治理、权限、审批、数据供应商评估、接入流程和内部规则讨论上。与此同时，前线业务用户拿到的东西又太轻，既不像完整产品，也不像可直接验证的工作流。

于是用户会有一种很典型的感受：

食之无味，弃之可惜。

说它没用，好像也不公平。说它好用，又很难具体说出它到底解决了哪个关键问题。

更麻烦的是，这类工具往往很难测试。

如果系统只是给出一段摘要、一个搜索结果、一个聊天回答，用户很难知道应该从哪里开始验证。错了，是模型错？是输入错？是提示词错？是权限没开？是数据源不完整？还是业务定义本来就没说清？

用户觉得无从下手。开发者觉得用户不配合测试。双方都觉得对方没有把事情往前推。

这不是简单的态度问题，而是产品结构问题。

如果输出没有进入用户真实的工作流，用户就很难给出高质量反馈。如果反馈无法具体落到输入、规则、证据、指标和最终判断上，开发者也很难把系统推进到下一层。

所以很多轻量定制项目最痛苦的地方，不是第一版做不出来，而是做出来之后无法收敛。

它们既很难被直接判定为失败，也很难真正进入生产。它们停在一个尴尬的位置：看起来还有点价值，但很难成为用户每天依赖的东西。

这和这条流水线形成了很强的对照。

这条流水线没有从“我们先搭一个通用入口”开始，而是从一个具体、沉重、重复、耗时的业务问题开始：几千家公司，分散披露，格式各异，必须筛出相关 ESG 材料，并且每一步都要可追溯、可审计、可复核。

它不是先问：

我们能把模型包装成什么？

而是先问：

投资团队到底卡在哪里？哪些输入必须控制？哪些结果必须可验证？哪些地方必须保留人的判断权？

这个差别决定了后面的走向。

通用封装容易陷入治理和接口问题。轻量定制容易卡在“有点用但不好测”。深度定制很慢，但一旦把输入、范围、证据、判断和责任结构打通，用户就能真正开始反馈，系统也就能继续收敛。

对照的意义不在于谁努力不够，而在于什么样的产品结构能让反馈真正发生。

所以，生产系统和演示的差别，不只是技术深度。还在于它是否给用户一个可以测试、可以质疑、可以修改、可以负责的对象。

可移植性

团队现在主动要求把工具扩展到 ESG 之外：风险因子。治理指标。监管风险敞口。

架构支持这一点。

同样的模式——大语言模型做语义分类、确定性代码做其他一切、领域专家定义每个新维度里“相关”是什么意思——直接适用。

这不是巧合。

这是搭建可组合架构而非专用架构的结果。流水线不“知道”ESG。它知道的是：从非结构化网络来源收集结构化信息，根据领域专家定义的标准分类相关性，产出可追溯的输出。

ESG 是一个投资实例。可以有其他投资甚至非投资实例。

可移植性验证了设计。它不是为单一用例过度设计的。它是为一类问题恰当地设计的——而这类问题的范围，远比想象中大。

有意思的是，一开始看起来像“重复造轮子”的深度定制，最后反而可能沉淀成真正可复用的框架。

真正可复用的框架，往往不是从抽象平台开始的，而是从一个足够深、足够真的具体问题里长出来的。

这证明了什么

整个系列一直在论证一件事：

组合——大语言模型的判断力 + 工程的精度 + 人的专业经验——才是生产级 AI 系统的正确架构。

这就是证据。

这条流水线证明了几件事：

演示爱好者的封装不会有效。一个通用 ChatGPT 界面无法爬取数千个网站、处理 JavaScript 导航、管理预算、遵守 robots.txt、对 PDF 评分、产出可审计的输出。那 90% 很重要。
领域专家的退缩没有必要。系统不会编造投资决策。它收集数据——可追溯、可审计、全面地。专家的判断没有被削弱。它被延伸了。
“智能体什么都能干”的叙事会失败。一个被给予“从企业网站收集 ESG 数据”指令的自主智能体会撞上第3到第8篇描述的每个问题：编排失败、成本爆炸、静默工具错误、目标漂移。
“大语言模型已死”的叙事无关紧要。流水线里的大语言模型在工作。它以任何规则系统无法匹敌的准确度分类链接。它是不是通往超级智能的道路不重要——它是通往一个投资团队每天使用的生产级 ESG 数据引擎的道路。

从头到尾，观点从来不是“AI 不行”，也不是“AI 万能”。就一句话：

搭对。

搭对意味着：模型做判断，代码做控制，领域经验定方向。可追溯。可审计。是专家的工具，不是专家的替代品。

这就是我们搭的东西：

团队在用。他们信任它。他们想要更多。

这就是证据。

还有第二层

这个系列到这里，其实只讲完了第一层：

为什么“把 ESG 信息采回来”本身已经需要工程、模型和领域经验的组合。

但这个项目不只停在第一层。

当材料真的被采回来之后，还有第二层问题：采回来的 ESG 文档，如何被系统化地阅读？披露语言如何变成指标判断？模型给出的判断如何被证据约束？分析师如何覆盖、修正、确认，而不是被迫相信一个黑箱答案？最终，这些判断又如何进入组合经理真正会使用的工作流？

那是另一个系列要讲的事。

如果说这个系列的主题是：

为什么智能体做不出这条流水线。

那么下一个系列要讨论的是：

当流水线真的采回了文档，怎样让大语言模型把它们变成可审阅、可追溯、可负责的投资判断。

答案不是简单的又一个RAG系统。

上一组文章讨论的是能力如何被安放进系统。

下一组文章讨论的是判断如何在系统里形成。

但那是下一组文章了。

收束

这个系列正文到此就完结了。一条流水线。一个论点。

AI 擅长理解语义。代码擅长保证行为。经验决定什么时候用哪个。三者缺一不可。

这是起点。也是终点。

不是以理论收束——而是以一个真实投资团队使用的生产系统收束，让他们更快、更全面、更大规模地做出更好的决策。

这个故事，讲完了。

但是还没完全完，还有一件事：我们做了 Karpathy 测试。把整个系列喂给大语言模型，让它拆掉我们的论点。多轮攻防，诚实回应，以及我们从这次练习中学到的东西：

番外篇——反驳。

系列回顾

篇次	标题	核心一句
1	不可能的任务	投资组合经理需要 5000 个网站的 ESG 数据。聊天机器人和正则都失败了。
2	7400行是怎么来的	七层分类，每一层都是前一次失败的教训。
3A	智能体会毁掉的90%（上）	大语言模型在语义判断上不可替代；剩下 90% 全是编排。
3B	智能体会毁掉的90%（下）	六个看起来简单的问题，每一个都会让智能体翻车。
4	诚实的对比	流水线 vs. 智能体：贵 3–10 倍，指数级失败率，完美运行概率 0.6%。
5A	研究怎么说：数据篇	METR 的可靠性断崖；Anthropic 发现增强而非自动化。
5B	研究怎么说：框架篇	Karpathy 说组合而非替代。
6	杠杆差距	资深 + AI = 团队。职业阶梯的第一级台阶升高了。
7	上下文积累	编码能力已解决。工程判断没有。
8A	委托难题	模糊目标静默漂移。工具有天花板，模型看不见。
8B	自主性光谱	连倡导者说的都比标题复杂。未来是差异化自主。
9	另一个极端	“大语言模型已死”和“智能体统治世界”一样引人注目。两个都以同样的方式错了。
10	两个房间	演示爱好者做不完。领域专家不开始。流水线交付了——因为它听了两边的话。
11	证据（本篇）	团队以为又是一次演示。他们拿到了生产系统。成功不在模型，在工程。

番外

番外	标题	核心一句
A	反驳	我们让 AI 拆自己的系列。五轮攻防，诚实回应。
B	理解系统，才有资格委托系统	AI 降低了学习系统的门槛，但没有取消理解系统的必要。提问不是理解的替代。
C	站在中间地带	半夜醒来的那个念头。不是恐惧——是一种更复杂的东西。

本文是系列终篇。番外继续：番外篇——反驳 · 番外篇——理解系统，才有资格委托系统 · 番外篇——站在中间地带。从头开始阅读。