第11篇:证据——当我们真正搭出来之后,发生了什么

系列:“我们构建了一条数万行代码的流水线。智能体为何做不到。”
投资团队以为又是一次演示。结果拿到了生产系统。决定成败的不是模型——是工程。
上篇:第10篇——两个房间。演示爱好者做不完。领域专家不开始。流水线交付了——因为它听了两边的话。
前面十篇都是论证。这一篇是证据。
证据不是“模型能不能在演示里回答问题”。证据是:系统搭出来之后,真实团队是否开始依赖它。
更具体地说:
生产系统的证据,不是它能演示,而是它开始进入团队的时间表、判断流程和责任结构。
起点
投资团队的期望值其实很低。不是因为他们愤世嫉俗——而是因为他们有经验。他们以前见过多次 AI 的演示。也听过那些承诺。年度计划里写的是什么?和所有机构写 AI 项目时一模一样的措辞:
探索 AI 应用。
分配给它的时间是 5–10%,优先级是中低。“探索”两个字说明一切。“探索”就是没人指望它能真正跑起来。预算是为学习批的,不是为生产。团队会礼貌地参加演示,点点头,然后回去继续用老办法干活。
这就是起点。
搭了什么
不是聊天机器人。不是套壳接口。不是演示。是一个完整融入日常投资流程的工具。这个系列主要讲的是这个项目的第一层:一个生产级 ESG 数据采集引擎。它做的事很简单:
从几千个企业网站里,系统性地收集尽可能完整的 ESG 相关材料,并把它们以可追溯、可审计的方式交给下游分析流程。
具体来说,它会:
- 爬取数千个企业网站的特定 ESG 相关信息;
- 用大语言模型驱动的语义判断分类链接;
- 处理 JavaScript 重度网站、跟踪重定向、管理 cookies;
- 下载 PDF 并对相关性评分;
- 遵守 robots.txt、管理访问频率、在预算内运行;
- 每一步都产出可追溯、可审计的输出;
- 向团队的下游分析流水线输送结构化数据。
这部分已经在前十篇反复讲过,不需要再展开一次。
一句话概括:
大语言模型做需要理解语言的那一层。确定性代码做需要控制、精度和可靠性的那一层。
前十篇一直在说的,就是这个架构。
为什么它有效
团队很少在输出中发现问题。偶尔有——大概率是因为某些问题没有事先厘清,或者流水线忽略了某种边缘例子——他们会给反馈,反馈会被集成到下一次迭代中,不再犯同样错误。改进循环快速、可预期,团队能看到每一个变更的具体位置和原因。但最重要的是这一点:
它能用,不是因为 AI 模型多强大。
真实系统里,模型选择不是一句“用最强的”就结束了。它不是信仰问题,而是系统设计问题。
简单分类、格式转换、局部抽取,较小模型可能已经足够;复杂推理、长上下文、多步任务,则会很快撞到能力墙。所以成熟的做法从来不是盲目追最强模型,也不是以为所有模型都差不多,而是知道:哪个任务块需要多强的模型,哪里可以降级,哪里必须由确定性代码和人的判断兜底。
最强模型裸跑,不如足够强的模型放在正确的层里。
这也解释了另一件常被误解的事:这条流水线不是“模型自己做出来了”。就算给一个很强的模型很长时间,它也不会自动把整条链路收敛出来——不是因为它不够强,而是因为收敛需要反馈、约束、验收和责任结构。生成不是收敛;能写出一段东西,不等于能把整条系统逼到可交付状态。
它能用,是因为:
- 受控的输入管道。进入系统的每一条数据都经过定义好的、可审计的步骤。没有黑箱。
- 可预测性。相同的输入产出相同的输出。不一致的时候,系统会记录原因。
- 全面性。引擎覆盖团队需要的完整公司列表,不是一个让演示好看的精选子集。
- 可追溯性。系统做的每一个决定——跟踪哪些链接、下载哪些 PDF、把哪些页面归类为相关——都被记录,可以回溯审查。
- 可审计性。团队能把任何输出追溯到它的原始来源。在受监管的投资环境里,这不是锦上添花,而是基本要求。
以上每一条,都不是“模型能力”自然长出来的。它们来自围绕大语言模型的工程。模型聪明。流水线可靠。团队真正在用的,是两者的组合。
他们怎么用
投资会议之前,团队希望模型输出已经就绪。不是因为他们盲目信任——而是因为手动收集整理 ESG 数据曾经是会前准备里最枯燥的部分,动辄几小时甚至几天。
现在不用了。
系统替他们做——而且是全面地做,覆盖管理的全部公司,不只是有时间手动研究的那几个。但——这是关键——打分还是他们的。方法论还是他们的。投资决策还是他们做的。
系统收集、分类、整理。团队验证、判断、决定。机械的部分自动化了。专家的部分留在专家手里。
这不是替代。这才是“副驾驶式协作”在搭对了的时候真正的意思。
很多现实任务也不是一次性做对的。哪怕是很强的模型,让它从一张表格里直接生成正确的图表代码,第一版也常常会看错字段、选错图型、处理不好日期、分组或缺失值;后面几轮才逐步修正。
它能做好,是进步。它不能一次性做好,是边界。
采集流水线也是一样:真正让结果落地的,不是一次生成,而是带着反馈不断逼近。这也是为什么,更自动的智能体模式并不天然更高级。
已成形的问题可以更多自动化;还在形成的问题只能协作化。
目标清楚、约束稳定时,更高自动化当然可能更省事;但在很多真实业务里,人不是先完整知道自己要什么,再把任务整段外包。目标本身,往往是在反馈里慢慢长出来的。
过早全权委托,更容易偏航。
更好的做法,常常是人和系统边走边看、边生成边校正,让目标在推进中逐渐显形,也让人逐渐学会哪些地方可以放手,哪些地方必须亲自盯住。
早上 7:58 的请求
还有一个很小的场景,比很多正式评价更能说明问题。
某天早上 7:58,一位同事来找开发者。她需要系统尽快生成某家候选公司的报告,因为这家公司下午就要进投资决策会议讨论。
这个时间点本身就很说明问题。开发者其实 9 点才上班,那时还在吃早饭;但她已经等不及了,因为她们团队需要模型结果。如果报告能在上午生成出来,团队下午就可以看,可以拍板。如果不能,就只能等到下个月。
这不是演示场景。
演示只需要证明“模型能不能回答”。真实工作流里,问题变成了:系统能不能在会议节奏、候选名单和实际决策时间表里,把一家公司推进到可讨论状态。
对团队来说,这种差别很重要。
以前,材料没准备好,讨论就要等。现在,系统把准备工作的时间压缩下来,候选公司就可以进入当天的讨论。
这不是替代投资判断。恰恰相反,它让投资判断能更及时地发生。不是模型替你决定。而是它让你来得及判断:
演示证明的是可能性。生产系统改变的是时间表。
生产系统的证据,不是有人说它好,而是有人开始在实际工作中等它的输出。
反应
投资团队感到惊讶。不是被 AI 惊到——他们见过 AI 演示。他们惊讶的是:
这东西在生产环境里居然真能用。
数据是全面的。有些公司在过去几年居然有几千个 ESG 相关文档,以及动不动几百页的 PDF。
输出可以追溯。这个结论是根据什么来的,系统能说明白。它融入了他们的工作流程,而没有造成干扰。
他们原本的期望——又一次探索,又一次演示,又一个在演示里好看但实际中不好用的东西——是错的。而他们乐于承认这个错。
有一次会议上,一位投资组合经理把差别说得很直白:真正把这个系统和其他工具拉开的,不是它“也用了大语言模型”,而是它真的能把分散在各处、格式各异的完整 ESG 材料筛出来、收进来、整理出来。
他们觉得被系统赋能了。不是被威胁。不是被替代。赋能。
“赋能”和“威胁”之间的差别在哪?全在架构里。
系统想替代你的判断——你会感到威胁。系统替你干苦活、让你专注于判断——你会感到赋能。
底层技术看起来相似,人与系统的关系完全不同。
他们不是不懂 AI,而是知道自己要什么
还有一件事,也很能说明这个项目为什么最后能留下来。
在一次和团队的长会里,笔者其实有点担心:他们会不会把这个项目看成又一个 AI 演示?会不会分不清它和市场上各种 ESG AI 工具、数据供应商、研究平台之间的区别?
这种担心不是凭空来的。
当时确实有外部 ESG AI 数据公司在接触团队负责人,也有类似 AlphaSense 这样的 AI 研究 / 搜索服务摆在桌面上。这些工具听起来都很先进,也都可以讲出很漂亮的 AI 故事。
但团队最后很清醒地没有走那条路。
原因不是他们保守,也不是他们不相信 AI。恰恰相反,他们很看重 AI 的潜力,也很高兴看到这个内部项目继续发展。但他们有一个基本判断:团队存在的理由,不是因为市场上没有数据,也不是因为没人能生成摘要,而是因为他们有自己的基本面判断逻辑。
他们需要的不是一个替他们下结论的黑箱,也不是一个把材料扔进搜索框、让分析师自己重新判断的通用工具。他们真正需要的是:系统把分散、混乱、重复、耗时的材料收集和初步整理做好,同时保留他们的方法论、判断权和最终责任。
普通演示展示的是:
模型也能回答问题。
而这个系统展示的是:
我们可以把完整几千家公司的相关 ESG 材料找出来,按可追溯、可审计的方式整理好,让投资团队在自己的判断框架里使用。
这两件事看起来都叫 AI,但对团队来说完全不同。
前者可能削弱他们的判断位置。后者是在扩大他们的判断半径。
团队不是被 AI 说服的。他们是被一个符合自己投资哲学的系统说服的。
这比被演示打动更慢。
但也更稳。
另一种对照
这个差别,在组织内部的其他 AI 项目上也能看出来。
同一时期,也有一些更偏通用封装或轻量定制的大语言模型项目。它们并不是没有价值,也不是没有人努力。相反,很多项目一开始都很合理:先把大厂能力包装起来,解决权限、数据安全、访问控制和内部使用边界;或者在已有工具上加一点搜索、摘要、问答和结构化输出,让用户自己决定怎么用。
这些方向听起来都没错。
但真正推进起来,很容易陷入另一种困境:大量时间消耗在治理、权限、审批、数据供应商评估、接入流程和内部规则讨论上。与此同时,前线业务用户拿到的东西又太轻,既不像完整产品,也不像可直接验证的工作流。
于是用户会有一种很典型的感受:
食之无味,弃之可惜。
说它没用,好像也不公平。说它好用,又很难具体说出它到底解决了哪个关键问题。
更麻烦的是,这类工具往往很难测试。
如果系统只是给出一段摘要、一个搜索结果、一个聊天回答,用户很难知道应该从哪里开始验证。错了,是模型错?是输入错?是提示词错?是权限没开?是数据源不完整?还是业务定义本来就没说清?
用户觉得无从下手。开发者觉得用户不配合测试。双方都觉得对方没有把事情往前推。
这不是简单的态度问题,而是产品结构问题。
如果输出没有进入用户真实的工作流,用户就很难给出高质量反馈。如果反馈无法具体落到输入、规则、证据、指标和最终判断上,开发者也很难把系统推进到下一层。
所以很多轻量定制项目最痛苦的地方,不是第一版做不出来,而是做出来之后无法收敛。
它们既很难被直接判定为失败,也很难真正进入生产。它们停在一个尴尬的位置:看起来还有点价值,但很难成为用户每天依赖的东西。
这和这条流水线形成了很强的对照。
这条流水线没有从“我们先搭一个通用入口”开始,而是从一个具体、沉重、重复、耗时的业务问题开始:几千家公司,分散披露,格式各异,必须筛出相关 ESG 材料,并且每一步都要可追溯、可审计、可复核。
它不是先问:
我们能把模型包装成什么?
而是先问:
投资团队到底卡在哪里? 哪些输入必须控制? 哪些结果必须可验证? 哪些地方必须保留人的判断权?
这个差别决定了后面的走向。
通用封装容易陷入治理和接口问题。轻量定制容易卡在“有点用但不好测”。深度定制很慢,但一旦把输入、范围、证据、判断和责任结构打通,用户就能真正开始反馈,系统也就能继续收敛。
对照的意义不在于谁努力不够,而在于什么样的产品结构能让反馈真正发生。
所以,生产系统和演示的差别,不只是技术深度。还在于它是否给用户一个可以测试、可以质疑、可以修改、可以负责的对象。
可移植性
团队现在主动要求把工具扩展到 ESG 之外:风险因子。治理指标。监管风险敞口。
架构支持这一点。
同样的模式——大语言模型做语义分类、确定性代码做其他一切、领域专家定义每个新维度里“相关”是什么意思——直接适用。
这不是巧合。
这是搭建可组合架构而非专用架构的结果。流水线不“知道”ESG。它知道的是:从非结构化网络来源收集结构化信息,根据领域专家定义的标准分类相关性,产出可追溯的输出。
ESG 是一个投资实例。可以有其他投资甚至非投资实例。
可移植性验证了设计。它不是为单一用例过度设计的。它是为一类问题恰当地设计的——而这类问题的范围,远比想象中大。
有意思的是,一开始看起来像“重复造轮子”的深度定制,最后反而可能沉淀成真正可复用的框架。
真正可复用的框架,往往不是从抽象平台开始的,而是从一个足够深、足够真的具体问题里长出来的。
这证明了什么
整个系列一直在论证一件事:
组合——大语言模型的判断力 + 工程的精度 + 人的专业经验——才是生产级 AI 系统的正确架构。
这就是证据。
这条流水线证明了几件事:
- 演示爱好者的封装不会有效。一个通用 ChatGPT 界面无法爬取数千个网站、处理 JavaScript 导航、管理预算、遵守 robots.txt、对 PDF 评分、产出可审计的输出。那 90% 很重要。
- 领域专家的退缩没有必要。系统不会编造投资决策。它收集数据——可追溯、可审计、全面地。专家的判断没有被削弱。它被延伸了。
- “智能体什么都能干”的叙事会失败。一个被给予“从企业网站收集 ESG 数据”指令的自主智能体会撞上第3到第8篇描述的每个问题:编排失败、成本爆炸、静默工具错误、目标漂移。
- “大语言模型已死”的叙事无关紧要。流水线里的大语言模型在工作。它以任何规则系统无法匹敌的准确度分类链接。它是不是通往超级智能的道路不重要——它是通往一个投资团队每天使用的生产级 ESG 数据引擎的道路。
从头到尾,观点从来不是“AI 不行”,也不是“AI 万能”。就一句话:
搭对。
搭对意味着:模型做判断,代码做控制,领域经验定方向。可追溯。可审计。是专家的工具,不是专家的替代品。
这就是我们搭的东西:
团队在用。他们信任它。他们想要更多。
这就是证据。
还有第二层
这个系列到这里,其实只讲完了第一层:
为什么“把 ESG 信息采回来”本身已经需要工程、模型和领域经验的组合。
但这个项目不只停在第一层。
当材料真的被采回来之后,还有第二层问题:采回来的 ESG 文档,如何被系统化地阅读?披露语言如何变成指标判断?模型给出的判断如何被证据约束?分析师如何覆盖、修正、确认,而不是被迫相信一个黑箱答案?最终,这些判断又如何进入组合经理真正会使用的工作流?
那是另一个系列要讲的事。
如果说这个系列的主题是:
为什么智能体做不出这条流水线。
那么下一个系列要讨论的是:
当流水线真的采回了文档,怎样让大语言模型把它们变成可审阅、可追溯、可负责的投资判断。
答案不是简单的又一个RAG系统。
上一组文章讨论的是能力如何被安放进系统。
下一组文章讨论的是判断如何在系统里形成。
但那是下一组文章了。
收束
这个系列正文到此就完结了。一条流水线。一个论点。
AI 擅长理解语义。代码擅长保证行为。经验决定什么时候用哪个。三者缺一不可。
这是起点。也是终点。
不是以理论收束——而是以一个真实投资团队使用的生产系统收束,让他们更快、更全面、更大规模地做出更好的决策。
这个故事,讲完了。
但是还没完全完,还有一件事:我们做了 Karpathy 测试。把整个系列喂给大语言模型,让它拆掉我们的论点。多轮攻防,诚实回应,以及我们从这次练习中学到的东西:
番外篇——反驳。
系列回顾
| 篇次 | 标题 | 核心一句 |
|---|---|---|
| 1 | 不可能的任务 | 投资组合经理需要 5000 个网站的 ESG 数据。聊天机器人和正则都失败了。 |
| 2 | 7400行是怎么来的 | 七层分类,每一层都是前一次失败的教训。 |
| 3A | 智能体会毁掉的90%(上) | 大语言模型在语义判断上不可替代;剩下 90% 全是编排。 |
| 3B | 智能体会毁掉的90%(下) | 六个看起来简单的问题,每一个都会让智能体翻车。 |
| 4 | 诚实的对比 | 流水线 vs. 智能体:贵 3–10 倍,指数级失败率,完美运行概率 0.6%。 |
| 5A | 研究怎么说:数据篇 | METR 的可靠性断崖;Anthropic 发现增强而非自动化。 |
| 5B | 研究怎么说:框架篇 | Karpathy 说组合而非替代。 |
| 6 | 杠杆差距 | 资深 + AI = 团队。职业阶梯的第一级台阶升高了。 |
| 7 | 上下文积累 | 编码能力已解决。工程判断没有。 |
| 8A | 委托难题 | 模糊目标静默漂移。工具有天花板,模型看不见。 |
| 8B | 自主性光谱 | 连倡导者说的都比标题复杂。未来是差异化自主。 |
| 9 | 另一个极端 | “大语言模型已死”和“智能体统治世界”一样引人注目。两个都以同样的方式错了。 |
| 10 | 两个房间 | 演示爱好者做不完。领域专家不开始。流水线交付了——因为它听了两边的话。 |
| 11 | 证据(本篇) | 团队以为又是一次演示。他们拿到了生产系统。成功不在模型,在工程。 |
番外
| 番外 | 标题 | 核心一句 |
|---|---|---|
| A | 反驳 | 我们让 AI 拆自己的系列。五轮攻防,诚实回应。 |
| B | 理解系统,才有资格委托系统 | AI 降低了学习系统的门槛,但没有取消理解系统的必要。提问不是理解的替代。 |
| C | 站在中间地带 | 半夜醒来的那个念头。不是恐惧——是一种更复杂的东西。 |
本文是系列终篇。番外继续:番外篇——反驳 · 番外篇——理解系统,才有资格委托系统 · 番外篇——站在中间地带。从头开始阅读。