Jun 4, 2026

第1篇：投资组合经理的不可能任务

系列：我们构建了一条几万行代码的流水线。Agents 为何做不到。

上一篇：第0篇。
每个季度，一家投资机构的某个投资组都要做一件听起来很简单的事：评估基金投资组合中各公司的 ESG 表现。

对每家公司，投资组合经理要阅读披露文件，对照基金内部的评估框架进行映射。公司是否报告了范围 3 排放？是否设有董事会级别的可持续发展委员会？供应链的劳动实践如何？

找到正确的文件。阅读它。评分。下一家公司。

听起来可以做到，直到你看到“正确的文件”到底意味着什么。

不只是可持续发展报告

她需要气候转型计划、气候相关披露、生物多样性声明、现代奴隶制声明、冲突矿产报告、税收透明度政策、水资源管理承诺、负责任 AI 政策、数据隐私影响评估、社区投资报告、政治游说披露、与 ESG 目标挂钩的高管薪酬政策。

这还只是通用清单。行业特定披露又是另一层：矿业公司的尾矿坝安全、物流公司的车队排放目标、食品生产商的动物福利标准。

不同报告框架意味着各公司以不同格式报告不同内容。没有两家公司以相同方式组织披露信息。

她做得很好。但投资组合持有数千家公司。

对每家公司，她要访问公司官网，打开几十个标签页，跟踪看似有用的链接，收藏 PDF，遗漏藏在三层点击深处的页面。有些公司把所有信息集中在一个地方。其他公司则将披露信息分散在投资者关系页面、可持续发展微站点、区域子域名、第三方报告平台。

每家公司花费数小时。而且她知道自己仍在遗漏信息。

一致性问题

真正的问题随后浮出水面：不只是规模，而是一致性。

她的同事评估同一家公司，却得出不同分数。不是因为谁做错了，而是因为他们在同一个网站上找到了不同文件。一个人找到了藏在“法律”栏目下的现代奴隶制声明，另一个没有。他们对同一个框架标准有不同解读：对每位读过同一份书面指南的分析师来说，“充分披露”的含义略有不同。

坦白说，其中一个人是在连续开了一周会的周五下午做的评审，状态也不怎么好。

评估结果反映的不仅是公司的 ESG 表现，还有哪位分析师做的、碰巧找到了什么、以及那天的状态如何。

乘以 5000 家公司。不一致性叠加成噪音，侵蚀了整个评估工作的意义。在这个规模上，既彻底又一致？不可能。

与此同时，科技新闻在讲另一个故事

打开任何科技新闻头条，你都会读到 AI 智能体即将取代大多数软件工程师。给大语言模型一些工具：浏览器、终端、代码编辑器，再用协议和插件连接起来，智能体就能自主处理一切。

流行的开源智能体框架、各种多智能体系统，宣传语总是相似的：智能体就是新的软件。于是有人问，既然大语言模型可以即时调用工具、读文档、写代码，为什么还要写代码？

这种叙事有多个层次。一端是：“LLM 应用就是把文档喂给 API 调用，不需要真正的工程。”另一端是：“浏览器自动化加工具调用已经彻底解决网页采集。智能体就是新的管道。”

听起来很变革性。演示看起来很棒。而这恰恰是那种会影响管理决策的说法。

到这里，它就不再只是技术辩论，而变成了商业问题。管理者看了演示，读了新闻头条。同一周，他可能还会接到两类电话。

第一类来自数据供应商：“我们已经有所有 ESG 数据：文件、披露、报告，全部结构化并打了分。为什么要自建基础设施？买数据就好。”

第二类来自分析平台：“我们在数据之上提供 AI 分析。接入平台，获取 ESG 洞察，不需要定制工程。”

两次推销，同一个疑问的两个层面。第一个质疑数据收集。第二个质疑数据之上构建的所有东西。

两个问题的答案都藏在演示从不展示、供应商从不提及的细节里。本系列主要观察来自实践：一条服务于机构投资决策、覆盖数千家公司的生产流水线。它在 AI 真正擅长的地方使用 AI，其余部分全部使用确定性工程代码。

不是“不用 AI”。不是“全用 AI”。

而是每一层用对的工具，以及我们如何学到哪个是哪个。

她先试了最显而易见的方法

投资组合经理从她的角度看到了同样的浪潮。供应商直接向她推销：AI 驱动的 ESG 平台、自动化分析、优美的幻灯片展示从非结构化文件生成的结构化输出。头条也到了她的收件箱：智能体、助手、为你读报告的 AI。

复杂的工具配置对她来说太麻烦。即使配置好了，结果又如何追溯？

但一个能在浏览器或软件里直接打开的聊天机器人？她现在就能试。

她打开一个 AI 助手，手动拖入一份可持续发展报告，让它根据框架评估这家公司。

令人印象深刻。大语言模型阅读了文件，识别相关披露，映射到标准，产出结构化输出。对于一家公司、一份文件，简直像魔法。

她试了网页搜索功能：“找到某家大型能源公司的最新气候转型计划。”聊天机器人搜索、找到、总结。厉害。

然后她试着真正使用它。

六个问题，六周时间

1. 规模打破了对话模式

每家公司需要独立对话。评估框架有几十个问题。输出变得冗长：澄清、追问、重新提示。对一家公司，这是充实的一小时。对几百家公司，这是另一种手工劳动：管理对话，而不是管理标签页。

2. 输出管理本身变成了一项工作

随着时间推移，聊天机器人越来越好：模型改进，界面更方便，文件接口更多。但在大语言模型完成它的部分之后，仍有大量工作：把结果复制到电子表格、调和格式、跨公司交叉核对。

AI 处理推理；人处理行政。瓶颈转移了，但并没有消失。好在，这种行政工作正在减少，只是总感觉还没有彻底消失。

3. 模型选择很重要

不同领先模型对同一份文件给出不同评估。不是天差地别，但足以让投资组合评估过程中切换模型引入新的不一致，而这正是她试图消除的问题。有时模型表现还会突然下降，让人不知道到底发生了什么。

4. 网页搜索检索到的数据不完整

聊天机器人找到了主要可持续发展报告，但遗漏了现代奴隶制声明、藏在投资者关系里的气候披露、区域子域名上的生物多样性承诺。它检索的是容易找到的，而不是全面的。

她又回到了原点：重要文件缺失，只是界面更华丽了。

5. 幻觉内容

一家公司“承诺 2030 年实现净零”，但实际目标是 2050 年。一个根本不存在的政策，被自信地引用。每个输出都需要核实，也就是说还是要读原始文件。

对于驱动投资决策的专业评估，“大多数情况下正确”不是一个标准。当然，这也不是完美论据：人类也会幻觉，只是形式不同。

6. 透明度和可审计性

投资委员会问：这个评估是怎么产生的？

她不能回答：“我问了一个聊天机器人。”

机构投资决策要求审计追踪：查阅了哪些文件、每个标准如何评分、什么证据支撑每个判断。聊天窗口里的对话不会自然产生这些东西。“AI 施展魔法”不是一个合规答案。

使用聊天机器人的结论

确实非常有用。用于探索、快速查找、起草，都很好。而且它变得越来越好用。

除了用于投资决策。

作为投资组合规模的系统性评估工具，它恰恰在重要维度上失败了：

完整性
一致性
可审计性
可靠性

投资组合经理意识到，这不是一个简单提示词问题。这是一个工程问题。

她把需求带给了开发团队：我们能不能构建一条能正确做这件事的流水线？

下一篇：第 2 篇——从“直接扔给 AI”到 7400 行代码。