第1篇:投资组合经理的不可能任务

系列:我们构建了一条几万行代码的流水线。Agents 为何做不到。

上一篇:第0篇。
Read the English version.

每个季度,一家投资机构的某个投资组都要做一件听起来很简单的事:评估基金投资组合中各公司的 ESG 表现。

对每家公司,投资组合经理要阅读披露文件,对照基金内部的评估框架进行映射。公司是否报告了范围 3 排放?是否设有董事会级别的可持续发展委员会?供应链的劳动实践如何?

找到正确的文件。阅读它。评分。下一家公司。

听起来可以做到,直到你看到“正确的文件”到底意味着什么。

不只是可持续发展报告

她需要气候转型计划、气候相关披露、生物多样性声明、现代奴隶制声明、冲突矿产报告、税收透明度政策、水资源管理承诺、负责任 AI 政策、数据隐私影响评估、社区投资报告、政治游说披露、与 ESG 目标挂钩的高管薪酬政策。

这还只是通用清单。行业特定披露又是另一层:矿业公司的尾矿坝安全、物流公司的车队排放目标、食品生产商的动物福利标准。

不同报告框架意味着各公司以不同格式报告不同内容。没有两家公司以相同方式组织披露信息。

她做得很好。但投资组合持有数千家公司。

对每家公司,她要访问公司官网,打开几十个标签页,跟踪看似有用的链接,收藏 PDF,遗漏藏在三层点击深处的页面。有些公司把所有信息集中在一个地方。其他公司则将披露信息分散在投资者关系页面、可持续发展微站点、区域子域名、第三方报告平台。

每家公司花费数小时。而且她知道自己仍在遗漏信息。

一致性问题

真正的问题随后浮出水面:不只是规模,而是一致性。

她的同事评估同一家公司,却得出不同分数。不是因为谁做错了,而是因为他们在同一个网站上找到了不同文件。一个人找到了藏在“法律”栏目下的现代奴隶制声明,另一个没有。他们对同一个框架标准有不同解读:对每位读过同一份书面指南的分析师来说,“充分披露”的含义略有不同。

坦白说,其中一个人是在连续开了一周会的周五下午做的评审,状态也不怎么好。

评估结果反映的不仅是公司的 ESG 表现,还有哪位分析师做的、碰巧找到了什么、以及那天的状态如何。

乘以 5000 家公司。不一致性叠加成噪音,侵蚀了整个评估工作的意义。在这个规模上,既彻底又一致?不可能。

与此同时,科技新闻在讲另一个故事

打开任何科技新闻头条,你都会读到 AI 智能体即将取代大多数软件工程师。给大语言模型一些工具:浏览器、终端、代码编辑器,再用协议和插件连接起来,智能体就能自主处理一切。

流行的开源智能体框架、各种多智能体系统,宣传语总是相似的:智能体就是新的软件。于是有人问,既然大语言模型可以即时调用工具、读文档、写代码,为什么还要写代码?

这种叙事有多个层次。一端是:“LLM 应用就是把文档喂给 API 调用,不需要真正的工程。”另一端是:“浏览器自动化加工具调用已经彻底解决网页采集。智能体就是新的管道。”

听起来很变革性。演示看起来很棒。而这恰恰是那种会影响管理决策的说法。

到这里,它就不再只是技术辩论,而变成了商业问题。管理者看了演示,读了新闻头条。同一周,他可能还会接到两类电话。

第一类来自数据供应商:“我们已经有所有 ESG 数据:文件、披露、报告,全部结构化并打了分。为什么要自建基础设施?买数据就好。”

第二类来自分析平台:“我们在数据之上提供 AI 分析。接入平台,获取 ESG 洞察,不需要定制工程。”

两次推销,同一个疑问的两个层面。第一个质疑数据收集。第二个质疑数据之上构建的所有东西。

两个问题的答案都藏在演示从不展示、供应商从不提及的细节里。本系列主要观察来自实践:一条服务于机构投资决策、覆盖数千家公司的生产流水线。它在 AI 真正擅长的地方使用 AI,其余部分全部使用确定性工程代码。

不是“不用 AI”。不是“全用 AI”。

而是每一层用对的工具,以及我们如何学到哪个是哪个。

她先试了最显而易见的方法

投资组合经理从她的角度看到了同样的浪潮。供应商直接向她推销:AI 驱动的 ESG 平台、自动化分析、优美的幻灯片展示从非结构化文件生成的结构化输出。头条也到了她的收件箱:智能体、助手、为你读报告的 AI。

复杂的工具配置对她来说太麻烦。即使配置好了,结果又如何追溯?

但一个能在浏览器或软件里直接打开的聊天机器人?她现在就能试。

她打开一个 AI 助手,手动拖入一份可持续发展报告,让它根据框架评估这家公司。

令人印象深刻。大语言模型阅读了文件,识别相关披露,映射到标准,产出结构化输出。对于一家公司、一份文件,简直像魔法。

她试了网页搜索功能:“找到某家大型能源公司的最新气候转型计划。”聊天机器人搜索、找到、总结。厉害。

然后她试着真正使用它。

六个问题,六周时间

1. 规模打破了对话模式

每家公司需要独立对话。评估框架有几十个问题。输出变得冗长:澄清、追问、重新提示。对一家公司,这是充实的一小时。对几百家公司,这是另一种手工劳动:管理对话,而不是管理标签页。

2. 输出管理本身变成了一项工作

随着时间推移,聊天机器人越来越好:模型改进,界面更方便,文件接口更多。但在大语言模型完成它的部分之后,仍有大量工作:把结果复制到电子表格、调和格式、跨公司交叉核对。

AI 处理推理;人处理行政。瓶颈转移了,但并没有消失。好在,这种行政工作正在减少,只是总感觉还没有彻底消失。

3. 模型选择很重要

不同领先模型对同一份文件给出不同评估。不是天差地别,但足以让投资组合评估过程中切换模型引入新的不一致,而这正是她试图消除的问题。有时模型表现还会突然下降,让人不知道到底发生了什么。

4. 网页搜索检索到的数据不完整

聊天机器人找到了主要可持续发展报告,但遗漏了现代奴隶制声明、藏在投资者关系里的气候披露、区域子域名上的生物多样性承诺。它检索的是容易找到的,而不是全面的。

她又回到了原点:重要文件缺失,只是界面更华丽了。

5. 幻觉内容

一家公司“承诺 2030 年实现净零”,但实际目标是 2050 年。一个根本不存在的政策,被自信地引用。每个输出都需要核实,也就是说还是要读原始文件。

对于驱动投资决策的专业评估,“大多数情况下正确”不是一个标准。当然,这也不是完美论据:人类也会幻觉,只是形式不同。

6. 透明度和可审计性

投资委员会问:这个评估是怎么产生的?

她不能回答:“我问了一个聊天机器人。”

机构投资决策要求审计追踪:查阅了哪些文件、每个标准如何评分、什么证据支撑每个判断。聊天窗口里的对话不会自然产生这些东西。“AI 施展魔法”不是一个合规答案。

使用聊天机器人的结论

确实非常有用。用于探索、快速查找、起草,都很好。而且它变得越来越好用。

除了用于投资决策。

作为投资组合规模的系统性评估工具,它恰恰在重要维度上失败了:

  • 完整性
  • 一致性
  • 可审计性
  • 可靠性

投资组合经理意识到,这不是一个简单提示词问题。这是一个工程问题。

她把需求带给了开发团队:我们能不能构建一条能正确做这件事的流水线?

下一篇:第 2 篇——从“直接扔给 AI”到 7400 行代码


Originally published externally: source article.