Jun 21, 2026

第8B篇：自主性光谱——真正的问题不是“要不要自主”，而是“哪一层可以交”

系列：“我们构建了一条数万行代码的流水线。智能体为何做不到。”

上一篇：第8A篇——委托难题。

Read the English version.

“完全自主”不是一个设计答案，它更像一个被过度包装的口号。真正的问题从来不是要不要自主，而是哪一层可以交、哪一块可以交、放到什么程度、出了问题谁来兜底。

上篇：第8A篇——委托难题：智能体为什么不能直接上手。模糊目标会静默漂移。工具有天花板，模型看不见。两个都发生在代码之前。

“全自动”“全自主”“端到端自治”这类词之所以有吸引力，不只是因为营销爱用，也因为在某些边界清楚、重复稳定的任务上，它们确实可以成立。问题在于，这种局部成立很容易被说成整体成立；而它们也正好迎合了人类一个很深的欲望：把复杂性压缩掉。

最好把前提、例外、责任和反馈回路都压缩掉。最好真实世界那堆纠缠不清的东西，最后都能被一句“让智能体自己做”收口。

问题是，很多复杂性并不会因为你换了一个更大的词，就真的消失。它通常只是被转移、被遮蔽、被延后结算。你今天在 PPT 里把它叫作“完全自主”，明天它就会在预算失控、输入失真、边界漂移和责任不清里重新出现。

LLM 确实给了我们一种前所未有的压缩方式。过去需要大量显式规则、胶水代码、人工切换和局部判断才能勉强串起来的东西，现在常常可以被压进一个自然语言接口里。这是非常真实的进步。

但“能压缩很多复杂性”不等于“复杂性已经被消灭”，更不等于“我们已经抵达了那种终极自主状态”。LLM 很强，但它更像是把系统往前推了一大段，不是替我们宣布这条路已经走到了尽头。

第8A篇划出一条线：你不能把一个还在形成中的问题，整包委托出去。

重点不在“不能委托”，而在“整包”。

“自主”是个好词。好到工具调用、流程执行、局部应变、战略判断都能往里塞；也粗到层次、前提、责任和失败模式被一句“让 agent 自己做”全糊成一团。

所以第8A篇回答的是：为什么不能整包交。这一篇要回答的是：既然不能整包交，那到底应该怎么交。

它真正想补上的，不只是“自主性是一条光谱”这句正确却仍然太粗的话。

它想补上的，是一个更关键的判断：自主性的扩张，从来不是整体推进的；它总是分层、分块、按成熟度不均匀地推进。

自主性该被安放在哪一层，才不会越过那条边界。

错的不是自主，而是把自主当成开关

公开讨论里，自主性经常被说成一个二元开关：

要么“全自主智能体”很快就会接管整个工作流；
要么“人必须永远在环里，不能放手”。

这两种说法都各自抓住了一点现实。问题在于，它们把一个本来该按层、按块、按成熟度判断的问题，硬压成了 yes/no。

现实中的系统不是这样长出来的。浏览器自动化可以放得很开，预算上限不能。局部代码实现可以高度委托，问题定义不能。已知扰动可以部分交出去，成功标准不能让模型决定。

自主性不是一个开关，而是一条光谱。

但只说“光谱”还是太粗。同一层里，不同任务块的可委托程度天差地别。真正要补上的是：这条光谱内部到底怎么分层、分块、分成熟度展开。

公开叙事最容易错的地方也正在这里：它总把一个本来是分层扩张的问题，误写成一个整体替换的问题。

如果一定要打个比方，它更像飞行系统，而不是你家门口那个灯的开关。你可以把自动驾驶开在巡航层，把高度保持交给系统，把告警交给规则——但你不能顺手把“我们到底要飞去哪里、是否现在返航、出了问题谁拍板”也一起交掉。把驾驶辅助宣传成“你可以去后排补觉了”，通常都不是工程结论，而是市场部的 PPT。

自主性不是一回事——至少有四层

把“自主”拆开，至少四层：

工具级自主 — 帮你点按钮
工作流级自主 — 帮你跑流程
操作级自主 — 遇到变化自己调整
战略级自主 — 替你决定问题是什么

它们看上去都像“AI 在自己做事”，但风险性质完全不同。这也是为什么“编码能不能交给 AI”这种问法几乎没有意义——同一份编码工作里，有些任务块在第一层，有些已经到第四层了。

真正该判断的不是职业，而是：这个具体任务块落在哪一层，它依赖的工具和流程成熟到什么程度，它是在执行一个已经成形的问题，还是在偷偷改写问题本身。

这四层不是荣耀榜。低层可以非常强，高层仍然不能整包交。真正重要的从来不是“谁更高级”，而是：什么前提条件支撑了这一层的放权。

第一层：工具级自主

今天最成熟、也最容易被高估的一层。

模型调用工具：搜索、浏览器、文件系统、代码执行、API。Claude Code、各种 MCP、浏览器代理、本地执行器，本质上都属于这里。你让它读文件、开终端、跑脚本、点网页，它确实省掉了大量动作。

但这一层的“自主”是浅层的。模型是在使用能力，不是在定义问题。它是在既定边界内替你完成动作，而不是决定边界该怎么画。

即使是这一层，也远不是“有工具就行”这么简单。

工具级内部，也至少有三种完全不同的情况

1）工具本身已经足够成熟，只要任务边界清楚

如果你的目标只是：

看几家主流媒体首页今天的热点；
点开少数几个页面；
做一份简短摘要；

那么浏览器工具、搜索工具、脚本执行工具，很多时候已经够用。因为这类任务有几个共通特征：

覆盖范围小；
结果质量容易检查；
失败代价低；
任务边界相对清楚。

这时候，把动作交给 agent，问题不大。它更像一个足够靠谱的助理，帮你翻几页固定材料。你知道它看的是什么，漏了容易补，错了也容易发现。

2）工具存在，但它交给你的对象已经失真了

这就是第8A篇里的两个关键例子：PDF 解析器和搜索引擎。

工具不是没有。问题是它们会改变对象本身：

PDF 解析器把视觉文档压成平面文本，版面、层级、顺序都可能丢；
搜索引擎不会把所有存在的内容都交给你，它只把“浮得出来”的那部分交给你。

这意味着，你以为你委托出去的是一个动作——“帮我读 PDF”、“帮我搜相关页面”——但你实际上默认信任的，是输入层没有被污染。

而这一层默认，经常是错的。

“有工具”不等于“委托条件成立”。工具很可能已经在你看不见的地方，把问题悄悄改写过了。你以为你委托的是一个动作，实际上你默认信任的是一条你从未验证过的输入管道。

3）工具是否够用，取决于任务目标

这一点在你的系统里尤其明显。

“浏览器工具存在”不等于“浏览器工具足够”。“搜索 API 可调用”也不等于“搜索已经替代了访问网站本身”。

如果你只是想让 agent 去几家固定网站看新闻，那可能确实只是点几下。但如果你想系统性地爬数千家公司网站、跨子域、处理重定向、处理 PDF、处理 robots、控制预算、保证完整性，那就已经不是同一个问题。

所以工具级自主真正该看的，不是：

有没有工具。

而是：

这个工具，在这个任务、这个质量要求、这个失败代价下，到底够不够成熟。

这才是工具级放权真正该看的东西。

第二层：工作流级自主

比工具级更高一层的，是工作流级自主。

这里的模型已经不只是在调用单个工具，而是在一个已经成熟、可重复、边界清楚的流程里，自己跑完多个步骤：

收集输入；
做中间判断；
调不同工具；
拼接结果；
在预定义错误模式下重试或回退。

很多所谓“智能体工作流”真正有价值的部分，其实都落在这里。只要流程本身已经被人类想清楚，模型确实可以承担越来越多执行工作。

但这里有一个经常被低估的前提：

流程必须先被定义。

工作流级自主不是“模型自己想出流程”，而是“人先把流程磨成熟了，模型在里面高效执行”。流程不是天上掉下来的——它是前期有人付出了失败成本、澄清成本和边界定义成本才长出来的。

如果没有这些前提，所谓“自主流程”就只是把一个还在生长的东西，误写成了成熟流程。

这一层内部也有不同成熟度

1）已经冻结很久的成熟流程

有些流程已经被跑过很多轮：

输入长什么样；
输出长什么样；
例外情况有哪些；
错误怎么回退；

这些都已经很清楚。

这种流程最适合工作流级自主。因为它真正需要的不是“定义问题”，而是“高效执行”。

比如：

固定模板的周报填充；
已知 schema 的字段抽取；
边界清楚的 FAQ 分类与转派；
已知接口下的批量代码修改。

这些本来就不是靠临场判断取胜的。它们依赖的是稳定性、速度和一致性。

2）核心稳定，但边缘持续演化的流程

这类更常见，也更容易被误判。

比如我们的流水线：很多主流程已经稳定了——

从已知入口开始；
判定是否相关；
控制预算和范围；
产出日志和可追溯结果。

但边缘一直在变——

新的网站结构；
新的 PDF 样式；
新的业务指标；
新的相关定义；
新的下游需求。

这种流程可以部分交出去，但前提是：

你必须分得清什么是稳定内核，什么是仍在演化的边缘。

如果分不清，所谓“工作流级自主”就会把一个“核心大致成熟、边缘持续长出”的系统，误判成“已经完全稳定的系统”。

而这恰恰是许多包装式 demo 最擅长制造的错觉。

3）表面重复，实则还没成熟的流程

这是最危险的一类。

它们看起来很像流程：

先 A 再 B 再 C；
每周都这么做；
有固定顺序；
甚至还能 demo 出来。

但真正决定成败的判断——

相关性到底怎么算；
哪些例外要被吸收进系统；
哪些数据质量问题值得停下来；
哪些失败值得修，哪些不值得；

其实还在移动。

这种流程如果过早交给智能体，最容易出现的并不是“彻底崩掉”，而是：

表面跑通，实则一路静默偏航。

它不会报错。三个月后你才发现，它一直在用上个季度的标准做判断，而那个标准你自己已经改了两轮。

这也是为什么轻量包装方案往往会误导——它演示的是一个被人为剪裁得很干净的流程，不是一个还在现实里继续长出边界的系统。Demo 里一切都像流水线；生产里你才发现，那其实还是一片工地。

第三层：操作级自主

再往上一层，是操作级自主。

这里的模型不只是跑固定流程，而是能在一个已知问题空间里适应变化：

网站结构变了；
某个工具接口变了；
某类文件格式变了；
某一步失败了，需要换路线；
局部环境不稳定，需要换一种办法继续推进。

这一层是真实的，也是未来几年最值得期待的进步区间。

但它也有边界。复杂度正是在这里陡增——因为“变化”不是一回事。

这一层至少有三种变化

1）预期内变化——你已经准备了应对工具箱

比如：

某类网站经常有固定跳转；
某些 PDF 经常有类似问题；
某些错误码出现时，早就有回退策略；
某些页面结构变化，本来就在经验范围内。

这种变化最适合操作级自主。

因为系统已经提前为它准备了应对的工具箱。

我们的流水线里很多地方，本质上已经是这样：

预算封顶；
域名范围规则；
robots 预检；
失败后的推迟队列；
低置信度 PDF 标记。

这些都不是“模型自己悟出来”的，而是你先把问题空间部分结构化了，操作层才有机会被更多交出去。

2）超出预期，但仍在已知问题类中的变化

比如：

一个新网站结构以前没见过；
某种导航方式更奇怪；
某种文档形式更少见；
某个业务字段的表达方式更新了。

这些变化仍然在同一个问题类里，但已经不能简单按旧规则处理。这一层可以部分交给智能体，前提是：

活动边界足够明确；
失败可以回退；
人类可以快速接管；
输出有检查层。

这才是很多人想象中的“更强智能体”最真实的落点：不是直接接管一切，而是在一个你已经认识的任务类里，替你多扛一部分扰动。

3）变化开始改变问题本身

这是最关键的一种。

变化不再只是：

网站结构怎么变；
文档位置怎么变；
工具怎么调用；

而开始变成：

相关性的定义在变；
成功标准在变；
从“找 ESG 报告”变成“按特定行业标准找合乎减排轨迹证据”；
从“抓材料”变成“判断哪些材料值得作为下游证据”。

这时候，变化已经不再只是操作层扰动。它开始碰到问题定义本身。

一旦走到这里，操作层就开始往战略层渗透。这也是为什么第三层最容易被误判——它表面上像“更强的执行”，但其中有些变化，其实已经不是执行问题了。

第四层：战略级自主

这是争议最大的一层。

战略级自主意味着：

目标到底是什么；
哪个 trade-off 更重要；
什么叫“足够好”；
哪些错误值得修，哪些不值得；
什么时候该停，什么时候该继续；
遇到现实反馈时，是改实现，还是改目标本身。

这已经不是“自己跑流程”了。

这是掌舵。

掌舵的问题，不是会不会转方向盘，而是知不知道冰山在哪。

而第8A篇真正论证的，恰恰就是问题出在这里：

战略层所需要的信息，在系统启动之前往往并不存在。

它来自失败、来自反馈、来自与现实的反复碰撞。所以这一层不能被预先整包委托。不是因为模型不够聪明，而是因为这里缺的不是“更强的推理”，而是：

尚未被显式形成的问题。

但即便在这一层，也不是“全交”或“全不交”

这点很重要。

如果说工具级、工作流级、操作级关注的是“哪些动作可以交”，那么战略级真正要问的是：

哪些部分可以在受控回路里辅助交，哪些不能整包交。

1）可以让模型参与探索，但不能让它决定

比如：

让模型提出可能方案；
帮你列出 trade-off；
暴露隐藏假设；
生成候选问题定义；
比较不同框架。

这些事情可以交给模型参与，甚至很适合交给模型参与。但它的角色仍然是辅助探索，而不是最终决定。

2）可以在人类主导的迭代回路里部分委托

比如：

你给一个初始定义；
模型产出一个版本；
你改；
模型再改；
你继续校正。

这里已经是一种“人机的战略协作”。它不是模型自主掌舵，但也绝不是“模型毫无作用”。

模型像陪练，人来定方向。陪练可以帮你打出更多球，但不会替你决定这场比赛到底要不要继续打。

3）真正不能整包交出去的部分

真正不能整包交出去的，仍然是这些：

问题到底是什么；
哪个维度最重要；
失败意味着什么；
要不要继续投入；
要不要改目标而不是改实现。

这些不是“更聪明一点就自然会”的东西。它们来自长期积累、来自责任、来自组织上下文、来自外部后果。

所以，第8A篇画出的那条边界，在这里依然成立。

这套框架不只适用于 ESG 采集

如果它只适用于这一条流水线，那它就只是一个项目总结，而不是一个更一般化的委托框架。

但实际上，这套分层方式适用于大量知识工作。区别只在于：

不同工作类别，在不同层上的可委托任务块比例不同。

下面这张表不是为了完整分类，只是为了说明：这种分层判断并不只适用于这一条流水线，而具有跨场景的可迁移性。无论你来自研究、工程、产品，还是更偏运营与分析的工作背景，都可以用同一套问题去判断：哪些块可以交，哪些块还不能交。

同一种工作类别内部，也横跨多个层级。真正该判断的是任务块，不是职业标签。

表一：通用工作类别 × 自主层级映射

工作类别	典型任务块	更适合委托的层	可以较早委托的部分	仍应谨慎的部分	最难整包委托的部分
信息采集	网页抓取、文档收集、文件归档	工具级 / 工作流级 / 部分操作级	已知入口、固定格式、稳定结构的数据抓取	网站结构变化、跳转、动态页面、低质量输入处理	定义“什么算完整”“什么值得采”
信息抽取	从文档中提取字段、分类、打标签	工具级 / 工作流级	明确 schema、已知字段、规则稳定的抽取	表达方式变化、文档类型漂移、低质量 OCR / PDF	定义抽取目标、调整 relevance 标准
编码	写函数、修 bug、改测试、重构、集成	工具级 / 工作流级 / 操作级	局部实现、已知接口下的代码生成、测试修复	跨文件修改、复杂 bug、陌生代码库导航	定义系统边界、架构取舍、技术债判断
研究	文献搜集、实验设计、结果整理、备选方案	工具级 / 部分工作流级 / 部分战略级协作	资料整理、对比表生成、初步方案枚举	证据权重评估、实验失效后的改向	定义问题、决定研究取向、判断什么值得做
调查	原因排查、异常定位、根因分析	操作级 / 战略级边缘	已知故障模式排查、日志聚合、候选原因列举	跨系统异常、信号冲突、隐蔽失败	定义“真正的问题是什么”
产品 / 策略规划	需求梳理、路线图、优先级、trade-off	战略级（部分可协作）	候选方案生成、风险清单、方案比较	真实约束收敛、优先级调整、组织协调	问题定义、价值判断、责任承担

这张表真正想说明的，不是“AI 能做哪些工作”，而是：

同一类工作里，低层任务块和高层任务块是混在一起的。

demo 往往只证明了低层块可以交，却被误读成整类工作都可以交。

这正是流行智能体叙事最容易出错的地方。

为什么这条光谱不是静止的

把自主性分层，不是为了宣布“上层永远不可能”。而是为了看清：

自主性的扩张从来不是整体发生的，而是分层发生的。

有些层已经开始变得非常实用。有些层还远没有成熟到可以托付。中间隔着的，不是一句“模型更强了”就能跨过去的差距，而是一整套前提条件。

这也是为什么，同样一句“智能体越来越强”，落在不同层上，含义完全不同：

放在工具级，是调用工具更稳了；
放在工作流级，是成熟流程里能自己跑更多步骤了；
放在操作级，是在已知问题空间里能处理更多变化了；
放在战略级，就会变成一个完全不同的问题：

它到底能不能替你决定问题是什么。

但“哪一层可以交”仍然不够。因为即使在同一层里，不同任务块也处在不同成熟度状态里。

有些块已经很稳定。有些块核心稳定但边缘在变。有些块表面重复，实际上还在继续长边界。还有一些块，变化已经开始碰到目标、边界和成功标准本身。

所以判断委托问题时，除了看层级，还要看成熟度。

这其实也是全文最想指出的一点：决定可不可以交的，不是一个抽象的“AI 有多强”，而是这个任务块此刻位于哪一层、成熟到什么程度。

表二：任务块成熟度 × 委托风险

任务块状态	特征	可委托程度	典型例子	主要风险
成熟稳定块	输入、输出、例外、回退都较清楚	高	固定模板报告、固定 FAQ、稳定接口下的代码修改	风险相对可控
稳定核心 + 演化边缘	主流程稳定，但边缘条件持续变化	中	预算抓取、ESG explorer、逐步扩展指标提取	最容易被误判为“已经完全可托付”
伪重复块	表面重复，实则标准在移动	低	“每周都做”的分析，但 relevance 和 trade-off 一直在变	容易静默漂移
已知问题类中的扰动块	变化超出预设，但仍在同类任务内	中低	新网站结构、新文档格式、新报错类型	需要回退和人类接管机制
问题重新定义块	变化已经碰到目标、边界、成功标准本身	很低	从“抓报告”到“判断证据有效性”的转变	不能整包委托
战略协作块	模型可参与，但不能定夺	中（仅在人类主导回路里）	方案比较、候选 framing、trade-off 列表	容易被错当成可完全托付
战略掌舵块	需要外部责任、长期经验、组织上下文	极低	目标定义、优先级排序、停止条件、资源投入取舍	不能整包交出

这张表补充的其实是同一个判断：

真正的委托决策，不应该在“职业”层面做，也不应该只在“层级”层面做。

它必须落实到：这个任务块现在成熟到什么程度。

为什么“完全自主”叙事总是占上风

如果自主性其实是分层、分块、按条件扩张的，为什么公开叙事总在说“全自主”？

因为“全自主”更好卖。

产品发布会、路演、演讲、采访、VC deck，都更偏爱一句简单的话：

给它工具，让它自己搞定。

这句话极其有效。它同时满足了三种想象：

能力想象：模型越来越强了；
产品想象：人越少越像“真正的产品”；
资本想象：不需要人 = 可扩展性。

而且它还天然适配今天的传播环境。社交媒体奖励的是一句话能讲完、最好还能立刻形成印象的表达。“完全自主”短、响、像未来已经到来。“分层委托”“按成熟度放权”？需要人停下来想几秒——而这恰恰不是任何平台的推荐算法最鼓励的东西。

所以“完全自主”本质上是一种高传播、低分辨率的表达：传播效率很高，判断分辨率却很低。它特别像那种最适合做封面标题的话：字少、劲大、像已经发生。至于细节——细节通常留给出事之后再补。

“差异化自主”“分层委托”“按成熟度放权”？都不性感。它们是真的，但不刺激。它们听起来不像革命，听起来像工程。而现实恰恰就是这样：

革命性的能力，最后往往都要靠不性感的工程结构，才能变成真正可用的产品。

所以，真正的委托问题是：放到哪一层、哪一块

一旦把自主性看成光谱，问题就不再是：

要不要给智能体更多能力；
要不要让模型更像智能体；
要不要拥抱未来。

真正的问题变成了：

哪一层可以交，哪一块可以交，放到什么程度，谁来兜底。

这也是为什么，同样一句“智能体更强了”，在不同人耳里会导向完全不同的结论。

有的人听到的是：

那就快能全面替代人了。

但更准确的理解其实是：

低层自主性正在变强；
中层自主性正在扩展；
高层自主性仍然受制于问题形成、环境质量、评估能力和系统护栏。

这不是“中间立场”，而是更高分辨率的立场。

你到底该怎么决定：交，还是不交？

如果把前面的判断压缩成一个更可操作的框架，你真正要问的是五个问题：

1. 这个任务块本身成熟了吗？

它是已经跑了很久、边界清楚、成功标准明确的块？还是表面重复、实际上还在演化的块？

2. 这个任务块依赖的工具成熟了吗？

工具只是存在，还是已经足够可靠？输入是无损的吗？还是工具本身就在改变对象、藏起信息、制造静默偏差？

3. 这个块里的变化，是预期内的吗？

你有没有准备好的响应工具箱？还是每次变化都在逼你重新理解问题？

4. 如果错了，能不能快发现、快回退？

它会不会大声失败？还是会“看起来在工作”，其实已经悄悄偏航了几个月？

5. 这一块是在执行问题，还是在改变问题？

如果它只是在执行，那更可能可以交。如果它开始定义目标、改变相关性定义、决定 trade-off，那它已经靠近战略层了。

流水线落在这条光谱的哪里

这条流水线本身，其实就是一个非常具体的“差异化自主”案例。

它并不反对自主。它只是把自主安放在了合适的层里。

在这条流水线里：

战略层 由人掌舵。决定问题是什么、什么叫相关、哪些失败值得修、系统该朝哪里演化。
判断层 由 LLM 承担。在模糊上下文中做语义分类：这个 URL 是否 ESG 相关，这个子域名是否值得进入，这一批链接里哪些更可能相关。
控制层 由确定性代码承担。预算、重试、限速、PDF 延迟、robots.txt、域名范围规则、日志、可审计性。

这已经不是一句模糊的“人机协作”能说清的结构。更准确地说，它是：

专家人类：战略方向、需求演化、全面评估
LLM / 智能体：语义判断、操作执行、已知类别内适应
代码 / 系统：精确度、成本控制、合规、可追溯性

去掉哪一层都不行：

去掉专家，问题漂移——你在用上个季度的目标跑这个季度的数据；
去掉模型，规模和语义处理能力上不去——很多判断又会退回到人工和脆弱规则；
去掉确定性系统，成本、可靠性和合规性一起崩掉——你会重新撞上第4篇里那张账单。

这不是折中。这是一个分层自主方案。

而这恰恰是“全自主”叙事最容易跳过的地方：它把一个三层协作的精密结构，误写成了“模型自己搞定”。

真正浮现出来的未来：不是全自主，而是差异化自主

如果把前面的内容压缩成一句话，这一篇真正想说的是：

未来当然不是没有自主；但它也不是“一个大模型接管一切”。未来更可能是差异化自主。

什么意思？

就是：

模型在工具级、工作流级、操作级的份额会继续扩大；
人类在战略层的作用不会消失，反而会更集中、更关键；
确定性系统不会退场，而会越来越像模型周围的基础设施。

能力在上升。自主范围在扩大。但不是所有层一起扩大。更不是所有层一起交出去。

这也是为什么“完全自主”既迷人又危险：它把一个分层演化的过程，讲成了一个整体替换的神话。

现实不会这么走。真正的系统总是分层长出来的。而真正有效的自主，也总是分层安放的。

下一篇：第9篇——另一个极端。

本文是系列的第8B篇。从头开始阅读。

系列目录

篇目	核心观点
00 — 引言	这个系列为什么存在
01 — 不可能的任务	一切的起点
02 — 7400+ 行代码是怎么来的	流水线是怎样滚雪球的
03A — 大脑与身体	LLM = 10% 大脑，代码 = 90% 身体
03B — 六个看起来简单的问题	让智能体翻车的边缘情况
04 — 诚实的对比	流水线 vs 智能体，用数字说话
05A — 研究到底说了什么：数据篇	METR 的可靠性断崖，Anthropic 的劳动力研究
05B — 研究到底说了什么：框架篇	Karpathy、SWE-CI、长尾、汇聚
06 — 杠杆差距	谁真正从 AI 中受益
07 — 上下文积累	智能体难以自然拥有的东西
08A — 委托问题	为什么你不能直接丢给它
08B — 自主性光谱	你在这里
09 — 另一个极端	当怀疑变成瘫痪
10 — 两个房间	Demo 狂热者 vs 领域怀疑论者
11 — 证据	流水线作为证据
番外 — 反方论点	AI 反驳整个系列
番外 — 站在中间地带	半夜醒来的那个念头