第8B篇:自主性光谱——真正的问题不是“要不要自主”,而是“哪一层可以交”

系列:“我们构建了一条数万行代码的流水线。智能体为何做不到。”
“完全自主”不是一个设计答案,它更像一个被过度包装的口号。真正的问题从来不是要不要自主,而是哪一层可以交、哪一块可以交、放到什么程度、出了问题谁来兜底。
上篇:第8A篇——委托难题:智能体为什么不能直接上手。模糊目标会静默漂移。工具有天花板,模型看不见。两个都发生在代码之前。
“全自动”“全自主”“端到端自治”这类词之所以有吸引力,不只是因为营销爱用,也因为在某些边界清楚、重复稳定的任务上,它们确实可以成立。问题在于,这种局部成立很容易被说成整体成立;而它们也正好迎合了人类一个很深的欲望:把复杂性压缩掉。
最好把前提、例外、责任和反馈回路都压缩掉。最好真实世界那堆纠缠不清的东西,最后都能被一句“让智能体自己做”收口。
问题是,很多复杂性并不会因为你换了一个更大的词,就真的消失。它通常只是被转移、被遮蔽、被延后结算。你今天在 PPT 里把它叫作“完全自主”,明天它就会在预算失控、输入失真、边界漂移和责任不清里重新出现。
LLM 确实给了我们一种前所未有的压缩方式。过去需要大量显式规则、胶水代码、人工切换和局部判断才能勉强串起来的东西,现在常常可以被压进一个自然语言接口里。这是非常真实的进步。
但“能压缩很多复杂性”不等于“复杂性已经被消灭”,更不等于“我们已经抵达了那种终极自主状态”。LLM 很强,但它更像是把系统往前推了一大段,不是替我们宣布这条路已经走到了尽头。
第8A篇划出一条线:你不能把一个还在形成中的问题,整包委托出去。
重点不在“不能委托”,而在“整包”。
“自主”是个好词。好到工具调用、流程执行、局部应变、战略判断都能往里塞;也粗到层次、前提、责任和失败模式被一句“让 agent 自己做”全糊成一团。
所以第8A篇回答的是:为什么不能整包交。这一篇要回答的是:既然不能整包交,那到底应该怎么交。
它真正想补上的,不只是“自主性是一条光谱”这句正确却仍然太粗的话。
它想补上的,是一个更关键的判断:自主性的扩张,从来不是整体推进的;它总是分层、分块、按成熟度不均匀地推进。
自主性该被安放在哪一层,才不会越过那条边界。
错的不是自主,而是把自主当成开关
公开讨论里,自主性经常被说成一个二元开关:
- 要么“全自主智能体”很快就会接管整个工作流;
- 要么“人必须永远在环里,不能放手”。
这两种说法都各自抓住了一点现实。问题在于,它们把一个本来该按层、按块、按成熟度判断的问题,硬压成了 yes/no。
现实中的系统不是这样长出来的。浏览器自动化可以放得很开,预算上限不能。局部代码实现可以高度委托,问题定义不能。已知扰动可以部分交出去,成功标准不能让模型决定。
自主性不是一个开关,而是一条光谱。
但只说“光谱”还是太粗。同一层里,不同任务块的可委托程度天差地别。真正要补上的是:这条光谱内部到底怎么分层、分块、分成熟度展开。
公开叙事最容易错的地方也正在这里:它总把一个本来是分层扩张的问题,误写成一个整体替换的问题。
如果一定要打个比方,它更像飞行系统,而不是你家门口那个灯的开关。你可以把自动驾驶开在巡航层,把高度保持交给系统,把告警交给规则——但你不能顺手把“我们到底要飞去哪里、是否现在返航、出了问题谁拍板”也一起交掉。把驾驶辅助宣传成“你可以去后排补觉了”,通常都不是工程结论,而是市场部的 PPT。
自主性不是一回事——至少有四层
把“自主”拆开,至少四层:
- 工具级自主 — 帮你点按钮
- 工作流级自主 — 帮你跑流程
- 操作级自主 — 遇到变化自己调整
- 战略级自主 — 替你决定问题是什么
它们看上去都像“AI 在自己做事”,但风险性质完全不同。这也是为什么“编码能不能交给 AI”这种问法几乎没有意义——同一份编码工作里,有些任务块在第一层,有些已经到第四层了。
真正该判断的不是职业,而是:这个具体任务块落在哪一层,它依赖的工具和流程成熟到什么程度,它是在执行一个已经成形的问题,还是在偷偷改写问题本身。
这四层不是荣耀榜。低层可以非常强,高层仍然不能整包交。真正重要的从来不是“谁更高级”,而是:什么前提条件支撑了这一层的放权。
第一层:工具级自主
今天最成熟、也最容易被高估的一层。
模型调用工具:搜索、浏览器、文件系统、代码执行、API。Claude Code、各种 MCP、浏览器代理、本地执行器,本质上都属于这里。你让它读文件、开终端、跑脚本、点网页,它确实省掉了大量动作。
但这一层的“自主”是浅层的。模型是在使用能力,不是在定义问题。它是在既定边界内替你完成动作,而不是决定边界该怎么画。
即使是这一层,也远不是“有工具就行”这么简单。
工具级内部,也至少有三种完全不同的情况
1)工具本身已经足够成熟,只要任务边界清楚
如果你的目标只是:
- 看几家主流媒体首页今天的热点;
- 点开少数几个页面;
- 做一份简短摘要;
那么浏览器工具、搜索工具、脚本执行工具,很多时候已经够用。因为这类任务有几个共通特征:
- 覆盖范围小;
- 结果质量容易检查;
- 失败代价低;
- 任务边界相对清楚。
这时候,把动作交给 agent,问题不大。它更像一个足够靠谱的助理,帮你翻几页固定材料。你知道它看的是什么,漏了容易补,错了也容易发现。
2)工具存在,但它交给你的对象已经失真了
这就是第8A篇里的两个关键例子:PDF 解析器和搜索引擎。
工具不是没有。问题是它们会改变对象本身:
- PDF 解析器把视觉文档压成平面文本,版面、层级、顺序都可能丢;
- 搜索引擎不会把所有存在的内容都交给你,它只把“浮得出来”的那部分交给你。
这意味着,你以为你委托出去的是一个动作——“帮我读 PDF”、“帮我搜相关页面”——但你实际上默认信任的,是输入层没有被污染。
而这一层默认,经常是错的。
“有工具”不等于“委托条件成立”。工具很可能已经在你看不见的地方,把问题悄悄改写过了。你以为你委托的是一个动作,实际上你默认信任的是一条你从未验证过的输入管道。
3)工具是否够用,取决于任务目标
这一点在你的系统里尤其明显。
“浏览器工具存在”不等于“浏览器工具足够”。“搜索 API 可调用”也不等于“搜索已经替代了访问网站本身”。
如果你只是想让 agent 去几家固定网站看新闻,那可能确实只是点几下。但如果你想系统性地爬数千家公司网站、跨子域、处理重定向、处理 PDF、处理 robots、控制预算、保证完整性,那就已经不是同一个问题。
所以工具级自主真正该看的,不是:
有没有工具。
而是:
这个工具,在这个任务、这个质量要求、这个失败代价下,到底够不够成熟。
这才是工具级放权真正该看的东西。
第二层:工作流级自主
比工具级更高一层的,是工作流级自主。
这里的模型已经不只是在调用单个工具,而是在一个已经成熟、可重复、边界清楚的流程里,自己跑完多个步骤:
- 收集输入;
- 做中间判断;
- 调不同工具;
- 拼接结果;
- 在预定义错误模式下重试或回退。
很多所谓“智能体工作流”真正有价值的部分,其实都落在这里。只要流程本身已经被人类想清楚,模型确实可以承担越来越多执行工作。
但这里有一个经常被低估的前提:
流程必须先被定义。
工作流级自主不是“模型自己想出流程”,而是“人先把流程磨成熟了,模型在里面高效执行”。流程不是天上掉下来的——它是前期有人付出了失败成本、澄清成本和边界定义成本才长出来的。
如果没有这些前提,所谓“自主流程”就只是把一个还在生长的东西,误写成了成熟流程。
这一层内部也有不同成熟度
1)已经冻结很久的成熟流程
有些流程已经被跑过很多轮:
- 输入长什么样;
- 输出长什么样;
- 例外情况有哪些;
- 错误怎么回退;
这些都已经很清楚。
这种流程最适合工作流级自主。因为它真正需要的不是“定义问题”,而是“高效执行”。
比如:
- 固定模板的周报填充;
- 已知 schema 的字段抽取;
- 边界清楚的 FAQ 分类与转派;
- 已知接口下的批量代码修改。
这些本来就不是靠临场判断取胜的。它们依赖的是稳定性、速度和一致性。
2)核心稳定,但边缘持续演化的流程
这类更常见,也更容易被误判。
比如我们的流水线:很多主流程已经稳定了——
- 从已知入口开始;
- 判定是否相关;
- 控制预算和范围;
- 产出日志和可追溯结果。
但边缘一直在变——
- 新的网站结构;
- 新的 PDF 样式;
- 新的业务指标;
- 新的相关定义;
- 新的下游需求。
这种流程可以部分交出去,但前提是:
你必须分得清什么是稳定内核,什么是仍在演化的边缘。
如果分不清,所谓“工作流级自主”就会把一个“核心大致成熟、边缘持续长出”的系统,误判成“已经完全稳定的系统”。
而这恰恰是许多包装式 demo 最擅长制造的错觉。
3)表面重复,实则还没成熟的流程
这是最危险的一类。
它们看起来很像流程:
- 先 A 再 B 再 C;
- 每周都这么做;
- 有固定顺序;
- 甚至还能 demo 出来。
但真正决定成败的判断——
- 相关性到底怎么算;
- 哪些例外要被吸收进系统;
- 哪些数据质量问题值得停下来;
- 哪些失败值得修,哪些不值得;
其实还在移动。
这种流程如果过早交给智能体,最容易出现的并不是“彻底崩掉”,而是:
表面跑通,实则一路静默偏航。
它不会报错。三个月后你才发现,它一直在用上个季度的标准做判断,而那个标准你自己已经改了两轮。
这也是为什么轻量包装方案往往会误导——它演示的是一个被人为剪裁得很干净的流程,不是一个还在现实里继续长出边界的系统。Demo 里一切都像流水线;生产里你才发现,那其实还是一片工地。
第三层:操作级自主
再往上一层,是操作级自主。
这里的模型不只是跑固定流程,而是能在一个已知问题空间里适应变化:
- 网站结构变了;
- 某个工具接口变了;
- 某类文件格式变了;
- 某一步失败了,需要换路线;
- 局部环境不稳定,需要换一种办法继续推进。
这一层是真实的,也是未来几年最值得期待的进步区间。
但它也有边界。复杂度正是在这里陡增——因为“变化”不是一回事。
这一层至少有三种变化
1)预期内变化——你已经准备了应对工具箱
比如:
- 某类网站经常有固定跳转;
- 某些 PDF 经常有类似问题;
- 某些错误码出现时,早就有回退策略;
- 某些页面结构变化,本来就在经验范围内。
这种变化最适合操作级自主。
因为系统已经提前为它准备了应对的工具箱。
我们的流水线里很多地方,本质上已经是这样:
- 预算封顶;
- 域名范围规则;
- robots 预检;
- 失败后的推迟队列;
- 低置信度 PDF 标记。
这些都不是“模型自己悟出来”的,而是你先把问题空间部分结构化了,操作层才有机会被更多交出去。
2)超出预期,但仍在已知问题类中的变化
比如:
- 一个新网站结构以前没见过;
- 某种导航方式更奇怪;
- 某种文档形式更少见;
- 某个业务字段的表达方式更新了。
这些变化仍然在同一个问题类里,但已经不能简单按旧规则处理。这一层可以部分交给智能体,前提是:
- 活动边界足够明确;
- 失败可以回退;
- 人类可以快速接管;
- 输出有检查层。
这才是很多人想象中的“更强智能体”最真实的落点:不是直接接管一切,而是在一个你已经认识的任务类里,替你多扛一部分扰动。
3)变化开始改变问题本身
这是最关键的一种。
变化不再只是:
- 网站结构怎么变;
- 文档位置怎么变;
- 工具怎么调用;
而开始变成:
- 相关性的定义在变;
- 成功标准在变;
- 从“找 ESG 报告”变成“按特定行业标准找合乎减排轨迹证据”;
- 从“抓材料”变成“判断哪些材料值得作为下游证据”。
这时候,变化已经不再只是操作层扰动。它开始碰到问题定义本身。
一旦走到这里,操作层就开始往战略层渗透。这也是为什么第三层最容易被误判——它表面上像“更强的执行”,但其中有些变化,其实已经不是执行问题了。
第四层:战略级自主
这是争议最大的一层。
战略级自主意味着:
- 目标到底是什么;
- 哪个 trade-off 更重要;
- 什么叫“足够好”;
- 哪些错误值得修,哪些不值得;
- 什么时候该停,什么时候该继续;
- 遇到现实反馈时,是改实现,还是改目标本身。
这已经不是“自己跑流程”了。
这是掌舵。
掌舵的问题,不是会不会转方向盘,而是知不知道冰山在哪。
而第8A篇真正论证的,恰恰就是问题出在这里:
战略层所需要的信息,在系统启动之前往往并不存在。
它来自失败、来自反馈、来自与现实的反复碰撞。所以这一层不能被预先整包委托。不是因为模型不够聪明,而是因为这里缺的不是“更强的推理”,而是:
尚未被显式形成的问题。
但即便在这一层,也不是“全交”或“全不交”
这点很重要。
如果说工具级、工作流级、操作级关注的是“哪些动作可以交”,那么战略级真正要问的是:
哪些部分可以在受控回路里辅助交,哪些不能整包交。
1)可以让模型参与探索,但不能让它决定
比如:
- 让模型提出可能方案;
- 帮你列出 trade-off;
- 暴露隐藏假设;
- 生成候选问题定义;
- 比较不同框架。
这些事情可以交给模型参与,甚至很适合交给模型参与。但它的角色仍然是辅助探索,而不是最终决定。
2)可以在人类主导的迭代回路里部分委托
比如:
- 你给一个初始定义;
- 模型产出一个版本;
- 你改;
- 模型再改;
- 你继续校正。
这里已经是一种“人机的战略协作”。它不是模型自主掌舵,但也绝不是“模型毫无作用”。
模型像陪练,人来定方向。陪练可以帮你打出更多球,但不会替你决定这场比赛到底要不要继续打。
3)真正不能整包交出去的部分
真正不能整包交出去的,仍然是这些:
- 问题到底是什么;
- 哪个维度最重要;
- 失败意味着什么;
- 要不要继续投入;
- 要不要改目标而不是改实现。
这些不是“更聪明一点就自然会”的东西。它们来自长期积累、来自责任、来自组织上下文、来自外部后果。
所以,第8A篇画出的那条边界,在这里依然成立。
这套框架不只适用于 ESG 采集
如果它只适用于这一条流水线,那它就只是一个项目总结,而不是一个更一般化的委托框架。
但实际上,这套分层方式适用于大量知识工作。区别只在于:
不同工作类别,在不同层上的可委托任务块比例不同。
下面这张表不是为了完整分类,只是为了说明:这种分层判断并不只适用于这一条流水线,而具有跨场景的可迁移性。无论你来自研究、工程、产品,还是更偏运营与分析的工作背景,都可以用同一套问题去判断:哪些块可以交,哪些块还不能交。
同一种工作类别内部,也横跨多个层级。真正该判断的是任务块,不是职业标签。
表一:通用工作类别 × 自主层级映射
| 工作类别 | 典型任务块 | 更适合委托的层 | 可以较早委托的部分 | 仍应谨慎的部分 | 最难整包委托的部分 |
|---|---|---|---|---|---|
| 信息采集 | 网页抓取、文档收集、文件归档 | 工具级 / 工作流级 / 部分操作级 | 已知入口、固定格式、稳定结构的数据抓取 | 网站结构变化、跳转、动态页面、低质量输入处理 | 定义“什么算完整”“什么值得采” |
| 信息抽取 | 从文档中提取字段、分类、打标签 | 工具级 / 工作流级 | 明确 schema、已知字段、规则稳定的抽取 | 表达方式变化、文档类型漂移、低质量 OCR / PDF | 定义抽取目标、调整 relevance 标准 |
| 编码 | 写函数、修 bug、改测试、重构、集成 | 工具级 / 工作流级 / 操作级 | 局部实现、已知接口下的代码生成、测试修复 | 跨文件修改、复杂 bug、陌生代码库导航 | 定义系统边界、架构取舍、技术债判断 |
| 研究 | 文献搜集、实验设计、结果整理、备选方案 | 工具级 / 部分工作流级 / 部分战略级协作 | 资料整理、对比表生成、初步方案枚举 | 证据权重评估、实验失效后的改向 | 定义问题、决定研究取向、判断什么值得做 |
| 调查 | 原因排查、异常定位、根因分析 | 操作级 / 战略级边缘 | 已知故障模式排查、日志聚合、候选原因列举 | 跨系统异常、信号冲突、隐蔽失败 | 定义“真正的问题是什么” |
| 产品 / 策略规划 | 需求梳理、路线图、优先级、trade-off | 战略级(部分可协作) | 候选方案生成、风险清单、方案比较 | 真实约束收敛、优先级调整、组织协调 | 问题定义、价值判断、责任承担 |
这张表真正想说明的,不是“AI 能做哪些工作”,而是:
同一类工作里,低层任务块和高层任务块是混在一起的。
demo 往往只证明了低层块可以交,却被误读成整类工作都可以交。
这正是流行智能体叙事最容易出错的地方。
为什么这条光谱不是静止的
把自主性分层,不是为了宣布“上层永远不可能”。而是为了看清:
自主性的扩张从来不是整体发生的,而是分层发生的。
有些层已经开始变得非常实用。有些层还远没有成熟到可以托付。中间隔着的,不是一句“模型更强了”就能跨过去的差距,而是一整套前提条件。
这也是为什么,同样一句“智能体越来越强”,落在不同层上,含义完全不同:
- 放在工具级,是调用工具更稳了;
- 放在工作流级,是成熟流程里能自己跑更多步骤了;
- 放在操作级,是在已知问题空间里能处理更多变化了;
- 放在战略级,就会变成一个完全不同的问题:
它到底能不能替你决定问题是什么。
但“哪一层可以交”仍然不够。因为即使在同一层里,不同任务块也处在不同成熟度状态里。
有些块已经很稳定。有些块核心稳定但边缘在变。有些块表面重复,实际上还在继续长边界。还有一些块,变化已经开始碰到目标、边界和成功标准本身。
所以判断委托问题时,除了看层级,还要看成熟度。
这其实也是全文最想指出的一点:决定可不可以交的,不是一个抽象的“AI 有多强”,而是这个任务块此刻位于哪一层、成熟到什么程度。
表二:任务块成熟度 × 委托风险
| 任务块状态 | 特征 | 可委托程度 | 典型例子 | 主要风险 |
|---|---|---|---|---|
| 成熟稳定块 | 输入、输出、例外、回退都较清楚 | 高 | 固定模板报告、固定 FAQ、稳定接口下的代码修改 | 风险相对可控 |
| 稳定核心 + 演化边缘 | 主流程稳定,但边缘条件持续变化 | 中 | 预算抓取、ESG explorer、逐步扩展指标提取 | 最容易被误判为“已经完全可托付” |
| 伪重复块 | 表面重复,实则标准在移动 | 低 | “每周都做”的分析,但 relevance 和 trade-off 一直在变 | 容易静默漂移 |
| 已知问题类中的扰动块 | 变化超出预设,但仍在同类任务内 | 中低 | 新网站结构、新文档格式、新报错类型 | 需要回退和人类接管机制 |
| 问题重新定义块 | 变化已经碰到目标、边界、成功标准本身 | 很低 | 从“抓报告”到“判断证据有效性”的转变 | 不能整包委托 |
| 战略协作块 | 模型可参与,但不能定夺 | 中(仅在人类主导回路里) | 方案比较、候选 framing、trade-off 列表 | 容易被错当成可完全托付 |
| 战略掌舵块 | 需要外部责任、长期经验、组织上下文 | 极低 | 目标定义、优先级排序、停止条件、资源投入取舍 | 不能整包交出 |
这张表补充的其实是同一个判断:
真正的委托决策,不应该在“职业”层面做,也不应该只在“层级”层面做。
它必须落实到:这个任务块现在成熟到什么程度。
为什么“完全自主”叙事总是占上风
如果自主性其实是分层、分块、按条件扩张的,为什么公开叙事总在说“全自主”?
因为“全自主”更好卖。
产品发布会、路演、演讲、采访、VC deck,都更偏爱一句简单的话:
给它工具,让它自己搞定。
这句话极其有效。它同时满足了三种想象:
- 能力想象:模型越来越强了;
- 产品想象:人越少越像“真正的产品”;
- 资本想象:不需要人 = 可扩展性。
而且它还天然适配今天的传播环境。社交媒体奖励的是一句话能讲完、最好还能立刻形成印象的表达。“完全自主”短、响、像未来已经到来。“分层委托”“按成熟度放权”?需要人停下来想几秒——而这恰恰不是任何平台的推荐算法最鼓励的东西。
所以“完全自主”本质上是一种高传播、低分辨率的表达:传播效率很高,判断分辨率却很低。它特别像那种最适合做封面标题的话:字少、劲大、像已经发生。至于细节——细节通常留给出事之后再补。
“差异化自主”“分层委托”“按成熟度放权”?都不性感。它们是真的,但不刺激。它们听起来不像革命,听起来像工程。而现实恰恰就是这样:
革命性的能力,最后往往都要靠不性感的工程结构,才能变成真正可用的产品。
所以,真正的委托问题是:放到哪一层、哪一块
一旦把自主性看成光谱,问题就不再是:
- 要不要给智能体更多能力;
- 要不要让模型更像智能体;
- 要不要拥抱未来。
真正的问题变成了:
哪一层可以交,哪一块可以交,放到什么程度,谁来兜底。
这也是为什么,同样一句“智能体更强了”,在不同人耳里会导向完全不同的结论。
有的人听到的是:
- 那就快能全面替代人了。
但更准确的理解其实是:
- 低层自主性正在变强;
- 中层自主性正在扩展;
- 高层自主性仍然受制于问题形成、环境质量、评估能力和系统护栏。
这不是“中间立场”,而是更高分辨率的立场。
你到底该怎么决定:交,还是不交?
如果把前面的判断压缩成一个更可操作的框架,你真正要问的是五个问题:
1. 这个任务块本身成熟了吗?
它是已经跑了很久、边界清楚、成功标准明确的块?还是表面重复、实际上还在演化的块?
2. 这个任务块依赖的工具成熟了吗?
工具只是存在,还是已经足够可靠?输入是无损的吗?还是工具本身就在改变对象、藏起信息、制造静默偏差?
3. 这个块里的变化,是预期内的吗?
你有没有准备好的响应工具箱?还是每次变化都在逼你重新理解问题?
4. 如果错了,能不能快发现、快回退?
它会不会大声失败?还是会“看起来在工作”,其实已经悄悄偏航了几个月?
5. 这一块是在执行问题,还是在改变问题?
如果它只是在执行,那更可能可以交。如果它开始定义目标、改变相关性定义、决定 trade-off,那它已经靠近战略层了。
流水线落在这条光谱的哪里
这条流水线本身,其实就是一个非常具体的“差异化自主”案例。
它并不反对自主。它只是把自主安放在了合适的层里。
在这条流水线里:
- 战略层 由人掌舵。决定问题是什么、什么叫相关、哪些失败值得修、系统该朝哪里演化。
- 判断层 由 LLM 承担。在模糊上下文中做语义分类:这个 URL 是否 ESG 相关,这个子域名是否值得进入,这一批链接里哪些更可能相关。
- 控制层 由确定性代码承担。预算、重试、限速、PDF 延迟、robots.txt、域名范围规则、日志、可审计性。
这已经不是一句模糊的“人机协作”能说清的结构。更准确地说,它是:
- 专家人类:战略方向、需求演化、全面评估
- LLM / 智能体:语义判断、操作执行、已知类别内适应
- 代码 / 系统:精确度、成本控制、合规、可追溯性
去掉哪一层都不行:
- 去掉专家,问题漂移——你在用上个季度的目标跑这个季度的数据;
- 去掉模型,规模和语义处理能力上不去——很多判断又会退回到人工和脆弱规则;
- 去掉确定性系统,成本、可靠性和合规性一起崩掉——你会重新撞上第4篇里那张账单。
这不是折中。这是一个分层自主方案。
而这恰恰是“全自主”叙事最容易跳过的地方:它把一个三层协作的精密结构,误写成了“模型自己搞定”。
真正浮现出来的未来:不是全自主,而是差异化自主
如果把前面的内容压缩成一句话,这一篇真正想说的是:
未来当然不是没有自主;但它也不是“一个大模型接管一切”。未来更可能是差异化自主。
什么意思?
就是:
- 模型在工具级、工作流级、操作级的份额会继续扩大;
- 人类在战略层的作用不会消失,反而会更集中、更关键;
- 确定性系统不会退场,而会越来越像模型周围的基础设施。
能力在上升。自主范围在扩大。但不是所有层一起扩大。更不是所有层一起交出去。
这也是为什么“完全自主”既迷人又危险:它把一个分层演化的过程,讲成了一个整体替换的神话。
现实不会这么走。真正的系统总是分层长出来的。而真正有效的自主,也总是分层安放的。
下一篇:第9篇——另一个极端。
本文是系列的第8B篇。从头开始阅读。
系列目录
| 篇目 | 核心观点 |
|---|---|
| 00 — 引言 | 这个系列为什么存在 |
| 01 — 不可能的任务 | 一切的起点 |
| 02 — 7400+ 行代码是怎么来的 | 流水线是怎样滚雪球的 |
| 03A — 大脑与身体 | LLM = 10% 大脑,代码 = 90% 身体 |
| 03B — 六个看起来简单的问题 | 让智能体翻车的边缘情况 |
| 04 — 诚实的对比 | 流水线 vs 智能体,用数字说话 |
| 05A — 研究到底说了什么:数据篇 | METR 的可靠性断崖,Anthropic 的劳动力研究 |
| 05B — 研究到底说了什么:框架篇 | Karpathy、SWE-CI、长尾、汇聚 |
| 06 — 杠杆差距 | 谁真正从 AI 中受益 |
| 07 — 上下文积累 | 智能体难以自然拥有的东西 |
| 08A — 委托问题 | 为什么你不能直接丢给它 |
| 08B — 自主性光谱 | 你在这里 |
| 09 — 另一个极端 | 当怀疑变成瘫痪 |
| 10 — 两个房间 | Demo 狂热者 vs 领域怀疑论者 |
| 11 — 证据 | 流水线作为证据 |
| 番外 — 反方论点 | AI 反驳整个系列 |
| 番外 — 站在中间地带 | 半夜醒来的那个念头 |