Jun 25, 2026

番外篇：反驳——我们让 AI 亲手拆掉整个系列

系列：“我们构建了一条数万行代码的流水线。智能体为何做不到。”

上篇：第11篇——证据。

Read the English version.

十一篇文章，一个论点。现在，我们让 AI 来把它全部推翻。

上篇：第11篇——证据。投资团队以为又是一次演示。结果拿到了生产系统。决定成败的不是模型——是工程。

Karpathy 测试

Andrej Karpathy 曾经描述过一个让所有写作者都该警惕的工作流：

写了一篇博客。用大语言模型花了 4 个小时反复打磨论点。哇，感觉好棒，太有说服力了！

突发奇想：让它论证相反的观点试试。大语言模型把我整篇论证拆了个干净，让我相信反面才是对的。笑死。

他的结论是：大语言模型极其擅长论证几乎任何方向的观点。它会热情地强化你交给它的任何立场——然后如果你让它反过来，它会同样热情地摧毁它。这其实很有用，但前提是你得主动要求它论证两个方向。

听起来很熟悉。不奇怪。它本质上是人类互联网语言的汇聚。

我们写了十一篇文章，论证组合——大语言模型判断力 + 工程精度 + 人的专业经验——是生产级 AI 系统的正确架构。

但如果这个系列的论点只能在顺风里成立，那它就不值得相信。

所以我们想：来做个 Karpathy 测试吧。把整个系列喂给GPT5.5和Opus4.6：

论证相反的观点。把这个系列拆掉。

以下是模型多轮生成、并经我们反复整理的八个最强反驳，尽可能拟人化地呈现。每一个后面，我们诚实地回应。

反驳 1：你的快照会过时

进攻：你写的是 2026 年初。智能体框架的进步速度，让任何定点评估都不可靠。OpenAI 的函数调用在 2023 年很粗糙，2024 年还行，2025 年已经相当成熟。等读者看到这个系列的时候，“智能体搞不定编排”这个论断可能已经被事实推翻了。你们在打上一场仗。

我们的回应：这是最强的反驳之一，我们认真对待。

没错，智能体会进步。问题是什么类型的进步才重要。如果模型在语义判断上变强——更好地分类链接、理解页面内容、评估相关性——我们的架构直接受益，因为那正是我们已经在用它的那一层。流水线白捡升级。

更难的问题是智能体能否掌握另一部分：跨数千网站的状态管理、预算分配、重试逻辑、优雅降级、robots.txt 合规、PDF 管道管理。这些不是单纯的智能问题，而是工程问题。让模型更聪明不会自动解决它们——只是让模型更擅长解决有人明确定义并验证的部分。

但我们说句实话：两年后边界在哪里，我们不知道。我们知道的是今天，在生产环境中、在机构级规模下，边界在哪里。这个系列记录的就是这个。

判定：部分成立。快照的担忧是合理的。我们尽量聚焦于结构性论点：为什么控制流需要确定性，为什么可审计性需要可追溯性，为什么生产系统需要责任结构。这些不完全依赖于特定模型代际。但某些具体比较确实会过时。写快速变化的领域，这是必然代价。

我们也承认，模型会不断推进边界，很多今天显式写出来的工程结构，未来可能会被更高层的工具和框架吸收。但这并不等于责任结构会自动消失。边界会移动；问题不会因此变得不需要人负责。

反驳 2：不公平比较——精心打磨的流水线 vs. 开箱即用的智能体

进攻：你们花了几个月工程化一条流水线，打磨边界情况，处理各种失败，积累领域知识。然后拿它和一个零迭代时间的通用智能体比较。流水线当然赢。给一个智能体同样的工程投入——定制工具、结构化提示词、反馈循环、错误处理——比较结果就完全不同了。

我们的回应：这个说得对，我们应该更明确。

我们的比较从来不是“我们的流水线 vs. 精心工程化的智能体系统”。而是“我们的流水线 vs. 智能体可以替代工程这个叙事”。

我们反对的绝不是“智能体经过大量工程化后能做有用的事”。当然能。我们自己在构建这条流水线时，也大量使用了 AI 辅助编程：起草实现、解释报错、改写函数、重构局部模块、提出替代方案。很多想法能快速落地，正是因为模型压缩了实现成本。

但压缩实现成本，不等于取消工程责任。关键改动仍然需要人来审核、确认、修改和整合；看似合理的修复，也必须放回整条流水线里，检查它是否破坏了别的模块、流程或隐含契约。

一个精心工程化的智能体系统——有结构化工具、错误处理、状态管理、预算控制、人工监督、可追溯输出和反馈回路——看起来很像什么？

看起来很像一条在关键判断环节使用大语言模型的流水线。也就是我们搭的东西。

甚至可以反过来说：一旦你真的把智能体工程化到可以生产使用，它就不再是“裸智能体”了。它已经变成了一个由工具、规则、状态、日志、预算、反馈和人工责任共同约束的系统。

这时，“精心工程化的智能体”和“在判断环节使用大语言模型的流水线”之间的区别，就会迅速变得模糊。

所以这个反驳真正提醒我们的，不是“流水线比较赢了不公平”，而是：如果要让智能体可靠工作，你最终仍然要把那些被声称可以省掉的工程重新加回来。

我们不反对智能体。我们反对的是：智能体可以消灭它周围的工程这个想法。

判定：在框架层面成立，在实质层面不成立。我们应该更仔细地区分“智能体作为架构”（可以，有时候很好）和“智能体作为工程的替代品”（我们真正反对的东西）。接受批评。

反驳 3：你的 90/10 比例是特定领域的，不具有普遍性

进攻：机构级网络爬取是一个异常偏重编排的领域。数千个网站，每个结构不同，频率限制不同，JavaScript 渲染不同，PDF 处理不同——确定性代码当然占主导。但在代码生成、创意写作、研究综合或客户支持等领域，比例可能是 50/50，甚至 10/90 偏向模型。你们拿一条流水线的经验推广到整个 AI 领域。

我们的回应：这是对的，系列中我们也部分承认了。90/10 的比例是我们领域特有的。在客服聊天机器人里，大语言模型做大部分工作，工程层更薄。在代码生成里，模型承担的份额更大。

况且，如果从开发过程本身看，我们也大量使用了 Opus 辅助编码。也就是说，“90/10”说的是生产系统运行时的职责分工，不是开发者写代码时有没有使用 AI。

我们的反驳点在于：即使在大语言模型主导的领域，工程占比也比人们以为的高。

Cursor 不是“Claude 套个文本框”。Claude Code 也不是“模型会写代码，所以产品自然成立”。这些产品本身就是复杂系统：上下文工程、文件索引、差异管理、多模型编排、工具调用、权限控制、用户体验设计、测试和回滚。90% 在其他领域可能是 70% 或 60%——但永远不会是 0%。

而我们反对的叙事，说它正在趋近于 0。

更深层的观点依然成立：在任何需要可靠性、可追溯性和大规模可审计性的领域，工程占比都会上升。我们的领域恰好把这些要求推到了极限。但受监管的金融、医疗科技和企业软件，需求是类似的。

判定：部分成立。我们应该更明确地说，精确比例因领域而异。原则——工程不会消失——是普遍的。具体数字不是。

反驳 4：专业偏差——你造了你擅长造的东西

进攻：你有工程背景，所以自然会把问题看成工程问题。你擅长搭流水线、做边界控制、处理失败模式，于是最后当然会造出一条重工程流水线，然后说它比智能体可靠。换一个更擅长提示词、智能体编排或模型产品化的团队，也许会得到完全不同的方案。你看到的不是客观最优，而是你自己的专业路径。

我们的回应：这个扎心了，因为有道理。

没错，我们确实带着自己的能力和偏好进入了问题。我们熟悉工程、数据管道、错误处理、可追溯性和生产环境，所以我们更容易看见这些问题，也更自然地用这些方式解决问题。

这点应该承认。

但这个反驳遗漏了一件事：约束不是我们发明的。是投资团队、生产环境和机构要求给出来的。

他们要的是：

可审计性；
可追溯性；
覆盖数千家公司的全面性；
可预测的成本；
可复现的输出；
能进入真实投资流程的结果。

这些不是工程师偏好，而是系统必须满足的条件。

如果一个更擅长智能体系统的团队来做，具体实现可能会不同。它可能使用更多工具调用、更复杂的智能体编排、更自动化的反馈机制。但只要它要进入同样的投资流程、承担同样的审计和责任要求，它最终仍然绕不开这些结构属性：输入要受控，过程要可追溯，输出要可复核，错误要能定位，责任要能归属。

我们也不是一开始就决定要造一条重工程流水线。先试的就是更简单的方案。流水线之所以长出来，正是因为简单方案在用户真正关心的维度上翻车了。

所以，这里确实有专业偏差；但不只是专业偏差。

如果一个方案只是因为我们擅长它而存在，那是偏差。如果一个方案是被真实约束一步步逼出来的，那就是证据。

判定：在观察者偏差层面成立，在生产约束层面不成立。我们应该承认自己的工程背景影响了问题表述和实现路径。但同样的生产要求，会把不同团队的方案推向相似的系统属性：输入受控、过程可追溯、输出可审计、责任可归属。

反驳 5：成本论点是快照，不是趋势

进攻：你们说智能体贵 3–10 倍。但模型成本连续下降。今天让你们流水线显得高效的成本比较，明天就会让它显得贵——因为智能体架构直接受益于成本下降：更多调用变得更便宜。而你们的确定性代码有固定的工程维护成本。经济论点可能在 18 个月内翻转。

我们的回应：成本下降趋势是真实的，我们尊重这个事实。但这个论点混淆了两种不同的成本。

接口成本——每个 token 调用模型的价格——确实在下降。如果智能体系统的唯一成本就是模型调用，这个论点是决定性的。

但大规模运营中，主要成本不只是模型调用成本，而是：

调试成本。当智能体在第 2847 个网站上悄悄做了错误决定，你怎么发现？怎么追溯？怎么修复而不影响前 2846 个网站？
一致性成本。下个月重新跑流水线，结果可比吗？你能向组合经理解释差异吗？
审计成本。当合规部门问“系统为什么把这个页面分类为 ESG 相关？”，你能回答吗？
责任成本。当输出进入投资流程，谁能解释、修正和承担结果？

这些成本不会因为模型调用更便宜而自动降低。它们随系统复杂度上升。而智能体架构——如果没有工程约束——会增加系统复杂度，因为每个决策点都可能变成概率分支，而不是确定性分支。

更便宜的模型让智能体更可行用于实验。不会自动让智能体更可审计用于生产。

判定：在接口经济学上部分成立，在总拥有成本上不成立。我们应该把“每次模型调用的成本”和“大规模可靠运营的成本”分开。前者在降。后者没自动下降，而那才是我们论点真正所在的位置。

反驳 6：你在用今天的系统复杂性，对抗明天的抽象

进攻：你整个系列成立的前提是：系统复杂性必须由工程显式承担。但如果未来模型能力继续提升，它可能会吸收越来越多你今天认为必须用代码表达的结构。工具调用、状态跟踪、长时任务、自我纠错，如果逐渐被模型内化，那么你所描述的工程，可能只是“当前能力不足”的替代结构。换句话说：你是在把“暂时需要的工程”，当成“永久必要的工程”。

我们的回应：这是一个非常自然、也非常强的反驳。但它隐含了一个假设：

能力增强 = 系统复杂性减少。

现实情况往往更接近反方向。能力一变强，它通常不是用来解决昨天那个已经定义清楚的问题，而是被立刻用来扩大问题本身。

这也是为什么，即使是今天很强的模型，在一个非常具体的任务上，也常常不是一次性做对。让它根据一张表直接生成图表代码，第一版可能会看错字段、选错图型、处理不好日期、分组或缺失值；后面几轮才逐步修正。问题不只是模型还不够强，而是目标本身往往是在反馈里慢慢变清晰的。

模型可以压缩实现，但不会替你形成目标。它可以展开可能路径，但不会替你决定最终该在哪一条路径上收敛。它没有自己的“停止理由”。

所以我们真正反对的，从来不是“未来模型会更强”。这当然会发生。我们反对的是：把能力上升，直接翻译成系统复杂性会自动消失。很多时候，能力变强带来的，不是工程退场，而是任务升级，反馈回路变长，责任结构变重。

抽象会上移。约束不会消失。

判定：在时间维度上成立，在结构维度上不成立。未来模型会继续吞掉一部分今天显式写出来的结构。但只要目标需要形成、结果需要验收、责任需要归属，系统就不会因为模型更强而自动退场。

反驳 7：目标形成并不是核心问题

进攻：你现在越来越把论点建立在“目标是在反馈中形成的”这件事上：人来判断，人来收敛，人来更新目标。但随着模型能力提升，这件事本身也可能被部分内化。模型已经能提出多个候选方案、比较输出、做自我批评、自我修正，甚至模拟“如果目标其实是另一种”的切换。换句话说：你所说的人负责目标收敛，也许只是当前模型能力的限制，不是一个稳定的结构分工。

我们的回应：这个反驳比“智能体以后会更强”更深，因为它攻击的不是今天的实现，而是最后的结构分工本身。

但这里有一个关键区别：提出候选目标，不等于承担目标；模拟目标更新，不等于决定最终在哪一个上停下。

模型当然可以生成多个方向，甚至可以批评自己的上一版输出。但它做的仍然是扩展可能空间，不是定义哪一个可能空间必须被固定下来。目标形成之所以关键，不是因为人脑比模型更神秘，而是因为目标最终连着代价、责任、取舍和停止条件。

模型可以帮你看见自己原来没说清的东西。它不能替你承担“现在就按这个算”的那一下。很多智能体会帮你做这个，但不一定是你想要的。

所以我们同意：目标形成里有一部分动作会越来越多地被模型吸收。但“形成目标”这件事的最后一跳，不是语义推演，而是责任落点。只要责任还没有被自动化，目标收敛就不会完全被自动化。

判定：在局部动作层面成立，在最终收敛层面不成立。模型会越来越多地参与目标形成过程；但参与过程，不等于拥有最后决定权。

反驳 8：autopilot 的边界会不断扩张

进攻：你区分 autopilot（已成形问题）和 copilot（问题形成中），但这个边界本来就是动态的。随着模型能力提升，越来越多过去需要人协作判断的任务，会被重写成“已成形问题”。而且反馈回路本身也在被自动化：模型可以自测、互测、跑工具、回填错误、继续修正。这样看，copilot 空间会不断被压缩，autopilot 空间会不断扩大。你的框架描述的也许只是一个过渡期。

我们的回应：这也是一个很强的攻击，我们部分接受。

autopilot 的边界当然会扩张。很多今天还需要人盯着的局部任务，几年后会变成稳定的自动化模块。机器—机器反馈也会越来越多，系统会越来越擅长把一些曾经昂贵的人类检查变成常规流水。

但这不等于 copilot 空间会线性消失。

因为每当 autopilot 吞掉一批已经成形的问题，组织和用户通常不会停在原地享受轻松；他们会立刻把能力拿去推更大的范围、更模糊的目标、更长的链条、更重的责任。于是新的“还在形成”的问题又出现了。

边界当然会动，但不是朝着“最终只剩 autopilot”那一种方向动。更多时候，它是在两边同时扩张：自动化吞掉旧任务，现实把新问题推出来。

所以真正稳定的，不是 autopilot 和 copilot 各自覆盖多少比例；而是这个区分本身：

已成形的问题可以更多自动化；还在形成的问题只能协作化。

这条分工线会移动，但不会消失。

判定：在边界会移动这点上成立，在协作会被终结这点上不成立。自动化会扩张；但只要现实持续提出还没成形的问题，copilot 结构就会一直存在。

这个练习证明了什么

八个反驳。没有一个是无聊的。至少三个让我们不舒服。而模型在我们的引导下，经过多轮打磨修正，很快就生成完了。

但这次练习真正重要的地方，不在于我们有没有把它们一一挡回去。

真正重要的是：大语言模型可以在很短时间里生成八个结构完整、各自成立、甚至互相之间并不完全兼容的反驳。它可以同时支持多个互相矛盾但各自合理的世界模型。

这不是缺点。恰恰是它最有用的地方。

模型负责扩展可能性。系统负责压缩可能性。

它不知道哪一个反驳更接近证据，哪一个只是攻击范围；不知道哪一个触及现实约束，哪一个只是攻击表达方式；也不会因为某个判断还没有成形，就主动停在“先别下结论”。它在生成。我们在收敛。

这正是 Karpathy 想提醒人的地方。大语言模型会带着十足的信念论证任何方向。它用同样的热情产出了我们系列的论点。如果我们只让它强化我们的立场——大多数人都这么干——我们会觉得自己是天才。

Karpathy 测试暴露的不只是“大语言模型会讨好你”。它还暴露了大语言模型作为工具的一个底层特征：它很大程度上会沿着你给它的方向、语气、框架和隐含目标继续生成。你让它支持一个观点，它会支持得很漂亮；你让它反驳同一个观点，它也会反驳得很漂亮。

不同产品看起来有不同“性格”，很多时候也是因为系统已经替你注入了一部分默认语气、默认边界和默认偏好。你以为自己只是输入了一个问题，但其实问题本身、系统提示、产品风格和默认安全策略，已经共同塑造了回答的方向。

所以，大语言模型特别擅长做一件事：

把某个方向讲圆。

这很有用。

但它也很危险。

平衡不是判断

很多大语言模型回答最让人烦的地方，不是它错，而是它太会把一切讲得都有道理。

它常常先说“总体上你是对的”，然后立刻补一个“但是”；再列三点说明你为什么对，又列三点说明为什么还要小心。这个结构看起来平衡，也确实经常有帮助。但如果你正在寻找判断，它就会变成一种柔软的拖延：所有东西都被解释了，所有角度都被照顾了，真正的主次却没有被切出来。

现实判断很多时候不是“有没有道理”。几乎任何重要选择，都可以找到正反两面的道理。继续做有继续做的理由，停下来有停下来的理由；快一点有快一点的理由，稳一点有稳一点的理由；自动化有自动化的理由，保留人工判断也有保留人工判断的理由。

模型可以把这些理由都写得很好。它可以无限生成正反两面，无限补充“另一方面”，无限提醒“这取决于具体情况”。

但判断不是把正反两面列全。

判断是：在具体现实里，哪个理由更重？哪个风险你愿意承担？哪个代价你必须接受？什么时候该停，什么时候该继续，什么时候该选一个不完美但足够好的方案？

更麻烦的是，真实判断里的很多权重，根本不以“可列举理由”的形式存在。

人做选择时，通常不会真的把每个因素列出来、逐项打分、求和，然后机械地选择最高分。很多权重来自经验、组织处境、信任关系、过去见过的失败、风险承受能力，以及某种很难完全说清的直觉。

这些东西未必完整存在于互联网文本里。它们可能没有被写下来，也可能写下来时已经失真；甚至做判断的人自己，也未必能把所有权重完全解释清楚。

所以模型可以把正反理由列得很漂亮，却仍然不知道现实里哪一条理由应该更重。

有些人看起来非常谨慎：先讲优点，再讲缺点；过几天又回到优点，再过几天又回到缺点。每一轮都很有道理，但始终没有决定。问题不在于他们没有看到两面，而在于他们没有形成判断。

大语言模型会把这种状态放大。

你以为自己在变得更全面，其实只是让模型帮你在可能性里继续打转。它会让每个方向都显得合理，让每个选择都有补充，让每个结论都有保留。最后，你得到的不是判断，而是一张越来越完整、也越来越难收束的可能性地图。

如果没有一个人最终说：

在这个约束下，我们就按这个方向走。

事情就不会前进。

平衡不是判断。判断是知道什么时候不再继续平衡。

列出理由不是判断。给理由赋权，并承担赋权之后的后果，才是判断。

模型可以帮你看见更多面。

但它不会替你承担选择之后的后果。

这也解释了为什么编程智能体会最先显得特别强。

软件开发不是一个简单领域，但它是一个相对适合智能体发挥的领域：边界更清楚，反馈更密集，工具链更成熟，错误更容易暴露。代码能不能跑，测试能不能过，diff 改了什么，版本能不能回滚，接口有没有破坏，很多时候都有相对明确的检查方式。更重要的是，软件工程几十年来已经积累了大量可被写下来、可被学习、可被工具化的实践。

所以 Claude Code 或 Codex 这类工具看起来像是在“自己做工程判断”，但它们并不是在真空里判断。它们背后站着一个已经高度工程化的软件世界：代码库、测试、版本控制、命令行、错误日志、包管理、工程惯例，以及非常多成熟开发者沉淀下来的偏好。

换句话说，编程智能体之所以强，不只是因为模型强，也因为它被放进了一个相对清晰、可测试、可反馈、可回滚的系统里。

但软件开发只是世界的一个子集。

一旦进入业务判断、投资流程、组织协作、用户需求尚未成形的领域，情况就完全不同。那里未必有现成测试套件，未必有统一正确答案，未必有清楚的偏好函数，也未必有一个成熟工具环境替模型判断：什么更重要，什么不能越界，什么必须保留证据，什么必须交给人判断。

在这些领域，模型当然仍然有用。但它不会自动替你补齐那个缺失的系统层。

如果编程智能体替开发者做了一部分编排和工程，那是因为软件开发领域本身已经有大量编排和工程可以被产品化。到了投资、合规、研究、治理、组织流程这类领域，那部分系统化工作往往还不存在。

于是问题又回来了：

软件开发里的 Claude Code，是别人已经为你做了一部分系统工程。

你的领域里的 Claude Code，可能还需要你自己先把那部分系统工程做出来。

这也是为什么，不能把编程智能体的成功，直接外推成“所有领域都很快会被 agent 自动解决”。越是进入目标不清、反馈稀疏、责任复杂、偏好隐含的领域，越需要有人先把问题空间、证据结构、反馈回路和责任边界做出来。

模型能力很重要。

但模型所在的系统层，同样重要。

这就是第8A篇反复说的委托难题。如果你把论证委托给模型，只让它确认你的观点，你不是在思考——你是在把信念外包给一个没有信念的系统。

但如果你刻意要求最强反驳，坐在不舒服里，在有理的地方更新观点，模型就变成了真正有用的东西。

不是神谕。

是陪练。

更准确地说：当问题已经成形时，它可以更像 autopilot；但当问题本身还要被判断、收敛和更新时，它只能是 copilot。这次练习本质上就是后者。所有攻击路径都可以让模型展开；但没有一条能被自动接受。所有收敛都来自人对证据、结构和现实约束的判断。

我们更新了什么，又没有更新什么

前五个反驳主要攻击的是这个系列的外部边界：时间、比较方式、适用范围、作者偏差和成本趋势。后三个反驳更深，攻击的是结构本身：未来模型会不会吸收工程、目标形成和协作边界。

这不是形式主义。它确实改变了我们后来整理第8篇到第11篇的方式：我们不再只讨论“智能体为什么做不到”，而是更明确地区分了四件事——哪些问题已经成形，哪些目标还在形成，哪些输出需要工程约束，哪些判断必须由人和组织承担责任。

这次练习之后，我们更新了什么：

我们会更明确地说 90/10 比例是特定领域的。原则是普遍的。数字不是。
我们承认快照问题。这个系列描述的是 2026 年。有些细节会过时，但结构性论点应该存活更久。
我们会更清楚地说明反对的到底是什么。不是智能体。不是 AI。是“智能体消灭了对工程的需求”这个具体论断。
我们更强调目标形成与责任结构。因为最强的反驳已经不只是“未来模型会更强”，而是“未来模型会不会吸收目标形成和协作边界”。

以下是我们没有更新的：

核心论点。组合胜过单打独斗。工程不会消失。大语言模型是工具，不是替代品。
证据。投资团队的体验。流水线的生产记录。让它能用的架构属性。
结论。搭对。模型做判断，代码做控制，经验定方向。

八个反驳没有一个真正击穿证据本身。它们攻击的是：

论点的时效：会不会过时；
论点的表达方式：比较是否公平；
论点的适用范围：是不是特定领域；
论证者的偏差：是不是我们擅长造的东西；
论点的成本趋势：会不会被价格变化反转；
论点的时间外推：今天的工程会不会被明天的抽象吃掉；
论点的目标结构：目标形成是否会被模型吸收；
论点的协作边界：autopilot 会不会持续吞掉 copilot。

换句话说，反驳主要击中了三个层面：时间会变，比例会变，边界会变。但它们没有击穿最后一层：生产责任不会因为语言更流畅而自动消失。

这些都是真实的挑战。但没有一个回答最硬的那一层：

这个系统现在能不能在生产环境里交付。

这不是巧合。因为在这个层级上，大语言模型本身也不能生成证据。

因为证据不是语言结构，而是运行结果。

它能生成论证。

不能生成交付。

元教训

整个练习就是系列论点的缩影。

我们用大语言模型生成反驳。它做得非常出色——犀利的、结构清晰的攻击，很快就能生成一版，又一版。很少有人类魔鬼代言人能这么快、这么全面。

但是它还是需要人来评估。判断哪些成立。在有道理的地方更新。在有证据支撑的地方坚持立场。这次练习并不是几十秒完成的；模型很快扩展了可能性，但人花了很多天，才判断哪些东西真正成熟、哪些地方应该更新、哪些结论仍然站得住。

大语言模型提供了可能空间。人提供了收敛方向。组合产出了两者单独都做不出的东西。

所以最后真正稳住这个系列的，不是我们能不能写出更漂亮的论证，而是第11篇里的那件事：系统进入了真实团队的时间表、判断流程和责任结构。

这也是为什么，这篇番外到最后已经不再只是“我们守住了原来的结论”。它更像是用一次反驳实验，重新证明了整个系列一直在说的结构：

模型可以扩展可能性。系统负责压缩可能性。

AI 擅长理解语义。代码擅长保证行为。经验决定什么时候用哪个。三者缺一不可。

写关于搭这条流水线的博客系列的模式，其实也一样。

主线终点：→ 第11篇：证据

从头开始阅读：→ 第1篇：不可能的任务

其他番外：→ 番外篇：站在中间地带 · 番外篇：理解系统，才有资格委托系统