Coding Agent Is All You Need - 从 OS 到 OpenClaw
OpenClaw 爆了,但内核是什么?

最近几个月,AI 圈有一款产品反复出现在各个开发者社区的讨论里——OpenClaw。
它的定位是通用 AI 智能体(Agentic AI):你给它一个目标,它帮你拆解、规划、执行、交付。用过的人给出的评价相当一致:“第一次觉得 AI 像是在真正帮我干活,而不是帮我回答问题”。
OpenClaw 的出圈,早已不局限于社交媒体或技术圈。3 月 7 日,深圳龙岗率先发布全国首个 OpenClaw 专项政策”龙虾十条”,随后无锡、苏州、合肥等地相继跟进,推出各自的”养龙虾”和 OPC(One Personal Company,一人公司)扶持政策。
与此同时,各大互联网厂商也在短短两周内纷纷亮出自家的”小龙虾”,甚至出现了上门安装的地推服务。上一个引发这种量级全民讨论的产品,还是 2025 年春节档的 DeepSeek。
OpenClaw 爆火,有三个因素叠加在一起:时机、范式、生态。
时机:模型能力在过去一年经历了真正意义上的跃迁。不是 benchmark 分数好看,而是在复杂、多步骤任务里的实际可用性发生了质变。这个窗口以前没打开,现在打开了。
范式:它是通用智能体这个概念的第一个真正"可用"的形态。不是 demo,不是受控场景,而是能在用户的真实任务里端到端跑下来的东西。第一个可用形态往往比最好的形态更重要,它定义了用户对这类产品的基础认知。
生态:开发者社区对它的共鸣出乎意料地强烈。这不只是因为好用,而是因为它揭示了一种新的人机协作方式——你不再需要手持方向盘,你可以开始坐在副驾,甚至走到后排。虽然 Manus、GenSpark 等商用产品出来得更早,但受限于其商用闭源的特性,开发者并无法真正参与其中。
但这里有一个细节,很多人忽略了,或者知道了却没想清楚它意味着什么。
OpenClaw 的内核——它最核心的执行引擎——不是一个"通用大模型",也不是什么专门为通用任务设计的神秘系统。它叫 pi-mono,是一个开源的 Coding Agent。
这就是本文要回答的问题:为什么一个通用智能体,要用 Coding Agent 做内核?
什么是真正的 Agentic AI?
在回答"为什么是 Coding Agent"之前,我们需要先统一一个概念,因为市场上对"Agent"这个词的使用已经严重通货膨胀了。
把时间线拉开来看,AI 产品经历了三种形态的演化,它们的本质差异不是功能多少,而是人和 AI 之间的控制权分布。
第一种:Chatbot。 一问一答,无状态。你问一句,它答一句,下一轮对话它忘了上一轮说了什么(或者假装记得,但实际上只是把历史消息塞进上下文窗口)。这种形态的核心特征是:人全程掌舵,AI 只是响应。ChatGPT 早期的大多数用法都属于这个范畴。
第二种:Copilot。 这个词被 GitHub 用出了品牌效应,但它指的是一种更宽泛的形态——AI 嵌入到人的工作流里,在关键节点提供建议、补全、加速。人仍然是主体,AI 是增强器。Copilot 很有价值,但它的本质是让人做得更快,不是让 AI 替人去做。
第三种:Agent。 这才是我们真正在讨论的东西。Agent 的核心特征是:自主完成任务闭环,人只定义目标。你告诉 Agent “帮我把这个项目的文档更新到最新版本”,然后你去做别的事,Agent 去搞清楚需要改什么文件、查阅当前代码、生成文档、验证格式、提交 PR——整个过程它自己跑完。

衡量一个系统是不是真正的 Agent,有一个最核心的标准:它能不能独立跑完一个 Task Loop?
Task Loop 是什么?接收目标 → 制定计划 → 执行步骤 → 感知反馈 → 调整行动 → 交付结果。这个循环里,每一步都可以有人介入,但 Agent 的关键特征是:没有人介入,它也能跑完。
用 OS 重新看懂 OpenClaw
接下来我想提出一个框架,帮助你看清 OpenClaw 的架构,以及整个 Agentic AI 生态的演化逻辑。

Coding Agent = OS Kernel
很多人对 OS Kernel 的直觉是"它是最聪明的那部分",但这是错的。Kernel 的本质不是聪明,而是资源调度、任务编排、上下文管理。Kernel 不直接完成用户的任务,它维护让任务能被完成的运行环境。
要理解为什么 Coding Agent 能充当这个角色,先要理解一件更本质的事:Coding,是人类和计算机交互的语言。
不是比喻意义上的语言,而是字面意义上的协议。你用代码表达意图,计算机用执行结果、报错信息、状态变化来回应——这是一套高精度的双向通信系统。正因如此,Coding 任务天然满足 Agent 自主运行的三个前提:目标可以被精确编码,结果可以被机器直接验证(测试、CI、报错),环境可以被程序化操控且有即时反馈。在当前工程实践中,其他主流领域——销售、搜索、医疗——在反馈周期、验证依赖或监管约束上,都无法同时满足这三点。
Coding Agent 在做的事,和 Kernel 惊人地相似:
- 上下文管理:维护当前任务的状态——哪些文件改了,哪些测试跑了,当前报错是什么,已经执行了哪些步骤。这和 Kernel 管理进程状态、内存分页没有本质区别。
- 工具调度:决定什么时候调用哪个工具——终端、文件系统、搜索、代码执行——并处理调用结果。这是 Kernel 的系统调用层。
- 子任务编排:把复杂目标拆解成可执行的子步骤,按依赖关系排序,并行或串行执行。这是 Kernel 的调度器。
因此,Coding Agent 框架 pi-mono 是系统内核,而 OpenClaw 更像是一个操作系统。它让模型的计算能力能够被有序地、持续地、可靠地用于完成真实任务。
OpenClaw = 操作系统
这个区分值得单独说清楚,因为 Kernel 和 OS 不是同一个东西。
Linux Kernel 本身强大,但你每天打交道的是 Ubuntu、macOS、Android——它们是建立在 Kernel 之上的完整系统。Kernel 负责资源调度、硬件抽象、进程隔离;OS 负责把这些能力包装成人能用的环境。用户感知的是 OS,感知不到 Kernel。
OpenClaw 作为 OS,它在 pi-mono 这个 Kernel 之上提供的是:
- 用户空间(User Space):接收自然语言目标、呈现任务进展、交付最终结果。用户始终在和 OS 打交道,而不是直接操作 Kernel。
- 系统级记忆:维护跨会话的用户偏好、历史任务上下文、长期状态——这不是 Kernel 级的瞬态管理,而是 OS 级的持久化。
- 能力整合界面:Skills、MCP 接入的外部工具、用户的自定义配置,都由 OpenClaw 这层统一协调,而不是直接暴露给底层 Kernel。
Kernel 的价值,是被 OS 放大的。pi-mono 单独拿出来,是一个出色的 Coding Agent;被 OpenClaw 包裹之后,它变成了一个任何人都能使用的通用智能体引擎。就像 Linux Kernel 嵌入 Android,才真正触达了二十亿普通用户的设备——Kernel 没有变,变的是它被放置的系统层。
这也正是 OpenClaw 能以 Coding Agent 为内核、却做出"通用智能体"感受的根本原因:它并没有改造 Kernel,而是在 Kernel 之上,建了一个能让不懂编程的人也能用的 OS。通用性不在 Kernel 里,通用性在 OS 这一层。
Skill = 应用软件
在这个类比里,Skill 是运行在 OS 之上的应用软件层。
每一个 Skill 是一个封装好的能力单元——它有明确的职责边界,可以被独立调用,可以和其他 Skill 组合。你可以把"代码审查 Skill"和"文档生成 Skill"组合起来,完成一个完整的 PR 流程;你可以把"数据分析 Skill"和"图表生成 Skill"组合起来,完成一份报告。
这背后有 Unix 哲学的影子:每个工具只做好一件事,通过管道组合来完成复杂任务。“Do one thing and do it well” 放到 Agent 时代,就是 Skill 的设计原则。
Skill 的真正价值不在于单个 Skill 有多强大,而在于可组合性和可分发性。当 Skill 的标准化程度足够高,它就可以被独立开发、独立测试、独立分发——这是一个生态的雏形。
MCP = 外设协议(驱动层)
MCP(Model Context Protocol)在这个架构里扮演的角色,和 USB 在 PC 生态里扮演的角色本质上是一样的:统一接入标准,屏蔽底层差异。
在 MCP 之前,每个 Agent 都要自己写"驱动"——想接入一个数据库,写一套;想调用一个外部 API,写另一套;想操作浏览器,再写一套。能力边界完全取决于这个 Agent 的开发团队愿意写多少驱动,扩展性极差。
MCP 的出现,解决的是协议层的碎片化问题。它定义了 Agent 和外部世界之间的标准接口,让任何外部系统都可以通过"实现 MCP 协议"接入任意 Agent,而不是为每一个 Agent 单独集成。
这带来的结果是:Agent 的能力边界可以无限外延,而不依赖单体膨胀。OpenClaw 通过 MCP 接入文件系统、终端、外部 API,不是因为这些能力都被塞进了 pi-mono,而是因为外部世界通过 MCP 协议"插"进来了。
就像 USB 出现之后,PC 不再需要为每一种外设重新设计主板接口——插上就能用。MCP 让 Agent 生态有了同样的可能性。
如果历史是一份路线图
如果 OS 类比是成立的,那历史就是一份可参考的路线图。
OS 演化史的路标
操作系统的演化经历了三个阶段:单机 OS,解决本地资源调度;网络 OS,让不同机器上的进程能协作;云 OS,把整个数据中心抽象为一台可编程的计算机。
Agent 会走同一条路。现在我们处于"单机 OS"阶段:每个 Agent 在自己的上下文里运行,完成单一任务闭环。接下来会出现"网络 OS":多个 Agent 协作,跨系统、跨工具、跨组织地完成任务。最终会有某种"云 OS":Agent 作为基础设施层,任何任务都可以被分配到最合适的 Agent 网络上执行。
方向是清晰的,时间表还不确定。
"谁来做 Kernel"之争,本质是模型之争
Coding Agent 框架本身并不构成护城河。pi-mono 是开源的,OpenClaw 的架构是可复制的——任何团队都可以搭出一个类似的 Coding Agent 框架。Kernel 层的竞争,表面上是框架之争,实质上是驱动这个 Kernel 的模型能力之争。
Coding Agent 作为 Kernel,它的上下文理解、代码生成、错误修复能力,归根到底取决于底层模型有多强。框架是可以替换的,模型才是真正的变量。换句话说,Coding Agent 框架是引擎,模型是燃料——引擎决定了能量如何被转化和释放,但没有高密度的燃料,再精密的引擎也跑不快、跑不远。这正是标题"Coding Agent Is All You Need"的真正含义:框架定义了模型能力的释放方式,二者缺一不可,而在当前阶段,Coding Agent 是这套机制运转的唯一可靠形态。
这就是为什么各家大模型厂商都在全力押注 Coding。国外的 OpenAI、Anthropic,国内的 Minimax、智谱、Kimi——无一例外,都把 Coding 能力列为核心战场。Coding 不只是一个垂直场景,它是 Agentic AI 生态的真正入口:谁在这里建立了模型优势,谁就站上了 Kernel 层的竞争制高点。Coding 任务的 token 消耗量远超其他类型——这不只是技术上的制高点,也是商业上最厚实的那块蛋糕。
目前来看,Anthropic 的 Claude 在 Coding 能力上一骑绝尘。这背后是一个清醒的判断:Coding 是 Agent 的母语,模型在这门语言上的流利程度,决定了整个 Kernel 能跑多稳、跑多远。
Skill 市场会是下一个 App Store 吗
如果 Kernel 层稳定下来,下一个爆发的地方必然是 Skill 市场。
App Store 的逻辑很简单:当 iOS/Android 标准化了开发接口和分发渠道,独立开发者的创造力就被释放出来了,几十万个应用从无到有。Skill 市场的逻辑是一样的:当 Skill 的标准化程度足够高,任何人都可以开发一个 Skill 并将其分发给所有 Agent 用户。
当然,这个类比也有它的局限性。App Store 的繁荣,有赖于苹果对分发渠道的强控制和支付闭环;Skill 市场目前还缺少这样一个权威的聚合层——谁来做这个"应用商店",本身就是一个开放的竞争变量。但核心机制是相通的:标准化降低了创作门槛,创作门槛降低了之后,生态的涌现就不再依赖某一家公司的资源投入。
这个时刻还没到来,但它的前提条件——Kernel 的稳定和协议的标准化——正在成形。
结语:All You Need 的真正含义
让我们回到标题:Coding Agent Is All You Need。
这句话的意思不是说 Coding Agent 是 Agentic AI 的终点,不是说未来只有写代码的 Agent 才有价值。它的意思是:在当前这个时间窗口,Coding Agent 是通往 Agentic AI 最短的一条路径,也是目前唯一能够稳定支撑通用智能体内核的基础设施。
OpenClaw 的意义正在于此。它不只是一个好用的产品,它是一个概念验证:从 Coding Kernel 出发,可以长出一个通用智能体;Coding Agent 的结构性优势,可以被用来解锁更宽泛的任务类型;一个在有限领域跑通了的闭环,可以成为更大系统的地基。
这条路不一定是唯一的路,但它是当前已经验证过的路。
那么下一个问题是:当 Kernel 稳定下来,当 MCP 协议成熟,当 Skill 市场开始涌现,谁来定义下一层的"应用"?谁会是这个生态里的微软 Office,谁会是 Photoshop,谁会是 Steam?
这些应用今天还不存在,但构建它们所需要的基础层,已经在铺设当中了。