全网都在“养龙虾”?什么是 OpenClaw(曾用名 ClawdBot、Moltbot)?理科生大白话扒一扒 AI Agent 的底裤

你是不是觉得现在的 AI 除了写写废话、陪你聊聊天,根本没法帮你干点真正的工作?那是因为它只有脑子,没有手脚。直到最近 AI 圈开始流行“养虾”,情况似乎开始有了变化……(此处应该有一个诡异的 BGM 响起,你自己脑补一下吧)

本文从近期科技圈爆火的“养虾(OpenClaw)”热潮切入,用大白话硬核拆解 AI Agent(智能体)的底层运行逻辑。从大模型如何被“员工手册”洗脑,到系统如何通过提取 JSON 代码来调用本地工具,带你秒懂什么是 Agent,以及它们如何组团成为你的“数字员工”。

拒绝被 AI 淘汰,从搞懂这篇硬核科普开始!

什么是 OpenClaw

OpenClaw 是一个开源、自托管的 AI Agent 系统。

所谓自托管,就是需要用户自己搭建部署。而它采用的 MIT 软件许可协议,则允许所有人可以免费使用、复制、修改、贩售其副本。这也是腾讯,字节等公司可以快速推出其同类产品的原因,对,就是各种 xxClaw 乱入~至于什么是 AI Agent 系统,向下看。这是重点——重要的事情占的篇幅会比较大……

OpenClaw 的吉祥物是龙虾(The lobster way 🦞),所以大家便将运行 OpenClaw 称之为“养虾”,用户自称“养虾人”。“你养龙虾了吗?”一度成为 AI 圈的问候语。顺带吐槽一下:现在的产品都好喜欢叫一个动物名呀。

OpenClaw 的主要创新之处在于,它将部署在本地 / 云端的大模型直接与通讯软件(如 Telegram、WhatsApp、Slack、Discord 等)打通。 这就允许你在聊天工具里直接给它下达指令,它的 Agent 就能在你的电脑上自主读取文件、编写代码、运行终端命令,并把最终结果和截图通过聊天软件发回给你了。

既然说了它的主要创新,那肯定还有别的创新值得说一说:

  • 它的核心架构支持完全断网,纯靠本地大模型来运行:OpenClaw 的核心宣言是“你的助理、你的机器、你的数据”。它支持搭配本地大模型来运行。这解决了企业和开发者最大的痛点——隐私问题。这样就可以放心、愉快地让 AI 读取内部文件或代码库了,妈妈再也不用担心我的数据会被上传或用于训练其他模型了。当然,如果你也像我一样穷地无法在本地跑起开源的大参数模型的话,忽略这个点吧。
  • 原生的多智能体协同(Built-in Multi-Agent):OpenClaw 不讲武德,它预设了多个 Agent……这就相当于它从底层架构上打造一个数字员工团队。举粟来说,在开发软体时你可以配置一个软件开发 Agent 负责写代码,同时生成一个运行在独立环境中的测试员 Agent 负责代码 review 和测试。它们之间可以通过严格的协议进行交互,完成单一 Agent 无法胜任的庞大工程。

什么是 AI Agent 系统

什么是 AI Agent

如果说传统的 AI(如基础的聊天机器人——ChatGPT,Gemini 等)像一个百科全书,你问什么它就回答什么,那么 AI Agent 则更像是一个数字员工或是私人助理,它不仅能说话,还能使用工具去干活。

你知道的,大语言模型(LLM)可以回复你的消息,但是由于它无法控制你的电脑,所以它并不能真正地去干活儿。想象一下忍者神龟里的朗格,它这个粉红色的大脑在没有身体的情况下,就是个渣渣。

而 Agent 不一样,它自己准备了一坨工具集。它会先把你的任务喂给 LLM,让 LLM 理解你的意图并进行逻辑推理,并决定下一步该干什么,以及确定“我现在该调用哪个工具”。Agent 系统在收到使用哪个工具以及如何使用的回答后,就去调用对应的工具,并把执行结果作为文本再返回给 LLM。

AI Agent 工作过程示例

AI Agent 工作过程示例 - 由 Gemini 根据本文内容生成

光看上面的语句可能并不能让人很好的理解它的工作过程,那下面我们就来举个流程上的例子来看的更真切些:

第一步:Agent 系统给 LLM 定规矩(System Prompt)

在你输入任务之前,Agent 系统的底层代码会先悄悄给 LLM 发送一段极其严格的“系统提示词”(System Prompt)。这段话相当于给 LLM 一本员工手册。

系统会对 LLM 说:

“你是一个智能助手。你不能直接上网。但是,我(系统)手里有几个工具你可以调遣。

  1. search_web:用于搜索网页,需要参数 keyword
  2. calculator:用于计算,需要参数 expression

注意:如果你需要用工具,你绝对不能说人类语言,你必须严格输出如下 JSON 格式的数据:{"action": "工具名字", "params": {"参数名": "参数值"}}

第二步:LLM 思考并输出约定格式(JSON)的内容

这个时候,你给系统发了任务:“北京天气怎么样?”系统把这句话原封不动转交给了 LLM。

LLM 收到后,由于之前被“员工手册”洗脑了,它知道自己不知道北京天气,必须用工具。于是,LLM 放弃了输出自然语言,直接输出了一段符合协议格式的纯文本

{
  "action": "search_web",
  "params": {
    "keyword": "北京今日天气"
  }
}

第三步:Agent 系统拦截并执行

重点来了!Agent 系统一直在监听 LLM 的输出。 当它看到 LLM 吐出来的是一段 JSON 代码时,Agent 系统根本不“理解”这是什么意思,它只是用传统的编程逻辑(比如 if/else)去提取信息:

  1. 代码解析 JSON,提取出 action 的值是 "search_web"
  2. 提取出 params 里的值是 "北京今日天气"
  3. Agent 系统内部的程序逻辑立刻启动:if action == "search_web": 执行搜索脚本(keyword)

这一步是重点:Agent 系统没有理解语言,它只是提取了 JSON 字典里的“键值对”,然后触发了对应的本地代码去调用搜索的 API。

你想啊,如果 LLM 和 Agent 没有约定格式,那 LLM 想执行动作的行为肯定是用自然语言去说的。要是这样的话,那 Agent 就会因为不理解而再去问 LLM 该怎么做……于是,一个死循环就会形成了!

敲黑板!这一步是整个 Agent 系统的灵魂。 看懂这层逻辑的同学,请在评论区打个“懂了”,没看懂的……收藏起来多看两遍,这可能会是未来十年最值钱的认知了!

第四步:系统把结果反馈给 LLM

Agent 的代码拿着“北京今日天气”去百度或谷歌搜了一圈,得到了一个结果,比如:“今日北京晴,气温 15-25度”。

此时,Agent 系统会把这个结果包装一下,再次伪装成人类,发给 LLM:

”刚才你调用 search_web 工具的结果回来了,内容是:‘今日北京晴,气温 15-25度’。请根据这个结果回答用户。“

LLM 收到这个结果后,终于搞清楚了状况,此时它才会切换回人类的自然语言模式,输出最终的回答:“北京今天的天气是晴天,气温在 15 到 25 度之间……”

什么是 Multi-Agent(多智能体)

通过上面的例子,我们就知道一个 Agent 完成工作的过程中主要包含了以下两个方面:

  1. 每个 Agent 收到的第一句话(System Prompt)是完全不同的,这决定了它们的性格、思维方式和评判标准;
  2. 这们携带的工具是不同的。 这样做是为了安全和专注。你肯定不希望一个负责在网上搜集八卦新闻的 Agent,手里握着能删除你本地数据库的权限。

那什么是 Multi-Agent?Multi-Agent 就是通过给大模型分配不同的工具 + 不同的身份设定 + 不同的信息输入,在系统里生成出一支分工明确的专业团队。

我们还是举例来说:

在不同的工具上,你可以给搜索 Agent 联网搜索、抓取网页的工具;给代码 Agent 读取本地文件、运行 Python 解释器、执行终端命令的工具;等等等等。

在系统提示词上,你给程序员 Agent 下达文令(Prompt):“你是一个高级资深工程师,你的代码必须简洁、高效,不要写废话”;而你给代码审查员 Agent 的文令是:“你是一个极其严苛、甚至有点毒舌的安全专家,你的任务就是找茬,挑出程序员代码里的所有漏洞,绝对不能放过任何错误” 。这样,它们虽然可能在用同一个大模型,但因为“人设”不同,它们就能互相挑毛病、互相辩论。

除此以外,Agent 系统中不同 Agent 还可能在以下方面有不同:

  • 它们底层调用的大模型可能不同(LLMs),这是为了平衡成本和智商,多 Agent 系统往往会让不同的 Agent 使用不同的大语言模型来当作大脑。举例来说:包工头 Agent(负责拆解复杂任务)需要极高的逻辑推理能力,可能会调用最贵、最聪明的模型;而打字员 Agent(只负责把数据格式化成表格)由于任务极其简单,为了省钱和速度,可能会调用便宜且速度极快的模型。
  • 它们的上下文记忆不同(Memory & Context):如果把所有任务的细节都塞给一个 Agent,它的脑子(上下文窗口)很快就会被撑爆,开始胡言乱语。在 Multi-Agent 系统中,它们只看自己需要看的信息。比如测试 Agent 不需要知道产品经理 Agent 最初是怎么和客户沟通的,它只需要拿到程序员 Agent 写好的那一段代码和测试要求就可以了。

恩,常见用户了解这些就够了,不能再多了,再多你的 Memory & Context 可能就要超了……但如果你是开发人员的话,我们未来再一起探讨 Agent 系统的构成。

还有什么别的 Agent 系统吗?

不是只有 OpenClaw 才是 Agent 系统的,Agent 系统的开源和商业生态挺繁荣的。只是我暂时用不到,就不过多介绍了。下面我只澄清一些大家容易混淆的地方。

像早期的 GitHub Copilot,或者单纯提供代码补全的工具,它们主要扮演的是“Copilot(副驾驶)”的角色。由于它们缺乏自主规划和工具调用与行动闭环,所以它并不属于 Agent 系统。

但是现在边界正在变得模糊,普通的代码提示插件正在向真正的 Agent 进化。像 Cursor(内置了 Agent 模式的 IDE)、Antigravity 等最新一代的 AI 编程工具,它们已经算是 Agent 系统了。

结语

如果你手下现在有一支 24 小时待命、不要工资的 Multi-Agent 团队,你最想把什么恶心的脏活累活丢给它们?在评论区告诉我,点赞最高的留言,我下期手把手教你怎么配置这个专属打工人!

#AI基础

发表评论