你是不是觉得现在的 AI 除了写写废话、陪你聊聊天,根本没法帮你干点真正的工作?那是因为它只有脑子,没有手脚。直到最近 AI 圈开始流行“养虾”,情况似乎开始有了变化……(此处应该有一个诡异的 BGM 响起,你自己脑补一下吧)
本文从近期科技圈爆火的“养虾(OpenClaw)”热潮切入,用大白话硬核拆解 AI Agent(智能体)的底层运行逻辑。从大模型如何被“员工手册”洗脑,到系统如何通过提取 JSON 代码来调用本地工具,带你秒懂什么是 Agent,以及它们如何组团成为你的“数字员工”。
拒绝被 AI 淘汰,从搞懂这篇硬核科普开始!
什么是 OpenClaw
OpenClaw 是一个开源、自托管的 AI Agent 系统。
所谓自托管,就是需要用户自己搭建部署。而它采用的 MIT 软件许可协议,则允许所有人可以免费使用、复制、修改、贩售其副本。这也是腾讯,字节等公司可以快速推出其同类产品的原因,对,就是各种 xxClaw 乱入~至于什么是 AI Agent 系统,向下看。这是重点——重要的事情占的篇幅会比较大……
OpenClaw 的吉祥物是龙虾(The lobster way 🦞),所以大家便将运行 OpenClaw 称之为“养虾”,用户自称“养虾人”。“你养龙虾了吗?”一度成为 AI 圈的问候语。顺带吐槽一下:现在的产品都好喜欢叫一个动物名呀。
OpenClaw 的主要创新之处在于,它将部署在本地 / 云端的大模型直接与通讯软件(如 Telegram、WhatsApp、Slack、Discord 等)打通。 这就允许你在聊天工具里直接给它下达指令,它的 Agent 就能在你的电脑上自主读取文件、编写代码、运行终端命令,并把最终结果和截图通过聊天软件发回给你了。
既然说了它的主要创新,那肯定还有别的创新值得说一说:
- 它的核心架构支持完全断网,纯靠本地大模型来运行:OpenClaw 的核心宣言是“你的助理、你的机器、你的数据”。它支持搭配本地大模型来运行。这解决了企业和开发者最大的痛点——隐私问题。这样就可以放心、愉快地让 AI 读取内部文件或代码库了,妈妈再也不用担心我的数据会被上传或用于训练其他模型了。当然,如果你也像我一样穷地无法在本地跑起开源的大参数模型的话,忽略这个点吧。
- 原生的多智能体协同(Built-in Multi-Agent):OpenClaw 不讲武德,它预设了多个 Agent……这就相当于它从底层架构上打造一个数字员工团队。举粟来说,在开发软体时你可以配置一个软件开发 Agent 负责写代码,同时生成一个运行在独立环境中的测试员 Agent 负责代码 review 和测试。它们之间可以通过严格的协议进行交互,完成单一 Agent 无法胜任的庞大工程。
什么是 AI Agent 系统
什么是 AI Agent
如果说传统的 AI(如基础的聊天机器人——ChatGPT,Gemini 等)像一个百科全书,你问什么它就回答什么,那么 AI Agent 则更像是一个数字员工或是私人助理,它不仅能说话,还能使用工具去干活。
你知道的,大语言模型(LLM)可以回复你的消息,但是由于它无法控制你的电脑,所以它并不能真正地去干活儿。想象一下忍者神龟里的朗格,它这个粉红色的大脑在没有身体的情况下,就是个渣渣。
而 Agent 不一样,它自己准备了一坨工具集。它会先把你的任务喂给 LLM,让 LLM 理解你的意图并进行逻辑推理,并决定下一步该干什么,以及确定“我现在该调用哪个工具”。Agent 系统在收到使用哪个工具以及如何使用的回答后,就去调用对应的工具,并把执行结果作为文本再返回给 LLM。
AI Agent 工作过程示例

光看上面的语句可能并不能让人很好的理解它的工作过程,那下面我们就来举个流程上的例子来看的更真切些:
第一步:Agent 系统给 LLM 定规矩(System Prompt)
在你输入任务之前,Agent 系统的底层代码会先悄悄给 LLM 发送一段极其严格的“系统提示词”(System Prompt)。这段话相当于给 LLM 一本员工手册。
系统会对 LLM 说:
“你是一个智能助手。你不能直接上网。但是,我(系统)手里有几个工具你可以调遣。
search_web:用于搜索网页,需要参数keyword。calculator:用于计算,需要参数expression。注意:如果你需要用工具,你绝对不能说人类语言,你必须严格输出如下 JSON 格式的数据:
{"action": "工具名字", "params": {"参数名": "参数值"}}
第二步:LLM 思考并输出约定格式(JSON)的内容
这个时候,你给系统发了任务:“北京天气怎么样?”系统把这句话原封不动转交给了 LLM。
LLM 收到后,由于之前被“员工手册”洗脑了,它知道自己不知道北京天气,必须用工具。于是,LLM 放弃了输出自然语言,直接输出了一段符合协议格式的纯文本:
{
"action": "search_web",
"params": {
"keyword": "北京今日天气"
}
}
第三步:Agent 系统拦截并执行
重点来了!Agent 系统一直在监听 LLM 的输出。 当它看到 LLM 吐出来的是一段 JSON 代码时,Agent 系统根本不“理解”这是什么意思,它只是用传统的编程逻辑(比如 if/else)去提取信息:
- 代码解析 JSON,提取出
action的值是"search_web"。 - 提取出
params里的值是"北京今日天气"。 - Agent 系统内部的程序逻辑立刻启动:
if action == "search_web": 执行搜索脚本(keyword)。
这一步是重点:Agent 系统没有理解语言,它只是提取了 JSON 字典里的“键值对”,然后触发了对应的本地代码去调用搜索的 API。
你想啊,如果 LLM 和 Agent 没有约定格式,那 LLM 想执行动作的行为肯定是用自然语言去说的。要是这样的话,那 Agent 就会因为不理解而再去问 LLM 该怎么做……于是,一个死循环就会形成了!
敲黑板!这一步是整个 Agent 系统的灵魂。 看懂这层逻辑的同学,请在评论区打个“懂了”,没看懂的……收藏起来多看两遍,这可能会是未来十年最值钱的认知了!
第四步:系统把结果反馈给 LLM
Agent 的代码拿着“北京今日天气”去百度或谷歌搜了一圈,得到了一个结果,比如:“今日北京晴,气温 15-25度”。
此时,Agent 系统会把这个结果包装一下,再次伪装成人类,发给 LLM:
”刚才你调用
search_web工具的结果回来了,内容是:‘今日北京晴,气温 15-25度’。请根据这个结果回答用户。“LLM 收到这个结果后,终于搞清楚了状况,此时它才会切换回人类的自然语言模式,输出最终的回答:“北京今天的天气是晴天,气温在 15 到 25 度之间……”
什么是 Multi-Agent(多智能体)
通过上面的例子,我们就知道一个 Agent 完成工作的过程中主要包含了以下两个方面:
- 每个 Agent 收到的第一句话(System Prompt)是完全不同的,这决定了它们的性格、思维方式和评判标准;
- 这们携带的工具是不同的。 这样做是为了安全和专注。你肯定不希望一个负责在网上搜集八卦新闻的 Agent,手里握着能删除你本地数据库的权限。
那什么是 Multi-Agent?Multi-Agent 就是通过给大模型分配不同的工具 + 不同的身份设定 + 不同的信息输入,在系统里生成出一支分工明确的专业团队。
我们还是举例来说:
在不同的工具上,你可以给搜索 Agent 联网搜索、抓取网页的工具;给代码 Agent 读取本地文件、运行 Python 解释器、执行终端命令的工具;等等等等。
在系统提示词上,你给程序员 Agent 下达文令(Prompt):“你是一个高级资深工程师,你的代码必须简洁、高效,不要写废话”;而你给代码审查员 Agent 的文令是:“你是一个极其严苛、甚至有点毒舌的安全专家,你的任务就是找茬,挑出程序员代码里的所有漏洞,绝对不能放过任何错误” 。这样,它们虽然可能在用同一个大模型,但因为“人设”不同,它们就能互相挑毛病、互相辩论。
除此以外,Agent 系统中不同 Agent 还可能在以下方面有不同:
- 它们底层调用的大模型可能不同(LLMs),这是为了平衡成本和智商,多 Agent 系统往往会让不同的 Agent 使用不同的大语言模型来当作大脑。举例来说:包工头 Agent(负责拆解复杂任务)需要极高的逻辑推理能力,可能会调用最贵、最聪明的模型;而打字员 Agent(只负责把数据格式化成表格)由于任务极其简单,为了省钱和速度,可能会调用便宜且速度极快的模型。
- 它们的上下文记忆不同(Memory & Context):如果把所有任务的细节都塞给一个 Agent,它的脑子(上下文窗口)很快就会被撑爆,开始胡言乱语。在 Multi-Agent 系统中,它们只看自己需要看的信息。比如测试 Agent 不需要知道产品经理 Agent 最初是怎么和客户沟通的,它只需要拿到程序员 Agent 写好的那一段代码和测试要求就可以了。
恩,常见用户了解这些就够了,不能再多了,再多你的 Memory & Context 可能就要超了……但如果你是开发人员的话,我们未来再一起探讨 Agent 系统的构成。
还有什么别的 Agent 系统吗?
不是只有 OpenClaw 才是 Agent 系统的,Agent 系统的开源和商业生态挺繁荣的。只是我暂时用不到,就不过多介绍了。下面我只澄清一些大家容易混淆的地方。
像早期的 GitHub Copilot,或者单纯提供代码补全的工具,它们主要扮演的是“Copilot(副驾驶)”的角色。由于它们缺乏自主规划和工具调用与行动闭环,所以它并不属于 Agent 系统。
但是现在边界正在变得模糊,普通的代码提示插件正在向真正的 Agent 进化。像 Cursor(内置了 Agent 模式的 IDE)、Antigravity 等最新一代的 AI 编程工具,它们已经算是 Agent 系统了。
结语
如果你手下现在有一支 24 小时待命、不要工资的 Multi-Agent 团队,你最想把什么恶心的脏活累活丢给它们?在评论区告诉我,点赞最高的留言,我下期手把手教你怎么配置这个专属打工人!
#AI基础