龙虾AI（OpenClaw）超精细图片式架构图（带模块细节+数据流+技术栈详解）

你再猜

466人浏览 · 2026-03-25 10:44:44

你再猜 · 2026-03-25 10:44:44 发布

**技术栈详解**（按每层对应模块拆解，明确技术栈、应用位置、核心特点）

┌─────────────────────────────────────────────────────────────────────────────────┐

│ 第一层：用户交互层（接入层） │

│ 作用：用户通过各种方式发指令，所有入口统一汇总，转换成龙虾能识别的格式 │

│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │

│ │ 命令行（CLI）│ │ Web UI界面 │ │ 企业办公软件 │ │ 社交软件 │ │

│ │ （技术党用） │ │ （可视化用） │ │ （飞书/钉钉）│ │ （微信/QQ） │ │

│ │ 输入指令执行 │ │ 点击操作、输指令 │ │ 集成机器人 │ │ 小程序/机器人│ │

│ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ │

│ │ │ │ │ │

│ └─────────────────┼─────────────────┼─────────────────┘ │

│ ↓ │

│ ┌────────────────────────────────────────────────────────────────────────┐ │

│ │ 消息适配器模块：统一所有入口的消息格式，转换成系统通用的Message对象 │ │

│ │ （比如：把微信消息、CLI指令，都变成一样的格式，让后续层能看懂） │ │

│ └───────────────────────────────┬──────────────────────────────────────┘ │

└───────────────────────────────────┼─────────────────────────────────────────────┘

↓

│ 第二层：网关接入层（中枢枢纽） │

│ 作用：所有数据必经之路，管安全、管调度、管会话，避免系统混乱 │

│ │ 会话管理模块 │ │ 安全鉴权模块 │ │ 流量控制模块 │ │ 日志审计模块 │ │

│ │ - 维护用户会话│ │ - 验证用户权限│ │ - 限流（防卡死）│ │ - 记录所有操作│ │

│ │ - 保存上下文 │ │ - 高危操作审批│ │ - 排队处理任务│ │ - 出错可追溯 │ │

│ │ │ │ │ │

│ └─────────────────┼─────────────────┼─────────────────┘ │

│ ↓ │

│ │ 消息路由模块：把统一格式的指令，分发到对应的智能体（Agent） │ │

│ │ （比如：办公任务分给办公Agent，开发任务分给开发Agent） │ │

↓

│ 第三层：智能体核心层（龙虾大脑） │

│ 作用：真正“思考”，理解指令、拆任务、调工具、纠错，是龙虾AI的核心灵魂 │

│ │ 意图理解模块 │ │ 任务规划模块 │ │ 工具调度模块 │ │ 反思纠错模块 │ │

│ │ - 听懂用户需求│ │ - 拆成多步骤 │ │ - 选对应工具 │ │ - 检查结果对错│ │

│ │ - 识别核心目标│ │ - 排执行顺序 │ │ - 传执行参数 │ │ - 错了就重试 │ │

│ │ - 区分任务类型│ │ - 处理异常步骤│ │ - 监控工具状态│ │ - 优化执行步骤│ │

│ │ │ │ │ │

│ └─────────────────┼─────────────────┼─────────────────┘ │

│ ↓ │

│ │ 三级记忆系统（龙虾的“记性”）：存储上下文、偏好、历史，越用越顺手 │ │

│ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │

│ │ │ 短期记忆 │ │ 近端记忆 │ │ 长期记忆 │ │ │

│ │ │ （当日日志）│ │ （会话存档）│ │ （用户偏好）│ │ │

│ │ └──────────┘ └──────────┘ └──────────┘ │ │

│ ↓ │

│ │ 模型调度模块：调用大模型（本地/云端），辅助思考、理解指令 │ │

│ │ - 支持Ollama（本地）、OpenAI、Claude等 │ │

│ │ - 动态切换模型，适配不同任务难度 │ │

↓

│ 第四层：工具能力层（龙虾的手脚眼睛） │

│ 作用：接收大脑指令，执行具体动作，相当于龙虾的“手脚”，还有“眼睛” │

│ │ 屏幕视觉工具 │ │ 键鼠模拟工具 │ │ 浏览器工具 │ │ 系统操作工具 │ │

│ │ （龙虾的眼睛）│ │ （龙虾的手） │ │ （自动上网） │ │ （操作电脑） │ │

│ │ - 截图、OCR识别│ │ - 移动鼠标 │ │ - Playwright │ │ - 读写文件 │ │

│ │ - 识别界面元素│ │ - 点击、输入 │ │ - 自动点击/输入│ │ - 运行命令行 │ │

│ │ - 读取屏幕内容│ │ - 快捷键操作 │ │ - 爬取网页数据│ │ - 调用系统API│ │

│ │ │ │ │ │

│ └─────────────────┼─────────────────┼─────────────────┘ │

│ ↓ │

│ │ 工具管理模块：加载/卸载工具、监控工具状态、处理工具异常 │ │

│ │ - 支持自定义工具（自己写插件，让龙虾学新技能） │ │

│ │ - 工具故障时自动切换备用工具 │ │

↓

│ 第五层：系统执行层（底层驱动） │

│ 作用：连接工具和电脑硬件，真正执行动作，同时保障安全，不搞乱电脑 │

│ │ 系统接口适配 │ │ Docker沙箱 │ │ 节点管理模块 │ │ 错误处理模块 │ │

│ │ - 对接Windows/ │ │ - 隔离工具执行│ │ - 管理本地/远端│ │ - 捕获执行错误│ │

│ │ Mac/Linux │ │ - 防止乱改系统│ │ 执行节点 │ │ - 返回错误信息│ │

│ │ - 调用系统驱动 │ │ - 限制工具权限│ │ - 节点心跳检测│ │ - 触发重试机制│ │

│ │ │ │ │ │

│ └─────────────────┼─────────────────┼─────────────────┘ │

│ ↓ │

└───────────────────────────────────┬─────────────────────────────────────────────┘

↓

│ 第六层：设备硬件层（最终执行端） │

│ 作用：接收底层指令，完成物理/虚拟操作，是所有动作的最终落地端 │

│ │ 显示设备 │ │ 输入设备 │ │ 存储设备 │ │ 网络设备 │ │

│ │ （屏幕：显示操作）│ │ （鼠标/键盘） │ │ （硬盘/U盘） │ │ （联网操作） │ │

│ └──────────────┘ └──────────────┘ └──────────────┘ └──────────────┘ │

└─────────────────────────────────────────────────────────────────────────────────┘

─────────────────────────────────────────────────────────────────────────────────────

补充1：关键数据流（白话文版，看懂数据怎么跑）

1. 用户 → 交互层：发指令（比如“整理桌面文件”）；

2. 交互层 → 网关层：指令转统一格式，带用户会话信息；

3. 网关层 → 智能体层：指令分发到对应Agent，带上历史会话；

4. 智能体层 → 工具层：大脑拆解任务，调用对应工具（比如“文件操作工具”）；

5. 工具层 → 系统执行层：工具请求执行动作（比如“删除冗余文件”）；

6. 系统执行层 → 硬件层：底层驱动调用硬件，完成实际操作；

7. 反向反馈：操作结果从硬件层→系统层→工具层→智能体层→网关层→交互层，最终反馈给用户。

补充2：额外细节（比上一版新增，更贴近真实架构）

1. 新增「三级记忆系统」：解释龙虾“记东西”的方式，为什么能越用越顺手；

2. 新增「安全组件」：沙箱、鉴权、日志，解释龙虾为什么不会乱搞电脑；

3. 新增「工具管理模块」：说明龙虾怎么加载新技能、处理工具故障；

4. 新增「节点管理」：支持本地+远端执行，解释龙虾怎么跨设备干活；

5. 每个模块都补充「具体功能」，不是只写名字，小白也能看懂每个模块干嘛用。

补充3：详细技术栈拆解（按层对应，白话文+无黑话）

核心说明：龙虾AI的技术栈核心是「轻量、本地优先、可扩展」，所有技术栈都围绕“让AI自主操作电脑”展开，以下按每层对应模块，详细说明“用了什么技术、用在哪里、有什么特点”。

一、用户交互层对应技术栈

1. 命令行（CLI）：Node.js + TypeScript（底层支撑）

- 应用位置：用户通过PowerShell、终端输入指令的入口，是技术党最常用的操作方式；

- 核心特点：轻量无依赖，启动速度快，无需图形界面，适合远程操作和批量任务，搭配OpenClaw指令可快速执行复杂操作。

2. Web UI界面：Express（Web服务）+ 简单前端（HTML/CSS/JS）

- 应用位置：可视化操作界面（默认地址：http://127.0.0.1:18789），用户可点击操作、查看任务进度；

- 核心特点：操作简单，小白友好，无需记住命令，可直观查看会话记录、任务日志，支持管理员登录验证。

3. 企业办公/社交软件集成：插件化适配（飞书/钉钉/微信/QQ等）+ libsignal-node（WhatsApp协议支撑）

- 应用位置：消息适配器模块，实现多渠道接入，用户可在常用聊天软件中发指令；

- 核心特点：适配性强，支持50+主流通讯平台，无需下载独立APP，消息格式自动归一化，用户体验如同与好友对话，可远程驱动本地机器执行任务。

4. 消息适配器：TypeScript（自定义适配逻辑）

- 应用位置：统一所有入口的消息格式，转换成系统通用的Message对象；

- 核心特点：屏蔽不同渠道的消息差异（比如微信消息和CLI指令格式不同），确保后续所有层能“看懂”指令，降低系统耦合度。

二、网关接入层对应技术栈

1. 核心支撑：Node.js 22+ + TypeScript

- 应用位置：整个网关层的底层支撑，所有模块（会话、鉴权、路由）都基于此开发；

- 核心特点：异步性能强，适合处理高并发的消息请求，开发效率高，可快速迭代插件，同时支撑多节点分布式部署，是OpenClaw架构的核心底层语言。

2. 会话管理模块：SQLite（轻量数据库）

- 应用位置：存储用户会话、上下文信息，维护每个用户的交互历史；

- 核心特点：轻量、无需单独部署，本地存储（贴合“本地优先”理念），读写速度快，占用资源少，适合存储会话这种轻量级数据，同时支持会话持久化，避免重启丢失上下文。

3. 安全鉴权模块：Zod（参数校验）+ Token鉴权

- 应用位置：验证用户权限、校验指令参数、审批高危操作；

- 核心特点：参数校验严格，可防止非法指令、恶意请求，Token鉴权保障接口安全，高危操作需人工审批，降低系统风险，同时支持自定义鉴权规则，适配不同使用场景。

4. 流量控制模块：BullMQ（消息队列）

- 应用位置：限流、任务排队，防止多任务同时执行导致系统卡死；

- 核心特点：支持任务优先级排序，可实现同会话串行、异会话并行，避免资源竞争，同时支持任务重试，确保指令不丢失，适配多任务并发场景。

5. 日志审计模块：tslog（日志工具）

- 应用位置：记录所有操作（用户指令、工具调用、执行结果、错误信息）；

- 核心特点：日志清晰，可按级别筛选（错误、警告、信息），支持追溯操作记录，方便排查故障，同时日志本地存储，保障隐私安全，符合“数据主权私有化”理念。

6. 消息路由模块：WebSocket JSON-RPC 2.0（通信协议）

- 应用位置：将统一格式的指令，分发到对应的智能体（Agent）；

- 核心特点：实时性强，支持双向通信（指令下发+结果反馈），协议轻量，适配多智能体调度，可实现指令的快速分发和状态同步，支撑网关作为系统神经中枢的核心作用。

三、智能体核心层对应技术栈

1. 核心支撑：Node.js + TypeScript + jiti（动态插件加载）

- 应用位置：整个智能体层的底层支撑，负责加载意图理解、任务规划等模块；

- 核心特点：支持动态加载插件，无需重启系统即可新增功能，核心框架体积从45MB压缩至8MB，轻量高效，同时适配多模型调度，支撑复杂的Agentic Workflow编排。

2. 意图理解/任务规划/反思纠错模块：大模型API + 自定义Prompt工程

- 应用位置：理解用户指令、拆解任务、检查执行结果、优化步骤；

- 核心特点：适配多模型（本地Ollama、云端OpenAI/Claude/Gemini等），可根据任务难度动态切换，Prompt经过优化，能精准拆解复杂任务、识别执行错误，支撑“Observe-Think-Act-Reflect”龙虾循环，实现自主思考和纠错。

3. 三级记忆系统：本地文件（.md日志）+ SQLite + sqlite-vec（向量检索）

- 应用位置：存储短期记忆（当日日志）、近端记忆（会话存档）、长期记忆（用户偏好）；

- 核心特点：混合检索（BM25+向量检索+RRF融合），精准匹配上下文和用户偏好，所有记忆本地存储，隐私可控，无需依赖云端，同时支持记忆压缩，避免占用过多本地空间，实现“越用越顺手”的体验，符合OpenClaw“数据本地优先”的核心理念。

4. 模型调度模块：Ollama（本地模型引擎）+ 多模型Provider插件

- 应用位置：调用本地/云端大模型，辅助智能体思考、理解指令；

- 核心特点：支持本地模型（Ollama）和云端模型无缝切换，本地模型无需联网、隐私安全，可自定义模型上下文（如扩展至32k tokens），适配OpenClaw对超长上下文和高性价比推理的需求，同时支持多模型并行调用，适配不同任务场景（如轻量任务用qwen2.5:0.5b，复杂任务用glm-4.7-flash），可通过配置文件快速对接新模型。

四、工具能力层对应技术栈

1. 屏幕视觉工具：OCR识别库（如Tesseract）+ 截图工具（如sharp）

- 应用位置：截图、识别屏幕内容、识别界面元素（如按钮、输入框）；

- 核心特点：识别准确率高，支持多语言，轻量无依赖，可快速处理屏幕画面，模拟人类“看屏幕”的动作，是龙虾AI实现视觉感知的核心工具，支撑网页调研、界面操作等场景。

2. 键鼠模拟工具：robotjs（桌面自动化库）

- 应用位置：模拟鼠标移动、点击、键盘输入、快捷键操作；

- 核心特点：跨平台（支持Windows/Mac/Linux），操作精准，延迟低，可完美模拟人类键鼠操作，无需手动干预，支撑文件操作、软件控制等基础执行任务。

3. 浏览器工具：Playwright（浏览器自动化库）

- 应用位置：自动打开浏览器、点击网页元素、输入内容、爬取网页数据；

- 核心特点：支持Chrome、Firefox、Edge等主流浏览器，稳定性强，比传统Selenium更轻量，可应对动态网页（如JS渲染的页面），支撑网页自动化、数据爬取、在线操作等场景，是龙虾AI实现网页交互的核心工具。

4. 系统操作工具：Node.js内置fs模块（文件操作）+ child_process（命令行调用）

- 应用位置：读写文件、运行命令行、调用系统API；

- 核心特点：原生支持，无需额外安装依赖，跨平台适配，可直接操作本地文件系统和终端，支撑本地任务自动化（如整理文件、运行脚本），同时支持调用系统驱动，实现深度系统交互，是龙虾AI具备系统级执行权限的核心支撑。

5. 工具管理模块：TypeScript（插件管理逻辑）+ YAML（配置文件，claw.yaml）

- 应用位置：加载/卸载工具、监控工具状态、处理工具异常、配置工具权限；

- 核心特点：支持自定义工具（用TypeScript/Python/Shell编写插件），工具可热重载，单个工具故障不影响整个系统，通过YAML配置文件定义工具依赖和权限，避免工具乱调用系统资源，同时支持工具故障自动切换，提升系统稳定性，支撑龙虾AI的递归式技能进化机制（自主封装新技能）。

五、系统执行层对应技术栈

1. 系统接口适配：Node.js跨平台API + 系统原生接口

- 应用位置：对接Windows/Mac/Linux三大系统，调用系统驱动；

- 核心特点：跨平台兼容性强，无需针对不同系统单独开发，可直接调用系统底层接口，实现与硬件的联动，支撑多系统部署，同时适配本地和远端执行节点，实现跨设备操作。

2. Docker沙箱：Docker（容器技术）

- 应用位置：隔离工具执行环境，防止工具乱改系统、泄露隐私；

- 核心特点：轻量级容器，启动速度快，与宿主系统完全隔离，默认禁用网络、限制文件访问，可限制工具权限，避免工具执行错误导致系统崩溃，是保障系统安全的核心组件，贴合OpenClaw“安全默认”的设计原则。

3. 节点管理模块：WebSocket（长连接）+ 心跳检测机制

- 应用位置：管理本地执行节点和远端执行节点，监控节点状态；

- 核心特点：通过WebSocket与网关长连接，实时同步节点状态，心跳检测可及时发现离线节点，支持分布式部署（多设备同时执行任务），可实现远程开发、跨设备任务调度，支撑龙虾AI的跨设备操作能力。

4. 错误处理模块：TypeScript自定义错误捕获逻辑 + isolated-vm（沙箱隔离）

- 应用位置：捕获工具执行错误、系统接口错误，返回错误信息，触发重试机制；

- 核心特点：错误捕获精准，可区分不同类型错误（工具故障、系统错误），支持自定义重试策略，isolated-vm进一步隔离错误环境，避免错误扩散影响整个系统，确保系统稳定运行，支撑龙虾AI的自主纠错能力。

六、设备硬件层对应技术栈（底层支撑，无需额外开发）

无额外开发技术栈，依赖系统原生驱动和硬件接口，适配所有常见硬件（屏幕、鼠标、键盘、硬盘、网络设备），核心特点：兼容性强，无需用户额外配置，即插即用，支撑所有上层操作的最终落地，无论是本地硬件还是虚拟硬件（如云端服务器），都能完美适配，实现物理/虚拟操作的无缝落地。

总结：核心技术栈亮点

1. 本地优先：所有核心技术栈都支持本地部署（如Ollama、SQLite、本地文件存储），无强制云端依赖，隐私可控，符合OpenClaw“你的基础设施，你的密钥，你的数据”的核心原则；

2. 轻量可扩展：基于Node.js+TypeScript，核心框架体积小，插件化设计（渠道、模型、工具均可插件化），支持热重载，可快速扩展新功能、新工具；

3. 安全可靠：Docker沙箱、Token鉴权、日志审计、最小权限原则，从底层保障系统安全，避免工具误操作、恶意攻击；

4. 跨平台适配：所有核心技术栈均支持Windows/Mac/Linux，无需针对不同系统单独开发，同时支持本地+远端节点部署，适配多设备场景；

5. 小白友好：技术栈底层封装完善，用户无需了解底层技术，可通过CLI、Web UI、聊天软件等简单方式使用，同时支持一键安装脚本，降低部署和使用门槛。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

为什么别人的园区已经做到 7×24 自动巡逻，你的安防还在靠人海战术？

而是以自动机场为前哨，以任务管理为中枢，以联动机制为神经，以平台能力为底座，把园区非法入侵侦测真正做成一条完整链路。当无人机抵达现场后，实时画面如果能同步关联位置、时间、事件编号、目标轨迹等信息，可真正成熟的体系，会把每一次巡逻、每一次告警、每一段航迹、每一份画面都沉淀下来。机场管理、任务调度、视频回传、AI识别、设备管理，各自承担自己的职责。如果系统还能进一步识别人员、越界、徘徊、异常停留、违停