龙虾AI(OpenClaw)超精细图片式架构图(带模块细节+数据流+技术栈详解)
**技术栈详解**(按每层对应模块拆解,明确技术栈、应用位置、核心特点)
┌─────────────────────────────────────────────────────────────────────────────────┐
│ 第一层:用户交互层(接入层) │
│ 作用:用户通过各种方式发指令,所有入口统一汇总,转换成龙虾能识别的格式 │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 命令行(CLI)│ │ Web UI界面 │ │ 企业办公软件 │ │ 社交软件 │ │
│ │ (技术党用) │ │ (可视化用) │ │ (飞书/钉钉)│ │ (微信/QQ) │ │
│ │ 输入指令执行 │ │ 点击操作、输指令 │ │ 集成机器人 │ │ 小程序/机器人│ │
│ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ │
│ │ │ │ │ │
│ └─────────────────┼─────────────────┼─────────────────┘ │
│ ↓ │
│ ┌────────────────────────────────────────────────────────────────────────┐ │
│ │ 消息适配器模块:统一所有入口的消息格式,转换成系统通用的Message对象 │ │
│ │ (比如:把微信消息、CLI指令,都变成一样的格式,让后续层能看懂) │ │
│ └───────────────────────────────┬──────────────────────────────────────┘ │
└───────────────────────────────────┼─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────────────────────────┐
│ 第二层:网关接入层(中枢枢纽) │
│ 作用:所有数据必经之路,管安全、管调度、管会话,避免系统混乱 │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 会话管理模块 │ │ 安全鉴权模块 │ │ 流量控制模块 │ │ 日志审计模块 │ │
│ │ - 维护用户会话│ │ - 验证用户权限│ │ - 限流(防卡死)│ │ - 记录所有操作│ │
│ │ - 保存上下文 │ │ - 高危操作审批│ │ - 排队处理任务│ │ - 出错可追溯 │ │
│ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ │
│ │ │ │ │ │
│ └─────────────────┼─────────────────┼─────────────────┘ │
│ ↓ │
│ ┌────────────────────────────────────────────────────────────────────────┐ │
│ │ 消息路由模块:把统一格式的指令,分发到对应的智能体(Agent) │ │
│ │ (比如:办公任务分给办公Agent,开发任务分给开发Agent) │ │
│ └───────────────────────────────┬──────────────────────────────────────┘ │
└───────────────────────────────────┼─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────────────────────────┐
│ 第三层:智能体核心层(龙虾大脑) │
│ 作用:真正“思考”,理解指令、拆任务、调工具、纠错,是龙虾AI的核心灵魂 │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 意图理解模块 │ │ 任务规划模块 │ │ 工具调度模块 │ │ 反思纠错模块 │ │
│ │ - 听懂用户需求│ │ - 拆成多步骤 │ │ - 选对应工具 │ │ - 检查结果对错│ │
│ │ - 识别核心目标│ │ - 排执行顺序 │ │ - 传执行参数 │ │ - 错了就重试 │ │
│ │ - 区分任务类型│ │ - 处理异常步骤│ │ - 监控工具状态│ │ - 优化执行步骤│ │
│ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ │
│ │ │ │ │ │
│ └─────────────────┼─────────────────┼─────────────────┘ │
│ ↓ │
│ ┌────────────────────────────────────────────────────────────────────────┐ │
│ │ 三级记忆系统(龙虾的“记性”):存储上下文、偏好、历史,越用越顺手 │ │
│ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │
│ │ │ 短期记忆 │ │ 近端记忆 │ │ 长期记忆 │ │ │
│ │ │ (当日日志)│ │ (会话存档)│ │ (用户偏好)│ │ │
│ │ └──────────┘ └──────────┘ └──────────┘ │ │
│ └───────────────────────────────┬──────────────────────────────────────┘ │
│ ↓ │
│ ┌────────────────────────────────────────────────────────────────────────┐ │
│ │ 模型调度模块:调用大模型(本地/云端),辅助思考、理解指令 │ │
│ │ - 支持Ollama(本地)、OpenAI、Claude等 │ │
│ │ - 动态切换模型,适配不同任务难度 │ │
│ └───────────────────────────────┬──────────────────────────────────────┘ │
└───────────────────────────────────┼─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────────────────────────┐
│ 第四层:工具能力层(龙虾的手脚眼睛) │
│ 作用:接收大脑指令,执行具体动作,相当于龙虾的“手脚”,还有“眼睛” │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 屏幕视觉工具 │ │ 键鼠模拟工具 │ │ 浏览器工具 │ │ 系统操作工具 │ │
│ │ (龙虾的眼睛)│ │ (龙虾的手) │ │ (自动上网) │ │ (操作电脑) │ │
│ │ - 截图、OCR识别│ │ - 移动鼠标 │ │ - Playwright │ │ - 读写文件 │ │
│ │ - 识别界面元素│ │ - 点击、输入 │ │ - 自动点击/输入│ │ - 运行命令行 │ │
│ │ - 读取屏幕内容│ │ - 快捷键操作 │ │ - 爬取网页数据│ │ - 调用系统API│ │
│ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ │
│ │ │ │ │ │
│ └─────────────────┼─────────────────┼─────────────────┘ │
│ ↓ │
│ ┌────────────────────────────────────────────────────────────────────────┐ │
│ │ 工具管理模块:加载/卸载工具、监控工具状态、处理工具异常 │ │
│ │ - 支持自定义工具(自己写插件,让龙虾学新技能) │ │
│ │ - 工具故障时自动切换备用工具 │ │
│ └───────────────────────────────┬──────────────────────────────────────┘ │
└───────────────────────────────────┼─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────────────────────────┐
│ 第五层:系统执行层(底层驱动) │
│ 作用:连接工具和电脑硬件,真正执行动作,同时保障安全,不搞乱电脑 │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 系统接口适配 │ │ Docker沙箱 │ │ 节点管理模块 │ │ 错误处理模块 │ │
│ │ - 对接Windows/ │ │ - 隔离工具执行│ │ - 管理本地/远端│ │ - 捕获执行错误│ │
│ │ Mac/Linux │ │ - 防止乱改系统│ │ 执行节点 │ │ - 返回错误信息│ │
│ │ - 调用系统驱动 │ │ - 限制工具权限│ │ - 节点心跳检测│ │ - 触发重试机制│ │
│ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ │
│ │ │ │ │ │
│ └─────────────────┼─────────────────┼─────────────────┘ │
│ ↓ │
└───────────────────────────────────┬─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────────────────────────┐
│ 第六层:设备硬件层(最终执行端) │
│ 作用:接收底层指令,完成物理/虚拟操作,是所有动作的最终落地端 │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 显示设备 │ │ 输入设备 │ │ 存储设备 │ │ 网络设备 │ │
│ │ (屏幕:显示操作)│ │ (鼠标/键盘) │ │ (硬盘/U盘) │ │ (联网操作) │ │
│ └──────────────┘ └──────────────┘ └──────────────┘ └──────────────┘ │
└─────────────────────────────────────────────────────────────────────────────────┘
─────────────────────────────────────────────────────────────────────────────────────
补充1:关键数据流(白话文版,看懂数据怎么跑)
1. 用户 → 交互层:发指令(比如“整理桌面文件”);
2. 交互层 → 网关层:指令转统一格式,带用户会话信息;
3. 网关层 → 智能体层:指令分发到对应Agent,带上历史会话;
4. 智能体层 → 工具层:大脑拆解任务,调用对应工具(比如“文件操作工具”);
5. 工具层 → 系统执行层:工具请求执行动作(比如“删除冗余文件”);
6. 系统执行层 → 硬件层:底层驱动调用硬件,完成实际操作;
7. 反向反馈:操作结果从硬件层→系统层→工具层→智能体层→网关层→交互层,最终反馈给用户。
补充2:额外细节(比上一版新增,更贴近真实架构)
1. 新增「三级记忆系统」:解释龙虾“记东西”的方式,为什么能越用越顺手;
2. 新增「安全组件」:沙箱、鉴权、日志,解释龙虾为什么不会乱搞电脑;
3. 新增「工具管理模块」:说明龙虾怎么加载新技能、处理工具故障;
4. 新增「节点管理」:支持本地+远端执行,解释龙虾怎么跨设备干活;
5. 每个模块都补充「具体功能」,不是只写名字,小白也能看懂每个模块干嘛用。
补充3:详细技术栈拆解(按层对应,白话文+无黑话)
核心说明:龙虾AI的技术栈核心是「轻量、本地优先、可扩展」,所有技术栈都围绕“让AI自主操作电脑”展开,以下按每层对应模块,详细说明“用了什么技术、用在哪里、有什么特点”。
一、用户交互层 对应技术栈
1. 命令行(CLI):Node.js + TypeScript(底层支撑)
- 应用位置:用户通过PowerShell、终端输入指令的入口,是技术党最常用的操作方式;
- 核心特点:轻量无依赖,启动速度快,无需图形界面,适合远程操作和批量任务,搭配OpenClaw指令可快速执行复杂操作。
2. Web UI界面:Express(Web服务)+ 简单前端(HTML/CSS/JS)
- 应用位置:可视化操作界面(默认地址:http://127.0.0.1:18789),用户可点击操作、查看任务进度;
- 核心特点:操作简单,小白友好,无需记住命令,可直观查看会话记录、任务日志,支持管理员登录验证。
3. 企业办公/社交软件集成:插件化适配(飞书/钉钉/微信/QQ等)+ libsignal-node(WhatsApp协议支撑)
- 应用位置:消息适配器模块,实现多渠道接入,用户可在常用聊天软件中发指令;
- 核心特点:适配性强,支持50+主流通讯平台,无需下载独立APP,消息格式自动归一化,用户体验如同与好友对话,可远程驱动本地机器执行任务。
4. 消息适配器:TypeScript(自定义适配逻辑)
- 应用位置:统一所有入口的消息格式,转换成系统通用的Message对象;
- 核心特点:屏蔽不同渠道的消息差异(比如微信消息和CLI指令格式不同),确保后续所有层能“看懂”指令,降低系统耦合度。
二、网关接入层 对应技术栈
1. 核心支撑:Node.js 22+ + TypeScript
- 应用位置:整个网关层的底层支撑,所有模块(会话、鉴权、路由)都基于此开发;
- 核心特点:异步性能强,适合处理高并发的消息请求,开发效率高,可快速迭代插件,同时支撑多节点分布式部署,是OpenClaw架构的核心底层语言。
2. 会话管理模块:SQLite(轻量数据库)
- 应用位置:存储用户会话、上下文信息,维护每个用户的交互历史;
- 核心特点:轻量、无需单独部署,本地存储(贴合“本地优先”理念),读写速度快,占用资源少,适合存储会话这种轻量级数据,同时支持会话持久化,避免重启丢失上下文。
3. 安全鉴权模块:Zod(参数校验)+ Token鉴权
- 应用位置:验证用户权限、校验指令参数、审批高危操作;
- 核心特点:参数校验严格,可防止非法指令、恶意请求,Token鉴权保障接口安全,高危操作需人工审批,降低系统风险,同时支持自定义鉴权规则,适配不同使用场景。
4. 流量控制模块:BullMQ(消息队列)
- 应用位置:限流、任务排队,防止多任务同时执行导致系统卡死;
- 核心特点:支持任务优先级排序,可实现同会话串行、异会话并行,避免资源竞争,同时支持任务重试,确保指令不丢失,适配多任务并发场景。
5. 日志审计模块:tslog(日志工具)
- 应用位置:记录所有操作(用户指令、工具调用、执行结果、错误信息);
- 核心特点:日志清晰,可按级别筛选(错误、警告、信息),支持追溯操作记录,方便排查故障,同时日志本地存储,保障隐私安全,符合“数据主权私有化”理念。
6. 消息路由模块:WebSocket JSON-RPC 2.0(通信协议)
- 应用位置:将统一格式的指令,分发到对应的智能体(Agent);
- 核心特点:实时性强,支持双向通信(指令下发+结果反馈),协议轻量,适配多智能体调度,可实现指令的快速分发和状态同步,支撑网关作为系统神经中枢的核心作用。
三、智能体核心层 对应技术栈
1. 核心支撑:Node.js + TypeScript + jiti(动态插件加载)
- 应用位置:整个智能体层的底层支撑,负责加载意图理解、任务规划等模块;
- 核心特点:支持动态加载插件,无需重启系统即可新增功能,核心框架体积从45MB压缩至8MB,轻量高效,同时适配多模型调度,支撑复杂的Agentic Workflow编排。
2. 意图理解/任务规划/反思纠错模块:大模型API + 自定义Prompt工程
- 应用位置:理解用户指令、拆解任务、检查执行结果、优化步骤;
- 核心特点:适配多模型(本地Ollama、云端OpenAI/Claude/Gemini等),可根据任务难度动态切换,Prompt经过优化,能精准拆解复杂任务、识别执行错误,支撑“Observe-Think-Act-Reflect”龙虾循环,实现自主思考和纠错。
3. 三级记忆系统:本地文件(.md日志)+ SQLite + sqlite-vec(向量检索)
- 应用位置:存储短期记忆(当日日志)、近端记忆(会话存档)、长期记忆(用户偏好);
- 核心特点:混合检索(BM25+向量检索+RRF融合),精准匹配上下文和用户偏好,所有记忆本地存储,隐私可控,无需依赖云端,同时支持记忆压缩,避免占用过多本地空间,实现“越用越顺手”的体验,符合OpenClaw“数据本地优先”的核心理念。
4. 模型调度模块:Ollama(本地模型引擎)+ 多模型Provider插件
- 应用位置:调用本地/云端大模型,辅助智能体思考、理解指令;
- 核心特点:支持本地模型(Ollama)和云端模型无缝切换,本地模型无需联网、隐私安全,可自定义模型上下文(如扩展至32k tokens),适配OpenClaw对超长上下文和高性价比推理的需求,同时支持多模型并行调用,适配不同任务场景(如轻量任务用qwen2.5:0.5b,复杂任务用glm-4.7-flash),可通过配置文件快速对接新模型。
四、工具能力层 对应技术栈
1. 屏幕视觉工具:OCR识别库(如Tesseract)+ 截图工具(如sharp)
- 应用位置:截图、识别屏幕内容、识别界面元素(如按钮、输入框);
- 核心特点:识别准确率高,支持多语言,轻量无依赖,可快速处理屏幕画面,模拟人类“看屏幕”的动作,是龙虾AI实现视觉感知的核心工具,支撑网页调研、界面操作等场景。
2. 键鼠模拟工具:robotjs(桌面自动化库)
- 应用位置:模拟鼠标移动、点击、键盘输入、快捷键操作;
- 核心特点:跨平台(支持Windows/Mac/Linux),操作精准,延迟低,可完美模拟人类键鼠操作,无需手动干预,支撑文件操作、软件控制等基础执行任务。
3. 浏览器工具:Playwright(浏览器自动化库)
- 应用位置:自动打开浏览器、点击网页元素、输入内容、爬取网页数据;
- 核心特点:支持Chrome、Firefox、Edge等主流浏览器,稳定性强,比传统Selenium更轻量,可应对动态网页(如JS渲染的页面),支撑网页自动化、数据爬取、在线操作等场景,是龙虾AI实现网页交互的核心工具。
4. 系统操作工具:Node.js内置fs模块(文件操作)+ child_process(命令行调用)
- 应用位置:读写文件、运行命令行、调用系统API;
- 核心特点:原生支持,无需额外安装依赖,跨平台适配,可直接操作本地文件系统和终端,支撑本地任务自动化(如整理文件、运行脚本),同时支持调用系统驱动,实现深度系统交互,是龙虾AI具备系统级执行权限的核心支撑。
5. 工具管理模块:TypeScript(插件管理逻辑)+ YAML(配置文件,claw.yaml)
- 应用位置:加载/卸载工具、监控工具状态、处理工具异常、配置工具权限;
- 核心特点:支持自定义工具(用TypeScript/Python/Shell编写插件),工具可热重载,单个工具故障不影响整个系统,通过YAML配置文件定义工具依赖和权限,避免工具乱调用系统资源,同时支持工具故障自动切换,提升系统稳定性,支撑龙虾AI的递归式技能进化机制(自主封装新技能)。
五、系统执行层 对应技术栈
1. 系统接口适配:Node.js跨平台API + 系统原生接口
- 应用位置:对接Windows/Mac/Linux三大系统,调用系统驱动;
- 核心特点:跨平台兼容性强,无需针对不同系统单独开发,可直接调用系统底层接口,实现与硬件的联动,支撑多系统部署,同时适配本地和远端执行节点,实现跨设备操作。
2. Docker沙箱:Docker(容器技术)
- 应用位置:隔离工具执行环境,防止工具乱改系统、泄露隐私;
- 核心特点:轻量级容器,启动速度快,与宿主系统完全隔离,默认禁用网络、限制文件访问,可限制工具权限,避免工具执行错误导致系统崩溃,是保障系统安全的核心组件,贴合OpenClaw“安全默认”的设计原则。
3. 节点管理模块:WebSocket(长连接)+ 心跳检测机制
- 应用位置:管理本地执行节点和远端执行节点,监控节点状态;
- 核心特点:通过WebSocket与网关长连接,实时同步节点状态,心跳检测可及时发现离线节点,支持分布式部署(多设备同时执行任务),可实现远程开发、跨设备任务调度,支撑龙虾AI的跨设备操作能力。
4. 错误处理模块:TypeScript自定义错误捕获逻辑 + isolated-vm(沙箱隔离)
- 应用位置:捕获工具执行错误、系统接口错误,返回错误信息,触发重试机制;
- 核心特点:错误捕获精准,可区分不同类型错误(工具故障、系统错误),支持自定义重试策略,isolated-vm进一步隔离错误环境,避免错误扩散影响整个系统,确保系统稳定运行,支撑龙虾AI的自主纠错能力。
六、设备硬件层 对应技术栈(底层支撑,无需额外开发)
无额外开发技术栈,依赖系统原生驱动和硬件接口,适配所有常见硬件(屏幕、鼠标、键盘、硬盘、网络设备),核心特点:兼容性强,无需用户额外配置,即插即用,支撑所有上层操作的最终落地,无论是本地硬件还是虚拟硬件(如云端服务器),都能完美适配,实现物理/虚拟操作的无缝落地。
总结:核心技术栈亮点
1. 本地优先:所有核心技术栈都支持本地部署(如Ollama、SQLite、本地文件存储),无强制云端依赖,隐私可控,符合OpenClaw“你的基础设施,你的密钥,你的数据”的核心原则;
2. 轻量可扩展:基于Node.js+TypeScript,核心框架体积小,插件化设计(渠道、模型、工具均可插件化),支持热重载,可快速扩展新功能、新工具;
3. 安全可靠:Docker沙箱、Token鉴权、日志审计、最小权限原则,从底层保障系统安全,避免工具误操作、恶意攻击;
4. 跨平台适配:所有核心技术栈均支持Windows/Mac/Linux,无需针对不同系统单独开发,同时支持本地+远端节点部署,适配多设备场景;
5. 小白友好:技术栈底层封装完善,用户无需了解底层技术,可通过CLI、Web UI、聊天软件等简单方式使用,同时支持一键安装脚本,降低部署和使用门槛。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)