**技术栈详解**(按每层对应模块拆解,明确技术栈、应用位置、核心特点)

┌─────────────────────────────────────────────────────────────────────────────────┐

│ 第一层:用户交互层(接入层) │

│ 作用:用户通过各种方式发指令,所有入口统一汇总,转换成龙虾能识别的格式 │

│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │

│ │ 命令行(CLI)│ │ Web UI界面 │ │ 企业办公软件 │ │ 社交软件 │ │

│ │ (技术党用) │ │ (可视化用) │ │ (飞书/钉钉)│ │ (微信/QQ) │ │

│ │ 输入指令执行 │ │ 点击操作、输指令 │ │ 集成机器人 │ │ 小程序/机器人│ │

│ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ │

│ │ │ │ │ │

│ └─────────────────┼─────────────────┼─────────────────┘ │

│ ↓ │

│ ┌────────────────────────────────────────────────────────────────────────┐ │

│ │ 消息适配器模块:统一所有入口的消息格式,转换成系统通用的Message对象 │ │

│ │ (比如:把微信消息、CLI指令,都变成一样的格式,让后续层能看懂) │ │

│ └───────────────────────────────┬──────────────────────────────────────┘ │

└───────────────────────────────────┼─────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────────────────────┐

│ 第二层:网关接入层(中枢枢纽) │

│ 作用:所有数据必经之路,管安全、管调度、管会话,避免系统混乱 │

│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │

│ │ 会话管理模块 │ │ 安全鉴权模块 │ │ 流量控制模块 │ │ 日志审计模块 │ │

│ │ - 维护用户会话│ │ - 验证用户权限│ │ - 限流(防卡死)│ │ - 记录所有操作│ │

│ │ - 保存上下文 │ │ - 高危操作审批│ │ - 排队处理任务│ │ - 出错可追溯 │ │

│ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ │

│ │ │ │ │ │

│ └─────────────────┼─────────────────┼─────────────────┘ │

│ ↓ │

│ ┌────────────────────────────────────────────────────────────────────────┐ │

│ │ 消息路由模块:把统一格式的指令,分发到对应的智能体(Agent) │ │

│ │ (比如:办公任务分给办公Agent,开发任务分给开发Agent) │ │

│ └───────────────────────────────┬──────────────────────────────────────┘ │

└───────────────────────────────────┼─────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────────────────────┐

│ 第三层:智能体核心层(龙虾大脑) │

│ 作用:真正“思考”,理解指令、拆任务、调工具、纠错,是龙虾AI的核心灵魂 │

│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │

│ │ 意图理解模块 │ │ 任务规划模块 │ │ 工具调度模块 │ │ 反思纠错模块 │ │

│ │ - 听懂用户需求│ │ - 拆成多步骤 │ │ - 选对应工具 │ │ - 检查结果对错│ │

│ │ - 识别核心目标│ │ - 排执行顺序 │ │ - 传执行参数 │ │ - 错了就重试 │ │

│ │ - 区分任务类型│ │ - 处理异常步骤│ │ - 监控工具状态│ │ - 优化执行步骤│ │

│ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ │

│ │ │ │ │ │

│ └─────────────────┼─────────────────┼─────────────────┘ │

│ ↓ │

│ ┌────────────────────────────────────────────────────────────────────────┐ │

│ │ 三级记忆系统(龙虾的“记性”):存储上下文、偏好、历史,越用越顺手 │ │

│ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │

│ │ │ 短期记忆 │ │ 近端记忆 │ │ 长期记忆 │ │ │

│ │ │ (当日日志)│ │ (会话存档)│ │ (用户偏好)│ │ │

│ │ └──────────┘ └──────────┘ └──────────┘ │ │

│ └───────────────────────────────┬──────────────────────────────────────┘ │

│ ↓ │

│ ┌────────────────────────────────────────────────────────────────────────┐ │

│ │ 模型调度模块:调用大模型(本地/云端),辅助思考、理解指令 │ │

│ │ - 支持Ollama(本地)、OpenAI、Claude等 │ │

│ │ - 动态切换模型,适配不同任务难度 │ │

│ └───────────────────────────────┬──────────────────────────────────────┘ │

└───────────────────────────────────┼─────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────────────────────┐

│ 第四层:工具能力层(龙虾的手脚眼睛) │

│ 作用:接收大脑指令,执行具体动作,相当于龙虾的“手脚”,还有“眼睛” │

│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │

│ │ 屏幕视觉工具 │ │ 键鼠模拟工具 │ │ 浏览器工具 │ │ 系统操作工具 │ │

│ │ (龙虾的眼睛)│ │ (龙虾的手) │ │ (自动上网) │ │ (操作电脑) │ │

│ │ - 截图、OCR识别│ │ - 移动鼠标 │ │ - Playwright │ │ - 读写文件 │ │

│ │ - 识别界面元素│ │ - 点击、输入 │ │ - 自动点击/输入│ │ - 运行命令行 │ │

│ │ - 读取屏幕内容│ │ - 快捷键操作 │ │ - 爬取网页数据│ │ - 调用系统API│ │

│ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ │

│ │ │ │ │ │

│ └─────────────────┼─────────────────┼─────────────────┘ │

│ ↓ │

│ ┌────────────────────────────────────────────────────────────────────────┐ │

│ │ 工具管理模块:加载/卸载工具、监控工具状态、处理工具异常 │ │

│ │ - 支持自定义工具(自己写插件,让龙虾学新技能) │ │

│ │ - 工具故障时自动切换备用工具 │ │

│ └───────────────────────────────┬──────────────────────────────────────┘ │

└───────────────────────────────────┼─────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────────────────────┐

│ 第五层:系统执行层(底层驱动) │

│ 作用:连接工具和电脑硬件,真正执行动作,同时保障安全,不搞乱电脑 │

│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │

│ │ 系统接口适配 │ │ Docker沙箱 │ │ 节点管理模块 │ │ 错误处理模块 │ │

│ │ - 对接Windows/ │ │ - 隔离工具执行│ │ - 管理本地/远端│ │ - 捕获执行错误│ │

│ │ Mac/Linux │ │ - 防止乱改系统│ │ 执行节点 │ │ - 返回错误信息│ │

│ │ - 调用系统驱动 │ │ - 限制工具权限│ │ - 节点心跳检测│ │ - 触发重试机制│ │

│ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ │

│ │ │ │ │ │

│ └─────────────────┼─────────────────┼─────────────────┘ │

│ ↓ │

└───────────────────────────────────┬─────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────────────────────┐

│ 第六层:设备硬件层(最终执行端) │

│ 作用:接收底层指令,完成物理/虚拟操作,是所有动作的最终落地端 │

│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │

│ │ 显示设备 │ │ 输入设备 │ │ 存储设备 │ │ 网络设备 │ │

│ │ (屏幕:显示操作)│ │ (鼠标/键盘) │ │ (硬盘/U盘) │ │ (联网操作) │ │

│ └──────────────┘ └──────────────┘ └──────────────┘ └──────────────┘ │

└─────────────────────────────────────────────────────────────────────────────────┘

─────────────────────────────────────────────────────────────────────────────────────

补充1:关键数据流(白话文版,看懂数据怎么跑)

1. 用户 → 交互层:发指令(比如“整理桌面文件”);

2. 交互层 → 网关层:指令转统一格式,带用户会话信息;

3. 网关层 → 智能体层:指令分发到对应Agent,带上历史会话;

4. 智能体层 → 工具层:大脑拆解任务,调用对应工具(比如“文件操作工具”);

5. 工具层 → 系统执行层:工具请求执行动作(比如“删除冗余文件”);

6. 系统执行层 → 硬件层:底层驱动调用硬件,完成实际操作;

7. 反向反馈:操作结果从硬件层→系统层→工具层→智能体层→网关层→交互层,最终反馈给用户。

补充2:额外细节(比上一版新增,更贴近真实架构)

1. 新增「三级记忆系统」:解释龙虾“记东西”的方式,为什么能越用越顺手;

2. 新增「安全组件」:沙箱、鉴权、日志,解释龙虾为什么不会乱搞电脑;

3. 新增「工具管理模块」:说明龙虾怎么加载新技能、处理工具故障;

4. 新增「节点管理」:支持本地+远端执行,解释龙虾怎么跨设备干活;

5. 每个模块都补充「具体功能」,不是只写名字,小白也能看懂每个模块干嘛用。

补充3:详细技术栈拆解(按层对应,白话文+无黑话)

核心说明:龙虾AI的技术栈核心是「轻量、本地优先、可扩展」,所有技术栈都围绕“让AI自主操作电脑”展开,以下按每层对应模块,详细说明“用了什么技术、用在哪里、有什么特点”。

一、用户交互层 对应技术栈

1. 命令行(CLI):Node.js + TypeScript(底层支撑)

- 应用位置:用户通过PowerShell、终端输入指令的入口,是技术党最常用的操作方式;

- 核心特点:轻量无依赖,启动速度快,无需图形界面,适合远程操作和批量任务,搭配OpenClaw指令可快速执行复杂操作。

2. Web UI界面:Express(Web服务)+ 简单前端(HTML/CSS/JS)

- 应用位置:可视化操作界面(默认地址:http://127.0.0.1:18789),用户可点击操作、查看任务进度;

- 核心特点:操作简单,小白友好,无需记住命令,可直观查看会话记录、任务日志,支持管理员登录验证。

3. 企业办公/社交软件集成:插件化适配(飞书/钉钉/微信/QQ等)+ libsignal-node(WhatsApp协议支撑)

- 应用位置:消息适配器模块,实现多渠道接入,用户可在常用聊天软件中发指令;

- 核心特点:适配性强,支持50+主流通讯平台,无需下载独立APP,消息格式自动归一化,用户体验如同与好友对话,可远程驱动本地机器执行任务。

4. 消息适配器:TypeScript(自定义适配逻辑)

- 应用位置:统一所有入口的消息格式,转换成系统通用的Message对象;

- 核心特点:屏蔽不同渠道的消息差异(比如微信消息和CLI指令格式不同),确保后续所有层能“看懂”指令,降低系统耦合度。

二、网关接入层 对应技术栈

1. 核心支撑:Node.js 22+ + TypeScript

- 应用位置:整个网关层的底层支撑,所有模块(会话、鉴权、路由)都基于此开发;

- 核心特点:异步性能强,适合处理高并发的消息请求,开发效率高,可快速迭代插件,同时支撑多节点分布式部署,是OpenClaw架构的核心底层语言。

2. 会话管理模块:SQLite(轻量数据库)

- 应用位置:存储用户会话、上下文信息,维护每个用户的交互历史;

- 核心特点:轻量、无需单独部署,本地存储(贴合“本地优先”理念),读写速度快,占用资源少,适合存储会话这种轻量级数据,同时支持会话持久化,避免重启丢失上下文。

3. 安全鉴权模块:Zod(参数校验)+ Token鉴权

- 应用位置:验证用户权限、校验指令参数、审批高危操作;

- 核心特点:参数校验严格,可防止非法指令、恶意请求,Token鉴权保障接口安全,高危操作需人工审批,降低系统风险,同时支持自定义鉴权规则,适配不同使用场景。

4. 流量控制模块:BullMQ(消息队列)

- 应用位置:限流、任务排队,防止多任务同时执行导致系统卡死;

- 核心特点:支持任务优先级排序,可实现同会话串行、异会话并行,避免资源竞争,同时支持任务重试,确保指令不丢失,适配多任务并发场景。

5. 日志审计模块:tslog(日志工具)

- 应用位置:记录所有操作(用户指令、工具调用、执行结果、错误信息);

- 核心特点:日志清晰,可按级别筛选(错误、警告、信息),支持追溯操作记录,方便排查故障,同时日志本地存储,保障隐私安全,符合“数据主权私有化”理念。

6. 消息路由模块:WebSocket JSON-RPC 2.0(通信协议)

- 应用位置:将统一格式的指令,分发到对应的智能体(Agent);

- 核心特点:实时性强,支持双向通信(指令下发+结果反馈),协议轻量,适配多智能体调度,可实现指令的快速分发和状态同步,支撑网关作为系统神经中枢的核心作用。

三、智能体核心层 对应技术栈

1. 核心支撑:Node.js + TypeScript + jiti(动态插件加载)

- 应用位置:整个智能体层的底层支撑,负责加载意图理解、任务规划等模块;

- 核心特点:支持动态加载插件,无需重启系统即可新增功能,核心框架体积从45MB压缩至8MB,轻量高效,同时适配多模型调度,支撑复杂的Agentic Workflow编排。

2. 意图理解/任务规划/反思纠错模块:大模型API + 自定义Prompt工程

- 应用位置:理解用户指令、拆解任务、检查执行结果、优化步骤;

- 核心特点:适配多模型(本地Ollama、云端OpenAI/Claude/Gemini等),可根据任务难度动态切换,Prompt经过优化,能精准拆解复杂任务、识别执行错误,支撑“Observe-Think-Act-Reflect”龙虾循环,实现自主思考和纠错。

3. 三级记忆系统:本地文件(.md日志)+ SQLite + sqlite-vec(向量检索)

- 应用位置:存储短期记忆(当日日志)、近端记忆(会话存档)、长期记忆(用户偏好);

- 核心特点:混合检索(BM25+向量检索+RRF融合),精准匹配上下文和用户偏好,所有记忆本地存储,隐私可控,无需依赖云端,同时支持记忆压缩,避免占用过多本地空间,实现“越用越顺手”的体验,符合OpenClaw“数据本地优先”的核心理念。

4. 模型调度模块:Ollama(本地模型引擎)+ 多模型Provider插件

- 应用位置:调用本地/云端大模型,辅助智能体思考、理解指令;

- 核心特点:支持本地模型(Ollama)和云端模型无缝切换,本地模型无需联网、隐私安全,可自定义模型上下文(如扩展至32k tokens),适配OpenClaw对超长上下文和高性价比推理的需求,同时支持多模型并行调用,适配不同任务场景(如轻量任务用qwen2.5:0.5b,复杂任务用glm-4.7-flash),可通过配置文件快速对接新模型。

四、工具能力层 对应技术栈

1. 屏幕视觉工具:OCR识别库(如Tesseract)+ 截图工具(如sharp)

- 应用位置:截图、识别屏幕内容、识别界面元素(如按钮、输入框);

- 核心特点:识别准确率高,支持多语言,轻量无依赖,可快速处理屏幕画面,模拟人类“看屏幕”的动作,是龙虾AI实现视觉感知的核心工具,支撑网页调研、界面操作等场景。

2. 键鼠模拟工具:robotjs(桌面自动化库)

- 应用位置:模拟鼠标移动、点击、键盘输入、快捷键操作;

- 核心特点:跨平台(支持Windows/Mac/Linux),操作精准,延迟低,可完美模拟人类键鼠操作,无需手动干预,支撑文件操作、软件控制等基础执行任务。

3. 浏览器工具:Playwright(浏览器自动化库)

- 应用位置:自动打开浏览器、点击网页元素、输入内容、爬取网页数据;

- 核心特点:支持Chrome、Firefox、Edge等主流浏览器,稳定性强,比传统Selenium更轻量,可应对动态网页(如JS渲染的页面),支撑网页自动化、数据爬取、在线操作等场景,是龙虾AI实现网页交互的核心工具。

4. 系统操作工具:Node.js内置fs模块(文件操作)+ child_process(命令行调用)

- 应用位置:读写文件、运行命令行、调用系统API;

- 核心特点:原生支持,无需额外安装依赖,跨平台适配,可直接操作本地文件系统和终端,支撑本地任务自动化(如整理文件、运行脚本),同时支持调用系统驱动,实现深度系统交互,是龙虾AI具备系统级执行权限的核心支撑。

5. 工具管理模块:TypeScript(插件管理逻辑)+ YAML(配置文件,claw.yaml)

- 应用位置:加载/卸载工具、监控工具状态、处理工具异常、配置工具权限;

- 核心特点:支持自定义工具(用TypeScript/Python/Shell编写插件),工具可热重载,单个工具故障不影响整个系统,通过YAML配置文件定义工具依赖和权限,避免工具乱调用系统资源,同时支持工具故障自动切换,提升系统稳定性,支撑龙虾AI的递归式技能进化机制(自主封装新技能)。

五、系统执行层 对应技术栈

1. 系统接口适配:Node.js跨平台API + 系统原生接口

- 应用位置:对接Windows/Mac/Linux三大系统,调用系统驱动;

- 核心特点:跨平台兼容性强,无需针对不同系统单独开发,可直接调用系统底层接口,实现与硬件的联动,支撑多系统部署,同时适配本地和远端执行节点,实现跨设备操作。

2. Docker沙箱:Docker(容器技术)

- 应用位置:隔离工具执行环境,防止工具乱改系统、泄露隐私;

- 核心特点:轻量级容器,启动速度快,与宿主系统完全隔离,默认禁用网络、限制文件访问,可限制工具权限,避免工具执行错误导致系统崩溃,是保障系统安全的核心组件,贴合OpenClaw“安全默认”的设计原则。

3. 节点管理模块:WebSocket(长连接)+ 心跳检测机制

- 应用位置:管理本地执行节点和远端执行节点,监控节点状态;

- 核心特点:通过WebSocket与网关长连接,实时同步节点状态,心跳检测可及时发现离线节点,支持分布式部署(多设备同时执行任务),可实现远程开发、跨设备任务调度,支撑龙虾AI的跨设备操作能力。

4. 错误处理模块:TypeScript自定义错误捕获逻辑 + isolated-vm(沙箱隔离)

- 应用位置:捕获工具执行错误、系统接口错误,返回错误信息,触发重试机制;

- 核心特点:错误捕获精准,可区分不同类型错误(工具故障、系统错误),支持自定义重试策略,isolated-vm进一步隔离错误环境,避免错误扩散影响整个系统,确保系统稳定运行,支撑龙虾AI的自主纠错能力。

六、设备硬件层 对应技术栈(底层支撑,无需额外开发)

无额外开发技术栈,依赖系统原生驱动和硬件接口,适配所有常见硬件(屏幕、鼠标、键盘、硬盘、网络设备),核心特点:兼容性强,无需用户额外配置,即插即用,支撑所有上层操作的最终落地,无论是本地硬件还是虚拟硬件(如云端服务器),都能完美适配,实现物理/虚拟操作的无缝落地。

总结:核心技术栈亮点

1. 本地优先:所有核心技术栈都支持本地部署(如Ollama、SQLite、本地文件存储),无强制云端依赖,隐私可控,符合OpenClaw“你的基础设施,你的密钥,你的数据”的核心原则;

2. 轻量可扩展:基于Node.js+TypeScript,核心框架体积小,插件化设计(渠道、模型、工具均可插件化),支持热重载,可快速扩展新功能、新工具;

3. 安全可靠:Docker沙箱、Token鉴权、日志审计、最小权限原则,从底层保障系统安全,避免工具误操作、恶意攻击;

4. 跨平台适配:所有核心技术栈均支持Windows/Mac/Linux,无需针对不同系统单独开发,同时支持本地+远端节点部署,适配多设备场景;

5. 小白友好:技术栈底层封装完善,用户无需了解底层技术,可通过CLI、Web UI、聊天软件等简单方式使用,同时支持一键安装脚本,降低部署和使用门槛。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐