AI Agent 开发入门：从 6 个顶级开源项目学架构与选型

weixin_56622231

331人浏览 · 2026-05-25 13:22:43

weixin_56622231 · 2026-05-25 13:22:43 发布

如果你想从“完整项目”入手做 AI Agent 开发，优先看这几个开源项目（按类型帮你分了类）：

为什么从这里开始？ 因为 Agent 开发涉及记忆、工具、规划、多模型、多平台等多个复杂模块，自己从零搭建容易陷入细节。直接研究成熟项目，能快速掌握最佳实践和架构模式，事半功倍。

单体“自进化 Agent”框架：
- Hermes Agent（爱马仕） —— 重点看：记忆系统 + 技能自学习闭环 + 多平台网关
- GenericAgent —— 重点看：极简 ~3K 行自进化架构，适合自己照着重构
多平台“助手型 Agent”：
- OpenClaw（龙虾） —— 重点看：多平台消息网关 + 工具集成 + 可观测性
多角色“多 Agent 协作”框架：
- MetaGPT —— 重点看：角色化多 Agent + 软件公司流程编排
- CrewAI —— 重点看：轻量多 Agent + 任务拆分 + 工作流编排
平台级 Agent 工作流：
- Dify —— 重点看：可视化 Agent 工作流 + RAG + 一键部署

下面按“你要开发”的视角，简单说说每个项目适合学什么、怎么选。

1. Hermes Agent（爱马仕）—— 自进化单体 Agent

仓库： NousResearch/hermes-agent
官网： https://hermes-agent.org
特点：
- 自我进化闭环： 任务完成后自动提炼成 Skill，下次直接复用，并持续优化 Skill
- 四层持久记忆： 热记忆/温记忆/冷记忆 + USER.md / MEMORY.md，SQLite + FTS5 全文检索
- 多平台消息网关： Telegram / Discord / Slack / 飞书 / 钉钉 / WhatsApp 等 10+ 平台
- 6 种执行后端： 本地、Docker、SSH、Daytona、Singularity、Modal 等
- 多模型： OpenRouter 200+ 模型、OpenAI、Kimi、MiniMax 等

开发上值得学的点：

如何设计“执行 → 总结 → Skill 生成 → Skill 自改进”的闭环（这是 Hermes 最大的亮点）
分层记忆系统怎么存、怎么检索、怎么自动摘要和遗忘
消息网关层如何与核心 Agent 引擎解耦： 前端只负责收发消息，真正的 Agent 循环在一个地方跑
Skill 标准化（YAML/Markdown 元数据 + 文档）和技能市场/生态怎么做

适合你：
想做一个“长期在线、越用越懂你”的个人 Agent / 办公助手，尤其看重记忆和自进化能力。

2. GenericAgent —— 极简自进化框架，适合自己重写

仓库： lsdefine/GenericAgent
特点：
- 核心只有约 3K 行代码，Agent 循环约 100 行，9 个原子工具
- 自进化： 每次任务自动沉淀成 Skill，形成个人技能树
- 系统级控制： 浏览器、终端、文件系统、键盘鼠标、屏幕视觉、ADB（手机）等
- 兼容多种模型： Claude / Gemini / Kimi / MiniMax 等

开发上值得学的点：

如何用最少的代码实现一个完整的 Agent Loop（观察 → 思考 → 行动 → 记忆 → Skill）
如何把“工具层”抽象成 9 个原子工具，再组合出复杂技能
自进化的实现细节： Skill 的数据结构、触发条件、版本演进机制

适合你：
如果你想“自己从零写一个 Agent 框架”，GenericAgent 比 Hermes 更适合当骨架，因为它刻意做得极简，代码量小，容易通读再重写。

3. OpenClaw（龙虾）—— 多平台助手型 Agent

仓库： openclaw/openclaw
官网： https://openclaw.ai
特点：
- 定位： 个人 AI 助手，跑在你自己的设备上，通过 WhatsApp / Telegram / 邮件等渠道帮你做事
- Gateway-first 架构： 强调多平台消息接入 + 可控执行
- 内置大量工具： 邮件、日历、浏览器、文件操作等，偏“生活/办公自动化”
- 多模型支持，可以一键切换不同模型

开发上值得学的点：

消息网关设计： 如何统一接 WhatsApp / Telegram / 邮件 / Slack，再转成统一消息格式给 Agent 核心
工具抽象： 如何把“发邮件”“查日历”“操作浏览器”等统一抽象成 Tool
可观测性与安全： 日志、权限、审批、沙箱（OpenClaw 这块比 Hermes 稍弱，但可以看它做了哪些）

适合你：
如果你想做“一个连微信/飞书/钉钉的私人助手”，OpenClaw 是很好的参考；特别是“多端接入”的部分。

4. MetaGPT —— 多角色协作的多 Agent 框架

仓库： FoundationAgents/MetaGPT
文档（含中文）： MetaGPT/docs/README_CN.md
特点：
- 把多 Agent 模拟成“软件公司”： 产品经理 / 架构师 / 项目经理 / 工程师等角色
- 定义了清晰的工作流： 需求 → 设计 → 任务拆分 → 编码 → 测试，完整流程
- 支持多模型轮转、文档解析、复杂项目自动生成

开发上值得学的点：

如何给每个 Agent 分配“角色 + 职责 + 上下文”
多 Agent 之间如何通过消息/共享文档协作（而不是简单串联）
如何把“项目流程”固化为可执行的 Pipeline，而不是一次性脚本

适合你：
如果你想做“多 Agent 协作完成一个复杂项目（比如自动开发一个项目、自动做数据分析报表）”，MetaGPT 是目前最完整的一个参考。

5. CrewAI —— 轻量多 Agent 编排框架

仓库： crewAIInc/crewAI
示例： crewAIInc/crewAI-examples
特点：
- 轻量、独立、高性能的多 Agent 框架，强调简单可控
- 通过角色定义 + 任务拆分 + 工作流编排，把多个 Agent 组装成一个“团队”
- 示例丰富： 营销自动化、内容创作、业务流程等

开发上值得学的点：

如何定义一个 Agent（角色、目标、工具）和任务（Task）
如何把多个 Task 组装成流程（串行 / 并行 / 条件分支）
如何在保持轻量的前提下，做到可观测和可调试

适合你：
如果你觉得 MetaGPT 太“重”，只想做一个小而美的多 Agent 工作流，CrewAI 是更轻量的选择。

6. Dify —— 平台级 Agent 工作流

仓库： langgenius/dify
官网： https://dify.ai
特点：
- 生产级 LLM 应用开发平台，包含 Agentic 工作流、RAG、模型管理、插件等
- 可视化编排工作流，拖拽式搭建 Agent 流程
- 插件体系： 官方插件 + 社区插件

开发上值得学的点：

如何设计一个“平台级”的 Agent 编排系统： 工作流节点、变量、错误处理、重试机制
RAG / 工具调用 / 多模型如何统一抽象成节点
如何做可观测性（日志、指标、追踪）和权限隔离

适合你：
如果你想做一个“类似 Dify 的 Agent 平台”，或者要给团队提供低代码的 Agent 构建能力，这个项目值得重点研究。

7. 怎么选：给你一个简单决策图

结合你说的“爱马仕 / OpenClaw 这种级别”，我建议的组合是：

核心架构参考：
- 记忆 + 自进化： 看 Hermes + GenericAgent
- 多平台接入： 看 OpenClaw 的网关层
多 Agent / 工作流：
- 想做“软件公司式”多角色协作： 看 MetaGPT
- 想做轻量工作流： 看 CrewAI
平台化：
- 想做 SaaS / 低代码平台： 看 Dify

8. 实际开发时，怎么“抄作业”更高效

先定一个很小的目标
比如：“做一个能自动整理 GitHub Issue 并发飞书通知的单 Agent”，先跑通，再补记忆和多 Agent。
通读一个项目的核心循环
- Hermes： 看 agent/ 下的 prompt_builder.py / memory_manager.py / skill_utils.py + run_agent.py
- GenericAgent： 看 agent_loop.py + llmcore.py + memory/
先删后改
把这些项目克隆下来，先删掉你暂时不需要的功能（比如只保留 CLI + 文件工具 + 简单记忆），跑起来，再一点点加。
统一接口标准
- 工具： 统一成 tool_schema（name / description / parameters / execute）
- 消息： 统一成 Message（role / content / metadata）
- 记忆： 统一成 MemoryStore（save / search / delete）
  这样你之后换框架、加平台，成本会低很多。

9. 下一步：从“看懂”到“动手”

理论看完了，下一步就是动手。这里提供一个简单的学习路径图，帮你把知识串联起来：

记住： 最好的学习方式是“模仿-修改-创造”。选一个最接近你目标的项目，把它跑起来，然后尝试修改其中一个模块（比如给 Hermes 加个新工具，或者给 CrewAI 改个任务流程），你会对 Agent 架构有更深的理解。

欢迎关注我与我一起学习AI开发。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

2026年Gemini 3.1论文写作全流程教程：从选题到定稿的完整指南

摘要：Gemini3.1作为学术辅助工具，在论文写作各环节展现优势。其100万token上下文窗口和多模态能力，可高效完成选题推荐、文献综述、方法论设计等任务。在选题阶段，它能基于研究方向生成候选选题并评估难度；文献综述时可批量处理数十篇论文，提取关键信息并生成初稿框架；还能辅助实验设计、代码生成和结果解读。使用时需注意：核心观点须研究者原创，AI仅作辅助；建议通过聚合平台对比不同模型效果；所有A

AtomGit开源社区

RoPE超长序列崩溃：时钟类比+数值解析

RoPE超长序列问题本质是三角函数周期性导致的注意力混淆。当输入长度超出训练范围（如4k→32k），高维子空间的角度会超出模型见过的范围，但由于三角函数周期性，这些大角度会"绕回"到训练时见过的小角度值。例如，模型会把相距32768的位置误判为2500位置，导致注意力权重完全错误。这种现象在高维子空间尤为严重，因为它们的周期远超训练长度（如i=63的周期54410，训练时只走了1/13圈）。解决方

AtomGit开源社区

GPU并行计算（CUDA） -- Softmax算子逐步优化：从基础实现到online softmax

本文从 naive softmax 出发，首先分析了直接计算指数可能带来的数值溢出问题，并引入 safe softmax 通过减去最大值提升数值稳定性。随后，本文将 softmax 的最大值计算和指数和计算映射到 GPU Reduce 操作中，提高了行内并行度。进一步地，本文介绍了 online softmax 的思想，将最大值更新与分母累加融合到一次遍历中，从而减少对输入数据的全局内存读取次数。