AI Agent 开始自我进化了!本周 GitHub 最火的 5 个开源项目 | 开源周报
数据周期:2026-04-06 ~ 2026-04-12 · 数据来源:GitHub Trending 近一周,抓取于 2026-04-12
本期上篇收录 5 个精选项目,涵盖 AI Agent、开发工具、AI 教育平台等方向。下篇同步发布,收录另外 5 个项目。
下篇详见《一个文本文件涨 5k Star,Google 端侧 AI 进了 App Store | 开源周报(下)》。
本周 GitHub Trending 有两件事值得单独说。
第一件:hermes-agent 单周净增 32,572 Stars,是本期第二名的 3.6 倍——这种断崖式领先在近几个月的周榜里极为罕见,背后是社区对"真正能自我进化的 Agent"的强烈期待。
第二件:microsoft/markitdown 总 Stars 已突破 10 万,却依然榜上有名(本周 +8,202),一个成熟工具还在持续吸引新用户,说明 LLM 生态对"把非结构化文件转成可用文本"的需求还远没有被满足。
🔥 本期速览(上下篇共 10 项)
| 项目 | 语言 | 总 Stars | 本周新增 | 一句话介绍 |
|---|---|---|---|---|
| NousResearch/hermes-agent | Python | ⭐ 62.1k | 📈 +32,572 | 内置学习循环、能从经验自主创建并改进技能的 AI Agent CLI |
| siddharthvaddem/openscreen | TypeScript | ⭐ 28.4k | 📈 +8,964 | 免费开源的录屏和产品演示工具,Screen Studio 平替 |
| microsoft/markitdown | Python | ⭐ 103.2k | 📈 +8,202 | 微软出品的多格式文件转 Markdown Python 工具库 |
| HKUDS/DeepTutor | Python | ⭐ 17.0k | 📈 +5,560 | 港大开源的 Agent 原生个性化学习平台,五种学习模式统一线程 |
| multica-ai/multica | TypeScript | ⭐ 8.6k | 📈 +5,362 | 将编程 Agent 变成真实团队成员的开源托管平台 |
| forrestchang/andrej-karpathy-skills (下篇) | — | ⭐ 14.3k | 📈 +4,969 | 一个 CLAUDE.md 文件,让 Claude Code 规避低级编码错误 |
| google-ai-edge/gallery (下篇) | Kotlin | ⭐ 20.5k | 📈 +4,369 | Google 官方手机端完全离线运行大模型的演示 App |
| NVIDIA/personaplex (下篇) | Python | ⭐ 9.0k | 📈 +2,905 | NVIDIA 实时全双工语音角色对话模型,支持 16 种预置声音 |
| TheCraigHewitt/seomachine (下篇) | Python | ⭐ 5.7k | 📈 +2,698 | 基于 Claude Code 的专业 SEO 长文博客生成工作区 |
| google-ai-edge/LiteRT-LM (下篇) | C++ | ⭐ 3.5k | 📈 +2,196 | Google 生产就绪的开源边缘设备 LLM 推理框架 |
📦 重点项目详解
1. NousResearch/hermes-agent — 会自我进化的 AI Agent CLI
⭐ 62,149 · Python · MIT · 本周 +32,572
Hermes Agent 是 Nous Research 开发的自改进 AI Agent,核心差异在于一个"闭合学习循环":Agent 在完成任务后会自动将经验提炼成可复用的技能,下次遇到相似问题时直接调用,而不是每次从零推理。README 的副标题是"The agent that grows with you",支持从 $5 VPS 到 GPU 集群等各种基础设施运行,并可接入多种 LLM 供应商。
README 中列出的核心功能:
- 闭合学习循环:Agent 自主创建技能、从经验改进,过去对话可被检索
- 多平台运行:支持 Telegram、Discord、Slack、WhatsApp、Signal 及命令行,六种终端后端(本地、Docker、SSH、Daytona、Singularity、Modal)
- 内置 cron 调度器:支持定时自动化任务
- 子 Agent 并行:复杂任务可分解并委托给独立子 Agent 并行执行
- 研究模式:支持批量轨迹生成和对话压缩,面向研究场景
- 跨平台:支持 Linux、macOS、WSL2、Android (Termux),不支持原生 Windows
快速上手:
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
安装完成后:
source ~/.bashrc # 或 source ~/.zshrc
hermes # 开始对话
hermes model # 选择 LLM 供应商和模型
hermes tools # 配置工具开关
hermes setup # 运行完整安装向导
hermes doctor # 诊断问题
💡 编辑点评: 单周 32,572 Stars 说明这个方向踩准了市场心理——开发者对"只能一次性执行任务"的 Agent 已经开始疲倦,想要一个越用越聪明的工具。技术上,自改进质量强依赖底层模型的推理能力,模型能力有限时技能积累也会打折扣。另一个注意点:通过
curl | bash安装,个人使用方便,企业安全场景需要审计脚本内容。目前 Issues 区仍较活跃,属于早期项目特征,建议个人开发者和研究者先试,生产环境观望半年。
2. siddharthvaddem/openscreen — 免费录屏工具,Screen Studio 的开源替代
⭐ 28,445 · TypeScript · MIT · 本周 +8,964
OpenScreen 是 Screen Studio(付费桌面录屏应用)的开源平替,核心能力是录制屏幕并输出专业级产品演示视频——自动缩放跟焦、背景美化、标注层,不花 $29/月订阅费完成同类效果。README 明确说"功能比 Screen Studio 少,但基础功能都有",定位诚实。这是一个桌面应用,不是 npm 包,需要从 Releases 下载安装包。
README 中列出的主要功能:
- 录制指定窗口或整个屏幕
- 自动/手动缩放(可调节缩放深度)
- 麦克风 + 系统音频录制
- 多背景选项(壁纸、纯色、渐变、自定义图片)
- 动态模糊效果
- 文字、箭头、图片标注
- 视频裁剪和片段变速
- 多格式/多分辨率导出
运行方式(下载安装包后执行):
macOS — 解除系统隔离限制:
xattr -rd com.apple.quarantine /Applications/Openscreen.app
Linux — AppImage 格式:
chmod +x Openscreen-Linux-*.AppImage
./Openscreen-Linux-*.AppImage
💡 编辑点评: 适合需要录制 demo 但不想付费的独立开发者,能把"录屏→导出分享视频"这件事做到及格线以上。局限性明显:macOS 需要 13+ 才支持系统音频,Linux 要求 PipeWire(Ubuntu 22.04+、Fedora 34+),低版本系统会缺失系统音频能力。与 Screen Studio 相比,缺少 AI 字幕、自动光标追踪等进阶功能。核心需求只是"录一个带背景美化的窗口演示"的话完全够用;需要更精细后期处理则仍需专业工具。
3. microsoft/markitdown — 把任何格式文件喂给 LLM 的转换器
⭐ 103,230 · Python · MIT · 本周 +8,202
MarkItDown 是微软开发的轻量级 Python 工具,把 PDF、Word、Excel、PowerPoint、图片、音频、HTML、ZIP 等各种格式文件统一转成 Markdown,专门为 LLM 管道设计——重点在保留文档结构(标题、列表、表格、链接),让模型能更好地理解和引用内容。总 Stars 超过 10 万,是 AI 工程工具里已经被大量验证的选择。
README 中支持转换的格式:PDF、PowerPoint、Word、Excel、图像(含 EXIF 和 OCR)、音频(含语音转录)、HTML、纯文本格式、ZIP 文件、YouTube URL、EPub 等。
快速上手:
pip install 'markitdown[all]'
命令行使用:
markitdown path-to-file.pdf > document.md
markitdown path-to-file.pdf -o document.md
cat path-to-file.pdf | markitdown
Python API:
from markitdown import MarkItDown
md = MarkItDown(enable_plugins=False)
result = md.convert("test.xlsx")
print(result.text_content)
💡 编辑点评: 10 万 Stars 本周还在涨的原因很简单:每次有新开发者搭 RAG 管道或 LLM 工作流,都会搜索"怎么把 PDF 转成 LLM 可读格式",然后找到 markitdown。实际使用体验:普通 PDF 和 Office 文档转换效果良好,复杂 PDF(多栏、扫描件、数学公式)转换质量参差不齐,图像 OCR 质量依赖所用后端。需要 Python 3.10+。对已在用 LLM 处理文档的团队,这是值得直接集成进工具链的选择,不需要再观望。
4. HKUDS/DeepTutor — 五种学习模式共享同一对话线程的 AI 教学平台
⭐ 17,030 · Python · Apache 2.0 · 本周 +5,560
DeepTutor 是香港大学开源的 Agent 原生个性化学习平台,最核心的设计是"统一对话工作区":Chat(问答)、Deep Solve(解题)、Quiz Generation(出题)、Deep Research(深研)、Math Animator(数学动画)五种模式在同一个对话线程里共享上下文,不需要切换页面或重新上传材料。还内置了 TutorBot(带独立记忆和人格的 AI 导师)、AI Co-Writer(Markdown 编辑 + RAG + Web 联网)以及知识库(本地文档 RAG 索引)。
README 中列出的主要能力:
- 五种学习模式,共享对话上下文和记忆
- TutorBot 拥有独立记忆和人格,跨会话持久化
- AI Co-Writer 支持 Markdown 编辑、RAG 集成、Web 搜索联动
- Guided Learning 将材料转化为可视化学习路径
- Knowledge Hub 支持文档上传和 RAG 索引
- CLI 界面(
deeptutor chat),支持 JSON 输出供 AI 管道接入
快速上手(推荐:引导式安装):
git clone https://github.com/HKUDS/DeepTutor.git
cd DeepTutor
conda create -n deeptutor python=3.11 && conda activate deeptutor
python scripts/start_tour.py
Docker 方式:
docker compose -f docker-compose.ghcr.yml up -d
💡 编辑点评: "五种模式共享上下文"是一个真实的设计改进——大多数 AI 学习工具切换模式等于上下文清零,这确实是痛点。但 DeepTutor 是需要自部署的服务(Python 3.11 + Next.js 16,前后端分离,双端口),部署门槛对非技术用户偏高。适合有技术背景的学习者自搭,或高校内部为学生统一部署。如果只是想用 AI 辅助学习,更轻量的工具可能更合适;DeepTutor 的价值在于"深度学习 + 跨会话记忆"场景,比如研究生备考、技术技能系统性培养。
5. multica-ai/multica — 把编程 Agent 纳入团队协作流程的管理平台
⭐ 8,556 · TypeScript · 未知 · 本周 +5,362
Multica 要解决的问题:Claude Code、Codex、OpenCode 这些编程 Agent 越来越强,但没有统一的地方管理"哪个 Agent 在做哪个任务、进度如何、卡在哪里"。它提供开源的 Agent 管理基础设施,把 Agent 当成有 profile、可以被分配 issue 的团队成员来对待,并支持 Claude Code、Codex 等主流编程 Agent。
README 中的核心功能:
- Agent 即团队成员:Agent 拥有 profile,在任务看板上可见
- 自主执行:完整任务生命周期管理(领取→写代码→汇报阻塞→更新状态)
- 可复用技能:技能在任务间积累复用
- 统一运行时看板:管理多 Agent 的计算资源
- 多工作空间隔离:支持多工作区独立管理
快速上手:
curl -fsSL https://raw.githubusercontent.com/multica-ai/multica/main/scripts/install.sh | bash
安装后:
multica login # 认证(打开浏览器)
multica daemon start # 启动本地 Agent 运行时
multica daemon stop # 停止
自托管部署:
curl -fsSL https://raw.githubusercontent.com/multica-ai/multica/main/scripts/install.sh | bash -s -- --local
💡 编辑点评: 方向正确——多 Agent 并发场景确实需要调度层。但有两点需要注意:LICENSE 未在 README 中明确,生产部署前需要确认;本地依赖较重(Node.js v20+、pnpm v10.28+、Go v1.26+、Docker),不是轻量的选项。目前 8.5k Stars 属于早期阶段,长期维护稳定性有待验证。如果团队已经在大量使用 Claude Code 且任务管理是实际瓶颈,值得试用;偶尔使用 AI 编程的场景,管理平台本身会带来额外负担。
💡 本期趋势洞察
本篇 5 个项目有一条隐藏的连接线:它们都在解决 AI 工具的"可持续性"问题。hermes-agent 让 Agent 积累经验不重复造轮子,DeepTutor 让学习上下文跨会话持久,multica 让多个 Agent 可管理地协同——这不是追新功能,而是在解决"AI 工具用了一次就扔"的根本问题。markitdown 的持续走热提醒我们:AI 生态的基础设施工具(文档解析、数据清洗)需求是长期稳定的,会随使用规模扩大而增长,不会因为模型能力提升而消失。本周最反常的数据是 openscreen——一个视频录制工具在 AI 扎堆的榜单里拿到第二,说明开发者"展示自己工作成果"的需求依然旺盛。
📊 本期数据看板
- 🏆 本周 Star 增速最快:NousResearch/hermes-agent,单周新增 +32,572 ⭐
- 🌍 热门语言分布(本期 10 项):Python(5) / TypeScript(2) / Kotlin(1) / C++(1) / 无语言(1)
- 🎯 领域热度:AI/ML 70%,开发工具 20%,教育平台 10%
- 📅 数据来源:GitHub Trending(近一周),抓取时间 2026-04-12
🔮 下篇预告
下篇将详解本期另外 5 个项目:
| 项目 | 本周新增 | 一句话 |
|---|---|---|
| forrestchang/andrej-karpathy-skills | +4,969 | 一个 CLAUDE.md 文件,内含 Karpathy 观察 LLM 编码失误后提炼的四条黄金原则 |
| google-ai-edge/gallery | +4,369 | Google 官方 App,手机本地离线跑 Gemma 4,非代码库,从应用商店安装 |
| NVIDIA/personaplex | +2,905 | 实时全双工语音角色对话模型,16 种预置声音,需 GPU |
| TheCraigHewitt/seomachine | +2,698 | 基于 Claude Code 的 SEO 博客生成工作区,含 /research、/write 等 7 个自定义命令 |
| google-ai-edge/LiteRT-LM | +2,196 | 已在 Chrome 和 Pixel Watch 上线的生产级边缘 LLM 推理框架,非早期项目 |
👉 下篇文章:《一个文本文件涨 5k Star,Google 端侧 AI 进了 App Store | 开源周报(下)》
总结
本期上篇的核心:AI Agent 工具正在从"执行型"向"自进化型"演进,hermes-agent 的 32k Stars 是这个趋势最直接的体现。与此同时,markitdown 的 10 万 Stars 说明 LLM 工程化基础设施需求仍在扩大,不会因为模型变强而萎缩。
你现在最感兴趣的是哪个方向——自主学习的 AI Agent(hermes-agent / DeepTutor / multica),还是 LLM 工程化的基础工具(markitdown)?欢迎评论区告诉我👋
📮 本系列每周更新,收录 GitHub 最值得关注的开源项目。关注作者 / 订阅「GitHub 开源周报」专栏,不错过每一期。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)