AI Agent 开始自我进化了！本周 GitHub 最火的 5 个开源项目 | 开源周报

Monster

554人浏览 · 2026-04-13 09:15:00

Monster · 2026-04-13 09:15:00 发布

数据周期：2026-04-06 ~ 2026-04-12 · 数据来源：GitHub Trending 近一周，抓取于 2026-04-12
本期上篇收录 5 个精选项目，涵盖 AI Agent、开发工具、AI 教育平台等方向。下篇同步发布，收录另外 5 个项目。
下篇详见《一个文本文件涨 5k Star，Google 端侧 AI 进了 App Store | 开源周报（下）》。

本周 GitHub Trending 有两件事值得单独说。
第一件：hermes-agent 单周净增 32,572 Stars，是本期第二名的 3.6 倍——这种断崖式领先在近几个月的周榜里极为罕见，背后是社区对"真正能自我进化的 Agent"的强烈期待。
第二件：microsoft/markitdown 总 Stars 已突破 10 万，却依然榜上有名（本周 +8,202），一个成熟工具还在持续吸引新用户，说明 LLM 生态对"把非结构化文件转成可用文本"的需求还远没有被满足。

🔥 本期速览（上下篇共 10 项）

项目	语言	总 Stars	本周新增	一句话介绍
NousResearch/hermes-agent	Python	⭐ 62.1k	📈 +32,572	内置学习循环、能从经验自主创建并改进技能的 AI Agent CLI
siddharthvaddem/openscreen	TypeScript	⭐ 28.4k	📈 +8,964	免费开源的录屏和产品演示工具，Screen Studio 平替
microsoft/markitdown	Python	⭐ 103.2k	📈 +8,202	微软出品的多格式文件转 Markdown Python 工具库
HKUDS/DeepTutor	Python	⭐ 17.0k	📈 +5,560	港大开源的 Agent 原生个性化学习平台，五种学习模式统一线程
multica-ai/multica	TypeScript	⭐ 8.6k	📈 +5,362	将编程 Agent 变成真实团队成员的开源托管平台
forrestchang/andrej-karpathy-skills (下篇)	—	⭐ 14.3k	📈 +4,969	一个 CLAUDE.md 文件，让 Claude Code 规避低级编码错误
google-ai-edge/gallery (下篇)	Kotlin	⭐ 20.5k	📈 +4,369	Google 官方手机端完全离线运行大模型的演示 App
NVIDIA/personaplex (下篇)	Python	⭐ 9.0k	📈 +2,905	NVIDIA 实时全双工语音角色对话模型，支持 16 种预置声音
TheCraigHewitt/seomachine (下篇)	Python	⭐ 5.7k	📈 +2,698	基于 Claude Code 的专业 SEO 长文博客生成工作区
google-ai-edge/LiteRT-LM (下篇)	C++	⭐ 3.5k	📈 +2,196	Google 生产就绪的开源边缘设备 LLM 推理框架

📦 重点项目详解

1. NousResearch/hermes-agent — 会自我进化的 AI Agent CLI

⭐ 62,149 · Python · MIT · 本周 +32,572

Hermes Agent 是 Nous Research 开发的自改进 AI Agent，核心差异在于一个"闭合学习循环"：Agent 在完成任务后会自动将经验提炼成可复用的技能，下次遇到相似问题时直接调用，而不是每次从零推理。README 的副标题是"The agent that grows with you"，支持从 $5 VPS 到 GPU 集群等各种基础设施运行，并可接入多种 LLM 供应商。

README 中列出的核心功能：

闭合学习循环：Agent 自主创建技能、从经验改进，过去对话可被检索
多平台运行：支持 Telegram、Discord、Slack、WhatsApp、Signal 及命令行，六种终端后端（本地、Docker、SSH、Daytona、Singularity、Modal）
内置 cron 调度器：支持定时自动化任务
子 Agent 并行：复杂任务可分解并委托给独立子 Agent 并行执行
研究模式：支持批量轨迹生成和对话压缩，面向研究场景
跨平台：支持 Linux、macOS、WSL2、Android (Termux)，不支持原生 Windows

快速上手：

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

安装完成后：

source ~/.bashrc   # 或 source ~/.zshrc
hermes             # 开始对话
hermes model       # 选择 LLM 供应商和模型
hermes tools       # 配置工具开关
hermes setup       # 运行完整安装向导
hermes doctor      # 诊断问题

💡 编辑点评： 单周 32,572 Stars 说明这个方向踩准了市场心理——开发者对"只能一次性执行任务"的 Agent 已经开始疲倦，想要一个越用越聪明的工具。技术上，自改进质量强依赖底层模型的推理能力，模型能力有限时技能积累也会打折扣。另一个注意点：通过 curl | bash 安装，个人使用方便，企业安全场景需要审计脚本内容。目前 Issues 区仍较活跃，属于早期项目特征，建议个人开发者和研究者先试，生产环境观望半年。

2. siddharthvaddem/openscreen — 免费录屏工具，Screen Studio 的开源替代

⭐ 28,445 · TypeScript · MIT · 本周 +8,964

OpenScreen 是 Screen Studio（付费桌面录屏应用）的开源平替，核心能力是录制屏幕并输出专业级产品演示视频——自动缩放跟焦、背景美化、标注层，不花 $29/月订阅费完成同类效果。README 明确说"功能比 Screen Studio 少，但基础功能都有"，定位诚实。这是一个桌面应用，不是 npm 包，需要从 Releases 下载安装包。

README 中列出的主要功能：

录制指定窗口或整个屏幕
自动/手动缩放（可调节缩放深度）
麦克风 + 系统音频录制
多背景选项（壁纸、纯色、渐变、自定义图片）
动态模糊效果
文字、箭头、图片标注
视频裁剪和片段变速
多格式/多分辨率导出

运行方式（下载安装包后执行）：

macOS — 解除系统隔离限制：

xattr -rd com.apple.quarantine /Applications/Openscreen.app

Linux — AppImage 格式：

chmod +x Openscreen-Linux-*.AppImage
./Openscreen-Linux-*.AppImage

💡 编辑点评： 适合需要录制 demo 但不想付费的独立开发者，能把"录屏→导出分享视频"这件事做到及格线以上。局限性明显：macOS 需要 13+ 才支持系统音频，Linux 要求 PipeWire（Ubuntu 22.04+、Fedora 34+），低版本系统会缺失系统音频能力。与 Screen Studio 相比，缺少 AI 字幕、自动光标追踪等进阶功能。核心需求只是"录一个带背景美化的窗口演示"的话完全够用；需要更精细后期处理则仍需专业工具。

3. microsoft/markitdown — 把任何格式文件喂给 LLM 的转换器

⭐ 103,230 · Python · MIT · 本周 +8,202

MarkItDown 是微软开发的轻量级 Python 工具，把 PDF、Word、Excel、PowerPoint、图片、音频、HTML、ZIP 等各种格式文件统一转成 Markdown，专门为 LLM 管道设计——重点在保留文档结构（标题、列表、表格、链接），让模型能更好地理解和引用内容。总 Stars 超过 10 万，是 AI 工程工具里已经被大量验证的选择。

README 中支持转换的格式：PDF、PowerPoint、Word、Excel、图像（含 EXIF 和 OCR）、音频（含语音转录）、HTML、纯文本格式、ZIP 文件、YouTube URL、EPub 等。

快速上手：

pip install 'markitdown[all]'

命令行使用：

markitdown path-to-file.pdf > document.md
markitdown path-to-file.pdf -o document.md
cat path-to-file.pdf | markitdown

Python API：

from markitdown import MarkItDown
md = MarkItDown(enable_plugins=False)
result = md.convert("test.xlsx")
print(result.text_content)

💡 编辑点评： 10 万 Stars 本周还在涨的原因很简单：每次有新开发者搭 RAG 管道或 LLM 工作流，都会搜索"怎么把 PDF 转成 LLM 可读格式"，然后找到 markitdown。实际使用体验：普通 PDF 和 Office 文档转换效果良好，复杂 PDF（多栏、扫描件、数学公式）转换质量参差不齐，图像 OCR 质量依赖所用后端。需要 Python 3.10+。对已在用 LLM 处理文档的团队，这是值得直接集成进工具链的选择，不需要再观望。

4. HKUDS/DeepTutor — 五种学习模式共享同一对话线程的 AI 教学平台

⭐ 17,030 · Python · Apache 2.0 · 本周 +5,560

DeepTutor 是香港大学开源的 Agent 原生个性化学习平台，最核心的设计是"统一对话工作区"：Chat（问答）、Deep Solve（解题）、Quiz Generation（出题）、Deep Research（深研）、Math Animator（数学动画）五种模式在同一个对话线程里共享上下文，不需要切换页面或重新上传材料。还内置了 TutorBot（带独立记忆和人格的 AI 导师）、AI Co-Writer（Markdown 编辑 + RAG + Web 联网）以及知识库（本地文档 RAG 索引）。

README 中列出的主要能力：

五种学习模式，共享对话上下文和记忆
TutorBot 拥有独立记忆和人格，跨会话持久化
AI Co-Writer 支持 Markdown 编辑、RAG 集成、Web 搜索联动
Guided Learning 将材料转化为可视化学习路径
Knowledge Hub 支持文档上传和 RAG 索引
CLI 界面（deeptutor chat），支持 JSON 输出供 AI 管道接入

快速上手（推荐：引导式安装）：

git clone https://github.com/HKUDS/DeepTutor.git
cd DeepTutor
conda create -n deeptutor python=3.11 && conda activate deeptutor
python scripts/start_tour.py

Docker 方式：

docker compose -f docker-compose.ghcr.yml up -d

💡 编辑点评： "五种模式共享上下文"是一个真实的设计改进——大多数 AI 学习工具切换模式等于上下文清零，这确实是痛点。但 DeepTutor 是需要自部署的服务（Python 3.11 + Next.js 16，前后端分离，双端口），部署门槛对非技术用户偏高。适合有技术背景的学习者自搭，或高校内部为学生统一部署。如果只是想用 AI 辅助学习，更轻量的工具可能更合适；DeepTutor 的价值在于"深度学习 + 跨会话记忆"场景，比如研究生备考、技术技能系统性培养。

5. multica-ai/multica — 把编程 Agent 纳入团队协作流程的管理平台

⭐ 8,556 · TypeScript · 未知 · 本周 +5,362

Multica 要解决的问题：Claude Code、Codex、OpenCode 这些编程 Agent 越来越强，但没有统一的地方管理"哪个 Agent 在做哪个任务、进度如何、卡在哪里"。它提供开源的 Agent 管理基础设施，把 Agent 当成有 profile、可以被分配 issue 的团队成员来对待，并支持 Claude Code、Codex 等主流编程 Agent。

README 中的核心功能：

Agent 即团队成员：Agent 拥有 profile，在任务看板上可见
自主执行：完整任务生命周期管理（领取→写代码→汇报阻塞→更新状态）
可复用技能：技能在任务间积累复用
统一运行时看板：管理多 Agent 的计算资源
多工作空间隔离：支持多工作区独立管理

快速上手：

curl -fsSL https://raw.githubusercontent.com/multica-ai/multica/main/scripts/install.sh | bash

安装后：

multica login          # 认证（打开浏览器）
multica daemon start   # 启动本地 Agent 运行时
multica daemon stop    # 停止

自托管部署：

curl -fsSL https://raw.githubusercontent.com/multica-ai/multica/main/scripts/install.sh | bash -s -- --local

💡 编辑点评： 方向正确——多 Agent 并发场景确实需要调度层。但有两点需要注意：LICENSE 未在 README 中明确，生产部署前需要确认；本地依赖较重（Node.js v20+、pnpm v10.28+、Go v1.26+、Docker），不是轻量的选项。目前 8.5k Stars 属于早期阶段，长期维护稳定性有待验证。如果团队已经在大量使用 Claude Code 且任务管理是实际瓶颈，值得试用；偶尔使用 AI 编程的场景，管理平台本身会带来额外负担。

💡 本期趋势洞察

本篇 5 个项目有一条隐藏的连接线：它们都在解决 AI 工具的"可持续性"问题。hermes-agent 让 Agent 积累经验不重复造轮子，DeepTutor 让学习上下文跨会话持久，multica 让多个 Agent 可管理地协同——这不是追新功能，而是在解决"AI 工具用了一次就扔"的根本问题。markitdown 的持续走热提醒我们：AI 生态的基础设施工具（文档解析、数据清洗）需求是长期稳定的，会随使用规模扩大而增长，不会因为模型能力提升而消失。本周最反常的数据是 openscreen——一个视频录制工具在 AI 扎堆的榜单里拿到第二，说明开发者"展示自己工作成果"的需求依然旺盛。

📊 本期数据看板

🏆 本周 Star 增速最快：NousResearch/hermes-agent，单周新增 +32,572 ⭐
🌍 热门语言分布（本期 10 项）：Python(5) / TypeScript(2) / Kotlin(1) / C++(1) / 无语言(1)
🎯 领域热度：AI/ML 70%，开发工具 20%，教育平台 10%
📅 数据来源：GitHub Trending（近一周），抓取时间 2026-04-12

🔮 下篇预告

下篇将详解本期另外 5 个项目：

项目	本周新增	一句话
forrestchang/andrej-karpathy-skills	+4,969	一个 CLAUDE.md 文件，内含 Karpathy 观察 LLM 编码失误后提炼的四条黄金原则
google-ai-edge/gallery	+4,369	Google 官方 App，手机本地离线跑 Gemma 4，非代码库，从应用商店安装
NVIDIA/personaplex	+2,905	实时全双工语音角色对话模型，16 种预置声音，需 GPU
TheCraigHewitt/seomachine	+2,698	基于 Claude Code 的 SEO 博客生成工作区，含 /research、/write 等 7 个自定义命令
google-ai-edge/LiteRT-LM	+2,196	已在 Chrome 和 Pixel Watch 上线的生产级边缘 LLM 推理框架，非早期项目