数据周期:2026-04-06 ~ 2026-04-12 · 数据来源:GitHub Trending 近一周,抓取于 2026-04-12
本期上篇收录 5 个精选项目,涵盖 AI Agent、开发工具、AI 教育平台等方向。下篇同步发布,收录另外 5 个项目。
下篇详见《一个文本文件涨 5k Star,Google 端侧 AI 进了 App Store | 开源周报(下)》

本周 GitHub Trending 有两件事值得单独说。
第一件:hermes-agent 单周净增 32,572 Stars,是本期第二名的 3.6 倍——这种断崖式领先在近几个月的周榜里极为罕见,背后是社区对"真正能自我进化的 Agent"的强烈期待。
第二件:microsoft/markitdown 总 Stars 已突破 10 万,却依然榜上有名(本周 +8,202),一个成熟工具还在持续吸引新用户,说明 LLM 生态对"把非结构化文件转成可用文本"的需求还远没有被满足。


🔥 本期速览(上下篇共 10 项)

项目 语言 总 Stars 本周新增 一句话介绍
NousResearch/hermes-agent Python ⭐ 62.1k 📈 +32,572 内置学习循环、能从经验自主创建并改进技能的 AI Agent CLI
siddharthvaddem/openscreen TypeScript ⭐ 28.4k 📈 +8,964 免费开源的录屏和产品演示工具,Screen Studio 平替
microsoft/markitdown Python ⭐ 103.2k 📈 +8,202 微软出品的多格式文件转 Markdown Python 工具库
HKUDS/DeepTutor Python ⭐ 17.0k 📈 +5,560 港大开源的 Agent 原生个性化学习平台,五种学习模式统一线程
multica-ai/multica TypeScript ⭐ 8.6k 📈 +5,362 将编程 Agent 变成真实团队成员的开源托管平台
forrestchang/andrej-karpathy-skills (下篇) ⭐ 14.3k 📈 +4,969 一个 CLAUDE.md 文件,让 Claude Code 规避低级编码错误
google-ai-edge/gallery (下篇) Kotlin ⭐ 20.5k 📈 +4,369 Google 官方手机端完全离线运行大模型的演示 App
NVIDIA/personaplex (下篇) Python ⭐ 9.0k 📈 +2,905 NVIDIA 实时全双工语音角色对话模型,支持 16 种预置声音
TheCraigHewitt/seomachine (下篇) Python ⭐ 5.7k 📈 +2,698 基于 Claude Code 的专业 SEO 长文博客生成工作区
google-ai-edge/LiteRT-LM (下篇) C++ ⭐ 3.5k 📈 +2,196 Google 生产就绪的开源边缘设备 LLM 推理框架

📦 重点项目详解

1. NousResearch/hermes-agent — 会自我进化的 AI Agent CLI

⭐ 62,149 · Python · MIT · 本周 +32,572

Hermes Agent 是 Nous Research 开发的自改进 AI Agent,核心差异在于一个"闭合学习循环":Agent 在完成任务后会自动将经验提炼成可复用的技能,下次遇到相似问题时直接调用,而不是每次从零推理。README 的副标题是"The agent that grows with you",支持从 $5 VPS 到 GPU 集群等各种基础设施运行,并可接入多种 LLM 供应商。

README 中列出的核心功能:

  • 闭合学习循环:Agent 自主创建技能、从经验改进,过去对话可被检索
  • 多平台运行:支持 Telegram、Discord、Slack、WhatsApp、Signal 及命令行,六种终端后端(本地、Docker、SSH、Daytona、Singularity、Modal)
  • 内置 cron 调度器:支持定时自动化任务
  • 子 Agent 并行:复杂任务可分解并委托给独立子 Agent 并行执行
  • 研究模式:支持批量轨迹生成和对话压缩,面向研究场景
  • 跨平台:支持 Linux、macOS、WSL2、Android (Termux),不支持原生 Windows

快速上手:

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

安装完成后:

source ~/.bashrc   # 或 source ~/.zshrc
hermes             # 开始对话
hermes model       # 选择 LLM 供应商和模型
hermes tools       # 配置工具开关
hermes setup       # 运行完整安装向导
hermes doctor      # 诊断问题

💡 编辑点评: 单周 32,572 Stars 说明这个方向踩准了市场心理——开发者对"只能一次性执行任务"的 Agent 已经开始疲倦,想要一个越用越聪明的工具。技术上,自改进质量强依赖底层模型的推理能力,模型能力有限时技能积累也会打折扣。另一个注意点:通过 curl | bash 安装,个人使用方便,企业安全场景需要审计脚本内容。目前 Issues 区仍较活跃,属于早期项目特征,建议个人开发者和研究者先试,生产环境观望半年。


2. siddharthvaddem/openscreen — 免费录屏工具,Screen Studio 的开源替代

⭐ 28,445 · TypeScript · MIT · 本周 +8,964

OpenScreen 是 Screen Studio(付费桌面录屏应用)的开源平替,核心能力是录制屏幕并输出专业级产品演示视频——自动缩放跟焦、背景美化、标注层,不花 $29/月订阅费完成同类效果。README 明确说"功能比 Screen Studio 少,但基础功能都有",定位诚实。这是一个桌面应用,不是 npm 包,需要从 Releases 下载安装包。

README 中列出的主要功能:

  • 录制指定窗口或整个屏幕
  • 自动/手动缩放(可调节缩放深度)
  • 麦克风 + 系统音频录制
  • 多背景选项(壁纸、纯色、渐变、自定义图片)
  • 动态模糊效果
  • 文字、箭头、图片标注
  • 视频裁剪和片段变速
  • 多格式/多分辨率导出

运行方式(下载安装包后执行):

macOS — 解除系统隔离限制:

xattr -rd com.apple.quarantine /Applications/Openscreen.app

Linux — AppImage 格式:

chmod +x Openscreen-Linux-*.AppImage
./Openscreen-Linux-*.AppImage

💡 编辑点评: 适合需要录制 demo 但不想付费的独立开发者,能把"录屏→导出分享视频"这件事做到及格线以上。局限性明显:macOS 需要 13+ 才支持系统音频,Linux 要求 PipeWire(Ubuntu 22.04+、Fedora 34+),低版本系统会缺失系统音频能力。与 Screen Studio 相比,缺少 AI 字幕、自动光标追踪等进阶功能。核心需求只是"录一个带背景美化的窗口演示"的话完全够用;需要更精细后期处理则仍需专业工具。


3. microsoft/markitdown — 把任何格式文件喂给 LLM 的转换器

⭐ 103,230 · Python · MIT · 本周 +8,202

MarkItDown 是微软开发的轻量级 Python 工具,把 PDF、Word、Excel、PowerPoint、图片、音频、HTML、ZIP 等各种格式文件统一转成 Markdown,专门为 LLM 管道设计——重点在保留文档结构(标题、列表、表格、链接),让模型能更好地理解和引用内容。总 Stars 超过 10 万,是 AI 工程工具里已经被大量验证的选择。

README 中支持转换的格式:PDF、PowerPoint、Word、Excel、图像(含 EXIF 和 OCR)、音频(含语音转录)、HTML、纯文本格式、ZIP 文件、YouTube URL、EPub 等。

快速上手:

pip install 'markitdown[all]'

命令行使用:

markitdown path-to-file.pdf > document.md
markitdown path-to-file.pdf -o document.md
cat path-to-file.pdf | markitdown

Python API:

from markitdown import MarkItDown
md = MarkItDown(enable_plugins=False)
result = md.convert("test.xlsx")
print(result.text_content)

💡 编辑点评: 10 万 Stars 本周还在涨的原因很简单:每次有新开发者搭 RAG 管道或 LLM 工作流,都会搜索"怎么把 PDF 转成 LLM 可读格式",然后找到 markitdown。实际使用体验:普通 PDF 和 Office 文档转换效果良好,复杂 PDF(多栏、扫描件、数学公式)转换质量参差不齐,图像 OCR 质量依赖所用后端。需要 Python 3.10+。对已在用 LLM 处理文档的团队,这是值得直接集成进工具链的选择,不需要再观望。


4. HKUDS/DeepTutor — 五种学习模式共享同一对话线程的 AI 教学平台

⭐ 17,030 · Python · Apache 2.0 · 本周 +5,560

DeepTutor 是香港大学开源的 Agent 原生个性化学习平台,最核心的设计是"统一对话工作区":Chat(问答)、Deep Solve(解题)、Quiz Generation(出题)、Deep Research(深研)、Math Animator(数学动画)五种模式在同一个对话线程里共享上下文,不需要切换页面或重新上传材料。还内置了 TutorBot(带独立记忆和人格的 AI 导师)、AI Co-Writer(Markdown 编辑 + RAG + Web 联网)以及知识库(本地文档 RAG 索引)。

README 中列出的主要能力:

  • 五种学习模式,共享对话上下文和记忆
  • TutorBot 拥有独立记忆和人格,跨会话持久化
  • AI Co-Writer 支持 Markdown 编辑、RAG 集成、Web 搜索联动
  • Guided Learning 将材料转化为可视化学习路径
  • Knowledge Hub 支持文档上传和 RAG 索引
  • CLI 界面(deeptutor chat),支持 JSON 输出供 AI 管道接入

快速上手(推荐:引导式安装):

git clone https://github.com/HKUDS/DeepTutor.git
cd DeepTutor
conda create -n deeptutor python=3.11 && conda activate deeptutor
python scripts/start_tour.py

Docker 方式:

docker compose -f docker-compose.ghcr.yml up -d

💡 编辑点评: "五种模式共享上下文"是一个真实的设计改进——大多数 AI 学习工具切换模式等于上下文清零,这确实是痛点。但 DeepTutor 是需要自部署的服务(Python 3.11 + Next.js 16,前后端分离,双端口),部署门槛对非技术用户偏高。适合有技术背景的学习者自搭,或高校内部为学生统一部署。如果只是想用 AI 辅助学习,更轻量的工具可能更合适;DeepTutor 的价值在于"深度学习 + 跨会话记忆"场景,比如研究生备考、技术技能系统性培养。


5. multica-ai/multica — 把编程 Agent 纳入团队协作流程的管理平台

⭐ 8,556 · TypeScript · 未知 · 本周 +5,362

Multica 要解决的问题:Claude Code、Codex、OpenCode 这些编程 Agent 越来越强,但没有统一的地方管理"哪个 Agent 在做哪个任务、进度如何、卡在哪里"。它提供开源的 Agent 管理基础设施,把 Agent 当成有 profile、可以被分配 issue 的团队成员来对待,并支持 Claude Code、Codex 等主流编程 Agent。

README 中的核心功能:

  • Agent 即团队成员:Agent 拥有 profile,在任务看板上可见
  • 自主执行:完整任务生命周期管理(领取→写代码→汇报阻塞→更新状态)
  • 可复用技能:技能在任务间积累复用
  • 统一运行时看板:管理多 Agent 的计算资源
  • 多工作空间隔离:支持多工作区独立管理

快速上手:

curl -fsSL https://raw.githubusercontent.com/multica-ai/multica/main/scripts/install.sh | bash

安装后:

multica login          # 认证(打开浏览器)
multica daemon start   # 启动本地 Agent 运行时
multica daemon stop    # 停止

自托管部署:

curl -fsSL https://raw.githubusercontent.com/multica-ai/multica/main/scripts/install.sh | bash -s -- --local

💡 编辑点评: 方向正确——多 Agent 并发场景确实需要调度层。但有两点需要注意:LICENSE 未在 README 中明确,生产部署前需要确认;本地依赖较重(Node.js v20+、pnpm v10.28+、Go v1.26+、Docker),不是轻量的选项。目前 8.5k Stars 属于早期阶段,长期维护稳定性有待验证。如果团队已经在大量使用 Claude Code 且任务管理是实际瓶颈,值得试用;偶尔使用 AI 编程的场景,管理平台本身会带来额外负担。


💡 本期趋势洞察

本篇 5 个项目有一条隐藏的连接线:它们都在解决 AI 工具的"可持续性"问题。hermes-agent 让 Agent 积累经验不重复造轮子,DeepTutor 让学习上下文跨会话持久,multica 让多个 Agent 可管理地协同——这不是追新功能,而是在解决"AI 工具用了一次就扔"的根本问题。markitdown 的持续走热提醒我们:AI 生态的基础设施工具(文档解析、数据清洗)需求是长期稳定的,会随使用规模扩大而增长,不会因为模型能力提升而消失。本周最反常的数据是 openscreen——一个视频录制工具在 AI 扎堆的榜单里拿到第二,说明开发者"展示自己工作成果"的需求依然旺盛。


📊 本期数据看板

  • 🏆 本周 Star 增速最快NousResearch/hermes-agent,单周新增 +32,572 ⭐
  • 🌍 热门语言分布(本期 10 项):Python(5) / TypeScript(2) / Kotlin(1) / C++(1) / 无语言(1)
  • 🎯 领域热度:AI/ML 70%,开发工具 20%,教育平台 10%
  • 📅 数据来源:GitHub Trending(近一周),抓取时间 2026-04-12

🔮 下篇预告

下篇将详解本期另外 5 个项目:

项目 本周新增 一句话
forrestchang/andrej-karpathy-skills +4,969 一个 CLAUDE.md 文件,内含 Karpathy 观察 LLM 编码失误后提炼的四条黄金原则
google-ai-edge/gallery +4,369 Google 官方 App,手机本地离线跑 Gemma 4,非代码库,从应用商店安装
NVIDIA/personaplex +2,905 实时全双工语音角色对话模型,16 种预置声音,需 GPU
TheCraigHewitt/seomachine +2,698 基于 Claude Code 的 SEO 博客生成工作区,含 /research、/write 等 7 个自定义命令
google-ai-edge/LiteRT-LM +2,196 已在 Chrome 和 Pixel Watch 上线的生产级边缘 LLM 推理框架,非早期项目

👉 下篇文章:《一个文本文件涨 5k Star,Google 端侧 AI 进了 App Store | 开源周报(下)》


总结

本期上篇的核心:AI Agent 工具正在从"执行型"向"自进化型"演进,hermes-agent 的 32k Stars 是这个趋势最直接的体现。与此同时,markitdown 的 10 万 Stars 说明 LLM 工程化基础设施需求仍在扩大,不会因为模型变强而萎缩。

你现在最感兴趣的是哪个方向——自主学习的 AI Agent(hermes-agent / DeepTutor / multica),还是 LLM 工程化的基础工具(markitdown)?欢迎评论区告诉我👋


📮 本系列每周更新,收录 GitHub 最值得关注的开源项目。关注作者 / 订阅「GitHub 开源周报」专栏,不错过每一期。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐