前言

2026年第一季度已进入尾声。自年初以来,AI工具生态持续高速演进,几乎每过一周就会有令人眼前一亮的新工具问世。本栏目的「AI生产力」自2025年Q1开始收录各路 AI 工具,今天,我们继续这仓鼠行为,用不用先不说,囤着!

3月,AI工具正在从“单点突破”走向“系统集成”。无论是底座模型的持续升级,还是多Agent协作框架的日益成熟,亦或是浏览器自动化与知识管理系统的深度融合,都在指向同一个趋势——AI正在从「聪明的工具」演变为「完整的生产力系统」。

本期共收录50个工具,涵盖底座大模型、AI助手平台、开发框架、浏览器自动化、知识管理、提示词工程、搜索获取、内容创作、文档处理、语音音频、物理模拟、其他趣物等12个类别。

Let us see see!~


一、底座大模型:为了支撑更全能的上层应用而前进

各大厂商纷纷在上下文长度、推理速度、多模态、Agent能力上展开了新一轮军备竞赛。

  1. 小米MiMo系列是本月最亮眼的国产力量之一。MiMo-V2-Pro作为万亿参数旗舰模型,支持百万级长文本上下文,在真实场景任务和复杂代码生成方面表现突出。更值得关注的是其「真实场景任务」的定位,这意味着模型不再只是在基准测试上刷分,而是真正解决实际问题。MiMo-V2-Omni则是全模态版本,融合了图像、视频和音频编码器,能够同时感知多模态信息并转化为行动,这意味着端侧设备将拥有更强的感知与决策能力。MiMo-V2-TTS则填补了小米在语音合成领域的空白,能够用自然语言提示精确控制音色和情绪,为智能体赋予感情。

  2. OpenAI本月更新了两个重要版本。GPT-5.3 Instant是速度优化版本,专为轻量任务设计,减少了「AI腔」和「幻觉」问题。GPT-5.4则延续了5系列的代码能力优势,并首次将上下文窗口扩展到100万token,这意味着可以一次性处理整本技术文档或大型代码库。

  3. GoogleGemini 3.1 Flash-Lite则走了一条完全不同的路——轻量、快速、高性价比。在大规模智能应用场景中,成本和响应速度往往比极限性能更重要,Flash-Lite正是为这个需求而生。

  4. MiniMax M2.7延续了国内大模型卷王的姿态,跑分仅次于OpenAI、Anthropic和Google的“三傻”,并采用了闭源模型的策略。

  5. T5-Gemma,最后要提的是一个具备指令跟随能力的编码器架构。它可能不如前面几位明星耀眼,但它代表了底层架构的持续演进,正是这些看似不起眼的改进,最终推动了整体能力的提升。

二、AI助手平台:从开源生态到多端覆盖

如果说底座大模型是「引擎」,那么AI助手平台就是「整车」。3月的AI助手生态依然延续 OpenClaw 的吃虾热,呈现出明显的多层次分化特征:从极客向的开源方案,到面向企业的云端服务,再到面向小白的开箱即用产品,每个群体都能找到适合自己的选择。

  1. OpenClaw Zero Token是一个基于OpenClaw的分支版本,通过浏览器自动化技术模拟网页端登录状态,直接调用各AI平台的Web接口以绕过付费API机制,支持ChatGPT、Claude、Gemini等12个平台,并提供AskOnce功能和OpenAI兼容的Gateway API。这本质上是一种“API套利”方案——利用Web端免费接口为AI Agent提供廉价或免费的访问能力。

  2. EdgeClaw则是安全增强版,基于OpenClaw并增加隐私保护机制,支持使用本地模型处理任务,确保数据不离开本地机器——这对于企业用户和注重隐私的个人用户非常有吸引力。

  3. OpenClaw-RL引入了强化学习能力,可以通过自然语言对话个性化定制AI助手,利用日常对话作为训练集实现自我进化——这意味着AI可以从与用户的交互中持续学习和适应。

  4. openclaw-master-skills则是技能合集,收录了127+最佳OpenClaw Skills,包括浏览器控制、文件处理、自动化工作流等。

  5. ArkClaw是火山引擎推出的网页版云上SaaS版OpenClaw,开箱即用,支持云端多模型协同、深度集成飞书及海量Skills。对于没有技术背景的用户,这可能是最容易上手的选择。

  6. AstronClaw基于讯飞星火X2,沙箱隔离运行,全程守护数据安全,同样支持云端一键部署和主流IM全面接入。

  7. QClaw则是腾讯电脑管家基于OpenClaw打造的本地AI助手,支持一键安装,可直接在微信对话中远程操控电脑,数据存储在本地——腾讯的入局让AI助手平台的竞争更加激烈。

  8. 元气AI Bot针对小白用户,一键安装,不用配置Key,进一步降低了AI助手的准入门槛。

  9. NanoClaw是mini版,体量轻巧,由Claude Code驱动,适合轻量场景。

三、开发框架类:多Agent协作走向成熟

如果说单个AI助手是「单兵作战」,那么多Agent协作框架就是「团队配合」。3月,多Agent框架正在从「概念验证」走向「生产可用」。

  1. SuperAgentdeer-flow都是字节跳动开源的超级Agent框架,提供完整的Agent执行环境,包括沙盒、记忆系统、工具调用等,基于LangGraph和LangChain构建,可处理复杂任务。两者的功能高度相似,都是为了降低Agent开发门槛,让开发者能够快速构建自己的AI应用。

  2. The Agency是一个独特的AI专家角色库,包含55个专业AI角色,分为9个部门。本质上这是大量结构化的Prompt文件,每个文件描述一个专业AI角色的身份、使命、工作流等。用户可以像组建团队一样组合这些角色,让它们协作完成复杂任务。

  3. OpenAkita是另一个多Agent协作AI助手,支持89+种工具、30+大模型、6个IM平台,零命令行安装,具备三层记忆系统。它的优势在于开箱即用和本地化支持——国内用户可以直接在飞书、钉钉等平台使用。

  4. Eino是一个用Go语言编写的LLM应用开发框架,灵感来源于LangChain和LlamaIndex,但更加符合Go语言的习惯。它提供了丰富的可复用AI组件和强大的编排能力,框架自动处理底层难题(如流响应拼接、类型安全、并发控制),开发者可以专注于业务逻辑。

  5. LLM应用大集合则是一个精心整理的GitHub仓库,收集了各种使用RAG、AI Agents、多智能体团队等技术的实战LLM应用示例,涵盖代码库、邮件、PDF、视频等多个领域。

  6. edict,最后要介绍的是最有趣的,这是一个基于中国古代三省六部制设计的AI多Agent协作系统。用户扮演皇帝,通过太子、中书省、门下省、尚书省和六部等12个AI Agent协作处理任务。这不仅是一个有趣的设计实验,也展示了Agent协作的另一种可能,用制度化的设计来约束和协调AI的行为。

四、浏览器自动化与联网:AI的“手”和“眼”

浏览器是AI与真实世界交互的重要窗口。3月,浏览器自动化领域呈现出专业化分工的趋势。

  1. Lightpanda是一个完全从零构建的开源无头浏览器,用Zig语言编写,专为机器设计。它的性能远超Chrome,内置V8引擎并兼容Chrome DevTools Protocol,最特别的是原生内置MCP Server,供AI Agent直接控制。这意味着Lightpanda从诞生之初就是为AI而设计的,而不是像传统浏览器那样“后来才被AI发现”。

  2. bb-browser通过Chrome扩展、CLI和MCP Server的组合,将用户已登录的真实浏览器变为AI Agent的操作接口。它预置了36个平台、103个社区命令,并支持自定义Site Adapter,提供开箱即用的互联网接入体验。简单来说,它让AI可以使用你已登录的账号来操作网页。

  3. Web Access是Agent通用联网方案Skill,提供灵活分配搜索、静态读取、浏览器策略,支持复用登录态、Sub-Agent分治高并发、自动沉淀站点操作经验。它解决的问题是:如何让AI安全、稳定、高效地访问互联网。

  4. Agent Reach则是为每个网站单独写一套抓取方法的方案,对支持的站点快且稳,虽然覆盖有限,但在特定场景下效果极佳。

五、知识与记忆系统:让AI记住一切

知识是 AI 能力的边界。3月,知识管理工具正在从「笔记软件」演变为「AI记忆引擎」。

  1. Supermemory是为 AI 提供持久记忆的引擎,能在多个 AI 记忆基准测试中排名第一。它具备从对话中提取事实、处理矛盾信息、自动遗忘过期内容、维护用户画像以及混合检索等能力,支持多种文件格式和平台同步。简单来说,它让 AI 具备了「长期记忆」,不再是说完就忘,而是真正记住用户的偏好和历史交互。

  2. Obsidian作为老牌笔记软件,与其同名的 OpenClaw 技能让AI可以直接读写 Obsidian vault,创建笔记、链接双向引用、搜索知识图谱。对于已经使用 Obsidian 的用户,这是将AI能力无缝接入现有工作流的好方法。

  3. Project NOMAD是一个完全离线的知识教育服务器,打包了 AI 聊天、文档检索、离线维基百科、医学参考资料、可汗学院课程及离线地图等功能,通过 Docker Compose 一键部署。它适合离网环境或注重隐私的本地使用,在没有网络的飞机上,你仍然可以向AI请教问题。

  4. GitNexus是一个能在浏览器里直接跑的代码知识图谱引擎,可分析 GitHub 项目或 ZIP 文件,生成交互式知识图谱,内置 Graph RAG Agent,支持多种主流语言。它解决了 AI 阅读代码的难题,不再是线性阅读代码,而是通过图谱的方式理解代码结构。

六、提示词工程与工具:让AI更好地理解人类

提示词是人与 AI 沟通的桥梁。3月,提示词工程正在走向系统化和工具化

  1. 提示词优化器是一个专门用于优化AI提示词的开源工具。它能帮你写出更清晰、更有效的提示词,从而提升AI模型的输出质量和稳定性。支持对系统提示词和用户提示词进行智能优化,提供多轮迭代改进的功能,还能对比优化前后的提示词效果。提供多种使用方式:Web网页应用、桌面客户端、Chrome浏览器插件、Docker容器部署,满足不同场景需求。纯前端设计,用户数据默认只存储在本地浏览器或客户端。

  2. Prompt Library帮助管理和分类各种提示词模板。对于频繁使用AI的人来说,一个好的提示词库可以大幅提升效率。

  3. PUAClaw是一个有趣的工具——它系统性地分类了96项用于操控AI行为的Prompt技术,涵盖彩虹屁、画饼充饥、情感勒索等手段,以学术论文格式呈现,具有讽刺性。它提醒我们:提示词不仅是工具,也是一种“影响力”的体现。

  4. PUA Skill则更加实际——将互联网大厂绩效考核体系搬到AI编程助手身上,通过System Prompt注入职场压力系统,让AI产生绩效焦虑感,从而提升代码质量和主动性。这虽然是个“恶搞”性质的设计,但它揭示了一个重要事实:AI的行为可以通过prompt设计来引导和塑造。

  5. noPua则代表了另一个方向——基于道德经哲学体系构建AI行为引导框架,强调善意驱动,通过穷尽方案、工具验证等方法提升AI表现,经对照实验验证有效。

七、搜索与信息获取:让AI知道今天发生了什么

AI不仅需要知识,还需要实时信息。3月,搜索工具正在解决「AI不知道今天发生了什么」的问题。

  1. SearXNG是开源元搜索引擎,支持JSON输出,Docker部署5分钟就能跑起来。它可以聚合多个搜索源的结果,同时保护用户隐私。

  2. local-search-pro是完全免费、不需要任何API Key、只用本地就能跑的搜索方案。对于不想依赖外部服务的人来说,这是一个理想的选择。

  3. Tavily Search是专门为AI Agent优化的搜索API,比普通浏览器更懂语义,能返回结构化结果,还没广告。它最适合的场景是:实时查最新论文、新闻、产品价格、航班信息等。

  4. last30days-skill是用于Claude Code和Codex CLI的Skill,能自动扫描Reddit、X、YouTube等多个平台近30天的讨论,提炼最新的prompt和研究摘要,具备去重、评分排序、引用溯源及定时跟踪主题动态的功能。对于需要紧跟行业动态的人来说,这简直是神器。

  5. ClawFeed是开源AI新闻摘要工具,提供4小时、每日、每周、每月四种摘要频率,适应从需要实时追踪的投资者到只需定期回顾的忙碌人士等不同需求。它支持整合Twitter/X、RSS、HackerNews、Reddit、GitHub Trending等多种信息源,并可作为OpenClaw的技能无缝集成。

八、内容创作工具:AI的“造物”能力

  1. MoneyPrinterTurbo是AI视频生成工具,可根据主题或关键词一键生成包含文案、配音、字幕和背景音乐的完整短视频,支持多种大模型接入、语音合成、字幕自定义及批量生成。对于内容创作者来说,这极大降低了视频制作的门槛。

  2. AIVideo Agent是AI视频创作平台的Assistant功能,7×24自动完成剪辑。它解决的问题是:持续性内容的自动化生产。

  3. Kling则根据脚本生成视频的工具,支持旁白和字幕。它与MoneyPrinterTurbo的区别在于:后者更偏向自动化生成,前者更偏向脚本驱动的精准控制。

  4. Lovart是AI生图平台,本月更新了多角度(Multi-Angle)功能,通过主体模式或摄像头模式,无需复杂提示词即可从单张图片生成平视、俯视、侧面、特写等多种视角的图片,保持人物和场景一致性。它还具备一键图片转SVG的矢量化功能。

  5. TrendPublish是一个基于Deno+TypeScript的全自动AI内容生成与发布系统。它能自动抓取多源数据、用AI模型进行总结提炼、套用模板生成高质量文章、自动发布到微信公众号,还能定时推送。

九、文档处理与OCR:让AI能读懂一切

文档是企业和个人最重要的信息载体。3月,文档处理工具正在变得更加精准和全面

  1. pdfdeal让开发者可以方便地通过代码解析文档。

  2. PaddleOCR是开源OCR工具包,包含PP-StructureV3等文档解析方案。PP-OCRv5是自研文字识别模型,支持中文简体、中文繁体、中文拼音、英语、日语五大文字类型,提升了中英手写体、竖排文本、生僻字等复杂场景的识别能力。PP-StructureV3是新一代文档解析利器,支持多种场景、多种版式文档图像或PDF文件的高精度解析,可转换为Markdown和JSON文件,具备印章识别、图表解析、复杂表格识别等专精能力。**PP-

  3. Chart2Table可以将直方图、饼图、折线图等复杂图表转换为表格。PP-FormulaNet升级了复杂公式的识别能力,同时新增了中文公式识别、化学方程式识别的能力。

  4. FireRed-OCR是小红书团队开源的轻量级OCR模型,20亿参数,文档解析基准第一。它的特点是小而精,在保持高精度的同时保持了轻量级的模型体积。

十、语音与音频:让AI不仅能说,还能听懂

  1. Noiz AI是AI语音生成平台,提供语音克隆、文字转语音等功能。在AI语音领域,ElevenLabs一直是标杆,但Noiz AI正在成为另一个有力竞争者。

  2. PrismAudio是一个强大的视频配音(V2A)模型,通过四路专项CoT模块和Fast-GRPO强化学习解决多目标耦合问题。它所在的GitHub仓库还有AudioCanvas评测基准,具备更均衡的分布和更多样复杂的真实场景。

十一、物理模拟与前沿探索:AI的“虚拟世界”

  1. Genesis是面向通用机器人学、具身人工智能和物理AI应用的生成式物理模拟平台。这是一个从头构建的通用物理引擎,集成了多种物理求解器(刚体、MPM流体、SPH流体、FEM形变、PBD、稳定流体等),能模拟各种材料及其耦合。在单张RTX 4090上模拟Franka机械臂可达4300万FPS,远超实时,支持多平台和多后端。它解决的问题是:如何让AI在虚拟物理世界中学习和训练。

  2. Seoul World Model是开源首个城市级别的世界模型。这意味着AI可以理解城市的空间结构、交通流量、人群行为等,为自动驾驶、城市规划等领域提供强大的模拟能力。

十二、其他有趣工具

  1. Terminator是开源AI废话终结者,专治AI过度思考。它解决的问题是:当AI陷入“过度思考”的循环时,如何让它停下来,用更直接的方式解决问题。

  2. Promptfoo是用于测试AI系统安全的开源工具,包括开源界面与函数库,帮助企业通过模拟攻击自家产品来寻找漏洞。随着AI系统越来越重要,安全测试也变得越来越必要。

  3. ClawWork是港大开源项目,让AI在模拟经济环境中自主打工赚钱。这是一个有趣的实验:AI不仅能帮助人类工作,还能自己“赚钱”。

  4. GlyphPrinter是复旦开源的文字嵌入模型,让AI告别“鬼画符”,精准生成多语种文字和emoji。在此之前,AI生成图像中的文字经常是难以辨认的“鬼画符”,这个模型解决了这个问题。


后记

3月的AI工具生态,呈现出几个明显的趋势:

第一,多Agent协作走向成熟。 SuperAgent、Deer-flow、The Agency、Edict等框架的出现,说明单Agent的能力已经接近天花板,多Agent协作才是下一步。这不是简单的「分工」,而是「协作」——如何让多个AI Agent像人类团队一样配合工作。

第二,端侧模型持续突破。 MiMo-V2-Omni、Penguin-VL等模型证明了端侧设备也可以拥有强大的AI能力。这意味着AI不再局限于云端,而是可以「随身携带」。

第三,垂直领域持续深化。 无论是文档处理的PP-StructureV3、语音合成的PrismAudio,还是物理模拟的Genesis,都在各自领域深耕。

AI生产力的演进,永远不会停止。这里是Seon塞翁~下期见!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐