AI大模型排行榜&Skill主流网站汇总
序言
最近在折腾AI相关的东西时,我发现一个很现实的问题:
信息太散,而且很多内容“看起来很全,实际上没法用”。
比如你想选一个大模型——
能找到各种排行榜,但要么评测维度不统一,要么结论过时,要么根本不贴近实际使用场景。
再比如你想做点更复杂的,比如Agent、Skill、自动化流程——
网上也有不少平台和所谓的“Skill市场”,但很多要么只是Demo级别,要么文档零碎,真正能落地的不多。
结果就是:
你明明知道“模型 + Skill”这套东西很强,但真正上手的时候,第一步就卡在——
去哪找靠谱的模型?去哪找能用的Skill?
所以干脆自己整理了一份:
一边是当前主流的大模型排行榜和评测来源,
一边是我实际看过、用过、或者觉得有价值的Skill/Agent相关网站。
AI大模型排行榜
在整理大模型资料的过程中,我本来以为“排行榜”这件事是最省心的——
毕竟都已经有人帮你测好了,直接参考就行。
但实际看下来,反而是最混乱的一块。
同一个模型,在不同榜单里的排名可以差到离谱。
比如 MiniMax 2.7,在 UC Berkeley 相关团队统计的一些榜单中,常年排在中后段;
但在一些国内维护的中文排行榜里,却能直接进前五。
更离谱的是,这种差异不是“评测维度不同”能解释的。
在我自己做的一些实际测试里,MiniMax 2.7 的整体表现,甚至不如 Qwen 32B 这一档的模型——无论是稳定性、推理能力还是输出质量,都有明显差距。
这就带来一个很现实的问题:
很多排行榜,本质上并不是“评测结果”,而更像是“展示窗口”。
有的榜单评测方法不透明,有的长期不更新,还有的明显带有主观倾向——
如果你只是“扫一眼排名”来选模型,很容易被带偏。
1. LMArena
网址:https://lmarena.ai/leaderboard
简介与特点:
这个榜单是由 UC Berkeley(加州大学伯克利分校)团队主导的。伯克利在AI领域的地位非常高,可以类比国内的清华、北大,甚至在某些方向上更强一点。
它和传统“跑分榜单”最大的区别在于:不测题,而是测人。
具体做法是把两个模型的回答放在一起,让用户盲选哪个更好,最后通过大量投票形成排名(类似Elo评分机制)。
这意味着它衡量的其实是:
- 输出是否自然
- 回答是否有用
- 是否符合人类直觉
而不是单纯的“做题能力”。
怎么用:
如果你是做应用(写代码助手、客服、Agent等),这个榜单的参考价值很高,因为它更接近真实用户体验。
局限性:
- 主观性强,不同用户偏好差异大
- 对“数学推理 / 极限能力”不敏感
- 容易受到提示方式影响

2. SuperCLUE 通用榜
网址:https://superclueai.com/homepage
简介与特点:
这是国内比较成体系的一套评测框架,它把模型能力拆成两大类:
- 推理能力(数学 / 科学 / 代码)
- 应用能力(Agent / 指令遵循 / 幻觉控制)
这种划分其实挺“接地气”的——因为真实场景里,你既需要模型会算,也需要它不胡说、能听话、能干活。
另外一个特点是:它对中文支持比较友好,这点在很多国外榜单里是缺失的。
怎么用:
如果你的主要场景是中文(比如国内业务、中文客服、中文Agent),这个榜单比纯英文评测更有参考价值。
局限性:
- 评测数据和方法透明度有限
- 有些任务设计更偏“考试”,而非真实复杂场景
- 榜单之间横向对比困难(和国外榜单不统一)

3. Vellum LLM Leaderboard
网址:https://vellum.ai/llm-leaderboard
简介与特点:
这个榜单明显是“给工程师看的”。
它不仅关注模型强不强,还把几个关键因素一起放进来:
- 推理能力(用高难题,比如 AIME)
- 成本(调用价格)
- 上下文长度(能处理多长输入)
- 精度与稳定性
也就是说,它试图回答一个更实际的问题:
在真实系统里,这个模型值不值得用?
怎么用:
如果你在做系统设计,比如:
- 要不要换模型
- 是用强模型还是便宜模型
- 长上下文是否值得付费
这个榜单非常有参考意义。
局限性:
- 更偏“理性指标”,缺少用户体验维度
- 对非推理类任务(比如创意写作)覆盖不足

4. Open LLM Leaderboard (Vellum)
网址:https://vellum.ai/open-llm-leaderboard
简介与特点:
这是 Vellum 针对开源模型单独做的榜单。
开源模型和闭源模型(比如GPT、Claude)有一个本质区别:
- 闭源模型:强,但你控制不了
- 开源模型:可以自己部署、微调、改造
所以这个榜单的意义在于:
帮你在“可控范围内”找到最强的方案。
怎么用:
适用于以下场景:
- 企业内网部署(数据不能外传)
- 成本敏感(不想一直付API费用)
- 需要深度定制(微调 / 私有知识)
局限性:
- 开源模型整体上限通常低于顶级闭源模型
- 部署和调优成本不低

5. LLM-Stats
网址:https://lm-stats.com/benchmarks/llm-leaderboard-full
简介与特点:
这个站和传统排行榜不太一样,它不太关心“谁第一”,而是把模型的关键参数全部摊开:
- 推理速度
- 价格(token成本)
- 上下文长度
- 各类基准测试成绩
你可以把它理解为一个“模型参数对比数据库”,而不是一个简单排名。
怎么用:
当你在做选型时,比如:
- 是选便宜模型跑大规模任务,还是用强模型跑关键路径
- 上下文到底要不要上128k / 1M
这种场景下,它比排行榜更有价值。
局限性:
- 信息多但不做结论,需要你自己判断
- 对非技术用户不太友好

6. Scale AI SEAL
网址:https://scale.com/leaderboard
简介与特点:
由 Scale AI 推出,这家公司本身就是做数据标注起家的,可以理解为“给AI公司打地基的人”。
这个榜单的核心思路不是测“聪明”,而是测:
- 模型在复杂任务中是否稳定
- 是否容易出错
- 在长链路任务中是否会崩
很多评测是通过专家人工评审 + 私有数据集完成的。
怎么用:
如果你的系统是要上线的(比如风控、客服、自动化Agent),这种榜单非常重要,因为现实问题不是“做对一次”,而是“能不能一直做对”。
局限性:
- 数据不公开,透明度相对较低
- 更偏企业视角,不一定适合个人开发者

7. LiveBench
简介与特点:
这个榜单主打一个概念:“无污染(Contamination-free)”。
简单说就是:尽量避免模型在训练时见过测试题,从而减少“背答案”的情况。
评测内容主要集中在:
- 推理
- 编程
- 数学
并且是定期更新的。
怎么用:
当你怀疑某些榜单“被刷分”时,可以参考这个榜单来做一个对照。
局限性:
- 覆盖面相对较窄(偏理科能力)
- 实际应用能力体现不够

8. Hugging Face Open LLM Leaderboard
网址:https://huggingface.co/open-llm-leaderboard
简介与特点:
Hugging Face 可以理解为“AI界的GitHub”,开源模型基本都在这里发布、流通。
这个榜单基于 EleutherAI 的评测框架,对模型进行标准化测试,比如:
- MMLU
- HellaSwag
- ARC 等
最大的优势是:统一标准 + 可复现。
怎么用:
当你需要横向比较开源模型(比如选一个7B / 13B模型部署),这个榜单是最基础的参考。
局限性:
- 和真实用户体验有差距
- 容易被“针对性优化”

9. MTEB
网址:https://huggingface.co/spaces/mteb/leaderboard
简介与特点:
专门评测Embedding模型(文本向量模型),覆盖:
- 检索
- 分类
- 聚类
- 多语言任务
规模很大(几十个数据集,上百种语言)。
怎么用:
如果你在做:
- RAG(检索增强生成)
- 向量数据库搜索
- 推荐系统
这个榜单的重要性,甚至不亚于大模型排行榜。
局限性:
- 和生成模型能力无关
- 实际效果还受数据质量影响很大

10. OpenCompass CompassRank
网址:https://rank.opencompass.org.cn/home
简介与特点:
国内做得比较系统的多语言评测平台之一,支持:
- 中文任务
- 英文任务
- 安全与合规测试
在中文语境下,比很多国外榜单更贴近实际。
怎么用:
适合用来判断:
- 中文能力
- 多语言表现
- 一些本地化需求
局限性:
- 不同榜单之间难以直接对齐
- 仍然偏“评测场景”,不是生产环境

11. EQ-Bench
简介与特点:
专门评估模型的“情商”,包括:
- 情绪理解
- 共情能力
- 对语境的把握
基于大量对话提示构建。
怎么用:
如果你做的是:
- 客服
- 心理陪伴
- 社交类AI
这种能力比“数学推理”更关键。
局限性:
- 主观性强
- 不同文化背景下结果可能不同

12. Berkeley Function-Calling Leaderboard
网址:https://gorilla.cs.berkeley.edu/leaderboard.html
简介与特点:
同样来自伯克利团队,专门评测模型的:
- 函数调用能力
- 工具使用能力
- API理解能力
这是Agent时代的核心能力之一。
怎么用:
如果你在做:
- Agent系统
- 自动化工作流
- Copilot
这个榜单的参考价值非常高。
局限性:
- 偏工程能力,对通用对话意义不大

Skill主流网站
如果说大模型解决的是“能不能理解和生成”,
那 Skill 解决的就是一个更现实的问题:
能不能真的把事情做完。
在当前主流 Agent / 工程体系里,Skill 并不是一个模糊概念,而是已经比较固定的一套结构化方式。你可以把它简单理解成:
Skill = 大模型可以调用的一组“标准能力模块”
它通常包含三部分:
- 做什么(能力描述)
- 怎么做(执行步骤 / prompt / 规则)
- 需要什么(工具 / API / 资源)
换句话说,Skill不是“让模型更聪明”,而是让模型具备可复用的行为能力。
比如同样是“查资料”:
没有 Skill,模型只是靠生成;
有 Skill,它可以调用搜索、过滤结果、再总结输出。
同一个模型,能力差距可能完全不是一个量级。
Skill已经变成“决定系统能不能落地”的关键组件,但它的来源非常分散。
有的在框架里(LangChain / Agent SDK)
有的在平台里(Claude / OpenAI 工具生态)
有的在社区市场里(开源 Skill 仓库)
甚至还有一些是实验性项目,质量差异很大。
结果就是一个很现实的问题:
你知道 Skill 很重要,但不知道去哪找“靠谱的 Skill”。
1. SkillsMP
简介与特点:
SkillsMP 是目前规模最大的 Skill 聚合平台之一,收录超过 8 万个 Skill。它的内容主要来自 GitHub 等开源仓库,通过自动抓取 + 分类索引的方式形成数据库。
SkillsMP 做的事情,本质是:
把全世界散落在 GitHub 上的 Skill “汇总成搜索引擎”
它支持按分类、热度、标签检索,并且每天同步更新。

2. skills.homes
简介与特点:
skills.homes 是一个偏“Agent生态整合”的 Skill 平台,收录约 7 万+ Skill,特点是支持多种 Agent 系统(例如部分基于 Eloquen / Claude Code / Cursor 的扩展生态)。
这里有个关键背景:
所谓“多 Agent 适配”,意思是这些 Skill 不绑定某一个模型,而是遵循通用接口规范,可以在不同 AI Agent 系统中复用。
它的另一个特点是提供中文界面,并且整体稳定性比纯 GitHub 聚合更好一些。

3. skills.sh
简介与特点:
skills.sh 是目前更偏“官方工程风格”的 Skill 平台,整体生态与 Vercel 相关开发体系关系较强。
这里需要解释一个背景:
Vercel 是一个主打前端部署的平台,最出名的是“上传代码即可自动部署 Web 应用”,被广泛用于 Next.js 等现代前端框架。
skills.sh 的设计思路延续了这种风格:
👉 减少选择成本 + 提供高质量默认方案
它的 Skill 数量不多(几千级),但强调:
- 一键安装
- 工程可用性
- 质量控制(而不是数量堆积)
可以理解为:
不是“所有Skill都收集”,而是“筛过一轮再给你”。

4. skillhub.club
简介与特点:
SkillHub Club 更像一个“带评分系统的 Skill 市场”,核心特点是引入了 AI 评分机制,对 Skill 做排序和筛选。
这里可以补一个理解背景:
在 Skill 生态里,一个最大问题是——没有统一质量标准。
同样叫“代码助手 Skill”,可能一个是生产级工具,一个只是 prompt demo。
SkillHub Club 的做法是:
- 给 Skill 打分(质量 / 实用性 / 热度)
- 提供排序机制
- 帮用户做初筛
本质上是在尝试解决一个问题:
“如何从海量 Skill 里快速找到可用的那一小部分”

5. Awesome Claude Skills
网址:https://github.com/ComposioHQ/awesome-claude-skills
简介与特点:
这是目前 GitHub 上规模最大、最系统的 Claude Skills 汇总仓库之一,目前 Star 数已经超过 2.6 万。
它收集的不是某一个平台的 Skill,而是整个社区生态的集合,覆盖从文档处理、代码开发、数据分析,到营销、创意、系统安全等几乎所有方向。

📌 文档处理
| Skill | 作用 | 地址 |
|---|---|---|
| docx | 用追踪修改、批注和格式化功能,轻松创建、编辑和分析 Word 文档。 | https://github.com/anthropics/skills/tree/main/skills/docx |
| 提取文本、表格、元数据,合并与标注 PDF 文件。 | https://github.com/anthropics/skills/tree/main/skills/pdf | |
| pptx | 读取、生成和调整幻灯片、布局与模板。 | https://github.com/anthropics/skills/tree/main/skills/pptx |
| xlsx | 电子表格操作:公式、图表、数据转换。 | https://github.com/anthropics/skills/tree/main/skills/xlsx |
| Markdown to EPUB Converter | 将 Markdown 文档和聊天摘要转换为专业的 EPUB 电子书文件。 | https://github.com/smerchek/claude-epub-skill |
📌 开发与代码工具
📌 数据与分析
| Skill | 作用 | 地址 |
|---|---|---|
| CSV Data Summarizer | 无需用户提示,自动分析 CSV 文件并生成包含可视化图表的全面洞察。 | https://github.com/coffeefuelbump/csv-data-summarizer-claude-skill |
| deep-research | 使用 Gemini 深度研究代理执行自主的多步骤研究,适用于市场分析、竞争格局分析和文献综述。 | https://github.com/sanjay3290/ai-skills/tree/main/skills/deep-research |
| postgres | 支持多连接的 PostgreSQL 数据库安全只读 SQL 查询,具备纵深防御安全机制。 | https://github.com/sanjay3290/ai-skills/tree/main/skills/postgres |
| root-cause-tracing | 当执行过程中出现深层错误时,用于回溯查找最初的触发点。 | https://github.com/obra/superpowers/tree/main/skills/root-cause-tracing |
📌 商业与营销
| Skill | 作用 | 地址 |
|---|---|---|
| Brand Guidelines | 将 Anthropic 官方的品牌配色和字体应用到各类设计素材中,确保视觉形象统一,达到专业级的设计标准。 | https://github.com/ComposioHQ/awesome-claude-skills/blob/master/brand-guidelines |
| Competitive Ads Extractor | 从广告库中抓取并分析竞争对手的广告内容,帮你搞清楚哪些传播话术和创意形式真正能打动人。 | https://github.com/ComposioHQ/awesome-claude-skills/blob/master/competitive-ads-extractor |
| Domain Name Brainstormer | 生成创意十足的域名想法,并一键检查 .com、.io、.dev、.ai 等多个顶级域名的可用性。 | https://github.com/ComposioHQ/awesome-claude-skills/blob/master/domain-name-brainstormer |
| Internal Comms | 帮你撰写内部沟通内容,比如第三方更新、公司通讯、常见问题解答、状态报告和项目更新,还能根据公司特定格式来排版。 | https://github.com/ComposioHQ/awesome-claude-skills/blob/master/internal-comms |
| Lead Research Assistant | 通过分析你的产品、搜索目标公司,帮你识别和筛选高质量的潜在客户,并提供可执行的 outreach 策略。 | https://github.com/ComposioHQ/awesome-claude-skills/blob/master/lead-research-assistant |
📌 沟通与写作
| Skill | 作用 | 地址 |
|---|---|---|
| article-extractor | 从网页中提取完整文章内容和元数据。 | https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/article-extractor |
| brainstorming | 通过结构化提问和多角度探索,把零散的点子打磨成完整的设计方案。 | https://github.com/obra/superpowers/tree/main/skills/brainstorming |
| Content Research Writer | 帮你搞定高质量内容创作,从调研、引用、优化开头,到逐段反馈。 | https://github.com/ComposioHQ/awesome-claude-skills/blob/master/content-research-writer |
| family-history-research | 协助规划家族历史和家谱研究项目,帮你挖出那些被遗忘的家族故事。 | https://github.com/emaynard/claude-family-history-research-skill |
| Meeting Insights Analyzer | 分析会议录音,扒出行为模式,比如回避冲突、发言比例、口头禅,还有领导风格,一目了然。 | https://github.com/ComposioHQ/awesome-claude-skills/blob/master/meeting-insights-analyzer |
| NotebookLM Integration | 让 Claude Code 直接与 NotebookLM 对话,基于上传的文档提供有据可依的答案。 | https://github.com/PleasePrompto/notebooklm-skill |
| Twitter Algorithm Optimizer | 利用推特开源的算法洞察,分析并优化推文,实现最大传播效果。重写和编辑推文,提升互动率和曝光度 | https://github.com/ComposioHQ/awesome-claude-skills/blob/master/twitter-algorithm-optimizer |
📌 创意与媒体
| Skill | 作用 | 地址 |
|---|---|---|
| Canvas Design | 通过设计哲学和美学原则,为海报、设计和静态作品创作精美的 PNG 和 PDF 视觉艺术。 | https://github.com/ComposioHQ/awesome-claude-skills/blob/master/canvas-design |
| imagen | 利用 Google Gemini 的图像生成 API,生成 UI 原型、图标、插图和视觉资产。 | https://github.com/sanjay3290/ai-skills/tree/main/skills/imagen |
| Image Enhancer | 通过提升分辨率、清晰度和锐度,优化图像和截图质量。 | https://github.com/ComposioHQ/awesome-claude-skills/blob/master/image-enhancer |
| Slack GIF Creator | 专为 Slack 优化的动画 GIF 生成工具,内置尺寸限制校验和可组合的动画基础组件。 | https://github.com/ComposioHQ/awesome-claude-skills/blob/master/slack-gif-creator |
| Theme Factory | 一键为幻灯片、文档、报告和 HTML 首页等文件应用专业字体和配色主题,提供 10 种预设风格。 | https://github.com/ComposioHQ/awesome-claude-skills/blob/master/theme-factory |
| Video Downloader | 支持从 YouTube 及其他平台下载视频,方便离线观看、剪辑或存档,兼容多种格式和清晰度。 | https://github.com/ComposioHQ/awesome-claude-skills/blob/master/video-downloader |
| youtube-transcript | 自动抓取 YouTube 视频字幕并生成摘要。 | https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/youtube-transcript |
📌 效率与组织
📌 协作与项目管理
| Skill | 作用 | 地址 |
|---|---|---|
| git-pushing | 自动化 Git 操作和仓库交互,省心又高效,再也不用手动推代码了。 | https://github.com/mhattingpete/claude-skills-marketplace/tree/main/engineering-workflow-plugin/skills/git-pushing |
| google-workspace-skills | 一套 Google Workspace 集成工具:Gmail、日历、聊天、文档、表格、幻灯片和云端硬盘,支持跨平台 OAuth 登录。 | https://github.com/sanjay3290/ai-skills/tree/main/skills |
| outline | 在 Outline 维基实例(云端或自托管)中搜索、阅读、创建和管理文档。 | https://github.com/sanjay3290/ai-skills/tree/main/skills/outline |
| review-implementing | 评估代码实现方案,并确保与需求 specs 对齐。 | https://github.com/mhattingpete/claude-skills-marketplace/tree/main/engineering-workflow-plugin/skills/review-implementing |
| test-fixing | 检测失败的测试用例,并提出补丁或修复方案。 | https://github.com/mhattingpete/claude-skills-marketplace/tree/main/engineering-workflow-plugin/skills/test-fixing |
📌 安全与系统
| Skill | 作用 | 地址 |
|---|---|---|
| computer-forensics | 数字取证分析与调查技术。 | https://github.com/mhattingpete/claude-skills-marketplace/tree/main/computer-forensics-skills/skills/computer-forensics |
| file-deletion | 安全删除文件和数据清理方法。 | https://github.com/mhattingpete/claude-skills-marketplace/tree/main/computer-forensics-skills/skills/file-deletion |
| metadata-extraction | 提取并分析文件元数据,用于取证目的。 | https://github.com/mhattingpete/claude-skills-marketplace/tree/main/computer-forensics-skills/skills/metadata-extraction |
| threat-hunting-with-sigma-rules | 利用 Sigma 检测规则来追踪威胁并分析安全事件。 | https://github.com/jthack/threat-hunting-with-sigma-rules-skill |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)