人工智能发展迎来重要突破。里海大学计算机科学与工程系助理教授孙立超带领团队,最近推出了一套全新的AI进化框架OpenSkill,这套技术让人工智能系统能够不依赖人工指导就学会完成任务,在多个权威测试中刷新了历史最佳成绩。

AI自我进化的"卡点"在哪里?

过去很长一段时间,人工智能系统要持续学习,通常需要满足三个条件:要么有成功的案例可以学习,要么有现成的技能模板,要么需要人类提供明确的反馈。但在现实中,这三个条件很难同时满足。真实场景中,AI系统常常因为缺少这些前提而无法继续积累经验和自我迭代,就像一个人想学做菜,却既没有菜谱,也没有人教,更看不到成功的样菜。

OpenSkill:让AI在开放世界里"自学成才"

为解决这个难题,研究团队设计了OpenSkill框架。这套系统的核心思路是:让AI在不依赖任何目标任务监督信号的情况下,也能获得可以执行、可以迁移的技能。简单来说,就是给AI一个开放的学习环境,让它自己去获取知识、验证能力,最后形成一套完整的技能包。

这个框架的工作流程分为三步:第一步是从开放世界中获取知识,包括任务相关的背景概念、API文档、最佳实践和代码示例;第二步是通过自动构造的虚拟任务反复测试和改进AI生成的技能,这个过程中完全不使用真实测试集的答案;第三步是将进化完成的技能以文件形式部署到目标AI系统上,最后用真实的测试集进行评估。

数据说话:多个基准测试全面领先

测试结果显示,OpenSkill的表现确实不俗。在SkillsBench基准测试中,这套系统将Opus 4.6模型的总体通过率提升至43.6%,GPT 5.2提升至42.1%,比之前最强的基线方法分别高出8.9和8.8个百分点。研究团队指出,这个成绩距离人类参考水平仅差1至3个百分点。

同样的优异表现也出现在其他测试中。在SocialMaze测试中,OpenSkill在两个目标模型上的通过率分别达到82.7%和70.7%;在ScienceWorld测试中,通过率分别达到90.0%和85.3%。在这些设置中,OpenSkill均为表现最好的自动化方法。

技能可以"复制粘贴":降低AI使用门槛

OpenSkill还有一个显著优势:技能可以直接迁移到其他模型上,无需额外适配。研究团队将Opus 4.6生成的技能直接迁移到Haiku 4.5、Qwen 3Coder、DeepSeek V3和Mistral Large 3等四个更弱的模型上,结果显示这些技能在所有目标模型上都带来了明显提升,提升幅度在5.5到14.8个百分点之间。

成本与挑战:距离普及还有路要走

当然,这项技术也存在一些限制。目前整个流程成本较高,在84个任务的测试中,端到端API总成本约1800美元,单任务平均耗时约131分钟。此外,开放世界知识源本身可能存在噪声或过时信息,虚拟任务也难以完全还原真实任务的复杂程度。

研究团队表示,未来将重点提升知识源的可信度,增强虚拟任务对真实任务的覆盖能力,并进一步降低整体成本。目前相关代码已在GitHub上开源,供研究人员免费下载使用。

行业意义:AI进化方式迎来重要变革

这项研究的核心价值在于,它提供了一种不依赖人工标注和明确反馈的AI自我进化路径。这对于推动AI系统在真实场景中的自主学习和持续进化具有重要意义,也为降低AI开发门槛提供了新的思路。

随着开源资源的发布,全球开发者和研究机构可以基于这套框架开展进一步研究和应用探索。AI系统"自己学会打怪升级"的时代,正逐步成为现实。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐