首次评测出炉：AI改代码，大多数可能“越改越糟”！程序员不用

写编程的木木

217人浏览 · 2026-03-21 23:26:07

写编程的木木 · 2026-03-21 23:26:07 发布

中山大学与阿里巴巴联合推出全球首个AI大模型长期代码维护评测系统SWE-CI，测试了8家厂商18款模型。结果显示Claude Opus系列表现最优，零退化率达76%，而多数模型在75%任务中会破坏原有功能。研究揭示AI在长期代码维护中普遍存在性能退化问题，表明"写代码"与"维护代码"是两种不同能力，对AI未来发展具有重要指导意义。

近年来，AI大模型的编程能力突飞猛进，各大AI厂商在编程基准测试上你追我赶，不断刷新纪录。这让不少程序员开始担忧：AI是不是很快就要抢走我们的饭碗了？

然而，中山大学与阿里巴巴联合发布的一项最新研究给程序员们吃下了一颗“定心丸”。

3月4日，两家机构联合发布了一项评测结果。这项测试名为“SWE-CI：通过持续集成评估智能体维护代码库的能力”（SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration），首次对包括Anthropic、OpenAI、Kimi和DeepSeek等8家主流厂商的18款AI大模型的长期代码维护能力进行了严苛的系统性评估测试。

测试包含100项任务，总Token消耗超100亿。结果显示，Claude Opus系列综合表现领跑。

**在控制性能退化方面，千问、DeepSeek、MiniMax、Kimi和豆包等大多数AI大模型的表现明显不佳。**也就是说，AI在长期代码维护过程中，可能将代码“越改越糟”。

中国团队推出全球首个评估AI大模型

长期代码维护能力的评测系统

长期以来，AI编程能力的主流评测基准的共同特点是快照式评测，以“单次接收需求、一次性输出解决方案”为核心。

然而，这种评估方式仅检验大模型是否能写出功能正确的代码，无法反映真实软件开发中持续迭代、长期维护的核心需求。

在现实中，成熟的软件很少是一蹴而就的，而是长期维护的结果。雷曼定律表明，软件质量会随着维护的进行而自然下降。而维护工作占软件生命周期总成本的60%到80%。

为评估AI在长期代码维护中的表现，中山大学与阿里巴巴团队联合推出了SWE‑CI评测基准。这是全球首个专门评估AI智能体在长期代码维护表现的评测系统，它不再满足于考察AI编程的“一次性正确”，而是评估AI是否像真正的软件工程师一样，在数月甚至数年的开发过程中持续保持代码质量。

SWE‑CI基准测试的构建经过四层严格筛选，最终形成高质量评测集。

研究团队先从GitHub全网的Pytho代码库中筛选出维护三年以上、星标超500、包含依赖文件和完整单元测试套件，以及采用MIT/Apache‑2.0等宽松协议的4923个代码库；再提取依赖稳定、代码修改量超1000行的提交对，得到8311个候选样本；通过自动构建Docker环境与自修复依赖机制，保留1458组可运行候选对；最后经测试启动校验、通过率差异筛选、时间跨度与提交量排序，确定100项最终任务。

研究团队精心构建的100项任务中，每项任务都对应着真实世界中一个软件项目的完整进化历程。这些项目平均跨越233天的开发时间，包含71次连续的代码提交记录。团队还设计了一个精巧的“架构师-程序员”双智能体协作机制。设计的灵感来自真实软件团队中常见的分工模式：架构师负责分析需求和制定技术方案，程序员负责具体的代码开发。

为适配长期迭代评测，SWE‑CI提出了“归一化变化”与“EvoScore（进化得分）”两大核心指标。

“归一化变化”以测试用例通过数为基础，将代码状态映射到[-1，1]区间，正向表示功能提升，负向表示出现功能退化。

EvoScore更侧重衡量AI大模型在未来修改任务中的表现。

实测结果：Claude Opus断层领跑

多数大模型在75%任务中会破坏原有代码

研究团队对8家公司——月之暗面、Anthropic、智谱、千问、MiniMax、DeepSeek、OpenAI和豆包——的18个主流AI大模型进行了系统性测试，累计消耗了超过100亿Token的测试数据。这一实验规模在AI编程评估领域堪称史无前例。

研究结果显示，从时间维度来看，AI大模型在代码维护能力上的进化呈现出明显的加速曲线。

**从下图可以发现，同一厂商的大模型新版本普遍稳定高于前一代，且2026年后的跃升幅度显著扩大，EvoScore更高。**这表明，当前大模型的代码能力正从静态缺陷修复，快速向持续、长期的代码维护演进。

8家厂商的主流大模型在SWE‑CI测试中的EvoScore变化情况。图片来源：论文截图

在所有参评大模型中，Claude Opus系列表现最为突出，从Claude-opus-4.5到Claude-opus-4.6，其EvoScore跃升至约0.9的高位，明显拉开了与所有竞争对手的差距。

中国的AI大模型中，智谱GLM系列进步显著，成为第二梯队中最具竞争力的选手。紧随其后的是Qwen和MiniMax，整体趋势向好。而Kimi和豆包虽有提升，但缺乏突破。

研究还发现，不同厂商在大模型训练策略上偏好存在明显分化。

具体而言，MiniMax、DeepSeek以及OpenAI的GPT系列大模型更偏好长期效益**，显示出其在长期代码维护任务中的优势。**这意味着，这类大模型在生成代码时，更倾向于采用有利于长期演进与稳定性的策略，而非追求短期修复的最优解。

相比之下，Kimi与智谱GLM系列更偏向于短期见效的优化路径。

而千问、豆包以及Claude系列大模型则呈现出另一种特征：其训练策略在短期效果与长期维护之间取得了一定平衡。

随着权重参数γ的变化，各个大模型的排名也随之发生显著调整。当γ>1时，大模型排名越高，其代码库维护能力越强。图片来源：论文截图

另外，研究还有一项关键发现：在长期代码维护中，所有大模型在有效控制性能退化（Regression）方面都表现不佳。

**性能退化是衡量软件质量稳定性的核心指标。**如果某个单元测试在代码更新前已经通过，而更新后失败了，则判定该变更触发了性能退化。一旦出现性能退化，不仅会直接影响用户体验，在长期维护过程中，随着修改次数累积，还可能导致系统质量系统性退化。

研究团队测量了“零退化率”——即在整个维护过程中完全没有破坏原有功能的任务比例。零退化率越高，维护的系统越稳定。

研究结果表明，在所有参与测试的18个大模型中，只有Anthropic的Claude Opus大模型保持了50%以上的零退化率，大多数大模型的零退化率都低于25%。

18个大模型的零退化率（从低到高排序）。图片来源：论文截图

具体而言，Claude-opus-4.6以76%的零退化率遥遥领先。这意味着在绝大多数测试场景中，其性能能够保持稳定。Claude-opus-4.5以51%位列第二。相比之下，Kimi-K2.5（37%）与GLM-5（36%）表现接近，构成第二梯队，虽具备一定稳定性，但与头部大模型仍存在显著差距。

包括GPT-5.2、Qwen3.5-plus、MiniMax-M2.5和DeepSeek-V3.2在内的其余14个AI大模型的零退化率都在25%以下，这意味着在长期代码维护过程中，大模型在超过75%的任务中会破坏原本正常的代码功能，引发性能退化问题。

但从版本迭代的角度看，头部厂商的AI大模型正快速进步。例如，Claude-opus系列的“零退化率”从4.5版本的51%提升至4.6版本的76%，智谱GLM系列从GLM-4.6和GLM-4.7的14%跃升至GLM-5的36%。

但即便如此，绝大多数大模型仍难以在长期代码维护中杜绝性能退化问题，距离可靠的自动化长期开发仍有明显差距。

SWECI基准测试结果的发布，让行业意识到，“写代码”和“维护代码”是两种截然不同的能力。对于大模型厂商而言，持续优化可维护性、性能退化控制、架构设计能力，或许将是赢得下半场竞争的关键。

大模型入门学习教程（附PDF文档，文末获取）

现在国内外关于大模型入门教程做的比较好的并不多，这其实也是一件好事，有难度和有门槛才能避免烂大街，现在大模型入门教程热度最高的包括李宏毅老师、吴恩达老师、Datawhale开源社区等

选择合适的入门学习教程，能少走弯路，抓住核心内容，快速达到前沿的水平，甚至是发表大模型相关的论文都是可以的

这一期主要是给大家推荐李宏毅老师的最新课程：大模型入门学习教程

这个教程的主要内容如下（总共11讲）：

第1讲：总体介绍

这一讲主要介绍现在大模型作为生成式人工智能，其发展的历史过程，以及大模型落地的主要应用方向，了解大模型主要学习什么内容，难度不大，简单看一下就行

第2讲：提示词和AI代理人

首先介绍什么是提示词工程，提示词就是人类和大模型交互的语言，对于大模型的引导需要通过提示词来完成，然后介绍如何引导模型进行思考，比如COT是什么，在模型训练过程中提供额外信息

第3讲：生成策略

同一个问题，多次询问大模型，大模型会给出不同的回答，如何提高回复的准确率以及稳定性，是一个重要的大模型生成策略。了解大模型的生成概率与什么有关，比如top_p, top_k，temperature等

第4讲：深度学习和Transformer

这一部分先介绍一些深度学习基础内容，大模型的模型都是深度学习模型，了解深度学习中基础内容是有必要的，比如损失函数，反向传播，梯度下降等，然后介绍大模型的基础框架transformer，transformer模型结构一定要非常熟悉，很重要

第5讲：大模型评估和道德问题

这一部分先介绍大模型的评估标准，现在有很多benchmark从各个方面来评测大模型的不同能力，评估指标很多，开源的模型往往会选择有利于自己的指标进行展示，然后介绍大模型中存在的道德问题，因为大模型不能随意生成一些不符合道德社会文明的内容

第6讲：AI的可解释性

给大模型一个输入，只能得到一个输出，但是我们并不清楚大模型的思考过程是怎么样的，这个问题，大模型是怎么思考的，提升大模型的可解释性有助于后续研究如何提升大模型的推理性能，像COT就是显式展示大模型的思考过程，然后还可以让语言模型来解释语言模型

第7讲：视觉大模型

常说的大模型，都指的是文本大模型，输入是文本，输出也是文本，而现实世界中，可能我们的输入既有文本，又有图片和视频，输出也可能是多样化的，视觉大模型就是能解决文本和视觉两种模态的大模型

第8讲：GPT-4o

前面都是关于大模型的理论，这一部分是拆解一个完整的大模型是怎么样的，以GPT-4o为例进行说明，GPT**-4o是首个端到端多模态通用模型**，是迈向AGI的一步，能够实现文本，音频和图片的多模态交互

上面就是大模型的入门教程的所有内容，学完这些可以去看看关于大模型微调，大模型训练，大模型推理加速，RAG和Agent等相关的内容，后面最好整一两个项目来实践一下

上述资料获取：

1. 关注公众号【大模型应用开发LLM】领取即可获取

2. 这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

spec-kit 是什么

Spec-Kit 的本质，是为 AI 辅助的软件开发建立了一套“ISO 质量管理体系”。它通过工具强制推行一种先思考、后行动，先定义、后实现的理性开发文化。对于个人开发者，它是提升代码质量和项目可控性的利器；对于团队，它是确保 AI 协作规范化、产出标准化的基础设施。在 AI 编程能力爆炸式增长的今天，Spec-Kit 代表的“规范驱动”思想，正成为驾驭 AI 潜力、防止项目陷入混乱的关键范式。正

AtomGit开源社区

Linux系统介绍

Linux是一款开源免费、多用户、多任务、支持多线程与多CPU架构的类UNIX操作系统，由芬兰开发者Linus Torvalds在1991年首次发布，后续依托全球开源社区持续迭代完善。它并非小众系统，如今广泛应用于云服务器、超级计算机、嵌入式设备、安卓手机底层等场景，服务器市场占有率常年稳居第一，是工业界与学术界公认的高效稳定系统。Linux学习没有捷径，从基础命令到系统原理，从简单代码到并发实战