Starcoder:愿源码与你同在, 最新的开源代码生成LLM来了

StarCoder 和 StarCoderBase 是代码的大型语言模型（Code LLM），使用来自 GitHub 的许可数据进行训练，包括来自 80+ 编程语言、Git 提交、GitHub 问题和 Jupyter 笔记本。与LLaMA类似，研究者为15万亿个Token训练了一个~1B参数模型。他们对 35B Python Token的 StarCoderBase 模型进行了fine-tune，产生了一个名为 StarCoder 的新模型。

研究者发现，StarCoderBase 在流行的编程基准测试中优于现有的开放代码 LLM，并且匹配或超过了封闭模型，例如来自 OpenAI（为 GitHub Copilot 早期版本提供支持的原始 Codex 模型）。StarCoder 模型的上下文长度超过 8,000 个令牌，可以处理比任何其他开放 LLM 更多的输入，从而实现各种有趣的应用程序。例如，通过一系列对话提示StarCoder模型，使他们能够充当技术助理。此外，这些模型可用于自动完成代码，通过指令修改代码，以及用自然语言解释代码片段。研究者采取了几个重要步骤来实现安全的开放模型发布，包括改进的 PII 编辑管道、新颖的归因跟踪工具，以及公开提供 StarCoder 在OpenRAIL许可证的改进版本下。更新后的许可证简化了公司将模型集成到其产品中的流程。研究者相信，凭借其强大的性能，StarCoder模型将成为社区使用和适应其用例和产品的坚实基础。

评估

研究者彻底评估了StarCoder和几个类似的模型以及各种基准测试。一个流行的Python基准测试是HumanEval，它测试模型是否可以根据其签名和文档字符串完成函数。研究者发现StarCoder和StarCoderBase的性能都优于最大的模型，包括PaLM，LaMDA和LLaMA，尽管它们要小得多。它们的表现也优于CodeGen-16B-Mono和OpenAI的code-cushman-001（12B）模型。研究者注意到，该模型的一个失败案例是它会生成 # Solution here 代码，可能是因为这种类型的代码通常是练习的一部分。为了强制模型生成实际解决方案，研究者添加了提示。这显著提高了StarCoder的HumanEval得分——从34%提高到40%以上，为开放模型创造了新的先进结果。研究者也尝试了CodeGen和StarCoderBase的提示，但没有观察到太大的区别。

StarCoder的一个有趣的方面是它是多语言的，研究者在MultiPL-E上对其进行了评估，它将HumanEval扩展到许多其他语言。研究者观察到StarCoder在许多语言上的表现相当或优于许多语言。在一个名为DS-1000的数据科学基准测试中，它显然击败了它以及所有其他开放获取模型。

技术助理

通过详尽的评估，研究者发现StarCoder非常有能力编写代码。但他们也想测试它是否可以用作技术助手，毕竟它接受过许多文档和 GitHub 问题的培训。受 Anthropic 的 HHH 提示的启发，研究者构建了一个技术助理提示。令人惊讶的是，只需提示，该模型就可以充当技术助手并回答与编程相关的请求！