A Survey on Knowledge Distillation of LargeLanguage Models

摘要——在大语言模型(LLMs)时代,知识蒸馏(KD)成为将GPT-4等领先专有大模型的高级能力迁移至LLaMA、Mistral等开源模型的核心方法。随着开源LLMs的蓬勃发展,KD不仅在这些模型的压缩过程中发挥关键作用,还能通过自我教学机制促进模型迭代优化。本文系统综述了KD在LLM领域的三重功能:向小模型传递高阶知识、实现模型压缩以及推动自我提升。研究围绕算法、技能和垂直领域三大支柱展开——深入剖析KD技术机理、特定认知能力的强化方法及其跨领域应用范式。尤为关键的是,本文揭示了数据增强(DA)与KD的协同机制,论证了DA如何作为KD框架内的增强范式显著提升LLMs性能。通过DA生成富含上下文语境且技能导向的训练数据,KD技术突破了传统限制,使开源模型能够逼近专有模型特有的情境理解力、伦理对齐能力和深层语义洞察力。本工作旨在为研究者与实践者提供全景式指南,既详述当前知识蒸馏方法论,又指明未来研究方向。通过弥合专有与开源LLMs之间的鸿沟,本研究为构建更普惠、高效且强大的人工智能解决方案奠定了基础。需要特别强调的是,我们坚决主张遵守LLMs使用相关法律条款,确保LLM知识蒸馏技术的合法合规应用。相关GitHub资源库详见https://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMs。
关键词——大语言模型,知识蒸馏,数据增强,技能蒸馏,监督微调

1 INTRODUCTION

在人工智能(AI)快速发展的浪潮中,以GPT-3.5(Ouyang等,2022)、GPT-4(OpenAI等,2023)、Gemini(Team等,2023)和Claude2为代表的专有大语言模型(LLMs)已成为重塑自然语言处理(NLP)范式的突破性技术。这些模型凭借其庞大的规模与复杂性,从生成类人文本到提供复杂问题解决方案,不断拓展能力边界。其核心价值在于涌现能力(Wei等,2022a,b; Xu等,2024a)——这种超越预设训练目标的现象,使模型能以惊人熟练度处理多样化任务。这些模型在理解与生成方面的卓越表现,推动了从创意生成到复杂问题求解的全场景应用(OpenAI等,2023;Liang等,2022),其潜力远超出当前应用范畴,必将深刻变革行业生态、增强人类创造力并重塑人机交互模式。

尽管GPT-4等专有LLMs展现出卓越性能,但相较于开源模型仍存在明显局限。首要问题是访问受限与高昂成本(OpenAI等,2023),这些模型通常收取高额使用费且访问受限,使个人和小型组织难以企及。在数据隐私与安全方面(Wu等,2023a),使用专有LLMs往往需将敏感数据传至外部服务器,引发隐私泄露风险,这对处理机密信息的用户尤为关键。此外,专有LLMs的通用性设计虽强大,却难以适配垂直领域的特定需求。可及性、成本与适应性这三重约束,严重限制了专有LLMs潜力的充分发挥。

相较之下,LLaMA(Touvron等,2023)和Mistral(Jiang等,2023a)等开源模型具有显著优势。其核心在于开放性与可定制性——无需许可费用或严格使用政策,这些模型更易被个人研究者至小型组织获取,从而培育出更具协作性与包容性的AI研发生态。开源LLMs的可定制特性还能针对通用大模型无法满足的特定需求提供量身定制的解决方案。

然而开源LLMs也存在固有缺陷,主要源于其规模与资源的相对不足。最突出的限制是较小模型规模导致其在复杂指令任务上性能较弱(Zheng等,2023a),参数量的不足使其难以复现GPT-4等大模型的知识广度与深度。此外,开源模型通常预训练投入有限(Liang等,2022;Sun等,2024a),导致预训练数据覆盖面较窄,影响其对专业主题的理解能力。微调步骤的欠缺也制约了模型在特定场景的效能,这与经过深度优化的专有LLMs形成鲜明对比(OpenAI等,2023)。

为弥合专有与开源LLMs的性能鸿沟,知识蒸馏(KD)技术应运而生(Gou等,2021;Gupta和Agrawal,2022)。该技术通过将GPT-4等先进专有模型作为"教师"来提升开源LLMs的"学生"能力,其机制类似于知识迁移。相较于传统蒸馏算法(Gou等,2021),数据增强(DA)(Feng等,2021)已成为LLM知识蒸馏的主流范式——通过小规模知识种子激发LLM生成特定技能或领域的扩展数据(Taori等,2023)。其次,KD在模型压缩方面持续发挥核心作用(Gu等,2024;Agarwal等,2024)。最新趋势显示,开源LLMs通过自我教学实现能力跃升的策略展现出巨大潜力(Yuan等,2024a;Chen等,2024a)。图1展示了KD在LLM领域的这三重角色。

知识蒸馏的核心价值体现在三大技能提升:高级上下文遵循(如上下文学习(Huang等,2022a)与指令跟随(Taori等,2023))、用户意图对齐(如人类价值观/原则(Cui等,2023a)和思维链(CoT)等推理模式(Mukherjee等,2023)),以及NLP任务专项优化(如语义理解(Ding等,2023a)与代码生成(Chaudhary,2023))。这些技能对LLMs从日常对话到专业领域复杂问题求解的全场景应用至关重要。在医疗(Wang等,2023a)、法律(LAW,2023)和科学(Zhang等,2024)等垂直领域,知识蒸馏使开源模型能通过向经过专业训练的专有模型学习,显著提升其准确性特定场景知识掌握度。

LLM时代的知识蒸馏具有多维度的变革性价值(Gu等,2024)。通过系列蒸馏技术,专有与开源模型间的差距被大幅缩小(Chiang等,2023;Xu等,2023a)甚至消除(Zhao等,2023a)。该过程不仅优化计算需求,还通过提升开源模型能效比增强AI环保性。更重要的是,知识蒸馏促进了更平等开放的AI生态,使中小机构与个人研究者也能获取尖端能力,推动AI发展的多元参与。这种技术民主化催生出更健壮、通用且可及的AI解决方案,为跨行业创新注入持续动力。

对LLM知识蒸馏开展全面综述的迫切性,源于AI领域的快速演进(OpenAI等,2023;Team等,2023)与模型复杂度的持续提升。随着AI渗透各行业,将专有LLMs知识高效蒸馏至开源模型已从技术愿景转化为实践刚需。这种需求背后,是对更普惠、经济、适应性强的AI解决方案的全球性期待。本领域综述对统整现有方法学、挑战与突破具有关键价值,既可为研究者与实践者提供技术路标,又能通过揭示当前技术盲点为未来研究指明方向。

综述架构 本综述后续章节安排如下:第2章提供知识蒸馏的基础框架,对比传统技术与LLM时代新范式,并阐释数据增强(DA)的核心作用;第3章深入探讨从教师LLM提取知识的方法论与核心蒸馏算法,涵盖从监督微调到基于差异度/相似性、强化学习与排序优化的复合策略;第4章聚焦技能蒸馏,解析如何提升学生模型的上下文理解、用户意图对齐及NLP任务性能,涉及自然语言理解(NLU)、生成(NLG)、信息检索、推荐系统与文本生成评估;第5章探讨垂直领域蒸馏,展现在法律、医疗、金融与科学等专业领域的应用范式与实践价值;第6章提出开放性问题,指明知识蒸馏研究的现存挑战与未来机遇;第7章总结讨论,凝练对AI与NLP社区的启示并规划研究方向。图2展示了本综述的整体框架。

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐