A survey on large language model (LLM) security and privacy: The Good, The Bad, and The Ugly

1. 核心问题与动机

大型语言模型(LLM,如 ChatGPT、LLaMA 等)已彻底改变自然语言处理领域,具备深度语言理解、人类似文本生成、情境意识与强大问题解决能力,广泛应用于搜寻、客服、翻译、程式码生成、医疗、金融与教育等领域。

然而,LLM 在安全与隐私领域呈现双刃剑特性:一方面可强化安全防护,另一方面可能被滥用或暴露自身漏洞。这篇论文的核心动机是系统性探讨 LLM 与安全/隐私的交集,回答三个关键研究问题(RQ):

  • RQ1:LLM 如何在多领域正面影响安全与隐私?对安全社群提供何种优势?
  • RQ2:使用 LLM 于网路安全领域会产生何种潜在风险与威胁?
  • RQ3:LLM 本身存在哪些漏洞?如何防禦?

论文作者透过全面文献回顾(收集 281 篇相关论文,主要集中于 2023 年),将内容分类为「The Good」(有益应用)、「The Bad」(攻击性应用)与「The Ugly」(模型漏洞与防禦)。这是首篇全面涵盖正面、负面与内在脆弱性三面向的综述,填补先前调查多聚焦单一面向的空白。

动机还来自实际案例:如 GPT-3 在程式码库中发现远多于传统工具的安全漏洞;LLM 在 IEEE S&P、NDSS 等顶会上的应用显示其潜力,但同时凸显滥用与攻击风险。论文强调,随着 LLM 使用者激增(ChatGPT 超过 1.8 亿用户),系统性理解其安全影响至关重要。


2. 结果/成果(主要发现与分类)

论文以结构化方式呈现成果,包含图表、表格与量化统计(如论文分布趋势)。

The Good(正面影响,§4)

LLM 在安全社群的贡献最显着,主要聚焦程式码安全资料安全/隐私

  • 程式码安全全生命週期:涵盖安全编码(Secure Coding)、测试案例生成(TCG)、执行监控(RE,包括漏洞检测、恶意程式检测、修復)。
    示例:SVEN 方法提升安全程式码生成成功率;TitanFuzz/Fuzz4All 等利用 LLM 提升 fuzzing 复盖率与 bug 发现;VulLibGen 快速识别易受攻击函式库;PentestGPT 辅助渗透测试。
    许多研究显示 LLM 优于传统静态分析工具,尤其在複杂情境与供应链攻击检测。

  • 资料安全与隐私:确保资料完整性、保密性、可靠性和可追溯性。应用于异常检测、钓鱼/恶意软体识别、取证、水印技术等。LLM 常在精准度、速度与减少人工介入上胜出。

整体发现:多数研究证实 LLM 方法优于 SOTA(state-of-the-art),LLM 对安全社群的贡献远大于负面影响


The Bad(攻击性应用,§5)

LLM 可被用于攻击,分为硬体级、OS 级、软体级、网路级与使用者级(最盛行,32+ 篇论文)。

  • 使用者级攻击因 LLM 的人类似推理能力而盛行:生成假讯息、社交工程、科学不端行为(生成假论文)、诈欺工具(如 FraudGPT、WormGPT)。
  • 其他:建立恶意软体、网路钓鱼、绕过 CAPTCHA 等。

目前 LLM 缺乏 OS/硬体直接存取,但未来若开放,威胁将大幅放大。


The Ugly(漏洞与防禦,§6)

将漏洞分为 AI 模型固有(资料中毒、后门、推断/提取攻击、偏差利用、指令调优攻击如 Jailbreaking/Prompt Injection)与 非 AI 固有(远端程式码执行、侧通道、供应链)。

防禦策略涵盖

  • 训练阶段:语料清洗(去毒、去偏、见解识别、去重)、优化方法(对抗训练、安全指令调优、差分隐私)。
  • 推论阶段:指令预处理、恶意检测、生成后处理(多数投票、自批判)。

关键发现

  • 模型/参数提取攻击研究有限(多为理论,受规模与机密性限制);
  • 模型架构对安全的影响研究稀少;
  • 安全指令调优需更多探索。

3. 分析与洞见

  • 正面主导:论文量化显示「Good」论文最多,反映研究社群倾向利用 LLM 强化防禦,而非攻击。这与 LLM 的语言理解与生成优势高度相关,尤其在程式码与资料领域超越传统方法。
  • 使用者级风险突出:LLM 的人类似能力放大社交工程与内容生成攻击,凸显「对齐」(alignment)挑战。
  • 双重威胁:许多攻击同时影响安全与隐私(如训练资料提取洩露 PII)。
  • 方法论洞见:LLM 可替换传统 ML 方法于安全任务;传统 ML 攻击/防禦可适配 LLM,但需调整(如因规模与黑盒特性)。人类努力(如社交工程)可被 LLM 取代,带来效率但也增加滥用风险。
  • 边缘考量:LLM 在教育、政策与法规的角色(如 CTF 练习、隐私法规影响);偏差与公平性问题的社会影响;未来若 LLM 获得更多系统存取权,威胁演化。
  • 限制:论文主要回顾至 2023 年底,领域快速发展;部分防禦计算成本高;实务部署中需平衡效能与安全。

4. 结论与未来方向

论文结论强调 LLM 兼具强化与危害网路安全的潜力,呼吁平衡创新与风险管理。贡献包括首创三面向全面综述,以及多项实证发现(如 Good > Bad、使用者级攻击主导)。

未来方向建议
  • 将 LLM 应用于更多 ML 基础的安全任务,并与 SOTA 比较。
  • 探索 LLM 取代人类努力的领域(如传统需人工的防禦任务)。
  • 适配传统 ML 攻防至 LLM 特定情境,解决 LLM 独有挑战(如巨量参数、机密性)。
  • 加强模型架构安全研究、安全指令调优与 PETs(隐私增强技术)整合。
  • 跨领域合作,关注教育、法律与伦理影响。

文章连结

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐