“代码漏洞检测作为一项高度专业且需要准确逻辑推断的任务,大语言模型(LLM)的判断容易受到代码长度、上下文噪声、推理幻觉等因素影响。为此,研究团队提出DeepVulHunter,一种基于多轮推理、相似代码检索和验证机制的漏洞检测框架,通过将 LLM 的推理引导为循证分析,显著提升漏洞检测的准确率与稳定性。 

  • 📄 论文标题:A transformer-based framework for software vulnerability detection using attention-driven convolutional neural networks

  • 📅 发表时间:2025,Journal of Intelligent Information Systems

  • 🏫 作者单位:四川大学

01

方法介绍

DeepVulHunter 由五个阶段构成,通过“示例学习→推理解耦→结果验证”逐步减少 LLM 的推理偏差。

  • ① 漏洞知识库构建:

    基于Big-Vul 构建包含源代码、CVE 信息、补丁、描述的结构化数据库。

  • ② 相似代码检索:

    利用 CodeT5P 进行语义嵌入,通过 Faiss 检索最相似的两个漏洞相关代码片段。

  • ③ 相似代码分析(第一轮):

    LLM 对所检索样例分析漏洞成因、触发条件与修复方式。

  • ④ 目标代码分析(第二轮):

    在相似样例及其分析结果的辅助下,LLM 对目标代码进行漏洞判断。

  • ⑤ 结果验证(第三轮):

    对初判“无漏洞”的样本再进行独立验证,有效减少漏报

图片

图 1. DeepVulHunter 多轮分析框架

小结:DeepVulHunter 通过“检索 + 推理 + 验证”的方式,为 LLM 建立了一个更稳定、可靠的漏洞检测全过程,显著降低误判与漏判。 

02

关键机制

  • 基于示例的外部知识注入:

    通过相似代码检索让 LLM 具备“类比推理”能力。

  • 三轮推理结构:

    将分析拆解成“学习—判断—复核”的流程。

  • 代码长度偏差发现:

    论文指出 LLM 更倾向将长代码误判为漏洞代码,并提出解决办法。

  • 与模型无关:

    框架适用于 Llama、Deepseek 等不同 LLM。

模块

实现方式

主要作用

漏洞知识库

整合 Big-Vul 代码、漏洞标签、CVE 信息、补丁内容

提供检索与推理所需的基础知识

相似代码检索

CodeT5P Embedding + Faiss 最近邻召回

提供与目标代码最接近的漏洞模式

相似代码分析(Round 1)

LLM 分析漏洞类别、触发路径、补丁原理

形成可供推理的“示例知识”

目标代码分析(Round 2)

在样例分析基础上进行推理

减少幻觉,提高判断准确度

独立验证(Round 3)

再次分析初判为“无漏洞”的样本

降低漏报,提升稳健性

小结: 多轮推理机制让 LLM 从“一次性判断者”进化为“循证分析者”,降低不确定性带来的错误。

03

实验结果

研究团队在真实的 1,937 条漏洞样本上评估了不同模型的表现,包含:Llama-3.1-8B / 70B / 405B,以及 Deepseek-V3、Deepseek-R1。最高准确率达到了 75.3%(Llama 405B),相比当前方法显著提升。

模型

Accuracy

Vul_F1

NoVul_F1

LLMVD(no CoT)

0.525

0.682

0.065 

LLMVD(CoT) 

0.741

0.797

0.640 

VulACLLM

0.520

0.000 

0.690

Llama-70B

0.608

0.700

0.435 

Llama-405B 75.3

0.766

0.689

Deepseek-V3 

0.704

0.725 

0.679

小结:DeepVulHunter在不同模型上均带来了不同幅度的提升,且论文中给出的最优实验配置(Llama-405B + R3)达到了 75.3% 的检测准确率,显著优于仅使用单轮 LLM 判断的基线方法。

📌 总结

DeepVulHunter 展示了利用 外部知识 + 多轮推理 强化 LLM 漏洞检测能力的新范式。该框架无需修改模型结构即可应用于不同规模的 LLM,适合在企业级代码审计系统中落地。

📣 欢迎留言讨论

  • 你认为未来漏洞检测的关键在于更大的模型能力,还是更精细的推理框架?

  • 多轮分析是否会成为 LLM 在安全领域的主流趋势?

📌 点赞 + 收藏 + 分享,你的支持,是我们持续解析高水平软件安全论文的最大动力!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐