DeepVulHunter：面向 LLM 的多轮分析漏洞检测增强框架

txg666

749人浏览 · 2026-05-06 15:20:46

txg666 · 2026-05-06 15:20:46 发布

“代码漏洞检测作为一项高度专业且需要准确逻辑推断的任务，大语言模型（LLM）的判断容易受到代码长度、上下文噪声、推理幻觉等因素影响。为此，研究团队提出DeepVulHunter，一种基于多轮推理、相似代码检索和验证机制的漏洞检测框架，通过将 LLM 的推理引导为循证分析，显著提升漏洞检测的准确率与稳定性。 ”

📄 论文标题：A transformer-based framework for software vulnerability detection using attention-driven convolutional neural networks

📅 发表时间：2025，Journal of Intelligent Information Systems

🏫 作者单位：四川大学

01 —

方法介绍

DeepVulHunter 由五个阶段构成，通过“示例学习→推理解耦→结果验证”逐步减少 LLM 的推理偏差。

① 漏洞知识库构建：
基于Big-Vul 构建包含源代码、CVE 信息、补丁、描述的结构化数据库。
② 相似代码检索：
利用 CodeT5P 进行语义嵌入，通过 Faiss 检索最相似的两个漏洞相关代码片段。
③ 相似代码分析（第一轮）：
LLM 对所检索样例分析漏洞成因、触发条件与修复方式。
④ 目标代码分析（第二轮）：
在相似样例及其分析结果的辅助下，LLM 对目标代码进行漏洞判断。
⑤ 结果验证（第三轮）：
对初判“无漏洞”的样本再进行独立验证，有效减少漏报

图 1. DeepVulHunter 多轮分析框架

小结：DeepVulHunter 通过“检索 + 推理 + 验证”的方式，为 LLM 建立了一个更稳定、可靠的漏洞检测全过程，显著降低误判与漏判。

02 —

关键机制

基于示例的外部知识注入：
通过相似代码检索让 LLM 具备“类比推理”能力。
三轮推理结构：
将分析拆解成“学习—判断—复核”的流程。
代码长度偏差发现：
论文指出 LLM 更倾向将长代码误判为漏洞代码，并提出解决办法。
与模型无关：
框架适用于 Llama、Deepseek 等不同 LLM。

模块	实现方式	主要作用
漏洞知识库	整合 Big-Vul 代码、漏洞标签、CVE 信息、补丁内容	提供检索与推理所需的基础知识
相似代码检索	CodeT5P Embedding + Faiss 最近邻召回	提供与目标代码最接近的漏洞模式
相似代码分析（Round 1）	LLM 分析漏洞类别、触发路径、补丁原理	形成可供推理的“示例知识”
目标代码分析（Round 2）	在样例分析基础上进行推理	减少幻觉，提高判断准确度
独立验证（Round 3）	再次分析初判为“无漏洞”的样本	降低漏报，提升稳健性

小结：多轮推理机制让 LLM 从“一次性判断者”进化为“循证分析者”，降低不确定性带来的错误。

03 —

实验结果

研究团队在真实的 1,937 条漏洞样本上评估了不同模型的表现，包含：Llama-3.1-8B / 70B / 405B，以及 Deepseek-V3、Deepseek-R1。最高准确率达到了 75.3%（Llama 405B），相比当前方法显著提升。

模型	Accuracy	Vul_F1	NoVul_F1
LLMVD(no CoT)	0.525	0.682	0.065
LLMVD(CoT)	0.741	0.797	0.640
VulACLLM	0.520	0.000	0.690
Llama-70B	0.608	0.700	0.435
Llama-405B	75.3	0.766	0.689
Deepseek-V3	0.704	0.725	0.679