信息误导 - 大语言模型 OWASP TOP 10系列

信息误导
- 资料来源:
genai.owasp.org - 资料整理:韦胖
是什么意思?
AI 大模型有时候会一本正经地说错话——给出听上去很有道理、但实际上完全错误的内容。这不是故意欺骗,而是模型的一种固有缺陷,称为幻觉(Hallucination)。
模型的工作方式是根据训练数据的统计规律来预测"下一个词最可能是什么",而不是真正"理解"内容。当它遇到知识盲区时,它不会说"我不知道",而是会继续"合理地编造",生成一个听起来像真的但实际没有根据的答案。
幻觉不是唯一原因,训练数据本身的偏差和不完整性,也会让模型输出有问题的内容。
另一个让问题更严重的因素是过度依赖:用户太信任 AI 的输出,不去验证,直接把错误信息用在了实际决策中。
常见风险
-
事实性错误导致决策失误:模型说了个错误的事实,用户信以为真。比如加拿大航空的 AI 客服曾给旅客提供错误的退票政策,最终公司在法院败诉。
-
凭空捏造:模型编造了根本不存在的信息。比如 ChatGPT 曾虚构了假的法律案例,律师信以为真并引用在了正式法律文件里,造成严重问题。
-
给用户留下"AI 很懂这个"的错误印象:模型在它并不真正理解的专业领域里表现得信心满满,让用户误以为它有相关专业知识。比如聊天机器人暗示某些有争议的治疗方案"仍可行",误导患者。
-
生成不安全的代码或推荐不存在的库:模型推荐了一个根本不存在(或已废弃)的代码库,如果开发者不加验证就使用,可能下载到攻击者预先放好的恶意包。
如何防范
-
用 RAG 让模型"有据可查":通过检索增强生成,让模型在回答前先从可信的外部数据库里找相关资料,减少凭空编造的概率。
-
针对性微调:用特定领域的高质量数据对模型进行微调,提升其在该领域的准确性。使用链式思维提示(Chain-of-Thought Prompting)等技术让模型"逐步推理",也有助于减少幻觉。
-
鼓励人工核查:告知用户 AI 的回答可能有误,重要信息请通过可信的外部渠道核实。对高风险场景(医疗、法律、金融等),必须安排人工审核。
-
自动化验证机制:在关键输出上部署自动化核查工具,比如用独立数据库或知识图谱对 AI 回答的核心事实进行交叉验证。
-
清晰告知用户局限性:在产品界面明确标注"AI 生成内容可能不准确",说明哪些场景下 AI 的可靠性较低,避免用户过度信任。
-
安全编码实践:建立规范,要求开发者对 AI 推荐的所有代码库进行验证,不能直接安装未经核实的包。
-
产品设计引导负责任使用:在 UI 层加入内容过滤,明确标注 AI 生成内容,让用户对"这是 AI 说的"保持清醒认知。
-
用户培训:帮助用户了解 AI 的局限性,培养"先质疑、后验证"的使用习惯;在特定专业场景中,培训用户用自己的专业知识来评判 AI 输出的质量。
真实攻击场景
场景 1:幻觉包名被攻击者利用
攻击者发现某 AI 编程助手经常推荐一些听起来合理但实际不存在的开源包名称,于是在对应的包管理平台上注册并发布了同名的恶意包。开发者听信了 AI 的推荐,安装了这个恶意包,结果攻击者借此注入了恶意代码,建立了后门,造成严重的安全漏洞和用户数据泄露。
场景 2:医疗诊断 AI 误导患者
某公司推出了一个医疗诊断聊天机器人,但没有对准确性做足够的把关。机器人给患者提供了错误的诊断建议,患者照着做后受到了伤害,公司被起诉并败诉,承担了损害赔偿。这个案例说明,即使没有恶意攻击,仅仅是 AI 系统本身的不可靠,就足以让公司承担巨大的法律和声誉风险。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)