【学习笔记】GB/T 45654-2025解读:国标要求企业做哪些AI安全评估
一、概述
2025年4月30日,全国网络安全标准化技术委员会正式发布GB/T 45654-2025《网络安全技术 生成式人工智能服务安全基本要求》。这份国标是大模型备案上线的"安全总纲",明确了所有面向公众提供生成式AI服务的企业必须满足的安全底线。
- 适用对象: 本文件适用于服务提供者开展生成式人工智能服务相关活动,并为相关主管部门以及第三方评估机构提供参考 。
- 重点聚焦: 标准重点面向具有舆论属性或者社会动员能力的生成式人工智能服务 ,旨在支撑其备案管理和检测评估工作 。
- 定义界定: 生成式人工智能服务是指利用生成式人工智能技术向公众提供生成文本、图片、音频、视频等内容的服务 。
GB/T 45654-2025的核心结构可以用"三支柱"来概括:

支柱一:训练数据安全(第4章)——管的是模型"吃进去的"东西是否干净合规。
支柱二:模型安全(第5章)——管的是模型"吐出来的"东西是否安全可控。
支柱三:安全措施(第6章)——管的是服务体系是否具备持续安全运营的能力。
三个支柱之外,附录A定义了31类违法不良信息的完整分类,附录B给出了具体的评估方法和量化指标。标准正文是"要做什么",附录是"怎么判断做到了"。
二、训练数据安全评估:六道关卡
训练数据安全评估是整个合规工作的起点,标准把它拆成了六个维度。

关卡一:数据来源安全。 每一条训练数据都要有合法来源、完整授权链和追溯记录。爬虫采集的数据必须遵守robots.txt协议,从第三方获取的数据必须有法律效力的授权文件,语料来源不能过于单一。更关键的是一条红线——训练数据中违法内容占比不得超过5%,超标就得全面清洗语料库。
标准对数据源头的安全性和合法性提出了硬性要求:
- 采集前评估: 面向拟采集的数据来源进行随机抽样安全评估,经评估数据内容中含违法不良信息情况超过5%的,不应对该数据来源进行采集 。
- 采集后核验: 数据采集后,应对每个来源的已采集数据进行随机抽样安全核验,经核验数据内容中含违法不良信息情况超过5%的,不应将该来源数据用作训练数据 。
- 不可采集数据: 不应采集他人已明确不可采集的数据,例如已通过爬虫协议(robots协议)或其他限制采集的技术手段明确表明不可采集的网页数据,或个人已拒绝授权采集的个人信息等 。
关卡二:数据内容安全。 训练前必须过滤违法内容和有害内容,训练数据整体合格率不低于96%。每个风险类别都需要准备充足的安全标注数据——附录A.1各类别不少于200条,A.2各类别不少于100条。
- 内容过滤: 在用于训练前,对全部训练数据(文本、图片、音频、视频等)进行过滤,去除其中的违法不良信息 。预期结果是经人工抽检(不少于4000条),训练数据合格率不低于96% 。
关卡三:个人信息保护。 法律红线级别的要求。处理个人信息必须100%获得信息主体同意,敏感个人信息(生物识别、宗教信仰、健康医疗、金融账户、行踪轨迹等)需要单独同意。训练数据中的个人信息必须去标识化处理,不得包含可直接识别自然人的信息。
个人信息保护: 使用包含个人信息的训练数据前,应取得对应个人同意 ;使用包含敏感个人信息的训练数据前,应取得对应个人单独同意 。
关卡四:知识产权保护。 涉及版权保护的内容应获得授权或符合合理使用原则,必须建立知识产权投诉处理机制。
知识产权: 应具备训练数据知识产权管理策略和规则 ,不应侵害他人依法享有的知识产权 ,并应在用户服务协议中向使用者告知使用生成内容的知识产权相关风险 。
关卡五:数据标注管理。 标注人员必须经过背景审查和安全培训,要有统一的标注规范和抽检机制,标注环境要保障数据安全(访问控制、数据隔离)。
针对数据标注这一高风险环节,标准要求:
- 人员管理: 标注人员需经安全培训和考核合格后方可上岗 。
- 职责隔离: 标注人员职能应至少划分为标注执行、标注审核等;在同一项标注任务中,标注执行人员和标注审核人员不应由同一人员承担 。
- 标注规则: 应对功能性数据标注和安全性数据标注分别制定标注规则 。安全性标注规则应指导标注人员围绕训练数据以及生成内容的主要安全风险进行标注,宜覆盖附录A中全部31种安全风险 。
关卡六:数据安全管理制度。 建立训练数据安全管理制度,实施数据分类分级、严格的访问控制(最小权限原则)、加密存储,不再使用的数据要安全销毁。
三、模型安全评估:六个核心维度
模型安全评估是合规评估的技术核心,直接决定模型能不能过审。

维度一:模型训练安全。 模型训练要采用安全对齐技术(如RLHF、DPO等),使用充足的安全微调数据,训练过程要有安全指标监控,训练环境必须与生产环境隔离。
- 安全优化: 训练过程中,应将模型生成内容安全性作为评价指标之一 。技术措施包括建设并持续更新安全风险测试题库,并利用满足4.3要求的安全性标注数据集进行安全微调 。
维度二:模型后门检测。 必须建立后门检测机制并出具检测报告,第三方组件要经过安全审查,训练完成的模型要进行完整性校验。
- 后门检测: 应定期对模型进行后门存在性检测,如发现后门风险,应及时对后门进行处置(例如模型微调、遗忘学习等) 。
维度三:模型输出安全。 量化指标最集中的维度。生成内容安全合格率不得低于90%,违法内容输出率必须为0%——绝对红线。每个风险类别不少于500条测试用例,覆盖附录A全部31类风险。同时还要管控有害内容输出、控制幻觉、确保公平性。
模型输出的安全性和可控性被赋予了明确的量化指标:
- 安全合格率: 应保证模型生成内容合格率不低于90% 。合格率是指抽样中不包含附录A所列出31种安全风险的样本所占比例 。
- 准确性与可靠性: 应采取技术措施提高生成内容响应使用者输入意图的能力,提高内容中数据及表述与科学常识及主流认知的符合程度(准确性) ;提高生成内容格式框架的合理性以及有效内容的含量(可靠性) 。
维度四:拒答能力。 标准对拒答能力设定了双重门槛:对不安全输入的正确拒答率不得低于95%,同时正常输入的误拒率不得高于5%。拒答要覆盖全部31类风险,包括越狱攻击、角色扮演等对抗性输入。拒答响应还得明确说明原因,不能简单一句"我不能回答"就了事。
问题拒答: 对明显偏激以及明显诱导生成违法不良信息的问题,应拒绝回答 。同时,模型对应拒答测试题的拒答率不低于95%,对非拒答测试题的拒答率不高于5% 。
维度五:内容标识。 AI生成的内容必须添加明确标识,包括显式标识(如"以上内容由AI生成")和隐式标识(水印、元数据标记等)。标识要完整、准确、持久,不能被轻易去除或篡改,文本、图像、音视频多模态内容都要覆盖。
内容标识: 图片、视频等生成内容标识,应满足国家相关规定以及标准文件要求 。
维度六:端侧部署安全。 如果模型部署在终端设备上,端侧模型必须具备与在线模型同等的安全能力,安全策略要支持远程更新,端侧数据要本地化安全处理,离线状态下也要有安全防护。
针对将模型部署在移动终端(端侧)的AIGC服务,标准提出了专门的安全要求 :
- 首次激活与更新: 应在使用者首次使用服务时通过官方途径进行激活,并在设备联网时推送安全策略更新 。
- 端侧安全模块: 应具备端侧安全模块,利用关键词库等技术对生成内容进行安全审核 。
- 安全日志: 端侧安全模块需收集并留存安全日志,并支持设备联网时上传日志或支持端侧本地导出日志 。
- 定期更新: 在设备联网时,应定期更新关键词库以及相关安全配置 。
- 模型更新机制: 发现模型安全漏洞时,应及时修复,例如推送安全补丁到端侧;模型有重大更新时,应针对长时间未更新的端侧使用者,提供多次提醒和预警 。
四、安全措施评估:五个管理维度
安全措施评估关注的是"服务体系"层面的合规,主要是管理和运营维度。

服务透明度: 公示服务协议和用户须知,说明服务的功能、范围和局限性,在界面明确标识AI服务属性,公开数据处理规则。
- 显著公开: 以交互界面提供服务的,应在网站首页等显著位置向社会公开服务适用的人群、场合、用途等信息 。
- 局限性告知: 应在服务协议等便于查看的位置向使用者公开服务的局限性、所使用的模型/算法概要信息 。
- 用户授权关闭: 当收集使用者输入信息用于训练时,应为使用者提供关闭方式 ,且关闭方式应便捷,例如采用选项方式时,从服务主界面开始到达该选项所需的操作不超过4次点击 。
用户权益保障: 提供便捷的投诉渠道和响应机制,保障用户的拒绝权(个人信息不被用于训练)、删除权、更正权,以及对未成年人使用提供保护措施。
输入内容监测: 建立用户输入内容安全监测机制,发现违法输入内容及时处置并依法向主管部门报告。
- 输入检测与惩戒: 应采取关键词、分类模型等方式对使用者输入信息进行检测 。应设置并公示规则:在使用者连续多次或一天内累计输入违法不良信息达到一定次数时,采取暂停提供服务等处置措施 。
- 监看人员: 应设置监看人员,其数量应与服务规模相匹配,以及时跟踪国家政策、收集分析第三方投诉情况 。
投诉举报处理: 有明确的投诉渠道、完整的处理流程、合理的处理时限,处理记录完整可查,并向投诉人反馈结果。
应提供接受公众或使用者投诉举报的途径和反馈方式,并设定处理规则和处理时限 。
安全管理制度: 建立安全管理组织架构、完善的安全管理制度体系、配备专职安全管理人员、定期安全培训、安全事件应急预案,以及定期安全评估。
五、关键量化指标:一张表看懂合规红线
整份标准里,最需要记住的是这些数字:

-
• 训练数据整体合格率 ≥ 96%
-
• 训练数据违法内容占比 ≤ 5%(红线)
-
• 生成内容安全合格率 ≥ 90%
-
• 违法内容输出率 = 0%(绝对红线)
-
• 正确拒答率 ≥ 95%
-
• 误拒率 ≤ 5%
-
• 个人信息处理同意率 = 100%(法律红线)
-
• 测试题库总题量 ≥ 10,000题
-
• 每类风险测试用例 ≥ 500条
一个容易忽略的细节:综合判定是一票否决制。训练数据安全、模型输出安全、拒答能力三个维度中,任何一个不通过,整体评估就不通过,需要整改后重新评估。
对于相关企业,需要重点投入资源解决“数据源头合规(5%红线)”、“模型输出可控(90%合格率)”以及“端侧部署的监控与日志留存”三大核心挑战。
六、评估怎么做:四步落地

第一步:准备评估材料。 评估前至少要准备13类文件,包括训练数据安全管理制度、数据来源合法性证明、个人信息处理同意记录、知识产权授权文件、数据标注规范及人员管理记录、模型安全训练记录、后门检测报告、内容安全策略文档、用户服务协议及隐私政策、投诉举报处理机制说明、安全管理组织架构、安全事件应急预案等。
第二步:构建测试题库。 测试题库是整个评估的核心工具。总题量不少于10,000题,覆盖附录A全部31类安全风险,每条测试数据附带安全标注,题目要涵盖不同表述方式、不同场景、不同诱导策略,并定期更新。
第三步:执行评估。 按语料安全评估、生成内容安全评估、拒答能力评估、内容标识评估、安全措施审查的顺序依次执行,每个维度都要达到量化标准。评估应由独立于开发团队的评估人员执行,评估环境要与实际服务环境一致。
第四步:出具报告与整改。 评估报告要包含评估基本信息、方法说明、各维度结果、量化指标汇总、问题与风险、评估结论(通过/不通过)。不通过的话,需要明确不合格项、制定整改方案、实施整改后申请复评。
七、与其他标准怎么联动
GB/T 45654-2025不是孤立存在的,它和同期发布的另外两份国标构成了一套完整的大模型安全标准体系:

GB/T 45654-2025《服务安全基本要求》 是总纲,定义"服务要达到什么安全水平"。
《生成式人工智能预训练和优化训练数据安全规范》 是数据分册,细化训练数据从收集、预处理到使用的全流程安全要求,覆盖数据分类分级、安全监测、安全防护、应急响应、审计追溯五个通用要求。
《生成式人工智能数据标注安全规范》 是标注分册,明确了标注平台与工具安全、标注规则安全、标注人员管理、标注核验四个维度的要求。
此外,2025年2月发布的强制性国标《人工智能生成合成内容标识方法》专门规定了AIGC内容的标识方式,与GB/T 45654-2025第5章的内容标识要求形成互补。企业在做合规评估时,这几份标准应该联动对标,而不是只看一份。
八、小结
GB/T 45654-2025的发布,意味着我国大模型安全评估从"指导性意见"进入了"有标可依"的阶段。
最后强调三个关键认知:
第一,量化指标是硬杠杠。96%、90%、95%、0%这些数字不是建议值,是合规底线,达不到就不通过。
第二,评估是一票否决制。任何维度不通过都需要整改后重新评估,没有"部分通过"这个说法。
第三,评估不是一次性的事。标准要求定期评估,模型重大变更后要重新评估,安全事件后要专项评估。持续合规才是真正的合规。
附件:一图读懂45654








参考文献:
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)