合规不是最后补材料,而是大模型应用能不能对外提供服务、能不能进入政企场景、能不能通过安全评估的底线。600 多款模型已备案,国标已落地,公安部已发证——这不是"以后再说"的事,而是"现在就得准备"的事。

        前面的文章讲了怎么评估、怎么防护、怎么管权限、怎么保供应链。这篇讲一个绕不开的话题:在中国做大模型应用,要过哪些合规关? 这篇文章把合规路径梳理成可操作的清单。

一、从技术控制回到合规交付

       前面讲评估、防护、权限和供应链,核心是把风险控制住。但在真实组织里,安全控制最终还要转化成合规材料、评估证据、备案准备和审计记录。否则技术上做了很多,交付时仍然说不清。

        它把前面几篇的技术控制转成合规语言:哪些应用需要备案,哪些指标必须达标,哪些材料需要提前准备,哪些证据要能审计。

二、大模型备案:现状与要求

2.1 备案进展

截至 2025 年底,中国大模型备案进度:

  • 2024 年底:累计 302 款完成备案

  • 2025 年 3 月:累计 505 款(大模型备案 346 款,登记 159 款)

  • 2025 年 6 月:新增 93 款

  • 2025 年 11 月:再增 73 款

        趋势很明确:备案从"可选项"变成了"必选项"。

2.2 哪些应用需要备案

        根据《生成式人工智能服务管理暂行办法》,以下情况需要备案:

  • 在中国境内向公众提供生成式 AI 服务

  • 服务具有舆论属性或社会动员能力

  • 利用生成式 AI 技术提供聊天、文本/图像/音视频生成等服务

       不需要备案的情况:仅用于内部研发、不面向公众的服务。但即使不备案,也需要满足安全基本要求。

2.3 备案材料清单

备案核心材料包括:

  1. 算法基本信息:模型架构、训练数据来源、服务范围

  2. 安全评估报告:覆盖内容安全、数据安全、模型安全

  3. 关键词库证明:总规模 ≥ 10,000 个,每周至少更新一次

  4. 分类模型证明:覆盖 31 种安全风险(GB/T 45654-2025 附录 A)

  5. 测试题库证明:生成内容测试题库 ≥ 2,000 条,每月至少更新一次

  6. 拒答测试题库:≥ 500 条,非拒答测试题库 ≥ 500 条

    图片

三、五项合规硬指标

        GB/T 45654-2025《生成式人工智能服务安全基本要求》是大模型合规的总纲性文件。其中有五项量化指标必须达标:

指标

要求

检测方式

语料合格率

≥ 96%

人工抽检不少于 4,000 条

关键词库规模

≥ 10,000 个

每违反社会主义核心价值观的细分类别 ≥ 200 个,歧视性内容每类 ≥ 100 个

生成内容安全合格率

≥ 90%

用测试题库检测

拒答率

≥ 95%

应拒答的必须拒答

非拒答率

≤ 5%

不应拒答的不能误拦

        这五项指标是备案安全评估的核心考核项。 达不到就不能通过备案。

图片

        四、生成合成内容标识:强制性国标

        《网络安全技术 人工智能生成合成内容标识方法》是强制性国家标准,不是推荐性的。这意味着必须执行,没有选择空间。

        4.1 标识要求

  • 显式标识:在用户界面上明确标注内容由 AI 生成

  • 隐式标识:在文件元数据中嵌入可机器识别的标识信息

  • 可追溯:能够追溯到生成该内容的模型和服务提供者

        4.2 技术实现方案

  1. 文本生成:在输出中添加水印或元数据标识

  2. 图像生成:在图像元数据中嵌入标识,或添加可见的水印

  3. 音视频生成:在文件头或元数据中嵌入标识信息

        4.3 检测能力

        网安标委在 2025 年 8 月发布了《人工智能生成合成内容检测》实践指南,梳理了四大类共 50 种 AIGC 鉴伪方法:

类型

方法数量

核心方法

文本检测

8 种

端到端分类器、微调大模型检测器、对比式检测

图片检测

14 种

物理一致性、频域特征、生成伪影、生成指纹

音频检测

9 种

频域特征、生成指纹、时频联合深度学习

视频检测

19 种

关键帧痕迹、时序不一致、多模态联合检测

        五、等保 + AI 新增项:传统等保覆盖不了什么

        很多团队以为过了等保就安全了。这是一个危险的误解。

        等保是必要条件,不是充分条件。 大模型带来了三类等保完全没有覆盖的风险:

        5.1 内容安全(等保:完全缺失)

        模型正常使用中就可能生成违法有害内容。GB/T 45654-2025 要求覆盖 31 类违法不良信息,包括:

  •  违反社会主义核心价值观(8 小类)

  •  歧视性内容(9 小类)

  •  商业违法违规(5 小类)

  •  隐私权益保护(7 小类)

  •  特定服务安全需求(2 小类)

        5.2 模型攻击防御(等保:完全缺失)

        提示注入、越狱、对抗样本、数据投毒、模型窃取——这些攻击方式完全不在等保的"入侵防范"和"恶意代码防范"范围内。

        5.3 安全评估(等保:完全缺失)

        等保有渗透测试,但没有模型安全评估和红队测试的要求。

        5.4 补全路径:三步走

        第一步:等保基线——传统层面的安全一个不能少

        第二步:AI 安全专项评估,补覆盖五项:

  1. 训练数据安全评估

  2.  模型安全评估

  3. 模型防护能力评估

  4. 内容标识与可追溯评估

  5. 运行安全评估(监测、告警、应急、熔断)

        第三步:持续合规运营——安全评测回归、红队对抗常态化、标准跟踪与对标(至少每季度一次)

        六、数据出境与跨境合规

        如果你的大模型应用涉及跨境场景(如调用境外模型 API、服务境外用户),

还需要关注:

  • 数据出境安全评估(个人信息和重要数据)

  • 跨境数据传输的合规要求

  • 使用境外模型的合规风险(数据是否存储在境外服务器)

        这是一个专门的合规领域,建议与法务团队协同处理。

        七、核心标准速查表

标准

发布时间

性质

核心内容

GB/T 45654-2025

2025.4

国标

安全基本要求、31 类风险、5 项量化指标

GB/T 45652-2025

2025.4

国标

预训练数据安全规范

GB/T 45674-2025

2025.4

国标

数据标注安全规范

GB 45438-2025

2025.2

强制性国标

(2025.9.1 实施)

显式/隐式标识、可追溯

TC260-004

2025.9

全国网安标委技术文件

政务大模型 21 个安全要求

AI 安全治理框架 2.0

2025.9

治理框架

风险分类分级、可追溯

4 份 AI 应用安全指南

2026.1

实践指南

总则、数据、用户、行业

图片

        安全负责人行动项:立即确认你的公司是否有面向公众的大模型应用。如果有,要求团队在两周内完成备案材料准备状态评估。

八、合规 Checklist

        把以上内容整合成一份合规检查清单:

        8.1 备案准备

        [ ] 确认是否需要备案(面向公众?有舆论属性?)

         [ ] 准备算法基本信息

         [ ] 完成安全评估报告

         [ ] 建设关键词库(≥ 10,000 个,每周更新)

         [ ] 建设生成内容测试题库(≥ 2,000 条,每月更新)

         [ ] 建设拒答/非拒答测试题库(各 ≥ 500 条,每月更新)

        8.2 量化指标达标

         [ ] 语料合格率 ≥ 96%

         [ ] 生成内容安全合格率 ≥ 90%

         [ ] 拒答率 ≥ 95%,非拒答率 ≤ 5%

        8.3 内容标识

         [ ] 实现显式标识(用户可见)

         [ ] 实现隐式标识(机器可读)

         [ ] 建立可追溯机制

        8.4 AI 安全专项

         [ ] 完成训练数据安全评估

         [ ] 完成模型安全评估

         [ ] 完成模型防护能力评估

         [ ] 完成运行安全评估

        8.5 持续合规

         [ ] 至少每季度做一次标准对标

         [ ] 跟踪国标更新

         [ ] 红队对抗常态化

        九、小结

        合规不是安全建设的终点,而是底线。在中国做大模型应用:

  •  对面向公众、具有舆论属性或社会动员能力的生成式 AI 服务,备案是准入门槛

  •  五项量化指标是硬考核——语料 ≥ 96%、生成 ≥ 90%、拒答 ≥ 95%

  • 生成合成标识是强制性要求——必须实现显式和隐式标识

  • 等保不够——必须补上内容安全、模型攻击防御、AI 安全评估三项

  •  持续合规——至少每季度做一次对标,跟踪标准更新

       参考资料

  •  GB/T 45654-2025《生成式人工智能服务安全基本要求》

  •  GB/T 45652-2025《生成式 AI 预训练和优化训练数据安全规范》

  •  GB 45438-2025《网络安全技术 人工智能生成合成内容标识方法》(强制性国标,2025.9.1 实施)

  •  TC260-004《政务大模型应用安全规范》

  • 《人工智能安全治理框架》2.0 版

  •  网安标委《人工智能生成合成内容检测》实践指南(50 种 AIGC 鉴伪方法)

参考文献:

1、探讨大模型应用安全建设系列6——合规备案:大模型备案与监管合规实操

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐