GB/T 45654-2025 实施后，大模型备案该怎么准备？

目黑live

254人浏览 · 2026-06-08 15:30:28

目黑live · 2026-06-08 15:30:28 发布

文章目录

01 GB/T 45654-2025 实施后，真正变化在哪里

02 先判断路径：完整备案，还是上线登记

03 调用第三方API，不等于没有应用层责任

04 备案材料不是孤立文件，而是一条证明链

05 不同 AI 产品，最容易卡的问题不一样

06 安全评估为什么最容易卡住

07 测试题库和关键词库，不能只是"凑数量"

08 语料合规是很多企业忽视的底层问题

09 企业到底要准备哪些材料

10 上线前，做一次备案准备度自查

很多 AI 产品不是卡在技术上线，而是卡在合规上线。

前端页面做好了，模型 API 接好了，知识库也能正常问答了，客户甚至已经准备试用，但到了真正对外发布前，企业才发现几个关键问题还没判断清楚：

这个产品到底是完整备案，还是上线登记？

调用了已备案模型，应用层还要不要准备材料？

安全评估报告有没有测试题库、关键词库？

知识库、训练语料、用户上传文件的来源和授权能不能说清楚？

GB/T 45654-2025 实施后，大模型备案材料准备的重点，已经不是"有没有写文件"，而是"文件背后有没有真实的安全评估、数据治理、内容风控和整改闭环"。

如果你的企业已经有智能客服、知识库问答、AI 写作工具、行业大模型应用、数字人问答系统，或者正在通过 API 调用第三方大模型能力对外提供服务，建议在正式上线前，先判断三件事：

产品到底属于完整备案，还是上线登记；
现有材料能否支撑安全评估；
哪些材料缺口会影响后续审核和上线节奏。

如果这三个问题没有提前说清楚，后面再补测试、补语料说明、补整改记录、补制度文件，往往会带来更多返工成本

01、GB/T 45654-2025 实施后，真正变化在哪里

过去不少企业准备大模型备案材料时，容易把重点放在"流程怎么走""表格怎么填""材料怎么凑齐"。

但真正推进时，往往卡在更底层的问题：

模型来源说不清；
语料来源说不清；
是否微调、是否二次开发说不清；
调用第三方 API 后，本应用承担什么安全责任说不清；
安全评估报告过于模板化；
测试题库覆盖不足；
关键词库只是简单堆敏感词；
没有越狱攻击、提示注入、违规诱导、过度拒答测试；
没有整改记录、复测记录和处置闭环；
服务协议、投诉举报、日志留存、应急机制之间无法相互对应。

GB/T 45654-2025 的实际价值，不是让企业材料变厚，而是让生成式人工智能服务安全要求变得更可拆解、可测试、可证明。

对企业来说，它可以帮助企业把"我们有安全机制"这种主观表述，转化成"有分类、有样本、有测试、有记录、有整改"的证据体系。

备案看的是产品能不能合规上线，国标提供的是安全评估和材料准备的重要参考。两者结合起来，才是现在 AI 产品上线前更稳妥的准备方式。

02、先判断路径：完整备案，还是上线登记日

企业最容易误判的第一个问题是：我的产品到底要不要做完整备案？

判断路径时，不能只看"有没有自研大模型"，还要综合看产品是否面向公众、是否具备生成能力、模型能力从哪里来、是否做了微调或二次开发、是否形成独立生成式人工智能服务。

可以先看几个核心维度：

一般来说，如果企业是自研大模型，或者基于开源模型、第三方模型进行了微调、训练、能力改造，并面向公众提供生成式人工智能服务，通常需要重点评估是否涉及完整备案。

如果企业通过 API 接口或其他方式直接调用已备案模型能力，且主要是在应用层提供生成式人工智能功能，一般应重点关注是否属于地方网信办登记路径，同时仍需落实应用层内容安全、数据处理、日志留存、投诉举报和公示等要求。

需要注意的是：调用第三方已备案模型，并不等于企业完全没有合规责任。底层模型已经备案，只能说明模型服务本身具备相应备案基础。你的产品是否需要登记、是否需要公示、是否需要做应用层安全测试，还要结合具体产品形态判断。

尤其是以下几类产品，更应提前判断路径：

智能客服
AI 写作工具
企业知识库问答
行业大模型助手
数字人问答系统
AI 辅助决策工具
基于第三方 API 封装的 SaaS 产品
面向外部客户开放的 AI 插件或 API 服务

03、调用第三方 API，不等于没有应用层责任

现在很多 AI 应用不是自研基座模型，而是调用通义、文心、腾讯混元、智谱、豆包、DeepSeek 等第三方模型能力，再叠加自身业务系统、知识库、提示词、前端交互、工具调用和权限管理。

这类企业经常会有一个误判：

"底层模型已经备案了，我们只是调用 API，所以不用管备案和安全评估。"

这个判断存在明显风险。

因为监管关注的不只是底层模型，还包括你最终向用户提供的生成式人工智能应用或功能。

应用层可能引入新的风险：

接入企业知识库，可能涉及商业秘密；
开放用户上传文档，可能涉及个人信息和第三方权利；
设计系统提示词，可能影响模型输出边界；
增加插件、工具调用、联网搜索，可能扩大输出风险；
面向特定行业提供建议，可能涉及专业责任边界；
对外宣传"智能顾问""自动决策""专业诊断"，可能提高用户依赖程度；
保存用户输入和输出日志，可能涉及数据安全和个人信息保护；
对外上线后未公示所调用模型的备案或登记服务信息，可能存在展示不充分问题。

因此，调用第三方 API 的企业，至少应提前完成三件事：

确认所调用模型的备案或登记信息
以及供应商授权、服务协议和接口调用关系。
判断自身产品是否属于直接调用已备案模型能力的应用或功能
是否需要办理上线登记。
围绕自身应用场景做应用层安全测试和材料准备
而不是完全依赖底层模型供应商。

04、备案材料不是孤立文件，而是一条证明链

很多企业准备材料时，会把产品说明、模型说明、安全评估报告、服务协议、制度文件、测试记录分开写。

表面上看，每份文件都有内容，但合在一起却无法形成闭环。

备案材料真正要解决的是一条证明链：

产品是什么；
使用什么模型；
模型能力从哪里来；
训练或调用的数据从哪里来；
可能产生哪些安全风险；
企业如何测试这些风险；
测试发现问题后如何整改；
整改后如何复测；
上线后如何监测、处置、留痕和持续优化。

如果这条链断了，材料就容易显得空。

例如，安全评估报告里写"已建立内容安全机制"，但没有测试题库、关键词库、人工复核记录、整改记录支撑，就会显得像模板话术。

再比如，产品说明里写"本产品用于企业知识库问答"，但语料说明里没有说明知识库资料来源、授权范围、更新机制、脱敏规则、用户上传内容处理方式，就会出现数据来源和服务能力不匹配的问题。

再比如，技术说明里写"调用第三方已备案模型"，但没有说明本应用是否有提示词工程、RAG 检索增强、插件调用、联网搜索、工具调用、用户画像、数据回传、日志留存，就无法判断应用层风险是否已经被充分识别。

因此，GB/T 45654-2025 实施后，企业准备材料时更应该按照"产品—模型—语料—测试—整改—上线—持续监管"的逻辑来组织，而不是简单把文件堆在一起。

图示：提交至网信办过审版本材料

05、不同 AI 产品，最容易卡的问题不一样

大模型备案或上线登记不能只看产品名称。不同产品形态，材料准备重点也不一样。

这也是为什么很多企业不能简单套用同一份模板。

智能客服的材料重点，和 AI 写作工具不一样；行业大模型的安全评估重点，和普通聊天机器人也不一样；调用第三方 API 的 SaaS 产品，和自研模型服务的备案路径也不完全一样。

真正有用的材料，必须围绕产品实际功能、服务对象、模型来源、数据流转和风险场景展开。

06、安全评估为什么最容易卡住

大模型备案最容易卡住的，通常不是"有没有提交材料"，而是安全评估是否能证明产品具备安全可控能力。

安全评估不是问几个敏感问题，也不是让模型拒答几次就结束。

真正有用的安全评估，至少应关注以下几个方面：

很多企业只关注"违规内容不能输出"，却忽视了两个问题。

第一，模型不能只会拒答。如果正常业务问题、合法咨询、合规内容也大量被拒绝，说明模型安全策略可能过度保守，影响用户正常使用。安全评估既要测"该拒绝时是否拒绝"，也要测"该回答时是否能正常回答"。

第二，测试必须有整改闭环。如果测试发现模型存在风险输出，企业不能只写"后续优化"。更稳妥的做法是记录风险样本、命中类别、问题原因、整改措施、复测结果、责任人员和完成时间。

这样才能体现企业具备持续改进能力。

07、测试题库和关键词库，不能只是"凑数量"

不少企业会问：大模型备案测试题库要准备多少条？关键词库要怎么做？

这个问题不能只看数量，更要看覆盖范围、风险分类、业务相关性和可复测性。

一套相对可用的安全测试题库，通常应当具备以下特点：

覆盖通用安全风险。
包括违法违规内容、不良信息、虚假有害信息、歧视偏见、暴力极端、个人信息泄露、知识产权侵权、商业秘密泄露等。
覆盖具体业务场景。
例如智能客服要测试售后纠纷、投诉引导、诱导交易、虚假承诺；法律问答要测试非法规避、误导性建议、敏感案件；金融场景要测试投资建议、收益承诺、风险误导；医疗健康场景要测试诊断建议、用药建议、危急症状处置。
覆盖攻击性输入。
包括越狱攻击、角色扮演、提示注入、多轮诱导、编码绕过、拆分表达、反向指令、要求模型忽略系统规则等。
覆盖正常问题。
测试模型是否对正常业务咨询、一般知识问答、合理内容创作请求进行过度拒答。
保留测试记录。
每条测试样本应当记录问题、预期结果、实际输出、风险判断、是否通过、整改措施和复测结论。