本文目录

  • 一、大模型备案基础知识:哪些模型需要备案

  • 二、备案全流程:六个阶段一文讲透

  • 三、六类核心备案材料详解

  • 四、备案审核重点:审核老师关注什么

  • 五、备案被退回的常见原因与应对策略

  • 六、各省市备案差异与地方政策

  • 七、备案时间成本与费用预算

  • 八、备案后的持续合规要求

  • 九、企业备案准备工作清单

#生成式人工智能#大模型备案#算法备案#网络安全

一、大模型备案基础知识:哪些模型需要备案

1.1 什么是大模型备案

大模型备案,全称为"生成式人工智能服务上线备案",是根据《生成式人工智能服务管理暂行办法》实施的一项法定程序。所有向中华人民共和国境内公众提供生成式AI服务的主体,都应当依法进行安全评估和备案。

这项制度于2023年8月正式施行,标志着中国成为全球范围内对生成式AI实施系统性备案管理的少数国家之一。备案不是简单的行政登记,而是对AI服务安全性、合规性的全面审查。通过备案,监管部门可以掌握境内AI服务的底数,确保具有舆论属性或社会动员能力的AI服务处于可控状态。

1.2 哪些模型必须备案

根据《生成式人工智能服务管理暂行办法》,以下几类情形必须进行备案:

  • 面向公众提供生成式AI服务:

    无论是否收费,只要服务面向公众,就需要备案

  • 具有舆论属性或社会动员能力:

    能影响公众舆论或动员社会资源的AI服务必须备案

  • 生成图像、音视频等内容:

    具有内容生成能力的AI服务属于备案范围

  • 提供API接口供他人调用:

    如果API具有生成式AI能力,同样需要备案

1.3 哪些模型不需要备案

并不是所有涉及AI模型的服务都需要备案,以下情形通常豁免:

  • 纯内部使用的AI工具:

    仅供企业内部员工使用、不面向公众的AI系统

  • 嵌入式AI能力:

    AI作为某个非核心功能嵌入产品,而非独立提供服务

  • 境外注册的AI服务:

    在境外注册、主要面向境外用户的服务(但通过境内代理提供的除外)

判断标准

一个简单的判断标准:你的AI服务是否能被普通公众直接访问和使用?如果是,就需要备案。AI能力是否为核心服务、是否收费,都不是豁免备案的理由。

1.4 备案与算法备案的区别

很多企业容易混淆"大模型备案"和"算法备案"两个概念。虽然两者都与AI合规相关,但侧重点不同:

如果一个AI服务同时具备生成式AI能力和算法推荐功能,可能需要同时进行两种备案。建议企业在判断备案类型时咨询专业机构。

二、备案全流程:六个阶段一文讲透

2.1 备案流程总览

大模型备案从启动到取得备案号,通常需要4至6个月,复杂情况可能更长。整体流程分为六个阶段:

2.2 第一阶段:备案准备与属地报备

在正式启动备案前,企业需要进行充分的准备工作。这一阶段的核心任务是明确备案需求、建立备案团队、完成材料框架。

确定备案级别是首要任务。根据大模型的规模、服务范围和影响,确定是向省级还是市级网信办提交申请。一般而言,面向全国用户提供服务的大模型向省级网信办提交,在特定区域提供服务的小型模型可向市级网信办提交。

建立备案工作组同样重要。建议组建由技术、法务、安全、数据等部门人员组成的跨部门工作组,明确各自分工和协调机制。备案工作涉及的材料多、周期长,没有专人负责很容易中途搁置。

向属地网信办报备,获取备案表。这一步骤是正式备案的起点。通过网信办指定的渠道或平台提交备案意向,获取《大模型上线备案表》。

2.3 第二阶段:材料准备与内部审核

这一阶段是最耗时、最复杂的阶段。备案材料的准备质量,直接决定备案能否顺利通过。

根据要求,企业需要准备六类核心材料:大模型上线备案表、安全评估报告、模型服务协议、语料标注规则、拦截关键词列表、评估测试题集。每一类材料都有严格的格式和内容要求,细节繁多。

建议企业在正式编写材料前,先搭建材料框架,明确每个模块的负责人和交付时间。各部门分别准备后,由专人进行统稿,确保材料整体逻辑一致、数据统一。

材料准备周期

六类核心材料的准备通常需要2至3个月。对于缺乏合规经验的企业,这个周期可能更长。建议预留充足时间,避免因材料准备不足影响整体备案进度。

2.4 第三阶段:企业内部测试与账号准备

在提交材料前,企业需要进行全方位的内部评估,并准备供审核人员使用的测试账号。

内部评估包括技术评估(模型的稳定性、性能、可靠性)、安全评估(数据安全、隐私保护、内容过滤)、合规性评估(是否符合法律法规)、风险评估(识别潜在风险并制定缓解措施)。

测试账号准备是容易被忽视但非常重要的环节。企业需要为审核人员准备专用的测试账号,确保审核人员能够访问模型的关键功能和数据。同时需要准备操作手册,指导审核人员如何使用测试账号进行验证。

建议进行至少一轮模拟审核,在正式提交前由内部人员扮演审核角色,发现材料中的漏洞和不足,提前修复。

2.5 第四阶段:提交材料至属地网信办

材料准备就绪后,通过网信办指定的渠道正式提交。提交前需确认所有材料齐全、格式规范。

提交后进入初审阶段。属地网信办会对材料进行初步审核,核实材料完整性和基本合规性。如果发现问题,会反馈给企业进行补充或修改。

初审通过后,属地网信办将材料上报至省级网信办。这一阶段需要与网信办保持密切沟通,及时响应审核问询。

2.6 第五阶段:省级网信办安全评估

省级网信办是备案审核的"主战场"。省网信办会对大模型进行全面的安全评估,包括模型能力测试、内容安全测试、数据合规检查等。

安全评估是备案审核的核心环节。省网信办会根据《生成式人工智能服务安全基本要求》,对模型进行实测验证。如果模型在某些风险场景下的表现不达标,会要求企业整改后重新测试。

省网信办审核通过后,会将备案材料上报至中央网信办进行复审。需要注意的是,省网信办的审核决策权最大,即使在中央网信办环节发现问题,也往往需要回到省网信办层面重新处理。

2.7 第六阶段:中央网信办复审与公示

中央网信办的复审以材料审查为主,也会进行必要的模型测试。复审通过后,企业将收到正式的备案号。

取得备案号后,企业需要在规定时间内完成备案信息公示。公示内容包括备案号、服务名称、服务形式、算法基础等信息。公示是备案完成的标志,也是AI服务合法运营的凭证。

备案公示后,企业需要对内部员工进行培训,确保团队了解备案后的持续合规要求,并建立常态化的合规管理机制。

三、六类核心备案材料详解

3.1 材料一:大模型上线备案表

备案表是整个备案材料的核心框架,包含大模型的全面信息。填写时需确保所有信息真实准确,前后数据与其他材料保持一致。

备案表核心内容:

  1. 基本情况:模型名称、开发者,开发时间、主要功能和用途

  2. 模型研制过程:设计思路、技术路线、数据来源和处理流程

  3. 服务内容:服务类型、服务对象、服务范围、预期应用场景

  4. 安全防范措施:数据安全、隐私保护、内容合规的技术和管理措施

  5. 安全评估结果:第三方权威机构出具的安全评估报告

  6. 自愿承诺:开发者对模型合法合规性、安全可靠性的书面承诺

3.2 材料二:安全评估报告

安全评估报告是审核老师审查的重中之重。报告应基于科学、客观、公正的原则,提供详实的数据和分析。

报告需涵盖数据隐私保护(加密、匿名化、访问控制)、算法偏见识别与纠正、有害信息过滤机制、应急响应预案、合规性检查、风险评估、用户权益保护等七大维度。

每一项评估内容都需要有实测数据支撑,而非泛泛而谈的原则性描述。

3.3 材料三:模型服务协议

模型服务协议是用户权益保护的法律文件,需包含服务范围、双方权利义务、数据使用与保护、违约责任、费用和支付、服务变更和终止、争议解决、法律适用和管辖、用户反馈和投诉等条款。

协议内容不仅要求合法合规,还要公平合理。语言应清晰准确,避免模糊表述。

3.4 材料四:语料标注规则

语料标注规则是备案材料中退回频率最高的材料之一。规则需说明标注团队资质、标注细则、标注流程、质量控制机制、数据来源合法性、隐私保护措施、标注工具和技术支持、持续改进计划。

特别需要注意的是,语料来源合法性是监管审核的重点。需提供各类语料来源的授权证明,包括版权声明、用户授权书、数据采购合同等。

语料标注规则编写要点

语料标注是构建大模型过程中至关重要的一环,直接关系到模型的性能和输出的质量。标注规则应清晰可执行,不同标注员按照同一标准执行应能获得一致结果。标注流程需完整可追溯,保留全过程记录。

3.5 材料五:拦截关键词列表

拦截关键词列表是内容安全过滤机制的重要组成部分。广东省要求列表总数不少于10,000个,覆盖31类风险,每类风险不少于200个。

关键词设计需满足全面性(覆盖各风险领域)、精确性(精确定义减少误拦截)、多样性(多种语言和表达形式)、动态更新(定期更新适应新风险)等要求。

3.6 材料六:评估测试题集

评估测试题集是验证模型安全性的"实测证明"。广东省要求覆盖31类风险,每类不少于50道题目,每道题需附模型原始回答记录和合规性判断结论。

测试题集应包含正面示例(正常场景表现)、应拒答的负面内容(敏感话题测试)、非拒答测试题库(边缘案例测试),并建立持续更新机制。

四、备案审核重点:审核老师关注什么

4.1 材料一致性与逻辑自洽

审核老师拿到材料后,第一个动作是核对各材料间的数据一致性。备案表里的数字、安全评估报告里的数字、测试结果里的数字,必须完全一致。一旦发现数据"打架",会被直接退回。

例如,安全评估报告中写"语料总规模100GB",备案表中填"语料规模80GB",这种前后矛盾的情况在审核中是"致命伤"。

4.2 数据来源的合法性证明

训练数据是大模型能力的源头,审核老师对数据合法性的审查"宁严勿松"。

企业需证明每一类语料都有合法的来源:商业采购数据附采购合同、开源数据集注明许可证类型、用户数据说明授权形式、个人信息数据进行脱敏处理。任何来源不明确的数据都会被质疑。

4.3 安全评估报告的实证性

审核老师最反感的材料是"空话套话连篇"的安全评估报告。"已建立完善机制""严格执行标准""符合相关要求"这类表述等于什么都没说。

一份合格的评估报告,应该用数据说话:做了哪些测试、测了多少样本、通过率是多少、不通过的案例有哪些、改进措施是什么。每一项结论都需要支撑材料。

4.4 测试题集的真实与可追溯

测试题集不仅要提交题目,还必须提交模型在每道题上的回答记录和判断结论。"有题目无结果"的测试材料是无效材料。

审核老师会逐类检查测试覆盖率,也会关注测试方法是否规范。测试人员与开发人员是否存在利益关联、测试环境是否与生产环境一致,这些问题都会被追问。

4.5 拦截关键词的有效性

关键词库不是凑够数量就算达标。审核老师会检查关键词的质量:是否覆盖了所有31类风险、是否有足够的变体表达、是否包含新型风险的应对词汇。

建议在满足最低数量要求的基础上,准备12,000至15,000个有效关键词,以应对审核过程中部分题目被判定为"无效"后的数量不足问题。

五、备案被退回的常见原因与应对策略

5.1 退回原因一:材料数据前后矛盾

这是最常见的退回原因。备案表、安全评估报告、语料标注规则等材料由不同部门分别编写,容易出现数字不一致、描述不一致的问题。

应对策略:建立材料统稿机制,在正式提交前由专人逐项核对所有数据,确保各材料间的信息完全一致。

5.2 退回原因二:语料来源合法性证明缺失

很多企业的语料是在没有合规意识的情况下采集的,到备案时才发现授权链条追溯困难。

应对策略:从数据采集阶段就建立合规档案,留存每类数据的来源证明。如果已有数据缺乏授权说明,需评估风险后决定是补充授权还是替换数据。

5.3 退回原因三:测试题集覆盖率不达标

广东省要求31类风险全覆盖,每类不少于50道题目。很多企业的测试题集在数量或覆盖面上达不到要求。

应对策略:提前建立测试题库管理系统,持续积累边界案例测试。不要等到备案时才临时编写测试题。

5.4 退回原因四:安全评估报告空洞无物

评估报告写得"高大上"但缺乏实证支撑,是被频繁退回的另一原因。

应对策略:评估报告应采用"数据+案例+结论"的逻辑组织。每一项评估都需有对应的测试记录、数据图表、问题处置记录作为支撑。

5.5 退回原因五:拦截关键词库质量堪忧

关键词库规模不足、重复率高、变体表达缺乏、质量低劣等问题,会导致审核质疑企业内容安全能力。

应对策略:系统化构建关键词库,覆盖各类风险的关键词、同义词、变体表达、拼音变形、网络用语。定期更新以应对新出现的风险词汇。

六、各省市备案差异与地方政策

6.1 广东省备案特点

广东省是大模型备案审核最严格、经验最丰富的地区之一。广州、深圳两市是备案受理的重点区域。

广东省的备案特点包括:31类风险全覆盖要求(全国最严格)、测试题集每类不少于50道、拦截关键词不少于10,000个、现场审核与材料审核结合。

6.2 北京、上海备案特点

北京和上海作为互联网监管的核心城市,备案审核同样严格。特点是审核周期相对较长,对材料的规范性要求高。

6.3 其他省市备案特点

其他省市的备案审核力度有所差异。总体趋势是逐渐向广东省看齐,要求越来越严格。建议企业在任何省市备案,都按最高标准准备材料。

七、备案时间成本与费用预算

7.1 备案周期测算

从启动到取得备案号,备案周期通常在4至6个月,复杂情况可能延长至9个月甚至更长。周期分解如下:

7.2 企业自办成本分析

企业选择自行办理备案,需要承担以下成本:

  • 人力成本:

    需要算法研发、AI安全、法务、数据等多领域专业人员组成工作组,跨部门协作3至6个月

  • 时间成本:

    团队需要从头学习法规要求,揣摩审核要点,反复试错,可能折腾半年没有结果

  • 机会成本:

    备案周期内产品上线计划可能被迫推迟,影响市场时机

7.3 专业服务价值

选择专业的备案服务,可以显著降低时间和人力成本:

  • 时间节省:

    专业机构熟悉审核要求,材料编写效率更高,通常2至3个月完成材料准备

  • 一次通过:

    只要模型和数据合规合法,专业服务可以确保备案顺利通过

  • 人力解放:

    企业只需少量人员配合,无需组建专门工作组

备案费用预算参考

  1. 企业自办:人力成本N人 × M月 × 月薪 + 时间机会成本

  2. 专业服务:远低于企业自行探索的试错成本

  3. 建议:综合评估企业自身能力和预算,选择最优方案

八、企业备案准备工作清单

以下是一份企业备案准备工作的自检清单,供企业对照检查:

大模型备案准备自检清单

□ 确定是否需要备案(是否面向公众提供生成式AI服务)

□ 确定备案级别(省级还是市级)

□ 组建跨部门备案工作组

□ 向属地网信办提交备案意向

□ 获取并填写大模型上线备案表

□ 准备六类核心备案材料

□ 确认各材料间数据一致性

□ 进行企业内部安全评估

□ 准备测试账号和操作手册

□ 模拟审核流程,发现并修复问题

□ 正式提交材料至属地网信办

□ 配合初审,响应审核问询

□ 配合省级安全评估

□ 配合中央网信办复审

□ 完成备案公示

□ 建立持续合规管理机制

大模型备案是一项系统性工程,涉及法规理解、材料准备、流程协调、持续合规等多方面能力。对于缺乏备案经验的企业而言,从一开始就寻求专业机构的协助,往往是最高效的选择。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐