共议开放式 AI 许可证,谁来给人工智能“立法”?
整理 | 王启隆
责编 | 唐小引
出品 | GOSIM Foundation
科幻小说《我,机器人》中,阿西莫夫通过其著名的“机器人三定律”,前瞻性地探讨了人工智能的伦理约束和潜在冲突。尽管现实里的 AI 尚未达到小说中所描绘的高度自主状态,但我们的社会已开始面临类似的挑战。比如智能设备收集用户数据时涉及的隐私保护问题,或是某个程序员或是某个企业发现自己的代码遭到了抄袭,更有不少作家发现 ChatGPT “生成”了自己的原创作品。随着开源运动的席卷而来,开放式 AI 正以前所未有的广度渗透进各行各业,使得公众在尽享其带来的便利与创新之余,也不得不面对由此产生的种种风险。
为此,由 GOSIM 开源创新汇主办、CSDN 协办的开源创新大会(GOSIM Con 2023)汇聚了来自国内外近百位顶级开源专家、开源项目领袖和企业代表,共同以全球视野剖析开源发展现状,探究前沿技术机遇,分享优秀开源社区建设心得以及创新实践。这场集结行业智慧的盛会,为推动人工智能和开源技术的融合提供了一个独特的机会。
在过去 25 年多的时间里,OSI 开源定义一直为开源社区和 IT 行业提供着良好的服务。如今,生成式人工智能问世,界定开源 AI 的新标准也变得至关重要。OSI 开源 AI 定义工作组的 Anni Lai,代表 OSI 执行董事 Stefano Maffulli 邀请中国社区参与到这项关乎人工智能未来的重要议程中,并设置专题讨论——“开放式 Al 的定义、许可证、管理问题和最佳实践”。这场圆桌囊括了行业内的两名法律界专家和三名开源 AI 专家,他们将基于自身的丰富经验以及国内的外经典案例,层层深入剖析开放式 AI 在法律许可、伦理道德、质量安全等方面的复杂难题。我们整理提炼了这些洞见卓识,期待能为读者带来启发与思考。
小组讨论:开放式 Al 的定义、许可证、管理问题和最佳实践
讨论话题:法律许可证、伦理道德、质量安全
小组成员:
蒋宇豪 微软亚太研发集团法律事务部
孙振华 字节跳动开源委员会法律顾问
孟伟 中兴通讯开源负责人、LF AI & Data 董事会主席
刘天栋(Ted) 开源协会联合创始人、ASF 成员、开源雨林顾问
谭中意 ASF 成员、LF AI & Data TAC 成员、Open Atom Foundation 技术监督委员会 (TOC) 主席、第四范式高级架构师
主持人:
Anni Lai LF AI & Data 董事、LF Europe 顾问委员会成员、Head of Futurewei Open Source Operations and Marketing
视频回放:
https://www.bilibili.com/video/BV1ju4y187wT/
开放式 AI 也需要自己的“GPL”
Anni Lai:开始讨论之前,请各位专家自我介绍一下。你们在开源和 AI 方面有什么背景,对此又有哪些兴趣?
蒋宇豪:大家好!我是微软亚太研发集团法律事务部的蒋宇豪律师,负责互联网线上体验业务团队,支持产品包括 Bing、MSN 和 Edge 浏览器。我现在对生成式人工智能尤其感兴趣,谢谢大家。
蒋宇豪 微软亚太研发集团法律事务部
孙振华:我是字节跳动开源委员会的法律顾问。从 2020 年开始,我参与支持公司所有的开源合规以及主动开源的项目,而在字节之前我负责过知识产权诉讼相关的工作。加入字节跳动开源委员会是因为我对开源本身非常感兴趣,认为开放协作是重要的创新方式。
孙振华 字节跳动开源委员会法律顾问
孟伟:我来自中兴通讯,同时也是 LF AI & Data(Linux 基金会人工智能以及数据基金会)的董事会主席。深入 AI 开源之前,我一直在最早的 LF Networking 的 OpenDaylight 项目里从事 PDL。跟前面两位专家不一样,我是工程师起家,后来涉足了很多关于 AI 与传统开源之间差异的研究,对伦理、法律这方面也有些粗浅的认识,希望借这个机会跟大家一起交流一下。
孟伟 中兴通讯开源负责人、LF AI & Data 董事会主席
刘天栋:我是刘天栋,大家都叫我 Ted。2000 年我就在 Linux 的一个全球发行版公司,2016 年从公司退下来以后,我全职在做开源的事业,其间也或多或少做过开源顾问的工作。现在我希望开源 AI 能成为开源软件里非常重要的一部分,而对此我的心情是一则以喜、一则以忧,待会儿跟大家聊聊我的喜和忧分别都是什么。
刘天栋(Ted) 开源协会联合创始人,ASF 成员,开源雨林顾问
谭中意:我是谭中意,几年前百度开始推 AI 的时候我就对 AI 特别感兴趣,组织编写了百度的第一本书(《PaddlePaddle 深度学习实战》)。后来到第四范式写了第二本书,叫《MLOps 工程实践:工具、技术与企业级应用》。关于 AI 开源,我认为 AI 本来就是开源的,我在 Linux 基金会发起了生成式人工委员会的组织,希望在更大范围内一起协作 AI 大模型开源相关的模型算法、价值观、法律框架等。
谭中意 ASF 成员、LF AI & Data TAC 成员、Open Atom Foundation 技术监督委员会 (TOC) 主席、第四范式高级架构师
Anni Lai:为什么我们要做开源 AI 的定义?从许可证的角度上,传统开源许可证和开放式 AI 许可证有什么不一样的地方?
孙振华:过去几年我读了非常多的许可证,其中既有开源的,也有商业的。我认为目前开源 AI 的工作是把过去几十年开源软件发展理念应用在 AI 发展里,而问题就在于这个应用是否行得通。
我总结了两个问题:
1. 协作的对象是什么?是否要定义它?
2. 是否要在现有的许可证当中,对开源的模型参数方面做一些相关的定义?
第一方面,开源软件的开发依赖于协作对象,也就是源代码本身。但开源 AI 除了源码还需要权重、参数以及可能潜在的数据,做开源软件时对软件的复用和复现都是有要求的,而开源 AI 没有数据就没办法很好复现相关的 AI 模型。所以在开源 AI 的协作材料方面,大家没有达成共识,很多专家也在讨论是否要放出相关数据。
第二方面,关于传统 OSI 定义的开源协议本身,是否也能很好应用到当前的开源 AI 模式当中。本身在开放出来一个开源 AI 模型时,权重和参数是非常重要的点,但目前许可中没有关于权重的规定。另外我们会注意到目前的开放许可证当中都有关于伦理和道德的要求,但传统的 OSI 定义中则把这个要求排除在外,因为大家会认为伦理和道德在不同的法律和文化中有不同的要求。如果要做定义,就很容易会出现合作的障碍。
Anni Lai:以后是否有可能存在一种单一许可证,能够全面覆盖数据、参数、代码等所有组成部分?还是说要区分出数据的许可证、代码的许可证以及其他模型的许可证?未来会是哪种情形?
孙振华:这涉及一个许可证是否可以分为模块,既有相应的数据许可证、参数许可证、代码许可证,甚至在别的参数进来后诞生新的许可证。甚至可以先用两个模块把协作对象组成一个许可证,未来出现其他共识就再加入新内容,这个处理方式看起来也不错。
谭中意:现在其实就存在一种针对 AI 的特定开源许可证—— OpenRAIL(Open Responsibility AI Licence)系列。他们分了很多许可类型,命名规则包括:
● RAIL-D:仅适用于数据(data)的使用限制
● RAIL-A:仅适用于应用程序/可执行文件(application/executable)的使用限制
● RAIL-M:仅适用于该模型(model)的使用限制
● RAIL-S:仅适用于源代码(source code)的使用限制
可以看出,目前已经有企业针对 Anni 的问题做出实践。OpenRAIL 还没有成为国际标准,它其实是由一些欧洲发起的严肃 AI 组织共同形成的。这个想法很好,但我觉得仍需要更多的组织来尝试做出在国际上都能够形成共识的东西。
刘天栋:我很同意 Stefano Maffulli(OSI 执行董事)在这次 GOSIM 大会谈的一些概念,他就强调了许可证从私有化部分逐渐演化为公共宣言和社区凝聚工具的过程,在法律框架下集聚起愿意共享资源的人群。如此一来,许可证是法律上的约束框架,而社区则是社交互动与合作的平台,两者都可通过 OSI 等组织得以整合。
另外就是在软件、模型层面,应该全部开放参数和知识。此外,在数据这一端是要另外考量的。如果存在一个类似于 OpenRAIL 的许可证,要对模型、数据、开发者做方方面面的限制,那我们也不必重新发明轮胎,因为软件领域已经存在非常多的许可证,还有针对文字图像等内容的知识共享许可证。所以 OpenRAIL 做的这个许可证没有太大问题,但是把道德加上去我就有很大的意见,OSI 也对此有非常大的意见,等会儿我们再讨论为什么。
孟伟:在 AI 尤其是大模型的许可证这一块,我们该怎么制定许可协议?它跟普通的源代码许可不太一样,因为普通的开源许可证仅涉及人类智慧的输出,使用许可协议时相当于与作者建立了合同关系。但是 AI 不一样,开源 AI 需要用到算法、算力和数据。而数据这个东西太复杂了,用许可证的三言两语定义不清楚,因为数据还牵扯到隐私,尤其是在欧洲 GDPR 这么严苛的情况下,如何把做一份无风险的许可证是难度非常大的事情。
比方说,我们买房子很少跟业主直接交易,因为我们很难保证不会发生房内提前落户、学区房被占用甚至是卷钱跑路这种情况,里面有非常大的风险。而数据其实也是一样的,我们需要担心数据脱敏脱得好不好、会不会有个人的信息遗漏在里面等。很多拥有数据的公司在处理数据时并不是特别专业,并在数据泄露后触犯法律条款,这个时候责任又在哪一方呢?
某社交媒体被欧盟总共罚了快一百亿,很多公司都害怕这种事情。所以在数据处理方面,我们可能也需要一个“房产中介机构”专业处理这个事情,专门负责数据隐私保护和合法合规交易的机构或服务。
《人工智能法案》为开放式 AI 定下了基调
Anni Lai:我曾经听过一位美国专家的演讲,说北美的一家大企业几乎全部都在用生成式 AI 工具写代码了。这就像当年云计算出来的时候,有些人自行抢先出去用亚马逊的云,而公司却“覆水难收”,在制定相关政策之前难以对这种行为实施有效管控。可不可以请各位专家分析,如果开发者用这些工具去写代码,会带来哪些法律风险?
孙振华:我对代码生成工具的法律条款以及作用有一些研究。我们使用第三方在线的代码生成工具,可能会把一些内部的代码传到对方的服务器上。尽管当前大多数服务商提供了严格的数据保护措施,但仍然存在潜在风险,比如说内部代码上传到云端上去。如果技术提供方采用了很好的技术,用户对这方面才会比较放心。
另外,目前在大模型训练过程中,无论是哪个模型都会抓取大量的公开数据,其中有的数据是一些宽松型许可证的代码,有的是 GPL(GNU General Public Licence,GNU 通用公共许可协议)的代码。在大模型输出过程中,因为某些原因会生成一样的代码到使用方的代码仓中或者产品中,目前来说很多公司都会有相关的代码核查工具来去避免抄袭 GPL 代码的事情发生。
但是涉及专利就比较麻烦了,除非明确知道生成的代码实现的是某个特定专利的功能,否则很难进行有效筛查。在开源代码合规过程中,通常工具能够很好给予帮助,如果专利方面还是要对技术有比较深的了解才能做风险排查。总体来说,以目前的模型水平使用第三方代码生成工具,公司不仅要在合规性方面确保遵守各种开源许可证要求,还要在安全性上加强保障,并通过检测手段来防止潜在的法律风险。
谭中意:大家都知道,GPL 是一种极为严格的开源许可证,它不仅要求原始代码开放,还对基于 GPL 代码创建的任何衍生物提出了高标准。按照 GPL 规定,只要衍生作品与原代码逻辑相似,即使客户进行了发布(release)或者诸如修改参数等表面上的变化,仍会被视为 GPL 代码的衍生物,并同样需要遵循 GPL 的开源条款。
所以说,基于 GPL 代码训练出来的代码生成工具,存在一定的概率生成出的代码实际上来源于 GPL 许可下的源代码,这些生成的代码在法律意义上可能被认定为 GPL 代码的衍生物,从而必须遵守 GPL 所规定的公开源代码的要求,这个就是刚才 Anni 提到的风险。
要规避这个风险也很简单,我们在构建训练集时进行分类处理,分出严格许可的开源代码和不严格许可的代码,生成之后再选一个。但现在还没有看到代码生成工具为此而做的规定,可能是因为本身代码生成量不够,很多人认为分类太麻烦。但只要案例出来了,这活立马就能做出来,因为这是很简单的工程活。
刘天栋:其实 Hungging Face 已经做了相关工作,一个是法律方面,要求用生成式 AI 工具要注明出处。而 Hungging Face 本身有很多工具,会分辨并给许可证标注宽松或是互惠型,其次还能判定一些署名部分是否要挑选出来。所以 Hungging Face 已经逐渐达成了共识,一方面有法律的规定,另一方面是有各式各样的工具慢慢在风控当中。
Anni Lai:AI 涉及了很多概念,包括许可证、合同、法律、标准,请问它们的关系是什么?国家法律会定义标准,其中又能分出世界标准和地区标准,而合同也会有商业与非商业之别,能对它们进行分层吗?
蒋宇豪:不同的规则、协议或规范(如许可证、合同、法律和标准)所针对的对象及其制定源头具有差异性。最高层是法律,法律具有决定的强制力。合同则是对缔约双方形成的有强制力的关系,从某种角度来讲,合同“对于双方就是法律”,它相当于一种微观层面或局部适用的“小法律”。在标准上面则有各种各样不同的国家强制标准、国家推荐标准,更多体现的是行业内部对于某些问题达成的共识。除了这些以外,我们相信各个公司内部还有内化的要求,包括政策、原则。其实整个治理体系是一个由外至内的逐层细化过程,从国家法律到行业标准,再到具体合同约定,最后到企业内部规范。
Anni Lai:在 AI 领域,随着社交媒体的快速发展及其对社会可能产生的负面影响,许多政府官员意识到监管介入的必要性,并希望积极参与到 AI 的定义、治理与管理工作中。Ted 对欧洲 AI 有不少研究,前阵时间还在欧洲日内瓦参加了 Open Source Congress,可不可以请你解释欧洲政府官员对这方面的想法是什么样的?
刘天栋:我要分为两点回答,一是参会者的焦虑,二是我本身的焦虑。
当开源社区想要跟政府官员沟通的时候,都会“越描越黑”,让官员感到开源很危险,必须立法限制,两边鸡同鸭讲。目前欧盟的《人工智能法案》(AI Act)还是比较完整的,但是它跟开源精神并不是完全一致的,分出了「不可接受风险」、「高风险」、「低风险」、并列出了一些人工智能的规范。我只讲法案中关于「不可接受风险」的部分:
-
不可操控弱势群体。AI 不能给予儿童杀伤性的玩具,不能暗示孩童做不好的动作。
-
不能对人进行标签(社会评分),如对性别、身份、种族等做各种分类。
-
不能远程监控人类,尤其是人脸识别。AI 只能在经过法院的批准之后,出于犯罪侦缉目的调用摄像头。
所以这三种都是不可接受的风险。而「高风险」部分还列出了八种情况,比如电梯、飞机、汽车、玩具等。在人工智能规范方面,法案也列出三个部分,第一个就是讲人工智能所有的出处来源要标注清楚,大家可以自行了解。
参会者的焦虑在于,开源社区现在都非常忧虑,而这份忧虑传递不到政客那边。政客们担心欧美人工智能落后,力图限制其他地区,加以各种限制。
我观察到这次参加日内瓦峰会的全世界开源基金会、开源组织,都有一致的声音,希望每一个人都能共同参与,因为开源是没有国界的。参会者对不能参与人工智能政策制定感到焦虑,也对其他地区不能一起加入进来而感到焦虑。我也听到 DeepMind 的创始人说:“就算有超级强权要崛起,不表示我们也要破坏自己的规矩去做得更超过他。”
日内瓦的这场峰会非常激动人心,当时 Stefano Maffulli 也在场,我后来问他 OSD 的十条定义是不是要改,他说“OSD 是神圣且不能更改的”。我自己的焦虑在于,目前中国甚至是整个亚洲在全球开源 AI 运动里都是没有声音的,希望未来的全球开源峰会也能在中国举行。
靠法律和标准一步步打造负责任的 AI
Anni Lai:开放式 AI 会导致哪些伦理问题?有没有解决方案?
蒋宇豪:自工业革命以来,包括生成式 AI 在内的所有工具都有一个共性,这些工具可以获益,但用得不妥当却会变成武器。生成式 AI 诞生前,我们就在测试中就揭示了一个关键问题。
我们研究院有一个系统,能够根据输入个人简历分析并判断出该人适合从事何种工作。在实验中,我们将 Melinda Gates(梅琳达·盖茨)的简历输入系统,并更改了简历中的性别表述。结果显示,当简历中的性别表述为男性时,系统倾向于推荐律师这一职业;而当性别更改为女性时,系统却会推荐当教师。在相同的工具下,性别一改,推荐就不一样。这就反映出,由于人工智能系统是人类设计并制定了算法规则,它里面可能内化人类系统固有的偏见、歧视,如果不妥善治理的话,可以想一想把这样的人工智能用在实例会对个人和社会造成什么样的影响。
Anni Lai:在负责任的 AI (Responsibility AI)方面,各位有哪些研究可以分享?
蒋宇豪:微软早在 2017 年,即人工智能行业应用初步发展阶段,就已经意识到了人工智能的风险问题。我们成立了名为 AETHER 的伦理委员会,这个委员会由公司高层直接指示,集合了研究团队、开发团队以及法务团队在一起,共同致力于分析 AI 技术可能带来的风险,并制定应对策略。
经过一年的努力,委员会在 2018 年发布了六大核心伦理原则,包括公平性、隐私与保障、可靠性和安全性、包容性、透明度以及负责性。这六大原则自发布之日起,便一直作为微软内部开发工作的指导方针,New Bing、Copilot 这些 AIGC 服务都是在这六大原则开发出来的。光有原则是不够的,公司之后很快在法务部成立了 Office of responsible AI,法务部指导团队专门根据六大伦理准则去进一步制定标准以及细化负责任的 AI 方面的流程。
这是微软从 2017 年到现在以来的路途,我们通过构建组织架构,设立伦理委员会来制定政策并向高层提供决策建议;同时,以六大伦理原则为指导进行产品研发;根据这些原则,还细化了相关标准及流程。
孟伟:我的理解是,伦理、道德以及人和人之间的关系其实跟东西方的文化也有非常大的关系。刚才 Ted 讲到的欧洲政客会担心开源 AI 带来的负面影响,但在美国也有相似的声音出现,我在西班牙的一场会议上就听到有美国官员认为放任 AI 开源发展的话会不可控。
这可以用四个字概括:认知作战。通过 AI,尤其是生成式 AI 传播特定的价值观和信息,人们接收到的内容不再是自主选择的结果,而是由设计和操控这些 AI 模型的公司、组织决定的,很容易把人的观念潜移默化从中间改变了。西方的政策还是比较担心这样事情的发生,他们和工程师的思维是不一样的。工程师就认为开源是乌托邦,致力于为全人类谋福利,但不同的人坐的位置不一样,跟我们的想法也不一样。
谭中意:其实在生成式 AI 方面,人工智能的道德问题是会放大的。传统机器学习通常基于确定性或已知函数,其目标和过程具有相对较高的可预测性;生成式 AI 是概率模型,概率模型是按照一定的数据生成的,具有一定不可控性,放大了风险问题。
在国际上,我们可以看一眼最受关注的生成式 AI 团队 Anthropic,就是拿到亚马逊 40 亿美金的那个团队。Anthropic 在道德对齐方面是做得最全的,提出了简明扼要的原则框架——“3H”原则,即诚实(Honest)、无害(Harmless)和有益(Helpful)。此外,OpenAI 在 2023 年也成立了一个团队,花大量功夫去解决这个事情。LLaMA 也有一篇论文,详细讲了如何做对齐的工作。
所以,工程师对这些事情还是非常关心的,因为这件事不做好就意味着传递不了正确的价值观,不仅不能产生商业价值,还可能对社会产生一些不一样的负面影响。有人把它当成是原子弹,需要原子能管理委员会这样的存在去约束,我觉得稍微有点夸张。但在新形势下,用新的方法来管理新的技术,这是非常好的事情。
刘天栋:我一直在呼吁法律归法律,道德归道德。人工智能最终还是一个工具,我们应该提倡硬件、知识和模型的开放性和透明度,确保 AI 的运作机制得到公众的理解和监督。当然数据是另外的事,因为数据会涉及个人隐私安全。我个人赞成数据以上是开放的,数据以下则由法律或者相关规范加以制约。
Kevin Kelly(《连线》杂志创始主编)说过,人工智能就是电力,其好坏取决于使用者如何应用。人工智能不是一个固定的物理实施者,而更像是一个混沌大系统,它会产生的结果我们不知道,所以没必要过度管理它。
我看过英国杂志《经济学人》对 DeepMind 创始人 Mustafa Suleyman 和另一位历史学家 Yuval Noah Harari 同时进行采访的视频,里面有几个观点。第一,Suleyman 完全支持开源。第二,他通过在公司内部设立红队和白队的方式,让红队去试出最邪恶、最糟糕的结果,然后以此对抗白队进行检查。
采访中的另一位历史学家 Yuval 也讲了一些很有道理的内容,他认为政府在制定与 AI 相关的法规方面的能力可能滞后于行业和技术的发展速度,所以这位历史学家建议要让一个跨组织、跨行业、跨领域的专家来协助政府来成立相关的法律。这想法个是具体可落地的,类似于刚刚谭中意提到的原子能管理委员会。但目前我对开源界的代表未来能否进入这个实体保持怀疑,因为我们还是比较松散自由的。
谭中意:法律归法律,道德归道德——我对此有不同的看法。法律是对公民行为的底线约束,规定了哪些行为是不允许或必须承担法律责任的;而道德则是在法律之上更高级别的社会规范,即使某种行为不触犯法律,但如果违背了道德准则,人们依然会对此进行道德谴责。这才是负责任的 AI 所追求的内容。
刘天栋:我认为在开放式 AI 的许可证制定中,没必要把道德条款放进去。那些法律尚无明确规定的行为,可以借助法律逐步完善来解决。
Anni Lai:在 AIGC 的安全方面,有哪些重要的考量?
蒋宇豪:AIGC 有一个很特别的地方,它的反馈很像真人,用户更可能依赖反馈内容,所以开发者需要严肃对待 AIGC 的安全问题。
我和大家分享微软在开发 New Bing 过程中的负责任人工智能实践:在 New Bing 模型开发阶段,我们其实就一直在用 Ted 提到的红队概念。我们会让未经任何安全管控措施的 New Bing 模型接受大量测试,暴露潜在风险。之后我们在应用层邀请来自不同背景的测试员继续做红队测试,检验安全措施是否奏效。
我们分阶段发布 New Bing,通过限制预览用户人数在产品公开发布前防范风险。为了进一步控制风险,New Bing 为用户标明反馈内容的来源,以便用户核实反馈内容。
观众提问:我们当前使用的软件中包含了遵循 GPL 和 LGPL 两种许可的代码,我感觉使用的时候有点像是走进了“钓鱼执法”的陷阱。如果我们使用 AIGC 生成代码,为了满足开源许可证合规要求,这部分代码应该署名为我们自己的还是注明是由 AIGC 生成的?
孙振华:其实目前 Apache 软件基金会应该给了一个很好的范例,如果是通过工具自动生成的代码片段,应当明确标注为由该工具生成;如果在生成的代码中还包含有你们自己编写的部分,则应明确指明这些部分是你们团队原创的。如果有人真的想要钓鱼的话,只要他在开源社区的行为被公开,他在开源社区的名誉就会受到损害,从长远来说,开源社区的公开性将有助于防止钓鱼行为的发生。
更多推荐
所有评论(0)