公共知识回馈协议

email4u

15人浏览 · 2026-03-13 16:24:38

email4u · 2026-03-13 16:24:38 发布

Public Knowledge Reciprocity Protocol (PKRP)

版本 0.1 · 草案 · 2026年3月

"自由软件运动的伟大之处，不在于它写下了什么代码，
而在于它提出了一个问题：技术的果实应当属于谁？"

四十年后，我们需要重新回答这个问题。

序言

1983年，Richard Stallman发起了自由软件运动，面对的是一个清晰的敌人：商业公司将软件锁进黑箱，剥夺用户查看、修改和分享代码的权利。GNU通用公共许可证（GPL）由此诞生——它用一种精巧的法律机制确保：任何人都可以自由使用软件，而任何基于自由软件的衍生作品，也必须保持同样的自由。

这个机制被称为"传染性"（copyleft）。它是二十世纪最重要的知识产权创新之一。

四十年来，它运转良好。Linux、GCC、Git——这些改变了世界的基础设施，都在GPL的保护下生长壮大。数十亿人每天都在使用自由软件的成果，尽管他们中的大多数并不知道。

但今天，这个机制正在失效。

不是因为它的理念错了，而是因为它所依赖的三个基本假设，正在被一种新的力量摧毁。

这种力量就是人工智能。

第一章 · 三个坍塌的假设

假设一：代码是离散的

GPL假定代码是一段段可分辨的文本。你写了一个函数，我修改了它，修改的痕迹清晰可见。"衍生作品"的判断建立在这个前提之上——我能指出哪一行来自你，哪一行是我新写的。

人工智能打破了这个假设。大型语言模型在训练过程中吸收了数十亿行开源代码，将其转化为统计权重。当它生成新代码时，输出物并非对任何单一来源的复制，而是对整个人类编程知识的重新排列组合。你无法在AI生成的代码中指出"这一行来自GPL项目A"——不是因为它没有受到影响，而是因为影响以弥散的、不可追踪的方式存在。

代码不再是离散的砖块，而是一条连续的河流。你无法在河水中分辨哪一滴来自哪座山。

假设二：代码是可追踪的

GPL的执行依赖于溯源——证明某段代码来自某个受GPL保护的项目，因此衍生作品必须同样开源。这种追踪在人类程序员的世界里是可行的：版本控制系统、代码提交记录、文件历史，构成了一条完整的证据链。

人工智能切断了这条链。当一个开发者要求AI"从零开始实现一个编码检测库"时，AI内部发生了什么？它是在"回忆"训练数据中的某个实现，还是在"创造"一个全新的方案？这个问题不仅人类无法回答，连AI自身也无法回答。模型的内部机制是一个黑箱，知识以权重的形式弥散在数十亿参数之中，无法被检索、定位或提取。

当溯源不可能时，任何建立在"证明来源"基础上的法律框架都会变成空文。

假设三：代码有清晰的边界

GPL区分"原始作品"和"衍生作品"，这要求两者之间存在可划定的边界。你的代码在这一边，我的修改在那一边，中间有一条线。

人工智能消融了这条线。2026年3月，Python经典库chardet的维护者借助AI在五天内完成了对整个代码库的重写，代码相似度检测显示新旧版本仅有1.29%的文本重合。维护者据此主张新版本是"独立作品"，将许可证从LGPL改为更宽松的MIT。隐退十五年的原作者随即现身抗议，称这是对原始许可的违反。

社区的争论暴露了一个根本性困境：当AI可以生成功能等价但文本全新的代码时，“衍生"的定义本身就瓦解了。如果文本相似度是标准，那AI可以轻松通过；如果功能等价是标准，那任何实现同一接口的软件都是"衍生”——这显然荒谬。

三个假设同时坍塌。旧锁已经不能锁住任何东西了。

第二章 · 新的危险

假设坍塌本身不是灾难。灾难在于：如果不建立新的规则，旧体系保护的那些价值将会全部丢失。

危险一：公共知识池被掏空

过去四十年，数以百万计的开发者向开源世界贡献了代码。这些代码构成了一个巨大的公共知识池——它是互联网运行的基底，是几乎所有现代软件的地基。

如今，这个公共池正在被一种前所未有的方式索取。AI公司将整个开源世界纳入训练数据，产出的模型被封装为商业产品出售。公共池的养分被吸收、转化、变现，但没有任何机制确保营养回流。

如果这种单向索取持续下去，公共池将会枯竭。不是因为代码消失了，而是因为贡献者失去了动力——当你知道自己的每一行代码都会被免费吸收、转化为他人的利润，而你连署名都得不到时，你为什么还要贡献？

危险二：维护者被系统性剥削

开源世界存在一个肮脏的秘密：最关键的基础设施往往由最少的人在维护。一个人，无偿地，用业余时间，撑起数亿次下载量的软件包。没有工资，没有福利，没有认可，只有无穷无尽的issue和bug report。

AI加速了这种剥削。当AI可以在五天内重写一个人十年的工作成果时，维护者的劳动在市场眼中进一步贬值了。但这是一种幻觉——AI的重写能力依赖于维护者十年来建立的生态位：用户基础、API设计、社区信任。AI重写的不是代码，是社会资本。而社会资本的建设者得不到任何回报。

危险三：权力加速集中

谁拥有最大的模型、最多的算力、最全的训练数据，谁就拥有"重写一切"的能力。这意味着，在没有新规则的世界里，少数巨头公司将获得对整个软件生态的压倒性优势：它们可以吸收任何开源项目的精华，用AI生成功能等价的替代品，以任何许可证发布，甚至直接闭源。

自由软件运动对抗的是1980年代的权力集中。而AI时代的权力集中，其规模和速度远超那个年代。

我们面对的不是旧问题的回归，而是旧问题的升级版。

第三章 · 一条新路

本协议不试图修补旧体系，而是提出一个新的框架。

它的核心转变是：从管控代码的流向，转向管控利益的分配。

GPL问的是：“这段代码从哪里来？它该以什么许可证发布？”

本协议问的是：“谁从公共知识中获取了价值？这些价值是否被公正地分享？”

第一个问题在AI时代已无法回答。第二个问题永远可以回答。

原则一：使用自由，获利回馈

任何人可以自由使用、修改、复制和分发公共知识池中的任何成果，包括将其用于商业产品，包括闭源。我们不限制知识的流向——知识天然渴望自由，强行筑坝只会让它改道。

但当你从公共知识中获得了商业收益，你有义务向公共池回馈。

这不是慈善，是对等。你使用了公共道路运送货物，你缴纳养路费。你从公共教育体系中获得了人才，你缴纳税款。你从公共知识池中获取了价值，你向公共知识池注入资源。

具体规则： 当一个商业实体的年收入超过一定阈值（建议初始值为一百万美元，应根据地区经济水平动态调整），且其产品的构建依赖了公共知识池中的组件，该实体应将相关产品收入的0.5%至2%注入公共知识基金。比例根据依赖程度和企业规模浮动。

个人开发者、非营利组织、教育机构和年收入低于阈值的小型企业完全免除义务。公共知识的大门对所有人敞开，回馈义务只适用于从中获得了显著商业利益的实体。

原则二：回馈维护者，而非追溯作者

旧体系奖励"创造"——谁写了第一行代码，谁就拥有永恒的权利。但在现实中，一个软件项目99%的生命周期不是"创造"，而是"维护"。创造是一瞬间的火花，维护是十年如一日的守夜。

本协议将回馈的重心从创造者转向维护者。

公共知识基金的分配标准不是"谁最初写了代码"——在AI时代这个问题越来越无法界定——而是"谁在持续维护公共知识池中的关键组件"。

可度量的维护贡献包括但不限于：

版本发布与安全更新的频率与质量
issue与漏洞的响应速度与解决率
文档的完善程度
对下游用户的支持
项目的公共依赖度（有多少其他项目依赖于此）

这些指标应由社区通过透明机制共同制定和调整，而非由任何单一机构决定。

原则三：AI开发者承担特殊义务

大型AI模型的训练数据包含了公共知识池中几乎所有的开源成果。模型的能力直接来源于这些成果的总和。因此，AI开发者对公共知识池负有特殊的回馈义务。

具体规则：

AI公司应就其模型训练中使用的开源代码比例，向公共知识基金缴纳额外贡献
AI公司应公开披露其训练数据中开源代码的使用情况（不要求公开具体训练数据，只要求披露来源类别和比例）
当AI被用于生成与现有开源项目功能等价的代码时，AI工具应自动提示用户注意潜在的知识来源，鼓励自愿回馈

这不是对AI发展的限制，而是对一个事实的承认：AI的能力建立在公共知识之上，它对公共知识的繁荣负有责任。

原则四：透明性替代溯源

我们不再要求"证明这段代码不是衍生作品"——这个问题在技术上已经无解。取而代之的是一种更温和但更持久的机制：透明性。

每个项目在发布时，应诚实地声明其知识来源概述：它受到了哪些项目的启发？它的设计参考了哪些既有方案？它在构建过程中使用了哪些AI工具？

这不是法律义务，而是社区规范。不诚实的后果不是诉讼，而是信任的丧失。在开源世界里，信誉是最珍贵的货币——它比任何许可证条款都更有约束力。

原则五：治理去中心化

公共知识基金不隶属于任何公司、政府或单一组织。它由多方利益相关者共同治理：

开源社区代表（维护者、贡献者）
企业代表（缴纳回馈义务的商业实体）
公共利益代表（学术机构、非营利组织、用户社区）
AI行业代表

治理规则本身应开源——向所有人公开，接受所有人的审视和改进提案。

任何单一利益方都不应拥有否决权。基金的收支、分配标准和治理决策应完全透明，接受公众审计。

第四章 · 与旧体系的关系

本协议不寻求取代GPL、MIT、Apache或任何现有许可证。它在现有许可证之上建立一个补充层。

你可以继续使用GPL发布你的代码。你可以继续使用MIT发布你的代码。许可证规定的是代码的法律状态；本协议规定的是获利者的社会义务。两者并行，互不冲突。

对GPL的致敬：GPL在四十年间保护了无数开源项目不被吞噬。它的"传染性"机制在人类程序员主导的时代是有效的、必要的。我们站在它的肩膀上。本协议不是对GPL的否定，而是对GPL精神在新时代的延续——用不同的手段，守护同样的价值。

对MIT的理解：MIT许可证代表了对自由最彻底的信仰——不附加任何条件地给予。这种慷慨是美德。本协议尊重这种选择，只是提醒：当少数人从无条件的慷慨中获取了不成比例的利益时，需要一种机制来恢复平衡。

第五章 · 行动路线

一份协议如果不能落地，就只是一篇文章。以下是我们建议的推进路径：

第一阶段：共识建设（2026-2027）

公开发布本协议草案，征求全球开源社区的意见
与主要开源基金会（Linux Foundation、Apache Foundation、FSF、OSI等）对话
与主要AI公司对话，探讨自愿参与机制
建立一个多方工作组，迭代完善协议条款

第二阶段：试点运行（2027-2028）

选择若干关键开源项目进行试点
邀请自愿参与的企业进行试点缴纳
建立公共知识基金的初始治理架构
开发透明性工具（依赖图谱可视化、AI使用声明模板等）

第三阶段：制度化（2028年以后）

推动将回馈义务纳入相关法律和行业标准
将协议的核心原则嵌入主流软件包管理器和发布平台
建立跨国协调机制，应对不同法律体系的差异
持续迭代——本协议本身是一个活的文档，必须随技术和社会的变化而进化

第六章 · 坦诚声明

本协议是一份不完美的草案。我们知道它存在未解决的难题：

阈值的公平性。 一百万美元的门槛对硅谷公司和发展中国家的团队意味着截然不同的负担。我们需要更精细的分级机制。

执行的可行性。 谁来审计企业收入？谁来判定"依赖了公共池组件"？这需要大量的基础设施建设。

抵制的可能性。 最需要缴纳回馈的大型企业，也最有动力通过游说来削弱规则。

全球协调的难度。 在一个没有"互联网政府"的世界里，如何让一套规则被全球性地接受和执行？

我们不回避这些问题，因为回避不会让它们消失。我们只是相信：一个不完美但方向正确的起点，好过在废墟中无休止地争论旧规则为什么不管用。

尾声

1983年，一个人决定代码应该是自由的。

那个决定改变了世界。不是因为GPL的法律条款有多精妙，而是因为它回应了一种深层的正义直觉：人类创造的知识不应该被少数人垄断。

2026年，AI正在以前所未有的速度重组人类知识。旧的保护机制正在被它瓦解——不是因为AI有恶意，而是因为AI的运作方式从根本上打破了旧规则的前提假设。

我们需要新的规则。不是因为旧的理念错了，而是因为旧的工具不够用了。

公共知识回馈协议的核心信念是：

知识应当自由流动，但从知识中获益的人有义务让这条河流永不干涸。

这条原则不依赖于代码是否可追踪，不依赖于"衍生作品"是否可界定，不依赖于AI是否存在。它只依赖于一个朴素的信念：受益者应当回馈。

这不是一个技术方案，这是一个社会契约。

它需要每一个关心公共知识未来的人——开发者、企业家、政策制定者、AI研究者、和每一个使用软件的普通人——共同参与、共同塑造。

代码会过时，算法会迭代，模型会换代。但公共知识属于全人类这个信念，不应该有过期的一天。

本文档以 CC BY-SA 4.0 许可发布。
任何人可以自由使用、修改和再分发本文档，但请保留署名并以相同方式分享。

联系与参与：本文档是一个开放的起点，而非终点。
我们欢迎所有人的意见、批评和改进。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

RAG检索模型选型全攻略（非常详细），Bi-Encoder到ColBERT从入门到精通，收藏这一篇就够了！

AtomGit开源社区

AI Agent 如何避免幻觉执行：从理论到实践的 Double Check 框架

定义操作根本没有发生操作发生了但结果错误操作失败但 Agent 仍然继续后续步骤三个案例文件操作幻觉Agent: "我已经把文件保存到 /tmp/data.json"实际: 权限不足，保存失败结果: 后续流程基于不存在的文件继续API 调用幻觉Agent: "我已经调用了 API，获得了响应"实际: 网络超时，没有收到响应结果: 使用了虚拟的、幻觉出来的数据决策确认幻觉Agent: "用户已经确认