近期,科技社区针对闭源大模型的训练数据版权问题展开了激烈讨论。核心争议点在于,OpenAI的ChatGPT、谷歌的Gemini以及Anthropic的Claude等商业闭源模型,是否在未经许可或未给予报酬的情况下,使用了GitHub上大量开源作者的代码进行训练。虽然GitHub上的代码通常遵循MIT或Apache等开源协议,允许商业使用,但讨论指出,这些协议原本是为了促进软件分发与改进,而非用于训练能够替代程序员的商业化闭源AI模型。目前的事实是,大型科技公司在利用公共代码库构建私有盈利产品,而开源贡献者并未从中获得直接收益。这种“白嫖”行为引发了开发者群体的不满,人们开始反思开源协议在AI时代的局限性。尽管从法律角度看,当前训练数据的获取可能处于“合理使用”的灰色地带,但商业公司利用公共资源构建封闭围墙的行为,正在挑战开源社区的互信基础。GitHub上拥有数亿行代码,它们是现代软件开发的基石,但若大模型公司只索取不回馈,未来可能导致开发者转向更具防御性的许可证,甚至向代码中植入“毒化”数据以对抗模型训练。
事件分析
💡 核心观点:闭源大模型无偿利用开源代码引发争议,本质上是AI商业变现与开源共享精神之间的利益错配,这将倒逼许可证协议的革新与监管的介入。
原文链接:Linux.do







AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航
Claude Code 全体系指南:AI 编程智能体实战