云聚 AI Token Plan 满 199 减 35 元
AI编程 · 架构思考 · 技术人生
DigitalOcean 开发者云

ChatGPT与Gemini遭质疑:闭源大模型是否无偿利用GitHub开源代码

云聚 AI Token Plan 满 199 减 35 元

近期,科技社区针对闭源大模型的训练数据版权问题展开了激烈讨论。核心争议点在于,OpenAI的ChatGPT、谷歌的Gemini以及Anthropic的Claude等商业闭源模型,是否在未经许可或未给予报酬的情况下,使用了GitHub上大量开源作者的代码进行训练。虽然GitHub上的代码通常遵循MIT或Apache等开源协议,允许商业使用,但讨论指出,这些协议原本是为了促进软件分发与改进,而非用于训练能够替代程序员的商业化闭源AI模型。目前的事实是,大型科技公司在利用公共代码库构建私有盈利产品,而开源贡献者并未从中获得直接收益。这种“白嫖”行为引发了开发者群体的不满,人们开始反思开源协议在AI时代的局限性。尽管从法律角度看,当前训练数据的获取可能处于“合理使用”的灰色地带,但商业公司利用公共资源构建封闭围墙的行为,正在挑战开源社区的互信基础。GitHub上拥有数亿行代码,它们是现代软件开发的基石,但若大模型公司只索取不回馈,未来可能导致开发者转向更具防御性的许可证,甚至向代码中植入“毒化”数据以对抗模型训练。

事件分析

从技术架构来看,现代大语言模型(LLM)的训练依赖于海量高质量数据,GitHub上的开源代码提供了极其优质的逻辑与语法范例,这对于模型的代码生成能力至关重要。然而,这一过程在伦理与法律层面存在显著错位。现有的主流开源许可证(如MIT、Apache 2.0)制定时并未预见生成式AI的崛起,导致其对“模型训练”这一行为的约束力极其模糊。产业层面,这体现了硅谷巨头与开源社区之间日益紧张的关系:前者通过“汲取”开源生态的低边际成本数据,构建高附加值的闭源服务(SaaS),形成了某种形式的“私掠殖民”。这种模式如果持续,极有可能引发开源社区的反弹。未来趋势上,我们可能会看到更多开发者采用“知识共享非商业(CC BY-NC)”或专门针对AI训练排出的新型许可证(如“Fair License”变体)。此外,这也可能促使监管机构介入,强制要求AI模型披露训练数据来源,或建立某种类似“引用索引”的补偿机制,以维护开源生态的可持续发展。

💡 核心观点:闭源大模型无偿利用开源代码引发争议,本质上是AI商业变现与开源共享精神之间的利益错配,这将倒逼许可证协议的革新与监管的介入。

阿里云 OPC 一人公司创业装备库

原文链接:Linux.do

阿里云函数计算 一键部署 AI 大模型
赞(0)
未经允许不得转载:Toy's Tech Notes » ChatGPT与Gemini遭质疑:闭源大模型是否无偿利用GitHub开源代码
ReClaude Claude Code 合租
阿里云函数计算 一键部署 AI 大模型

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC,封号还得自己重新折腾?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。

上车 4 人车 400/月查看四档套餐