近日,前 OpenAI 大模型优化专家 Diogo Almeida 发布博文《Scaling Laws, Honestly》,直指 OpenAI 原始版本的 Scaling Laws(扩展定律)存在代码 Bug,导致模型性能预测曲线出现偏差。该事件迅速在技术社区引发热议。除了对基础定律的修正外,博文评论中关于“语言特性影响训练效率”的观点尤为引人深思。观察数据显示,在相同架构下,使用法语训练的模型仅消耗 1.75 亿个 Token 就在验证集中达到 100% 准确率,而英语模型在训练超过 30 亿个 Token 后仍存在 Loss。基于此,有观点认为中文等高语义密度的语言可能在数学和逻辑推理训练上具备天然优势,因为其单个 Token 所承载的信息量远高于英语。这不仅挑战了英语作为单一训练数据源的统治地位,也暗示了未来大模型研发可能需要重新评估数据混合策略,将语言的信息密度纳入核心考量指标。
事件分析
💡 核心观点:缩放定律的Bug修正属于学术正本清源,但语言词元密度对训练效率的潜在影响,可能改变未来基座模型的数据选型逻辑。
原文链接:Linux.do





