 

火山引擎开源Verl框架，加速大模型强化学习训练

2025-12-04 分类：前沿阅读(109) 评论(0) 赞(0)

智谱 GLM，支持多语言、多任务推理。从写作到代码生成，从搜索到知识问答，AI 生产力的中国解法。

火山引擎Verl是一个由字节跳动种子团队发起并维护的开源强化学习训练库，专为大型语言模型(LLM)设计。该库采用灵活的混合控制器编程模型，支持PPO、GRPO等多种RL算法，并与FSDP、Megatron-LM、vLLM等主流LLM框架无缝集成。Verl具有最先进的吞吐量，通过3D-HybridEngine技术实现高效的actor模型resharding，支持高达671B参数模型的训练。实际应用中，Verl已成功用于训练DeepSeek-671B、Qwen3-235B等大型MoE模型，DAPO算法基于Verl在AIME 2024基准测试中取得突破性成绩，豆包-1.5-pro模型也通过Verl训练达到OpenAI O1级性能。作为AI领域的前沿技术，Verl已被字节跳动、阿里巴巴Qwen团队、上海AI实验室、清华大学等众多知名机构采用，为LLM强化学习训练提供了高效、灵活的生产级解决方案。

原文链接：GitHub Trending

赞(0)

未经允许不得转载：Toy's Tech Notes » 火山引擎开源Verl框架，加速大模型强化学习训练

分享到

AI 大模型字节跳动开源强化学习

评论抢沙发

前沿哨所

提效利器：Claude Code 增强配置与多模型协作指南

本文分享了一套针对 Claude Code 的全局增强配置提示词（CCG Enhanced）。该配置强制执行“调研优先”原则，建立了详细的 MCP 工具调用决策树，并规范了多模型协作流程，如指定 Codex 负责后端、Gemini 负责前端。此外，它还涵盖了任务分级、代码风格及安全检查等严格标准，旨在通过系统化指令约束，最大化 AI 编程的准确性与工程质量。

原文链接：Linux.do

60分钟前
沙特K2think API申请突获通过，魔改Kimi模型速度极快

沙特MBZUAI大学的K2think API在等待半年后突然向用户开放。该模型基于魔改的Kimi-k2架构，虽非最新版本，但推理速度表现优异。由于接口未对齐OpenAI标准格式，社区开发者已发布了转接脚本，方便将其接入现有应用生态，降低开发者迁移成本。

原文链接：Linux.do

60分钟前
实战案例：利用 AI 从零手搓 Google 剪藏插件

针对常用笔记工具缺少剪藏功能的问题，作者借助 AI 技术从零开发了一款 Google 浏览器扩展插件。该工具成功解决了手动复制导致的格式错乱痛点，兼容 Chrome、豆包、Comet 等多款浏览器，并完美支持微信公众号、X、博客等主流平台的内容保存。这一“手搓”过程不仅实现了个人需求，更生动展示了 AI 在降低开发门槛、赋能个人开发者方面的强大能力。

原文链接：Linux.do

2小时前
Linux版Antigravity非TUN代理教程：解决语言服务器连接难题

本文介绍了在Linux桌面环境下，无需TUN模式为Antigravity应用设置代理的完整方案。针对Electron应用特性，通过修改启动参数实现应用代理；针对Go语言开发的language_server难以代理的问题，利用graftcp工具编写包装脚本，强制接管流量并优化HTTP/2和DNS配置，从而解决了模型加载失败等连接难题。

原文链接：Linux.do

2小时前
开发者实测：为何Grok成为免费版首选AI工具？

一位主力使用Cursor的开发者分享了其使用免费聊天AI工具的心得。在对比了ChatGPT、Claude、Grok和DeepSeek后，他表示目前主要使用Grok。主要原因包括：Grok的免费用量上限较高，不易耗尽；具备强大的联网查询能力，单次搜索可引用20-50个来源；输出风格适中，且审查尺度相对宽松。作者希望了解其他开发者如何搭配使用免费与付费工具，并寻求更多推荐。

原文链接：V2EX 分享发现

3小时前
Sweep发布1.5B轻量级代码模型，本机运行性能超越同级大模型

Sweep AI推出了名为Sweep Next-Edit 1.5B的开源代码补全模型。该模型基于Qwen2.5-Coder，量化后体积小巧，可在笔记本电脑本地500毫秒内完成推理。它专门用于预测开发者的下一步代码编辑操作，在基准测试中表现超越了参数量4倍以上的其他模型，展示了小模型在本地部署场景下的巨大潜力和高性能。

原文链接：Hacker News

4小时前