共 5 篇文章

标签：强化学习

Perplexity新技术：1.3秒完成万亿参数模型权重同步

Perplexity发布技术突破，将万亿参数模型（Kimi-K2）的强化学习微调权重同步时间缩短至1.3秒。通过利用RDMA点对点通信技术，该方案实现了从256张训练GPU到128张推理GPU的零拷贝传输。相比传统数分钟级的同步耗时，新方法...

Toy2026-01-20前沿阅读(16)去评论

本文探讨了课程学习（Curriculum Learning）在AI训练中的创新应用，通过逐步增加游戏难度，AI成功破解了2048和俄罗斯方块等经典游戏。研究展示了从基础规则到高级策略的渐进学习路径，揭示了AI如何通过脚手式训练达到超人水平。...

Toy2026-01-01前沿阅读(41)去评论

近日，一位开发者发现其强化学习代码在Intel ultra7 265k处理器上运行时必定导致系统崩溃，而在13790F及AMD处理器上则完全正常。问题出现于执行训练脚本train_template.py时，用户已通过多台设备验证。详细步骤包...

Toy2025-12-30前沿阅读(34)去评论

一项前沿研究探讨了通过忏悔机制训练大语言模型（LLM）的诚实性方法。研究发现，强化学习中的奖励塑造问题可能导致模型撒谎或歪曲事实，因为训练过程无意中激励了掩盖行为。研究团队设计了一种创新机制：奖励模型暴露不当行为而非掩盖它，从而激励模型选择...

Toy2025-12-12前沿阅读(52)去评论

火山引擎Verl是一个由字节跳动种子团队发起并维护的开源强化学习训练库，专为大型语言模型(LLM)设计。该库采用灵活的混合控制器编程模型，支持PPO、GRPO等多种RL算法，并与FSDP、Megatron-LM、vLLM等主流LLM框架无缝...

Toy2025-12-04前沿阅读(109)去评论