探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

13 0 0

大型语言模型（LLM）通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展，如Deepseek-R1-Zero等模型直接将强化学习应用于基础模型，展现出强大的推理能力。然而，这种成功在不同的基础模型系列中难以复制，尤其是在Llama系列上。这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?

Table of Contents

强化学习在Llama模型上的扩展限制

OpenAI的o1、o3和DeepSeek的R1等模型在竞赛级数学问题上通过大规模强化学习取得了突破，推动了对千亿参数以下小型模型强化学习能力的探索。然而，这些进展大多局限于Qwen模型系列，难以在Llama等模型上复现。预训练流程缺乏透明度，使得理解预训练如何影响强化学习的扩展变得困难。一些非传统研究发现，一次性提示可以提高Qwen的推理能力，但对Llama却收效甚微。尽管OpenWebMath、MathPile等项目致力于整理高质量的数学预训练语料库，但其规模仍受限于千亿个token以下。

探索训练中期的稳定衰减策略

上海交通大学的研究人员以Qwen和Llama为研究对象，深入探究了中期训练策略对强化学习动态的影响，并得出了以下见解:

首先，像MegaMath-Web-Pro这样的高质量数学语料库能同时提升基础模型和强化学习的效果。其次，使用问答式数据，特别是包含长CoT（Chain-of-Thought）推理的数据，可以进一步增强强化学习效果。第三，长CoT会在强化学习训练中引入冗长性和不稳定性。最后，在中期训练中应用扩展可以提升下游强化学习的性能。

研究人员提出了一种名为“稳定-衰减”的两阶段中期训练策略:首先使用2000亿个token训练基础模型，然后在三个以CoT为中心的分支上使用200亿个token进行训练。最终，这一策略成功生成了具有强大强化学习兼容性的OctoThinker模型。

RL配置和基准评估

研究人员使用MATH8K数据集进行强化学习（RL）训练提示，配置包括全局训练批次大小128、每个查询16个rollout响应以及PPO最小批次大小64。实验在Llama-3.2-3B-Base和Qwen2.5-3B-Base模型上进行。在评估中，基础语言模型采用少样本提示，而强化学习调优模型在GSM8K、MATH500、OlympiadBench和AMC23等指标任务上采用零样本提示。

在强化学习训练期间，Qwen模型的响应长度持续增加并保持在合理范围内，而Llama模型则表现出异常行为，平均响应长度飙升至4，096个token。评估结果进一步表明，强化学习调优后的Qwen2.5-3B在各个基准测试中均有所提升，而Llama-3.2-3B的提升则微乎其微。

OctoThinker在RL兼容性方面优于Llama

在13个数学基准测试中，每个OctoThinker分支都比原始Llama基础模型提升了10%-20%，并且在所有规模的稳定阶段模型上都取得了持续的提升。OctoThinker-Zero系列在强化学习扩展过程中展现出多样化的思维行为，其中OctoThinker-Long变体表现出色。在强化学习训练过程中比较三个3B规模基础模型时，OctoThinker-Long-3B的表现优于原始Llama-3.2-3B模型，并与以强大的推理能力和广泛预训练而闻名的Qwen2.5-3B模型达到相近的性能水平。混合分支和短分支的性能略低，尤其是在更具挑战性的基准测试中。

结论和未来工作:迈向RL-Ready基础模型

该研究深入探讨了Llama和Qwen等基础模型在强化学习推理过程中行为差异的原因，并强调了中期训练对强化学习可扩展性的重要性。两阶段中期训练策略成功将Llama转化为更适合强化学习的基础模型，最终诞生了OctoThinker模型。

未来的研究方向包括:策划更高质量的数学语料库以改善中期训练;使用开放配方创建RL友好的基础模型，无需从长CoT推理模型中进行提炼;分离QA格式和内容以分别了解它们的贡献;并通过新的分支（例如工具集成推理）扩展OctoThinker家族。

打赏赞

# AI资讯 # Llama # 数学预训练语料库

文章版权归作者所有，未经允许请勿转载。

AI大模型的版权风暴：行业巨头面临7500亿美元赔偿风险

阿力

3 0

互联网公司激烈抢人：实习岗位与 AI 能力成新趋势

阿力

48 0

OpenAI放开ChatGPT Projects功能，可以免费用

阿力

9 0

优必选携手中国电信推出首款家庭桌面AI机器人，助力智能生活

阿力

16 0

OpenAI搜索连接器重磅上线！解锁ChatGPT全新工作效率神器

阿力

24 0

打破碎片化！Eywa携手CrossCurve重塑去中心化金融流动性格局

阿力

42 0

暂无评论

暂无评论...

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

强化学习在Llama模型上的扩展限制

探索训练中期的稳定衰减策略

RL配置和基准评估

OctoThinker在RL兼容性方面优于Llama

结论和未来工作:迈向RL-Ready基础模型

小米应用商店上线AI智能体专区首批合作百度文心智能体平台

谷歌重磅发布Gemini for Education！免费AI工具席卷全球教育

相关文章

暂无评论

热门文章

热门标签

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

强化学习在Llama模型上的扩展限制

探索训练中期的稳定衰减策略

RL配置和基准评估

OctoThinker在RL兼容性方面优于Llama

结论和未来工作:迈向RL-Ready基础模型

相关文章：

小米应用商店上线AI智能体专区 首批合作百度文心智能体平台

谷歌重磅发布Gemini for Education！免费AI工具席卷全球教育

相关文章

暂无评论

热门文章

热门标签

小米应用商店上线AI智能体专区首批合作百度文心智能体平台