标签:数学预训练语料库

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异,推出 OctoThinker

大型语言模型(LLM)通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展,如Deepseek-R1-Zero等模型直接将强化学习应用于基础模型,展现出...