今天,我们正式推出了Ring-mini-2.0,这是一款基于Ling-mini-2.0架构深度优化的高性能推理型MoE模型。Ring-mini-2.0的总参数量达到16B,但在实际运行中仅需激活1.4B参数,便能实现相当于10B级别以下的密集模型的推理能力。
这款模型在逻辑推理、编程和数学任务中表现尤为出色,支持128K的长上下文,使得其在各种应用场景中都能展现出强大的能力。此外,Ring-mini-2.0的生成速度也相当惊人,能够实现300+token/s的快速生成,经过优化后更是可以突破500+token/s。
在推理能力的提升方面,Ring-mini-2.0在Ling-mini-2.0-base的基础上进行了更深层次的训练,通过Long-COTSFT、大规模RLVR和RLHF的联合优化,显著增强了模型在复杂推理任务中的稳定性和泛化能力。我们在多个高难度基准测试中,发现其性能显著超越了10B以下的密集模型,甚至可以与一些更大型的MoE模型相媲美,特别是在逻辑推理方面表现优异。
此外,Ring-mini-2.0在设计上注重高效性,通过1/32的专家激活比和MTP层架构优化,实现了约7-8B密集模型的等效性能。这种高稀疏度和小激活设计,使得其在H20环境下可以实现300+token/s的推理速度,同时结合ExpertDualStreaming的优化,进一步降低了推理成本。
为了促进学术与工业界的研究和应用,Ring-mini-2.0的模型权重、训练策略和数据配方将全面开源。我们期待这款“小而优”的模型能够成为小型推理模型的
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...