在人工智能领域,大型语言模型(LLM)因其出色的表现而受到广泛关注,但其在部署时却面临着巨大的计算和内存开销问题。为了克服这一挑战,谷歌DeepMind最近推出了一种新架构——Mixture-of-Recursions(MoR),该架构被认为有潜力成为传统Transformer模型的“杀手”。
MoR架构在递归Transformer的基础上进行了创新,旨在同时实现参数共享和自适应计算。通过将动态的token级路由集成到高效的递归Transformer中,MoR能够在不增加模型成本的情况下,提供与大型模型相媲美的性能。该模型通过轻量级路由系统,为每个token分配专属的递归深度,动态决定每个token所需的“思考”层数。这种方法能够有效分配计算资源,提升处理效率。
在具体实现上,MoR采用了一种先进的缓存机制,该机制能够根据token的递归深度选择性地缓存和检索相关的键值对。这一创新显著降低了内存带宽压力,提高了推理吞吐量。同时,MoR还通过参数共享、计算路由和递归级缓存等多项优化措施,显著减少了参数量,降低了计算开销。
在实验中,MoR在相同计算预算下以更少的参数数量超越了原始Transformer和递归Transformer,验证了其优越的性能。通过与基线模型进行对比,MoR在少样本学习的平均准确率上也取得了更好的成绩,尽管其参数量减少近50%。这一成功归因于其高效的计算策略,使得MoR能够处理更多的训练token。
此外,研究人员还发现,MoR在不同计算预算下始终优于递归基线模型,尤其在模型规模超过360M时,MoR不仅能够追平原始Transformer,还能在低至中等预算下常常超越对手。因此,MoR被视为一种可扩展且高效的替代方案,适合用于大规模的预训练和部署。
随着AI技术的不断发展,MoR架构的推出为大型语言模型的高效化提供了新的解决方案,预示着AI研究领域的新突破。
-
论文链接:alphaxiv.org/abs/2507.10524
划重点:
🌟MoR架构通过动态分配计算资源和缓存机制,有效提高大型语言模型的效率。
📉在相同计算预算下,MoR以更少参数超越传统Transformer,性能更优。
🚀MoR被视为AI研究中的新突破,适合大规模预训练与部署。