谷歌 DeepMind 推出 MoR 架构：有望大幅提升大型语言模型的效率

24 0 0

在人工智能领域，大型语言模型（LLM）因其出色的表现而受到广泛关注，但其在部署时却面临着巨大的计算和内存开销问题。为了克服这一挑战，谷歌DeepMind最近推出了一种新架构——Mixture-of-Recursions(MoR)，该架构被认为有潜力成为传统Transformer模型的“杀手”。

MoR架构在递归Transformer的基础上进行了创新，旨在同时实现参数共享和自适应计算。通过将动态的token级路由集成到高效的递归Transformer中，MoR能够在不增加模型成本的情况下，提供与大型模型相媲美的性能。该模型通过轻量级路由系统，为每个token分配专属的递归深度，动态决定每个token所需的“思考”层数。这种方法能够有效分配计算资源，提升处理效率。

在具体实现上，MoR采用了一种先进的缓存机制，该机制能够根据token的递归深度选择性地缓存和检索相关的键值对。这一创新显著降低了内存带宽压力，提高了推理吞吐量。同时，MoR还通过参数共享、计算路由和递归级缓存等多项优化措施，显著减少了参数量，降低了计算开销。

在实验中，MoR在相同计算预算下以更少的参数数量超越了原始Transformer和递归Transformer，验证了其优越的性能。通过与基线模型进行对比，MoR在少样本学习的平均准确率上也取得了更好的成绩，尽管其参数量减少近50%。这一成功归因于其高效的计算策略，使得MoR能够处理更多的训练token。

此外，研究人员还发现，MoR在不同计算预算下始终优于递归基线模型，尤其在模型规模超过360M时，MoR不仅能够追平原始Transformer，还能在低至中等预算下常常超越对手。因此，MoR被视为一种可扩展且高效的替代方案，适合用于大规模的预训练和部署。

随着AI技术的不断发展，MoR架构的推出为大型语言模型的高效化提供了新的解决方案，预示着AI研究领域的新突破。