英伟达与MIT合作推出 Fast-dLLM 框架,AI 推理速度提升 27.6 倍

AI资讯2个月前发布 阿力
27 0

近日,科技巨头英伟达联合麻省理工学院(MIT)与香港大学,发布了名为Fast-dLLM的新框架。这一创新的框架旨在显著提高扩散模型(Diffusion-basedLLMs)的推理速度,最高可达27.6倍,为人工智能的应用提供了更为强大的技术支持。

扩散模型的挑战与机遇

扩散模型被视为传统自回归模型(AutoregressiveModels)的有力竞争者。它采用双向注意力机制(BidirectionalAttentionMechanisms),理论上能够通过同步生成多个词元(Multi-tokenGeneration)来加速解码过程。然而,在实际应用中,扩散模型的推理速度常常不及自回归模型,主要由于每次生成步骤都需重新计算全部注意力状态,导致计算成本过高。此外,多词元同步解码时,词元间的依赖关系容易被破坏,从而影响生成质量。

英伟达与MIT合作推出 Fast-dLLM 框架,AI 推理速度提升 27.6 倍

Fast-dLLM框架的创新

为了解决上述问题,英伟达团队研发了Fast-dLLM框架,引入了两项重要创新:块状近似KV缓存机制和置信度感知并行解码策略。

1.**块状近似KV缓存机制**:该机制通过将序列划分为多个块(Blocks),预先计算并存储各块的激活值(KVActivations),在后续解码中重复利用。这种方式显著减少了计算冗余,提升了效率。其DualCache版本进一步缓存前后缀词元(PrefixandSuffixTokens),利用相邻推理步骤的高度相似性来提升处理速度。

2.**置信度感知并行解码策略**:该策略根据设定的阈值(ConfidenceThreshold),选择性地解码高置信度的词元,避免同步采样带来的依赖冲突,从而确保生成质量。

英伟达与MIT合作推出 Fast-dLLM 框架,AI 推理速度提升 27.6 倍

卓越的性能表现

Fast-dLLM在多项基准测试中表现出色。在GSM8K数据集上,生成长度为1024词元时,其8-shot配置实现了27.6倍的速度提升,准确率达76.0%;在MATH基准测试中,加速倍数为6.5倍,准确率约为39.3%;在HumanEval和MBPP测试中,分别实现了3.2倍和7.8倍的加速,准确率维持在54.3%和基线水平附近。总体来看,Fast-dLLM在提升速度的同时,准确率仅下降1-2个百分点,有效平衡了速度与质量。

通过解决推理效率和解码质量的问题,Fast-dLLM使扩散模型在实际语言生成任务中具备了与自回归模型竞争的实力,为未来更广泛的应用奠定了基础。随着这一技术的推广,我们有望看到人工智能在更多领域的实际应用。

项目:https://nvlabs.github.io/Fast-dLLM/

© 版权声明

相关文章

暂无评论

暂无评论...