英伟达与港大携手推出新型视觉注意力机制，提升高分辨率生成速度超 84 倍！

5 0 0

近日，香港大学与英伟达共同研发了一种新的视觉注意力机制，名为广义空间传播网络（GSPN），该机制在高分辨率图像生成方面取得了显著的突破。

传统的自注意力机制虽然在自然语言处理和计算机视觉领域取得了不错的效果，但在处理高分辨率图像时却面临计算量巨大和空间结构损失的双重挑战。传统的自注意力机制的计算复杂度为O(N²)，这使得处理长上下文时非常耗时，并且将二维图像转化为一维序列会导致空间关系的丢失。

为了解决这些问题，GSPN采用了创新的二维线性传播方法，并结合“稳定性–上下文条件”理论，将计算复杂度降低到√N级别，同时保留了图像的空间连贯性。这种新的机制大幅提升了计算效率，并在多个视觉任务上刷新了性能纪录。

GSPN的核心技术包括两大部分:二维线性传播和稳定性-上下文条件。通过逐行或逐列的线扫描，GSPN能够实现对二维图像的高效处理。与传统的注意力机制相比，GSPN不仅减少了参数量，还保持了信息的完整传播。此外，研究人员还提出了稳定性-上下文条件，确保在长距离传播时系统的稳定性与可靠性。

在实验中，GSPN展现出了卓越的性能。在图像分类任务中，GSPN在5.3GFLOPs的计算量下，实现了82.2%的Top-1准确率，超越了多种现有模型。在图像生成方面，GSPN在处理256×256的任务时，生成速度提升了1.5倍。尤其在文本到图像生成任务中，GSPN能够在16K×8K分辨率下进行快速生成，推理时间加速超过84倍，展示了其在实际应用中的巨大潜力。

综上所述，GSPN通过独特的设计理念和结构，使得视觉注意力机制在保持空间连贯性的同时，实现了计算效率的显著提升，为未来的多模态模型和实时视觉应用开辟了新的可能。

项目主页:https://whj363636.github.io/GSPN/

代码:https://github.com/NVlabs/GSPN

划重点:

🌟GSPN通过创新的二维线性传播机制，将高分辨率生成速度提升超过84倍。

💡该机制解决了传统自注意力在高分辨率图像处理中的计算复杂度和空间结构损失问题。

🚀GSPN在多个视觉任务中刷新了性能纪录，为未来的应用提供了新方向。

打赏赞

文章版权归作者所有，未经允许请勿转载。

百度文心系列大模型在飞桨平台开源，涵盖多款最新模型

阿力

36 0

AI评测新标杆！GPT-5等前沿模型惨遭零分，博士级推理能力究竟几何？

阿力

14 0

夸克App推出“夸克老师” 具备个性化AI辅导能力

阿力

93 0

可灵AI推出“视频音效”功能，实现“所见即所听”沉浸体验

阿力

28 0

Framer发布全新AI功能，Wireframer秒建网站，Workshop生成交互组件，Vectors 2.0与A/B测试引爆设计新热潮！

阿力

40 0

高考数学大赛：六大AI模型争锋，豆包与元宝双双夺冠

阿力

32 0

暂无评论

暂无评论...

英伟达与港大携手推出新型视觉注意力机制，提升高分辨率生成速度超 84 倍！

全新豆包·视频生成模型明日发布支持无缝多镜头叙事等功能

小模型逆袭！港科大快手联手打造"进化搜索"技术，让AI作画告别"大力出奇迹"

相关文章

暂无评论

热门文章

热门标签

英伟达与港大携手推出新型视觉注意力机制，提升高分辨率生成速度超 84 倍！

相关文章：

全新豆包·视频生成模型明日发布 支持无缝多镜头叙事等功能

小模型逆袭！港科大快手联手打造"进化搜索"技术，让AI作画告别"大力出奇迹"

相关文章

暂无评论

热门文章

热门标签

全新豆包·视频生成模型明日发布支持无缝多镜头叙事等功能