近日,通义实验室语音团队在空间音频生成领域取得里程碑式成果,推出OmniAudio技术,该技术可直接从360°视频生成FOA(First-orderAmbisonics)音频,为虚拟现实和沉浸式娱乐带来全新可能。
空间音频作为一种模拟真实听觉环境的技术,能提升沉浸式体验,但现有技术大多基于固定视角视频,对360°全景视频空间信息利用不足。传统视频到音频生成技术主要生成非空间音频,无法满足沉浸式体验对3D声音定位需求,且多基于有限视角视频,错过全景视频丰富视觉上下文。随着360°摄像头普及和虚拟现实技术发展,利用全景视频生成匹配空间音频成为亟待解决的问题。
为应对挑战,通义实验室提出360V2SA(360-degreeVideotoSpatialAudio)任务。FOA是一种标准3D空间音频格式,用四个通道(W、X、Y、Z)表示声音,能捕捉声音方向性,实现真实3D音频再现,且在头部旋转时能保持声音定位准确性。

数据是机器学习模型基石,但现有配对360°视频和空间音频数据稀缺。为此,研究团队精心构建Sphere360数据集,包含超过103,000个真实世界视频片段,涵盖288种音频事件,总时长288小时,既包含360°视觉内容,又支持FOA音频。在构建过程中,团队采用严格筛选和清洗标准,利用多种算法确保高质量对齐。
OmniAudio训练方法分两阶段。
在实验设置中,研究团队在Sphere360-Bench和YT360-Test测试集上进行有监督微调与评估,采用客观和主观指标衡量生成音频质量。结果显示,OmniAudio在两套测试集上均显著优于所有基线。在YT360-Test上,OmniAudio在FD、KL和ΔAngular等指标上大幅降低;在Sphere360-Bench上同样取得优异成绩。在人机主观评估中,OmniAudio在空间音频质量和视音对齐两项上得分也远高于
项目主页
https://omniaudio-360v2sa.github.io/
代码和数据开源仓库
https://github.com/liuhuadai/OmniAudio
论文地址
https://arxiv.org/abs/2504.14906