最近,一项来自MITCSAIL、哥廷根大学、IBM研究所等机构的研究团队提出了一个名为Omni-R1的全新音频问答模型。该模型在Qwen2.5-Omni的基础上,通过一种名为GRPO(GroupRelativePolicyOptimization)的强化学习方法进行优化,显示出在音频问答任务中的出色表现。

Omni-R1在
为此,研究人员利用ChatGPT生成了大量音频问答数据,创建了两个新的数据集:AVQA-GPT和VGGS-GPT。这两个数据集分别包含4万和18.2万条音频数据,进一步提升了Omni-R1的准确性。在训练过程中,Omni-R1的表现超过了以往的基线模型,包括SARI,平均得分达到71.3%。研究表明,尽管使用音频进行微调稍微优于仅使用文本,但后者的贡献同样不可忽视。
GRPO方法的一个关键优点是其内存效率,使得在48GB的GPU上能够有效运行。该方法通过比较分组输出,基于答案的正确性来进行奖励,而无需使用复杂的价值函数。研究人员通过扩展Qwen-2Audio的音频描述来增加训练数据,这种策略使得模型在多模态任务上更具竞争力。
Omni-R1不仅在音频问答领域设立了新的标杆,还展示了文本推理在音频模型性能中的重要性。未来,研究团队承诺将发布所有相关资源,以便更多研究人员和开发者能够利用这一成果。
论文:https://arxiv.org/abs/2505.09439
划重点:
🔍Omni-R1是基于Qwen2.5-Omni模型,通过GRPO强化学习方法优化而成的音频问答模型。
📈该模型在MMAU基准测试中取得了新高度,文本推理能力的提升被认为是主要原因。
🛠️研究团队通过ChatGPT生成新数据集,极大地提升了模型的训练效果和准确性。