松下推出 “OmniFlow” 多模态生成AI实现文本、图像与音频的自由转换

43 0 0

松下控股公司（PanasonicHD）联合美国松下研发公司(PRDCA)及加州大学洛杉矶分校(UCLA)的研究人员，成功开发出名为“OmniFlow”的多模态生成AI。这项技术的亮点在于其具备“任意对任意”的生成能力，可以实现文本、图像和音频之间的自由转换，极大地提升了多模态生成AI的应用潜力。

近年来，多模态生成AI的研究越来越受到关注，尤其是结合音频的生成技术。然而，传统方法在数据获取上存在局限，尤其是在同时处理文本、图像和音频数据时，所需的训练数据量和成本大幅增加。针对这一难题，OmniFlow通过灵活结合针对不同数据格式的生成AI（如文本与音频、文本与图像），即使在小样本情况下，也能学习到高精度的“任意对任意”模型，从而显著降低了数据采集的成本。

OmniFlow的技术创新已获得国际认可，并将在2025年计算机视觉与模式识别会议（CVPR）上进行展示。该技术的核心在于，它能够通过连接和处理三种不同数据特征，学习更为复杂的数据关系，而不是简单地对输入数据进行平均处理。这种方法让OmniFlow在生成过程中不仅保留了各模态的特点，也提升了表达能力。

在评估实验中，OmniFlow在“文本转图像”和“文本转音频”的生成任务中，表现优于其他传统方法，展现出最佳的性能。实验结果显示，与其他“任意对任意”生成方法相比，OmniFlow所需的训练数据量可减少至1/60，这一显著的优势让其在多模态AI领域脱颖而出。

展望未来，OmniFlow有望在工厂、生活方式等多个领域进行应用，能够生成各种专门针对特定场景的数据。松下控股将继续推动AI的社会化应用，致力于开发能为客户生活与工作带来便利的AI技术。

打赏赞