松下控股公司(PanasonicHD)联合美国松下研发公司(PRDCA)及加州大学洛杉矶分校(UCLA)的研究人员,成功开发出名为“OmniFlow”的多模态生成AI。这项技术的亮点在于其具备“任意对任意”的生成能力,可以实现文本、图像和音频之间的自由转换,极大地提升了多模态生成AI的应用潜力。

近年来,多模态生成AI的研究越来越受到关注,尤其是结合音频的生成技术。然而,传统方法在数据获取上存在局限,尤其是在同时处理文本、图像和音频数据时,所需的训练数据量和成本大幅增加。针对这一难题,OmniFlow通过灵活结合针对不同数据格式的生成AI(如文本与音频、文本与图像),即使在小样本情况下,也能学习到高精度的“任意对任意”模型,从而显著降低了数据采集的成本。

OmniFlow的技术创新已获得国际认可,并将在2025年计算机视觉与模式识别会议(CVPR)上进行展示。该技术的核心在于,它能够通过连接和处理三种不同数据特征,学习更为复杂的数据关系,而不是简单地对输入数据进行平均处理。这种方法让OmniFlow在生成过程中不仅保留了各模态的特点,也提升了表达能力。

在评估实验中,OmniFlow在“文本转图像”和“文本转音频”的生成任务中,表现优于其他传统方法,展现出
展望未来,OmniFlow有望在工厂、生活方式等多个领域进行应用,能够生成各种专门针对特定场景的数据。松下控股将继续推动AI的社会化应用,致力于开发能为客户生活与工作带来便利的AI技术。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...