新开源 AI 系统 OmniGen 2：像GPT-4o 一样融合了图像和文本生成

9 0 0

近日，北京人工智能研究院推出了全新的开源系统——OmniGen2。这一系统专注于文本到图像的生成、图像编辑和上下文图像创作。

与2024年发布的第一代OmniGen相比，OmniGen2采用了两条独立的解码路径:一条用于文本生成，另一条用于图像生成，且各自拥有独立的参数和解耦的图像标记器。这种设计让模型在保持文本生成能力的同时，有效地提升了多模态语言模型的表现。

OmniGen2的核心是一个基于Qwen2.5-VL-3B变换器的大型多模态语言模型（MLLM）。在图像生成方面，该系统使用了一种自定义的扩散变换器，参数量达到约40亿。模型在遇到特殊的“<|img|>”标记时会自动切换到图像生成模式。值得一提的是，OmniGen2能够处理多种提示和艺术风格，但其生成的照片级图像在清晰度上仍有待提升。

为了训练OmniGen2，研究团队使用了大约1.4亿张来自开源数据集和专有集合的图像。此外，他们还开发了新技术，通过提取视频中的相似帧（例如，一个微笑和不微笑的面孔），并利用语言模型生成相应的编辑指令。

OmniGen2的另一大亮点是其反思机制，能够让模型自我评估生成的图像，并在多个轮次中进行改进。该系统可以发现生成图像中的缺陷，并提出具体的修正建议。

为了评估该系统的性能，研究团队引入了OmniContext基准测试，包括角色、物体和场景三大类，每类下有八个子任务和各50个示例。评估是通过GPT-4.1进行的，主要打分标准包括提示的准确性和主题的一致性。OmniGen2的总分为7.18，超越了所有其他开源模型，而GPT-4o的得分为8.8。

尽管OmniGen2在多个基准测试中表现优异，但仍存在一些不足之处:英文提示的效果优于中文，身体形态的变化较为复杂，输出质量也受到输入图像的影响。对于模糊的多图像提示，系统需要明确的对象放置指示。

研究团队计划将模型、训练数据和构建管道发布到HuggingFace平台。https://huggingface.co/OmniGen2/OmniGen2

划重点:

🌟OmniGen2是一个开源的图文生成系统，采用独立的文本和图像解码路径。

🎨它能够处理多种艺术风格的图像生成，并具备自我反思和改进功能。

📈OmniGen2在多个基准测试中表现出色，特别是在图像编辑方面创下了新的开放源代码模型纪录。

打赏赞

# AI资讯 # OmniGen2 # Qwen2.5-VL-3B

文章版权归作者所有，未经允许请勿转载。

从文本生成到指令编辑 OmniGen2重塑开源多模态模型应用场景

阿力

21 0

韩国总统李在明：将大规模投资人工智能和芯片

阿力

25 0

OpenAI 计划 2026 年推出首款 AI 硬件，让 ChatGPT 融入生活每个角落

阿力

58 0

X-SAM：打破图像分割的界限，实现任意分割的新突破

阿力

12 0

腾讯云上线DeepSeek-V3.1 API

阿力

9 0

星巴克全面导入AI库存系统:9月底覆盖北美逾1.1万门市

阿力

10 0

暂无评论

暂无评论...

新开源 AI 系统 OmniGen 2：像GPT-4o 一样融合了图像和文本生成

知乎“直答”升级知识库功能，深度融合社区内容打造沉浸式AI问答体验

Gemini定时任务上线！一句话解锁AI自动干活，效率起飞

相关文章

暂无评论

热门文章

热门标签

新开源 AI 系统 OmniGen 2：像GPT-4o 一样融合了图像和文本生成

相关文章：

知乎“直答”升级知识库功能，深度融合社区内容打造沉浸式AI问答体验

Gemini定时任务上线！一句话解锁AI自动干活，效率起飞

相关文章

暂无评论

热门文章

热门标签