中国DeepSeek推出多模态大模型Janus-Pro，超越OpenAI DALL-E 3

时间：2025-01-29 04:20

小编：小世评选

就在市场对“DeepSeek风暴”进行紧张评估之际，中国的人工智能公司DeepSeek于本周一正式推出其最新多模态大模型Janus-Pro，成功在图像生成的基准测试中超越了OpenAI的DALL-E 3。这一新模型不仅具备强大的图像生成能力，同时也保持了开源的特性，向全球开发者和研究人员开放。

在2023年农历新年即将来临之际，DeepSeek工程师们在其社交“抱抱脸”上，上传了两个版本的Janus-Pro模型—7B和1.5B。这两个版本是对去年发布的Janus模型的全面升级，显示出DeepSeek在多模态AI领域的不断进步和创新。这一举措标志着DeepSeek在AI技术上的又一重要里程碑，展示了其在图像生成技术中的领先地位。

Janus-Pro引入了一种创新的自回归框架，成功地统一了多模态理解与生成的过程。与以往模型不同，Janus-Pro将视觉编码分为“理解”和“生成”两条路径，通过单一的Transformer架构进行处理。这一架构设计旨在解决传统模型在理解与生成过程中的角色冲突，提高了视觉编码器的灵活性和效率，使得模型能够在多种应用场景中表现出色。

在技术测试中，Janus-Pro的表现相当出色，尽管目前其支持的图像分析和生成规格较小（384 x 384），依然在多个文生图基准测试中获得了优于DALL-E 3的成绩。这一成就证明了DeepSeek在模型优化和数据处理方面的深厚实力。

根据DeepSeek的技术报告，Janus-Pro在视觉生成方面通过引入7200万张高质量合成图像，完成了统一预训练阶段的真实数据与合成数据的完美结合。这一策略使得模型在视觉生成中展现出更强的稳定性与吸引力，极大提升了生成图像的质量。同时，在多模态理解的数据预处理方面，Janus-Pro参考了公司先前的VL2模型，并增加了约9000万个样本，以确保在理解和生成任务中的强大表现。

作为一款多模态模型，Janus-Pro展示了广泛的应用潜力，可以在影像生成、文本理解、视觉搜索等多个领域发挥作用。如技术报告中展示的多种图像生成案例，均显示出该模型的高效能和出色的图像质量，进一步巩固了DeepSeek在全球AI技术发展的竞争力。

值得注意的是，Janus-Pro型号采用MIT许可证，致使其在商业应用上的无障碍使用，为企业和开发者创造了更大的灵活性和创新空间。不论是技术开发者还是研究人员，均可将该模型融入自己的项目中，推动AI产业的蓬勃发展。

DeepSeek推出的Janus-Pro不仅是在技术层面上超越了DALL-E 3，也在开源与商业化方面做出了积极探索，展现了中国在全球AI技术竞争中日益强大的能力。随着这一先进模型的发布，AI图像生成领域的未来可预见地将更加广阔，DeepSeek也将在这个充满挑战与机遇的新阶段里，继续引领技术潮流。

这一系列的技术进步不仅是DeepSeek自身的胜利，更是整个AI行业技术创新的缩影。在全球科技快速发展的背景下，中国的AI企业将不断推动多模态和智能生成技术的前行，为人类社会带来更多的便利与发展机遇。随着Janus-Pro的问世，期待未来AI技术能够在更广泛的领域中应用，造福更多的用户与行业。

中国DeepSeek推出多模态大模型Janus-Pro，超越OpenAI DALL-E 3

精品推荐

相关文章