DeepSeek发布Janus-Pro多模态大模型 超越OpenAI DALL-E3
时间:2025-01-29 15:00
小编:小世评选
在2024年1月28日,农历新年前夕,中国人工智能初创公司DeepSeek在全球众所瞩目的GitHub与Hugging Face上正式发布了其最新的多模态大模型——Janus-Pro。这一产品的推出,标志着DeepSeek在文生图领域的重大进展,显示了其在激烈的市场竞争中继续前行的决心和实力。
Janus-Pro是DeepSeek于2024年11月发布的JanusFlow大模型的提升版本,具备7B(70亿)和1.5B(15亿)两个参数规模,且均提供开源。这一创新对于全球开发者而言提供了丰富的技术探索空间,使他们能够在自己的项目中直接利用Janus-Pro的强大功能。
根据开发者的反馈,Janus-Pro展现了在消费级电脑上本地运行的强大潜力。这一特性为推广其应用注入了新的可能性,尤其是面对当今对于高效计算资源要求的敏感市场,Janus-Pro的表现可谓令人惊喜。
在多模态理解和文本到图像的指令跟踪能力上,Janus-Pro实现了显著的进步。DeepSeek的数据显示,Janus-Pro在文本到图像生成的稳定性上较前版本有了明显提升。在一系列基准测试中,Janus-Pro的70亿参数模型成功超越了OpenAI的多模态大模型DALL-E3,这一结果在AI社区引起了广泛关注和讨论。
虽然Janus-Pro的参数数量相对较小,但DeepSeek团队在模型的训练阶段采取了独特的策略,加入了7200万张高质量的合成图像,使得真实数据与合成数据的比例达到1:1。这一设计使得Janus-Pro在视觉生成能力上更为稳定有效,大大提升了其在实际应用中的可靠性和准确性。
Janus-Pro的设计也颇具创新性,主要体现在其视觉编码部分的结构上。DeepSeek将视觉编码分为“理解”和“生成”两条路径,这种分离不仅缓解了视觉编码器在理解和生成两个重要任务中的角色冲突,同时也增强了模型结构的灵活性。这一方法的引入,为多种应用场景的实现提供了更为优越的技术保障。
为了充分支持多模态理解能力的提升,DeepSeek还在训练数据集中增加了大约9000万个样本。这一举措使得Janus-Pro在处理文生图的同时,能够深入识别图片中的文字、知识等信息。这种复杂的多模态理解能力,将为各类AI应用的开发开辟新的可能,尤其是在教育、医疗、媒体等各个领域。
在Janus-Pro的发布之际,DeepSeek所开发的相关应用也在苹果应用商店中超越OpenAI的ChatGPT,成为下载量最大的免费应用。这一成绩不仅反映了DeepSeek技术的市场吸引力和用户的高度关注,也显示出其在应用层面的成功布局。
DeepSeek的骤然崛起对国际科技市场产生了较大的震动。媒体普遍报道,包括英伟达、博通公司、超威半导体以及微软等美国科技公司的股价大幅下跌,这被普遍看作是DeepSeek技术突破的影响所致。这一市场反应让DeepSeek在国际科技舞台上的能见度进一步提升。
在发生上述变化的前一天,达闼机器人创始人黄晓庆接受采访时提到,基于DeepSeek的V3与R1大模型,其团队正在将对话功能融入其机器人开发中,并计划基于DeepSeek的多模态大模型进行二次训练。这种跨行业的合作模式,预示着DeepSeek开源、开放的战略在将来将带来更大的应用潜力。
黄晓庆强调,DeepSeek的技术架构非常适合于模型应用下游厂商的分布式训练场景。对于达闼机器人这样的公司而言,结合DeepSeek的多模态大模型进行跨应用场景的机器人开发,将创造巨大的市场机会。这一观点进一步印证了DeepSeek战略的智慧以及其在AI领域的前瞻性思考。
而言,DeepSeek的Janus-Pro多模态大模型不仅展示了其在AI技术上的创新能力,也标志着中国企业在全球人工智能生态系统中的崛起。随着技术的发展和应用场景的扩展,DeepSeek将推动整个AI行业向更高的水平进发。