DeepSeek推出新多模态模型Janus-Pro,挑战全球AI巨头
时间:2025-01-29 12:10
小编:小世评选
在除夕之际,国产AI公司DeepSeek再次为科技圈带来了惊喜。北京时间1月28日凌晨,DeepSeek推出了全新的开源多模态模型Janus-Pro,正式迈入文生图领域,势必对全球AI市场形成挑战。
Janus-Pro是去年11月发布的JanusFlow的升级版本,拥有两种参数规模,分别是15亿和70亿。这一参数规模的设计使得Janus-Pro具备了在一般消费级电脑上本地运行的优势,促进了其应用的广泛性。DeepSeek表示,相较于前一代模型,Janus-Pro在训练策略和数据扩展方面取得了显著优化,从而提升了图像理解和生成的能力。
在测试表现上,Janus-Pro展现出强大的图像生成稳定性。通过多组测试图数据,新模型在对目标人物和物体的描绘方面愈发生动,色彩饱和度的处理也更加精致。在识别图像方面,Janus-Pro能够根据输入的图像生成准确的描述,展现出卓越的理解能力。这一切的进步都为其在文生图的关键评估指标GenEval和DPG-Bench中赢得了良好表现,Janus-Pro的7B模型成功超越了现有主流的Stable Diffusion和OpenAI的DALL-E 3等热门模型。
社交网络上的用户不禁对DeepSeek的创新表示赞叹,有人评论道:“在R1模型带来的震撼尚未消散时,Janus-Pro又一次让人惊喜,这个70亿参数规模的多模态模型简直不可思议,而且是开源的,新的竞争游戏开始了!”这为DeepSeek在AI领域的迅猛发展增添了更多关注和期待。
DeepSeek在模型Janus-Pro的研发中,采用了前沿的多模态模型训练架构“视觉编码解耦”。这一创新的思路将视觉编码分为“理解”和“生成”两个路径,有效解决了传统编码器在执行不同任务时的角色冲突问题,从而提高了模型在多种任务中的适配性与性能。
在数据准备方面,Janus-Pro通过引入7200万张高质量合成图像,使真实数据与合成数据的比例达到了1:1。这种数据组合不仅确保了模型在视觉生成上的表现,也增强了其输出图像的吸引力和稳定性。DeepSeek还借鉴了VL2模型,并增加了9000万个样本用于多模态理解,从而大幅度提升了模型的综合能力。
在训练过程中,DeepSeek采用HAI-LLM进行模型评估,依据特定比例混合不同类型的数据进行训练。整个训练过程在具有强大计算能力的集群上完成,使用了16到32个节点,每个节点配备8个英伟达A100 GPU,展示了强劲的技术实力。
在发布Janus-Pro和R1模型的一周内,DeepSeek的迅速崛起已引起了美国AI市场的关注。截止到1月27日,DeepSeek的应用下载量已超越ChatGPT,跃居苹果美国区免费App下载榜首。过去,市场上大语言模型的主导者如ChatGPT系列、Claude以及Gemini等一直占据技术前沿。而在多模态模型领域,Stable Diffusion和DALL-E 3则是消费者关注的重点。DeepSeek在语言模型和多模态模型两个领域的表现均超过了这些海外热门模型,成功打破了对“中国AI只能跟随”的陈旧印象。
DeepSeek的成功不仅在于技术的迅速进步,更在于其对市场策略的深刻理解。该公司通过提供高效且价格合理的模型,赢得了广泛认可,甚至被称为“AI界的拼多多”。DeepSeek模型的性能可与GPT-4相媲美,而其价格仅为后者的1/20。这一性价比的优势使得DeepSeek得以在竞争中脱颖而出,并令许多国外竞争对手感受到压力。
值得一提的是,DeepSeek的辉煌成绩甚至影响了美国股市,众多AI概念股遭遇下跌。纳斯达克综合指数周一收盘下跌3.07%,标准普尔500指数也有1.46%下滑。在众多美国AI企业中,英伟达的市值更是在周一一度蒸发近5900亿美元,创下了历史新记录。而 DeepSeek 的成就让许多美国科技巨头重新审视全球AI市场的走向与竞争格局。
对此,DeepSeek创始人梁文锋在回应中提到:“我们经常说中国AI与美国有一两年的差距,但真正的差距在于原创与模仿。如果不改变这一点,中国将永远无法超越。”他强调,过去三十年中国在技术创新领域的缺席使得中国要逐步向技术“贡献者”转变。
DeepSeek的理念与追求得到了广泛认可。业界不少科学家与企业家如澜舟科技创始人周明和Meta创始人扎克伯格,相继对DeepSeek的成就表示肯定,认为这一突破将极大推动开源领域的发展,并为全球AI技术革新带来新的方向。
总体而言,DeepSeek的Janus-Pro模型不仅为国内外AI技术领域注入了新的活力,更为全球AI的未来发展定下了取向。在未来的日子里,DeepSeek将如何持续创新并在全球竞争中立足,令人期待。