开源热潮席卷视频大模型,阿里云发布万相2.1抢先开源
时间:2025-02-27 06:50
小编:小世评选
开源的浪潮正在全球科技领域持续激荡,尤其是在视频生成大模型的发展上,成为了开发者和研究者关注的焦点。近日,阿里云在2月25日晚间推出了视觉生成基座模型“万相2.1”(Wan)的开源版本,标志着在这一领域内的又一重要里程碑。此举不仅提升了视频生成的技术门槛,也为广大开发者提供了新机遇。
阿里云万相2.1的核心优势
万相2.1模型采用了Apache 2.0许可协议,并开放了14B和1.3B两种参数规格的完整推理代码和权重。该模型能够支持多种复杂的任务,包括文生视频和图生视频的生成。根据权威评测,万相2.1在Luma和Pika等国内外同类模型中的表现尤为突出,以总分86.22%的成绩,成功登顶VBench榜单。
该模型的出现,意味着视频生成技术的进一步发展。在过去,创建高质量的视频通常需要复杂的设备和大量的资金支持,而万相2.1以其高效的算法,使得只需普通的消费级显卡,就能生成高质量的视频内容,极大地降低了技术门槛。
核心算法与技术突破
万相2.1模型基于主流的DiT架构和线性噪声轨迹Flow Matching范式,开发了高效的因果3D VAE以及可扩展的预训练策略。这些技术的结合使得万相在多个层面实现了突破,例如指令遵循、复杂运动生成和文字视频生成等。值得注意的是,该模型在处理长达1080P的高效编解码时,通过空间降采样和压缩技术,进一步减少了推理时的内存占用,使得其能在不损失生成质量的前提下,节省了约29%的内存使用。
万相团队在蛇年春晚上展示了该模型的应用潜力,通过高水平的图像风格化和视频生成技术,为观众呈现了沉浸式的视觉效果。在此次演出中,阿里通义万相展示了将传统艺术元素与现代科技结合的能力,吸引了大量关注。
业界的开源潮
与阿里云的万相2.1一同引发开源热潮的,还有其他科技企业的相继行动。昆仑万维在2月18日开源了面向AI短剧创作的视频生成模型SkyReels-V1,及其SOTA级别的表情动作可控算法SkyReels-A1。这些开源技术不仅推动了短视频内容生成的研发,同时也为创作者提供了更丰富的工具和资源,以实现其创作愿景。
更值得一提的是,深受开发者期待的“AI大模型六小龙”之一的阶跃星辰,近日也对外宣布将于3月份开源基于图生视频的大模型,进一步丰富了行业内开放资源的生态环境。
对未来的展望
随着开源趋势的不断发展,越来越多的企业和开发者开始关注视频生成技术的与日俱增的潜力。开源不仅带来了技术上的资源共享,也形成了一种协同创新的良性循环。阿里云的万相2.1模型展示了其在大规模模型上开发的可行性,为行业设立了一个有力的示范。
开源模型的推广将激励更多的研究人员开展创新探索,借助开源的力量形成协作网络,使得视频生成的技术应用与日俱进。未来,我们可以期待在影视制作、广告设计、游戏开发、教育等多个领域,开源视频生成技术将发挥出更大的价值与影响。
开源热潮不仅为技术发展注入了新的活力,也提升了整个行业的创新能力。阿里云发布万相2.1的开源,将成为这场技术变革中的重要里程碑,同时也将助力更多开发者和创作者实现其梦想,为未来的数字创作带来更多可能性。