阿里云发布万相视频模型，全面开源14B与1.3B参数版，支持多种视频生成任务

时间：2025-03-04 03:10

小编：小世评选

在人工智能迅速发展的今天，各大科技公司纷纷投入到AI算法与模型的研发中。阿里云作为国内领先的云计算和人工智能技术服务提供商，近日宣布了其万相视频模型的正式发布。这一进展为视频生成技术注入了新的活力，同时为全球开发者提供了实例和研究的机会。

此次发布的万相视频模型共有两个版本，分别是14B和1.3B参数规格，涵盖了全部的推理代码和权重。这意味着，无论是大型视觉工程的开发者还是学术研究者，都可以自由下载和使用这些资源，体验到尖端技术带来的便利。阿里云特别强调，这种开源模式采用了最宽松的许可协议，开发者只需在Github、HuggingFace和魔搭社区上轻松获取。

从性能上来看，14B版本的万相模型在多个领域表现尤为突出。根据测评集VBench的数据，该模型在指令遵循、复杂运动生成、物理建模，以及文本到视频的生成等任务上均取得了优秀的成绩。其准确性、流畅度和生成视频的视觉质量在同类模型中遥遥领先。而1.3B版本虽然参数量较少，却在测试中显示出了强劲的表现，超越了许多更大尺寸的开源模型，甚至与某些闭源模型不分上下。这一版本非常适合在消费级显卡上运行，甚至被誉为“可实用的轻量级解决方案”，为二次模型开发和学术研究提供了一种低成本高效率的选择。

万相视频模型的设计基于主流的Diffusion in Time (DiT)架构，并采用了线性噪声轨迹Flow Matching范式。为了提升模型的稳定性和适应性，研发团队设计了一种高效的因果3D变分自编码器（VAE），配合可扩展的预训练策略，为模型性能提供了强有力的支持。例如，在3D VAE的因果卷积模块中实现的特征缓存机制，成功替代了传统长视频端到端的编解码处理，能够高效地支持任意长度的视频解码和编码，这一成果的转变使得其在处理1080P高清视频时，实现了无限长编解码的可能性。同时，通过空间降采样压缩的先期处理，万相模型在保持性能的同时，显著减少了29%的推理时间内存占用，为高效运算提供了便利。

在实验测试中，万相团队基于14项主要维度和26项子维度的数据进行了全面评估，测试内容涵盖了运动质量、视觉质量、风格和多目标等多方面指标，结果显示，模型的表现优于目前市场上大多数的同类模型。通过这些数据，阿里云不仅展现了万相视频模型的强大能力，也向全球开发者展示了其技术广阔的应用前景。

值得注意的是，万相视频模型的开源和共享理念，不仅鼓励了全球开发者的参与和交流，也为AI技术的进步打下了坚实的基础。借助这类开源技术，开发者能够更快速地进行项目迭代，进行创新实践，推动整个行业的发展。这一趋势也表明了阿里云在人工智能领域深化合作与技术共享的决心，同时也为技术的落地应用提供了广泛的可能性。

为了推动更多人参与到这一前沿领域中，阿里云团队已经把万相视频模型的代码和文档放置于以下，供开发者和研究者获取并使用：

Github: [Wan-Video](https://github/Wan-Video)

HuggingFace: [Wan-AI](https://huggingface.co/Wan-AI)

魔搭社区: [ModelScope](https://modelscope.cn/organization/Wan-AI)

阿里云的万相视频模型不仅在技术上取得了多项突破，也通过开放的生态为全球开发者提供了宝贵的资源与工具。未来，随着越来越多的参与者加入到这一领域，视频生成技术必将迎来更加丰富和多元的发展，为我们创造出更多创新的可能性。