阿里通义万相发布2.1版本，视频图像生成能力显著提升

时间：2025-01-12 23:30

小编：星品数码网

2024年1月10日，阿里巴巴旗下的通义万相正式发布了其最新的2.1版本，在视频和图像生成领域带来了显著的技术突破。此次升级，极大提升了模型的生成能力，让用户在内容创造方面有了更多的选择和表现空间。

在视频生成方面，通义万相2.1通过自研的高效变分自编码器（VAE）及图像分层变换（DiT）架构，加强了时空上下文的建模能力。这意味着用户在生成视频时，可以创建长达无限的1080P高清高质量视频，且编解码过程更加高效。更为重要的是，通义万相2.1首次推出了中文文字视频生成功能，成为同行业内的一大亮点，并在VBench榜单中勇夺第一。

根据通义万相的介绍，这一版本不仅支持中文，还兼容英文视频内容的生成，并且用户可以一键生成艺术字。通义万相2.1还提供多种视频特效供用户选择，比如过渡效果、粒子效果及模糊效果等。这些功能的加入，使得视频的视觉表现力得到了显著增强，用户可以轻松地制作出更具吸引力的影音作品。

在应用实例中，我们可以看到通义万相2.1如何通过具体的生成指令（Prompt）创造出令人惊叹的视觉效果。例如，一位用户可能输入这样的指令：“在红色的新年宣纸上，一滴水墨缓缓晕染开来，逐渐形成‘福’字，墨色逐渐由深到浅，呈现出独特的东方韵味。” 这一指令开启了通义万相的创作之旅，为用户提供了既传统又新颖的视觉作品。

通义万相2.1还引入了复杂的运镜能力，能够模拟真实世界的物理规律，包括碰撞、反弹、切割、挤压等。例如，用户可以设想这样一个场景：“一对穿着正式的夫妇撑着雨伞，在回家的路上遭遇倾盆大雨。” 在通义万相的作用下，雨滴在伞面上滑落、溅起水花的细节被完美地捕捉和再现，使得整个视频不仅具备场景美感，更增添了生活的真实感。

在图像生成方面，通义万相2.1同样进行了重大升级。新版本采用了先进的增强文本到图像的上下文能力的IC-LoRA图像生成训练方法，以及DiT架构的结合。通过这些新技术，用户可以对多张图像进行拼接与联合描述，实现高度关联的图像组合生成，并能够保持各图像间的特征稳定性与连贯性。

例如，用户可以输入这样的生成指令：“在浪漫的公园里，一对青年男女在温馨的拥抱交谈。” 通义万相2.1充分理解了这一指令背后的情感和场景氛围，生成出一幅表现青春和爱情的唯美画面，展现出令人心动的瞬间。

阿里通义万相2.1版本的发布，为视频和图像生成领域注入了新的活力。随着技术的不断进步，用户在创作内容时的灵活性和自主性也在不断增强，这将激励更多的创作者加入到这一数字内容创作的浪潮中。

在未来的发展中，可以预见，随着AI技术的不断演进，视频和图像创造将不仅限于简单的生成，整合更复杂的交互和沉浸式体验将成为可能。我们期待看到更多创新的作品和应用问世，并希望阿里通义万相能够继续保持其在行业中的领先地位，引领视频和图像生成技术的未来发展。

来看，阿里通义万相的2.1版本，无论是在视频生成还是图像生成方面，都为用户提供了更广阔的创作灵感和技术支持。此次更新不仅提升了内容创作的效率，也进一步促进了数字创意产业的发展。无论是从事专业创作的艺术家，还是普通用户，通义万相都将成为他们创作之旅中的得力助手。

阿里通义万相发布2.1版本，视频图像生成能力显著提升

精品推荐

相关文章