B站开源动漫视频生成模型实现多样风格一键创建

时间：2025-07-18 06:00

小编：星品数码网

近日，B站团队在5月12日正式开源了一款全新的动漫视频生成模型，旨在为动漫创作者和爱好者提供更加多样化和便捷的视频制作选项。该模型能够实现一键生成多种动漫风格的视频片段，包括但不限于系列剧集、中国原创动画、漫画改编、VTuber内容、动漫宣传片(PV)及鬼畜动画等。这一举措标志着B站在动漫创作领域的技术创新与推动。

随着动漫在全球范围内的影响力不断提升，传统视频生成模型在动漫内容创作中面临着不小的挑战。尽管一些优秀的模型，如Sora、Kling和CogVideoX，在自然视频生成方面取得了一定的成果，但对于具有独特艺术风格和表现形式的动漫视频，其表现仍显不足。动漫以夸张的动作、精致的画风以及与现实物理规律的打破著称，这不仅增加了创作的复杂性，同时也给评测评估带来了巨大挑战。

B站的这一新项目不仅弥补了当前技术上的不足，还提出了一整套完整的系统解决方案，涵盖了多个重要方面：

1. 数据处理流水线：该模型的训练基于超过1000万条高质量的动画数据，确保了模型在生成过程中能够捕捉到多样化的风格和细节。

2. 可控生成模型：引入时空掩码模块的设计，使得用户能更好地控制生成内容，支持多种关键动画制作功能，包括图像生成视频、帧插值、局部图像引导等，大大提升了动画制作的灵活性和多样性。

3. 评测数据集：为了保证生成模型的质量，B站团队还收集了948段多样化的动画视频，并配套进行了双盲测试及VBench评测。评测结果显示，在人物一致性和运动一致性方面，该模型达到了当前先进水平(SOTA)，说明了其在生成高质量动画上的潜力。

除了上述功能，B站还提供了一系列生成视频的示例，展示了模型的实际效果。例如：

在一个示例中，画面中人物坐在汽车里，随着车速的变化，他们的头发在风中飘动，充分展现了动态的表现力。

另一个示例展示了两个身穿红色婚服的人物手持红绳朝远方走去，画面生动且富有故事感。

还有一段展示了一个金发人物伸手抚触跪着之人的头部，表现出一种温柔的互动，动作自然流畅。

更加令人惊叹的是，白发女孩跳舞时，随着镜头拉近，观众可以看到她一边唱歌一边将手转向镜头，展现出极具感染力的表现力。

这些示例不仅展示了模型在动画生成方面的多样性和细腻度，同时也传达出强烈的故事氛围和人物情感。

B站团队表示，他们希望通过这一开源项目，激发更多创作者的灵感和创作热情。无论是专业的动画制作团队，还是普通的动漫爱好者，都可以利用这一工具，简化制作流程，提升创作效率。未来，随着AI技术的不断进步，动漫创作的可能性将更加丰富多彩。

有兴趣的开发者和创作者可以通过以下链接获取该模型的源代码和使用指南：