字节跳动视频生成模型PixelDance将于近期在即梦AI上线

时间：2024-11-16 07:30

小编：小世评选

最近，界面新闻从多方渠道获得消息，字节跳动正在积极推广其最新的视频生成模型——PixelDance，预计将于不久后在即梦AI上公开发布。这一消息引起了广泛关注，因为PixelDance的推出恰逢OpenAI即将发布新模型Sora。这意味着，PixelDance将成为市场上又一强有力的竞争者，标志着字节跳动在视频创作领域的持续深入。

据悉，Runway的联合创始人Cristóbal Valenzuela在11月初的表态中提到，OpenAI计划在大约两周内正式推出Sora。而最近，OpenAI也通过与伦敦艺术家Jon Uriarte的合作，发布了一部短片，为Sora的发布预热。种种迹象表明，PixelDance很可能会在Sora之前率先与公众见面。

作为字节跳动重要的技术创新之一，PixelDance在映像生成技术上颇具实力。回顾字节跳动于9月24日同时发布的豆包视频生成模型PixelDance和Seaweed，便其在大模型研发上的不懈努力。尽管目前字节跳动尚未对此次上线事件作出官方回应，但业内人士透露，PixelDance的内测也正在豆包上进行，面向创作者和企业客户。这种开放测试的举措，旨在收集反馈，进一步提升模型性能。

PixelDance的技术基础相当扎实，尤其在人物动作捕捉、复杂情景理解及多镜头切换技术上表现出色。数据显示，该模型在模拟复杂交互场景时，效果尤为明显。例如，一个输入场景是“特写一个女性的面部，她神态复杂，戴着墨镜，有一名男性从右侧走来并抱住她。”最终生成的视频片段不仅能够遵循复杂的时间序列指令，还能在多个主体之间流畅地完成互动，表现出精确的情感变化。

目前，视频生成模型在人物动作的真实性及流畅性方面依然面临挑战。即便是OpenAI的Sora在这一领域也有待提升，早前发布的样片显示多个人物的动作未能达到理想状态。与之相比，PixelDance在这一方面已有所突破，生成样片在动作表现上更具真实感，展示出字节跳动在技术研发上的进步。

据业内一位多模态大模型专家的反馈，如果PixelDance的样片效果能够真实还原，字节跳动确实在视频生成领域具备与Sora相抗衡的实力。尤其是在人物动作的精确再现上，相比之下，PixelDance的表现显得尤为优越。

根据火山引擎总裁谭待的进一步阐述，豆包系列视频生成模型是经过反复打磨与迭代，基于Transformer结构的优化，已显著提升其泛化能力。同时，PixelDance还采用了DiT架构，从而实现了在动态场景中自由切换的能力，具备了多种镜头语言机制，如变焦、环绕、平摇等。它在镜头切换时，能够确保画面主体、风格及氛围的一致性，这是其在技术上的重大创新。

OpenAI最近的短片表明，Sora也在不断提升其人物动作表现。在一个多人坐着飞行的情景中，影片无论从照片质量还是细节处理上，都向真实照片靠拢，人物动作更显自然。这也让PixelDance的潜在优势愈加突出。

PixelDance如若正式开放，表明其技术成熟度已相对较高，也预示着字节跳动在视频生成领域的进一步布局。有关豆包系列模型的迭代释放计划，谭待再次强调，豆包系列并非按固定时间发布，而是基于何时具备可靠质量及用户反馈来决定。“我们的产品逻辑是，推出的版本必须是成熟且经过充分测试的，而不是急于求成的半成品。”他如是表示。

PixelDance的上线将为视频创作带来新的可能，或可推动整个行业向更高的水平迈进。伴随AI技术的不断进步，未来的视频制作将将变得更加便捷与高效，期待PixelDance的精彩表现。

字节跳动视频生成模型PixelDance将于近期在即梦AI上线

精品推荐

相关文章