谷歌DeepMind与布朗大学合作开发AI视频生成技术：用户可通过力的控制实现自然运动

时间：2025-07-03 12:05

小编：小世评选

随着人工智能技术的飞速发展，AI在内容创作领域的应用也日益广泛。最近，谷歌DeepMind与布朗大学的科研团队联合推出了一项革命性的AI视频生成技术，用户现在只需通过控制力的方向和强度，就能操控AI生成生动的视频内容。这一创新预计将在动画制作、游戏开发以及虚拟现实等多个领域带来深远影响。

近日，《The Decoder》发布的一篇博文详细介绍了这一技术的核心概念。用户可以通过输入全局力（例如，模拟风力影响整个画面的效果）和局部力（例如，模拟特定点受到的冲击）来实现对视频的控制。这些力以矢量场的形式输入到AI系统中，经过处理后自动生成自然流畅的运动。

研究团队使用了CogVideoX-5B-I2V视频生成模型，并在此基础上加入了ControlNet模块来处理物理控制数据。通过Transformer架构，这一系统能够将输入的信号转化为视频数据，每段生成的视频包含49帧图像，而训练这一模型仅耗费了四台Nvidia A100 GPU的一个昼夜时间，展现出极高的训练效率。

为了训练这一模型，团队使用了大量合成数据。全局力方面，研究团队专门采集了1.5万段在不同风力条件下旗帜飘动的视频素材；局部力方面，包含了1.2万段关于球体滚动以及1.1万段花朵在冲击下的反应视频。这些视频素材为AI提供了丰富的学习基础，帮助模型理解和适应各种物理现象。

更有趣的是，用户在生成过程中，如果在文本描述中引入“风”或“气泡”等物理术语，模型能够自动建立起力与运动之间的正确关系。这一特性使得生成过程更加灵活和自然。训练样本不仅结合了文本提示、起始图像，还包含了详细的物理信号（如全局力的完整矢量场和局部力的动态信号），并通过随机化的背景、光线和视角来增加生成内容的多样性。

该技术在用户测试中表现出色，尤其是在运动匹配度和真实感方面，其“力提示”技术超越了以往的纯文本或运动路径控制的基准模型，甚至在某些性能上超过了依赖真实物理模拟的PhysDreamer模型，尽管在图像质量上稍显逊色。尽管如此，在一些复杂场景中，生成效果仍有改进空间。例如，模型在模拟烟雾运动时，偶尔会忽视风力的影响；人体手臂的运动有时也会出现像布料般飘动的不自然效果。

DeepMind的首席执行官Demis Hassabis表示，随着新一代AI视频模型，如Veo 3的逐渐问世，AI正逐步开始理解物理规则。这一进展标志着AI技术不再仅仅局限于文本或图像的处理，而是进入了一个新的阶段，开始表征世界的物理结构。他认为，这一技术的演进是通向更通用人工智能（AGI）的关键一步，未来的AI将能够在模拟环境中通过经验进行学习，而不再单纯依赖于数据。

这一由谷歌DeepMind与布朗大学联合开发的AI视频生成技术，展现了人工智能在动画及多媒体内容创作的巨大潜力。用户只需通过简单的力量输入，即可实现对生动动画的掌控，为未来的视频制作带来了新的可能性。在这一领域，这项技术是一次引人注目的突破。

随着科技的不断进步，未来的AI视频生成技术还有着更广阔的应用前景，可能会进一步加速影视制作、游戏开发等行业的创新与变革。我们期待这项前沿技术在未来为广大创作者和用户带来更多惊喜。在不久的将来，也许我们将看到更多基于这种技术的作品，推动创意产业向前发展。

谷歌DeepMind与布朗大学合作开发AI视频生成技术：用户可通过力的控制实现自然运动

精品推荐

相关文章