免费安卓手游下载、分享游戏攻略、电脑硬件资讯、数码科技最新资讯
当前位置: 首页 > 数码科技 > 谷歌DeepMind与布朗大学合作开发AI视频生成技术:用户可通过力的控制实现自然运动

谷歌DeepMind与布朗大学合作开发AI视频生成技术:用户可通过力的控制实现自然运动

时间:2025-07-03 12:05

小编:小世评选

随着人工智能技术的飞速发展,AI在内容创作领域的应用也日益广泛。最近,谷歌DeepMind与布朗大学的科研团队联合推出了一项革命性的AI视频生成技术,用户现在只需通过控制力的方向和强度,就能操控AI生成生动的视频内容。这一创新预计将在动画制作、游戏开发以及虚拟现实等多个领域带来深远影响。

近日,《The Decoder》发布的一篇博文详细介绍了这一技术的核心概念。用户可以通过输入全局力(例如,模拟风力影响整个画面的效果)和局部力(例如,模拟特定点受到的冲击)来实现对视频的控制。这些力以矢量场的形式输入到AI系统中,经过处理后自动生成自然流畅的运动。

研究团队使用了CogVideoX-5B-I2V视频生成模型,并在此基础上加入了ControlNet模块来处理物理控制数据。通过Transformer架构,这一系统能够将输入的信号转化为视频数据,每段生成的视频包含49帧图像,而训练这一模型仅耗费了四台Nvidia A100 GPU的一个昼夜时间,展现出极高的训练效率。

为了训练这一模型,团队使用了大量合成数据。全局力方面,研究团队专门采集了1.5万段在不同风力条件下旗帜飘动的视频素材;局部力方面,包含了1.2万段关于球体滚动以及1.1万段花朵在冲击下的反应视频。这些视频素材为AI提供了丰富的学习基础,帮助模型理解和适应各种物理现象。

更有趣的是,用户在生成过程中,如果在文本描述中引入“风”或“气泡”等物理术语,模型能够自动建立起力与运动之间的正确关系。这一特性使得生成过程更加灵活和自然。训练样本不仅结合了文本提示、起始图像,还包含了详细的物理信号(如全局力的完整矢量场和局部力的动态信号),并通过随机化的背景、光线和视角来增加生成内容的多样性。

该技术在用户测试中表现出色,尤其是在运动匹配度和真实感方面,其“力提示”技术超越了以往的纯文本或运动路径控制的基准模型,甚至在某些性能上超过了依赖真实物理模拟的PhysDreamer模型,尽管在图像质量上稍显逊色。尽管如此,在一些复杂场景中,生成效果仍有改进空间。例如,模型在模拟烟雾运动时,偶尔会忽视风力的影响;人体手臂的运动有时也会出现像布料般飘动的不自然效果。

DeepMind的首席执行官Demis Hassabis表示,随着新一代AI视频模型,如Veo 3的逐渐问世,AI正逐步开始理解物理规则。这一进展标志着AI技术不再仅仅局限于文本或图像的处理,而是进入了一个新的阶段,开始表征世界的物理结构。他认为,这一技术的演进是通向更通用人工智能(AGI)的关键一步,未来的AI将能够在模拟环境中通过经验进行学习,而不再单纯依赖于数据。

这一由谷歌DeepMind与布朗大学联合开发的AI视频生成技术,展现了人工智能在动画及多媒体内容创作的巨大潜力。用户只需通过简单的力量输入,即可实现对生动动画的掌控,为未来的视频制作带来了新的可能性。在这一领域,这项技术是一次引人注目的突破。

随着科技的不断进步,未来的AI视频生成技术还有着更广阔的应用前景,可能会进一步加速影视制作、游戏开发等行业的创新与变革。我们期待这项前沿技术在未来为广大创作者和用户带来更多惊喜。在不久的将来,也许我们将看到更多基于这种技术的作品,推动创意产业向前发展。

精品推荐

相关文章

猜你喜欢

更多

热门文章

更多