腾讯混元发布开源图生视频模型,支持自动生成高质量短视频
时间:2025-03-07 20:10
小编:小世评选
近日,腾讯混元团队在其微信公众号上宣布发布了最新的图生视频模型,并将其开源。这一新技术的推出,不仅为用户提供了一个便捷的工具来自动生成高质量的短视频,同时也为企业和开发者开启了更多的创作可能性。该模型结合了对口型与动作驱动等先进功能,支持生成背景音效及2K高质量的视频,展示了混元团队在视频生成技术方面的创新能力。
据悉,用户只需上传一张静态图片,随后通过简单的文字描述,便可以指导系统生成动态效果。比如,用户可以指定希望画面如何运动,镜头如何切换,混元模型将根据这些要求将静态图片动态化,生成时长为5秒的短视频,并自动为视频配上合适的背景音效。这一过程的简化,极大地降低了视频制作的门槛,无论是内容创作者还是普通用户,都能在这种技术的帮助下轻松制作出吸引人的短视频。
模型的另一项重要功能是“对口型”技术。当用户上传一张人物照片并输入相应的文字或者音频后,系统会使照片中的人物“说话”或“唱歌”。这不仅拓宽了视频表达的形式,也为短视频的内容创作注入了更多创意与趣味。同时,利用“动作驱动”功能,用户可以轻松生成各类舞蹈视频,仅需一键操作,便能创作出与众不同的视频效果。
腾讯混元的这项新技术,将在其官方网站上开放体验,企业和开发者可以通过腾讯云申请API接口,以便在自身的项目中灵活运用。此次发布的图生视频模型是混元文生视频系列开源工作的延续,模型总参数量达到130亿,适用的场景及角色涵盖从写实视频制作、动漫角色到CGI角色的生成,满足多样化的市场需求。
值得注意的是,自混元视频生成模型开源以来,其热度持续攀升,在去年12月便荣登huggingface全站排行第一,目前在Github的Star数已突破8.9K,显示出广泛的开发者关注与参与。众多开发者还纷纷开发基于社区Hunyuanvideo的插件与衍生模型,至今已经积累超过900个衍生版本,其中不乏高质量的创新作品。这一现象不仅是技术的拓展也是生态系统的良性循环。
更早之前,混元团队已经开源了混元DiT文生图模型,迄今为止,衍生模型的数量已高达1600多个,充分证明了混元团队在多模态生成技术领域的领先地位。当前,混元开源系列模型的内容已经完整覆盖了文本、图像、视频及3D生成等多个领域,在Github上的开发者关注和star数也超出了2.3万,成为了众多开发者和创作者的共同选择。
腾讯混元的图生视频模型不仅具备强大的技术实力,也在不断推动着内容创作的边界。通过将复杂的视频制作流程简化为易于操作的上传与描述,腾讯浓缩了创意表达的门槛,让更多人能够通过这一工具,实现他们的视听想象。这一开源策略的实施也为更多的开发者和企业提供了强大的技术支持,促进了整个行业的创新和发展。
腾讯混元的图生视频模型将为短视频创作带来革新,用户无需具备专业技能,只需轻松上传素材,即可产出精美的动态视频,充分展现创意的同时,也为各类市场带来了更多的商业机会。在未来,我们有理由期待混元团队在视频生成技术方面的更多突破与进展。希望这一创新的开源过程能够吸引到更多开发者的加入,共同探索更丰富的创作可能性,推动相关领域的发展。