腾讯混元大模型上线130亿参数视频生成能力并全面开源
时间:2024-12-09 05:20
小编:小世评选
2023年12月3日,腾讯公司在其最新发布会上宣告了混元大模型的一项重大进展:该模型现已上线视频生成能力,并且这一前沿技术实现了全面开源。这款具备130亿参数的视频生成模型,成为行业内最大规模的开源视频模型,标志着腾讯在人工智能领域又一项令人瞩目的成就。
据腾讯混元团队的负责人介绍,用户只需提供一段语言描述,系统便可快速生成相应的视频。该视频生成模型不仅支持中英文双语输入,还可以适应不同尺寸和清晰度的视频生成需求。腾讯的元宝APP已开放这一功能,用户可以在“AI视频”板块申请试用,企业客户则可通过腾讯云获取服务,API也同步开放内测申请。通过此模型所生成的视频在动态表现上表现得尤为出色,特别是在涉及冲浪、跳舞等剧烈运动的场景中,模型可生成流畅且自然的运动镜头,避免画面变形,并能够真实地反映光影变化,确保镜面或镜子场景中的动作一致性。
腾讯混元视频生成模型采用了类似Sora的DiT架构,并在其基础上进行了多项技术升级。这一模型的文本编码器经过特别优化,提升了对语义的理解能力,使其不仅能更好地处理多个主体,还能实现更为复杂的指令执行和图像展现。同时,模型引入了一种全新的统一全注意力机制,以保证每帧之间的流畅衔接,并支持在多个视角间的无缝切换。先进的图像视频混合VAE(3D变分编码器)技术在细节表现上也大幅提升,尤其在小人脸、高速镜头等场景下,表现尤为精细。
这一开源项目为各行各业的创新提供了良机。腾讯混元视频生成模型所实现的高质量画面,可以广泛应用于广告制作、动画创作、以及各类创意视频制作中,尤其适用于工业级商业场景,助力企业在市场竞争中脱颖而出。开发者和企业能够依托这一开源模型,迅速搭建起适合自身需求的应用和服务,无需从零开始训练模型,从而节省大量人力和算力资源,加速了行业创新和应用落地。
腾讯此轮开源举措是其在人工智能领域持续探索和创新的体现。自2023年初以来,腾讯已经陆续开源了多项混元系列模型,包括文生成文、文生成图及3D生成模型。这一系列模型的全面开源,不仅展示了腾讯在AI技术领域的实力和决心,也为全球开发者社区提供了宝贵的工具和创新的土壤。
在未来的发展中,腾讯将继续加速混元系列模型的开源步伐,将前沿的AI技术普及到更广泛的应用场景中。开源不仅为企业和开发者提供了便利,更加速了技术的迭代与革新,极大推动了人工智能领域的发展进程。
值得关注的是,腾讯开放的模型涉及的不仅是视频生成,还涵盖了文本生成、图像生成等多个维度。这样的开放策略,会吸引更多开发者、技术团队的参与和贡献,共同推动人机交互、视觉内容创作等新兴应用的发展。
腾讯混元大模型的上线与全面开源,不仅是公司在人工智能领域的一次重要布局,也将为行业带来深远的影响和创新机会。在这个瞬息万变的科技时代,腾讯的此番举动将为国内外的技术爱好者和开发者打开一扇全新的窗,促使更具创意和活力的作品与应用不断涌现,未来值得我们共同期待。