腾讯混元大模型上线视频生成能力,抢占AI视频市场先机
时间:2024-12-08 09:00
小编:小世评选
作者 | 黄昱
编辑 | 周智宇
年初,“文生视频”模型Sora的问世,引发了全球范围内对AI视频生成技术的激烈竞争和广泛关注。时至今日,尽管Sora尚未向外界开放,但腾讯混元凭借其创新和高效的技术,迅速抢占了这个尚处于探索阶段的市场。
2023年12月3日,腾讯混元大模型正式推出视频生成能力,C端用户可以通过腾讯元宝APP申请试用,企业客户则通过腾讯云接入相应服务,目前API也开始了内测申请。这一举措标志着腾讯在AI视频生成领域迈出了重要一步,继文生文、文生图、3D生成后,视频生成成为腾讯混元大模型的又一重要里程碑。同时,腾讯也开源了这款视频生成大模型,参数量达到130亿,成为目前体量最大的开源视频生成模型。
腾讯混元的视频生成技术具有极小的使用门槛,用户只需输入一段文字描述,就可以生成一段持续五秒的视频。虽然相比于Sora以及其他一些“类Sora”产品所需的分钟和十秒级别的视频生成时间,腾讯混元的生成时长可能显得略显不足,但其负责人在媒体交流会上表示,这并非技术问题,而是受到计算资源和数据处理限制的影响。负责人进一步解释,由于视频生成的计算量与时长的平方成正比,因此初版选择五秒的时长是对用户需求的优先满足,未来若市场需求强烈,将考虑对时长进行升级。
腾讯混元生成视频的主要特点包括写实画质、语义遵从、动态流畅和原生转场,这使其生成的视频在视觉效果和内容表达上相较于市场上的同类产品有明显优势。在技术架构方面,腾讯混元采用了与Sora类似的DiT架构,但进行了多处优化,结合了多模态大语言模型作为文本编码器,并自研了基于Scaling Law的全注意力DiT和3D VAE。这一系列先进的技术方案使得腾讯混元在视频生成领域占据了一席之地。
相较于业界普遍采用的T5和CLIP等模型,腾讯混元选择多模态大语言模型作为文本编码器,在理解复杂文本、图文对齐及系统提示方面具有更大的优势。腾讯混元的研发团队也对Scaling Law在图像和视频生成领域的有效性进行了验证,证明其模型的训练策略能够有效提升生成效果。
值得注意的是,腾讯混元正在积极探索视频生成生态模型的发展方向,包括图生视频模型、视频配音模型以及驱动2D照片数字人等应用。这些探索不仅使腾讯在视频生成领域保持领先地位,也为未来的多样化应用奠定了基础。腾讯混元的多模态生成技术负责人也透露,图生视频模型将在短期内有新的突破,这将进一步加速技术的普及和应用。
自从两年前ChatGPT引领AI大模型热潮以来,语言模型的技术路线愈加成熟,而视频生成领域仍处于探索阶段。尽管不少公司在这个领域试图寻求突破,但目前依然没有一家厂商在技术上拥有绝对优势。东方证券的分析师指出,在OpenAI的技术引导下,语言模型的技术路径已相对明确,而多模态技术仍然在不断尝试中。
对于视频生成这一技术较为复杂的领域,其对算力和数据的需求相对较高,这使得其产品化和商业化的进展相对缓慢,困难重重。OpenAI也因算力不足而推迟了对Sora的更新,直到今天仍然未对外开放。
尽管面临诸多挑战和竞争,腾讯的快速行动和技术创新,使其在这一新兴市场中占据了有利地位。从去年以来,在视频生成领域,一系列新技术成果相继落地,国内外多家大模型厂商纷纷推出了类Sora的产品。尽管由于技术和算力的限制,目前这些产品的视频生成时长普遍在十秒以内,但随着技术的进步和竞争的加剧,AI视频生成市场的发展潜力依然不可小觑。
在这个充满机遇的时代,腾讯混元的大胆布局和技术积累,为其在未来的AI视频生成市场发展开创了更广阔的空间,值得我们持续关注。