达摩院推出VideoLLaMA 3,多模态视频-语言模型达到新SOTA
时间:2025-02-20 07:40
小编:小世评选
最近,达摩院推出了一款新型的多模态视频-语言模型——VideoLLaMA 3,这一模型在多个性能评估维度上达到了新的状态最优(SOTA)。作为一个大小仅7B的模型,VideoLLaMA 3在通用能力、时间推理和长句处理等多个方面表现卓越,超越了众多现有的基线模型,展现了人工智能技术的新高度。
VideoLLaMA 3的设计理念中心围绕图片展开,这一思路在模型架构和训练过程中贯穿始终。该模型利用高质量的图像和文本数据进行构建,采用视频文本数据,显著提升了同参数量开源模型的能力。模型在多个基准测试中,如文档理解、图表解析、场景文本理解、数学推理以及常识问答等任务中,均展现出强大的表现。尤其是在InfoVQA的测试中,VideoLLaMA 3打破了以往纪录,而在MathVista的数学推理任务上更是展现了明显的优势,使得这一模型备受瞩目。
目前,VideoLLaMA 3已在Hugging Face上线,用户可以轻松体验其强大的功能。举例当用户上传《蒙娜丽莎的微笑》这幅名画并询问其在艺术界的历史影响和意义时,VideoLLaMA 3给出的回答详尽而准确,涵盖了艺术史背景以及这幅作品的深远影响。当用户向其询问关于一段视频的不寻常之处时,模型同样能够给出简练明了的分析,表现出其强大的语义理解能力。
VideoLLaMA 3得以实现这些优异性能的关键,正是建立在其创新的训练范式上。这一范式主要包括四个重要方面。视觉编码器能够处理动态分辨率的图像,通过多样场景的图像提升性能,使模型捕捉到更多的视觉细节。利用丰富的图像文本数据为多模态理解奠定基础,增强模型的空间推理能力,同时保留其语言能力。模型通过图像文本问答数据和视频字幕数据的微调,提升了遵循自然语言指令和进行多模态理解的能力。,强化模型在问答任务上的表现,使得其训练数据涵盖多样化的视频、图像和文本数据。
从框架设计来看,VideoLLaMA 3主要包含两个方面的创新。其一,采用了2D-RoPE替代了绝对位置嵌入,突破了传统固定分辨率的限制,使得视觉编码器可以处理各种分辨率的图像和视频,保证模型获取足够的细节信息。其二,针对视频数据冗余的问题,通过分析相邻帧之间的像素空间,并采用1-范数距离的方式修剪多余的数据,提高了视频处理的效率,减少了计算要求。
除了以上的框架设计,高质量数据对VideoLLaMA 3的高性能同样起到了至关重要的作用。研究团队构建了一个涵盖700万图像-字幕对的数据集VL3Syn7M,确保输入数据的质量。例如,在数据准备过程中,过滤了长宽比极端的图像,以保证模型特征提取的准确性。同时,利用美学评分模型筛选出了视觉效果佳的图像,保证模型学习到的内容精确且高质量。在此基础上,团队采用CLIP模型计算文本和图像的相似度进一步提升数据的有效性,进而保证模型对图文对的学习具有更高的代表性。
在训练不同阶段中,数据混合的策略同样保证了模型的丰富多样性。包括了来自多种数据集的图像数据,涵盖了一般场景、文档、图表、OCR(光学字符识别)等多类分类,以增强模型对视觉信息的认识能力。同时,通过指令跟随等微调阶段,使得模型在处理视觉和文本输入的任务中具有更强的指令遵循能力。
VideoLLaMA 3的核心训练和数据处理过程也得到了优化,通过对多个开源数据集中带注释的视频数据进行采集,结合流媒体和时间定位特征,进一步提升了模型的处理能力并有效减轻了灾难性遗忘的问题。
VideoLLaMA 3的推出不仅是达摩院在多模态AI领域的一次重大突破,更为视频和语言的交互型人工智能开辟了新的可能性。研究人员将这一模型的论文和相关demo都在Hugging Face和GitHub上做好了开放,期待更多用户的参与与反馈,助推多模态技术的进一步发展。对于这个充满潜力的模型,感兴趣的朋友可以通过以下链接进行深入体验:
论文地址:[https://arxiv.org/abs/2501.13106](https://arxiv.org/abs/2501.13106)
GitHub项目地址:[https://github/DAMO-NLP-SG/VideoLLaMA3/tree/main?tab=readme-ov-file](https://github/DAMO-NLP-SG/VideoLLaMA3/tree/main?tab=readme-ov-file)
Hugging Face demo(图像):[https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-Image](https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-Image)
Hugging Face demo(视频):[https://huggingface.co/spaces/lixin4ever/VideoLLaMA3](https://huggingface.co/spaces/lixin4ever/VideoLLaMA3)
在未来的科技发展中,VideoLLaMA 3定将成为推动AI智能化进程的重要助力。