Meta发布WebSSL系列模型，推动无语言监督的视觉自监督学习

时间：2025-07-30 09:10

小编：小世评选

近日，Meta公司在科技界引起了广泛关注，宣布推出其全新的WebSSL系列模型，以应对当前视觉表征学习领域中存在的语言依赖问题。根据科技媒体marktechpost的报道，这一系列模型的参数规模从3亿到70亿不等，专门基于纯图像数据进行训练。这一创新为视觉自监督学习（SSL）带来了新的可能，推动了无语言监督的视觉表征方法的发展。

在多模态学习的领域中，像OpenAI的CLIP模型这样的对比语言-图像模型已经成为了学习视觉表征的重要选择。它们在视觉问答（VQA）和文档理解等任务中展现出了令人瞩目的表现。训练这些模型所需的语言数据集的获取往往复杂且需要大量资源，这使得基于语言的模型面临限制和挑战。Meta针对这一痛点，通过WebSSL模型的发布，探索了在控制变量的条件下，纯视觉自监督学习的可能性。

WebSSL模型采用DINO（Self-Distillation with No Labels）和Vision Transformer（ViT）这两种视觉自监督学习方法进行训练。他们在Hugging Face上发布的MetaCLIP数据集（MC-2B）中，使用了其中的20亿张图像子集进行训练，旨在排除语言监督的影响。Meta的目标并不是取代现有的CLIP模型，而是通过这一新模型深入评估没有数据和模型规模限制的情况下，纯视觉自监督学习的表现潜力。

在构建WebSSL模型时，Meta采用了相对严格的实验设计。模型训练过程中，统一使用224×224分辨率的图像，并将视觉编码器冻结，以确保评估结果的差异只源于预训练策略的改变。在五个不同参数规模的层级（从ViT-1B至ViT-7B）上进行训练，模型的表现通过Cam

ian-1基准测试进行评估，涵盖了通用视觉理解、知识推理、OCR和图表解读等16个VQA任务。这种细致入微的设计，不仅提升了模型的可控性，也为今后的相关研究开辟了新的方向。

初步实验结果显示，WebSSL在多个任务中展现出令人振奋的表现。随着模型参数规模的增加，WebSSL在VQA任务上的表现呈现出接近对数线性的提升趋势，而CLIP在超过30亿参数时的性能已经趋于饱和。这一发现强调了大规模模型的潜力，尤其是在视觉任务中。

值得一提的是，WebSSL在OCR和图表理解任务中的表现尤为突出。在针对数据进行筛选后，这一模型仅用1.3%的富文本图像进行训练，便在OCRBench和ChartQA任务中超越了CLIP，性能提升高达13.6%。这一优异的表现，不仅证明了WebSSL的有效性，也为无语言监督的视觉学习设定了新的基准。

伴随着高分辨率（518px）微调的引入，WebSSL进一步缩小了与如SigLIP等其他高分辨率模型之间的差距，特别是在文档任务上展现出了卓越的能力。这一系列成果表明，即便没有语言监督，WebSSL模型仍然能够有效学习和提取视觉特征，并与文本语义产生良好的对应关系。

WebSSL也在传统基准测试（如ImageNet-1k分类、ADE20K分割）上维持了强劲的表现，部分测试场景甚至超过了Meta自身的CLIP和DINOv2模型。这将给未来的视觉学习任务带来更多的施展空间，同时也为研究者提供了新的工具，促使他们在更多领域中实践和探索。

WebSSL系列模型的发布，标志着Meta在无语言监督的视觉自监督学习领域迈出了重要一步。随着这一技术的不断发展，我们有理由期待，未来的视觉表征学习将越来越少依赖于传统的语言数据，而是有可能走向更加纯粹、更加高效的新模式。

在的日子里，WebSSL将无缝集成至Hugging Face的transformers库，便于研究者和开发者进行更深入的实验和应用。这一举措不仅有利于推动社区的共同进步，也为开放式创新注入新的动力。随着Meta在这一领域的持续努力，视觉自监督学习的发展将迎来新的高潮。

Meta的WebSSL系列模型为减少数据依赖、推动视觉自监督学习的发展提供了全新的思路和方法。这一成果将在科技界引发更广泛的探讨与研究，为无语言监督的学习模式建立基础，并有望在未来的应用场景中发挥重要作用。

Meta发布WebSSL系列模型，推动无语言监督的视觉自监督学习

精品推荐

相关文章