Meta发布WebSSL视觉大模型系列 纯图像训练突破多模态学习瓶颈
4月25日,Meta公司在Hugging Face平台正式发布了WebSSL系列视觉大模型,参数规模覆盖3亿至70亿,开创性地采用纯图像数据进行训练,旨在探索无语言监督的视觉自监督学习(SSL)技术边界。这一突破性研究对当前依赖文本-图像对齐的主流多模态学习范式提出了全新挑战。
WebSSL系列包含基于DINOv2和Vision Transformer(ViT)架构的多个模型,仅使用MetaCLIP数据集(MC-2B)中的20亿张图像进行训练。研究团队采用两种创新范式:联合嵌入学习(DINOv2);掩码建模(MAE);所有模型统一使用224×224分辨率输入,并冻结视觉编码器以确保实验可比性。
在Cambrian-1基准测试的16个VQA任务中,WebSSL展现出三大核心优势:
1. 规模效应:参数增至70亿时,性能保持对数级提升,而CLIP在30亿参数后即现饱和
2. 专项突破:OCRBench和ChartQA任务中性能超越CLIP达13.6%,仅需1.3%的富文本训练数据
3. 分辨率适应:518px微调后在文档任务中媲美SigLIP等专业高分辨率模型。
此次发布揭示了三大关键发现:视觉模型能隐式学习文本语义特征,与LLaMA-3等语言模型天然对齐;在ImageNet-1k分类等传统任务上保持SOTA水平,部分指标超越MetaCLIP和DINOv2;为数据稀缺领域(如医疗影像)提供了去语言依赖的新研究范式。
Meta强调,WebSSL并非旨在取代CLIP,而是通过控制变量实验证明:当摆脱语言监督限制后,纯视觉模型在参数量级突破后仍能保持线性增长。该系列模型已集成至Hugging Face transformers库,方便开发者直接调用。