Hugging Face 推出两款轻量级 AI 模型新标杆
1月24日,据报道,Hugging Face 发布了两款全新轻量级视觉语言模型(VLM):SmolVLM-256M-Instruct 和 SmolVLM-500M-Instruct,SmolVLM-256M-Instruct 仅有 2.56 亿参数,可在内存低于 1GB 的 PC 上高效运行。
Hugging Face 的 SmolVLM 系列以轻量化和高性能著称。本次推出的 SmolVLM-256M-Instruct 和 SmolVLM-500M-Instruct 进一步缩减了模型参数,其中SmolVLM-256M-Instruct:仅有 2.56 亿参数,是迄今为止最小的视觉语言模型,可在极低算力环境下运行,同时提供卓越的性能输出。SmolVLM-500M-Instruct:拥有 5 亿参数,针对硬件资源受限的场景设计,适用于大规模数据分析任务。两款模型均采用 Hugging Face 的先进多模态技术,能够执行图像描述、短视频分析、文档理解等任务,为开发者提供更广泛的应用场景。
在技术上,其拥有多模态能力,使SmolVLM 模型能够处理图像、文本和文档等多模态数据,支持图像描述、科学图表分析和 PDF 问答等复杂任务。优化的视觉编码器的新模型采用了 SigLIP base patch-16/512 视觉编码器,相较于 SmolVLM 2B 使用的 SigLIP 400M SO,优化了图像标记的处理方式,显著减少了冗余并提升了复杂数据处理能力。
在数据集支持上,The Cauldron:包含 50 个高质量图像和文本数据集,专注于多模态学习。Docmatix:为文档理解设计的定制数据集,将扫描文档与详细标题配对,提升文档处理能力。高效图像编码,SmolVLM 模型以每标记 4096 像素的速率对图像进行编码,比早期版本的每标记 1820 像素提升了一倍以上,大幅提高了数据处理效率。
Hugging Face 表示,SmolVLM 系列模型在构建可搜索数据库时的速度和成本表现优异,可媲美参数规模是其 10 倍的模型。通过优化算法和架构设计,这些模型为开发者提供了高性价比的 AI 解决方案,使 AI 能力触手可及。