Hugging Face 推出两款轻量级 AI 模型新标杆

2025-01-24 18:31:24 | 微观猎人 | 4329

1月24日，据报道，Hugging Face 发布了两款全新轻量级视觉语言模型（VLM）：SmolVLM-256M-Instruct 和 SmolVLM-500M-Instruct，SmolVLM-256M-Instruct 仅有 2.56 亿参数，可在内存低于 1GB 的 PC 上高效运行。

Hugging Face 的 SmolVLM 系列以轻量化和高性能著称。本次推出的 SmolVLM-256M-Instruct 和 SmolVLM-500M-Instruct 进一步缩减了模型参数，其中SmolVLM-256M-Instruct：仅有 2.56 亿参数，是迄今为止最小的视觉语言模型，可在极低算力环境下运行，同时提供卓越的性能输出。SmolVLM-500M-Instruct：拥有 5 亿参数，针对硬件资源受限的场景设计，适用于大规模数据分析任务。两款模型均采用 Hugging Face 的先进多模态技术，能够执行图像描述、短视频分析、文档理解等任务，为开发者提供更广泛的应用场景。

在技术上，其拥有多模态能力，使SmolVLM 模型能够处理图像、文本和文档等多模态数据，支持图像描述、科学图表分析和 PDF 问答等复杂任务。优化的视觉编码器的新模型采用了 SigLIP base patch-16/512 视觉编码器，相较于 SmolVLM 2B 使用的 SigLIP 400M SO，优化了图像标记的处理方式，显著减少了冗余并提升了复杂数据处理能力。

在数据集支持上，The Cauldron：包含 50 个高质量图像和文本数据集，专注于多模态学习。Docmatix：为文档理解设计的定制数据集，将扫描文档与详细标题配对，提升文档处理能力。高效图像编码，SmolVLM 模型以每标记 4096 像素的速率对图像进行编码，比早期版本的每标记 1820 像素提升了一倍以上，大幅提高了数据处理效率。

Hugging Face 表示，SmolVLM 系列模型在构建可搜索数据库时的速度和成本表现优异，可媲美参数规模是其 10 倍的模型。通过优化算法和架构设计，这些模型为开发者提供了高性价比的 AI 解决方案，使 AI 能力触手可及。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。