Hugging Face 推出两款轻量级 AI 模型新标杆

2025-01-24 18:31:24   |   微观猎人   |   4319

1月24日,据报道,Hugging Face 发布了两款全新轻量级视觉语言模型(VLM):SmolVLM-256M-Instruct 和 SmolVLM-500M-Instruct,SmolVLM-256M-Instruct 仅有 2.56 亿参数,可在内存低于 1GB 的 PC 上高效运行。

Hugging Face 的 SmolVLM 系列以轻量化和高性能著称。本次推出的 SmolVLM-256M-Instruct 和 SmolVLM-500M-Instruct 进一步缩减了模型参数,其中SmolVLM-256M-Instruct:仅有 2.56 亿参数,是迄今为止最小的视觉语言模型,可在极低算力环境下运行,同时提供卓越的性能输出。SmolVLM-500M-Instruct:拥有 5 亿参数,针对硬件资源受限的场景设计,适用于大规模数据分析任务。两款模型均采用 Hugging Face 的先进多模态技术,能够执行图像描述、短视频分析、文档理解等任务,为开发者提供更广泛的应用场景。

在技术上,其拥有多模态能力,使SmolVLM 模型能够处理图像、文本和文档等多模态数据,支持图像描述、科学图表分析和 PDF 问答等复杂任务。优化的视觉编码器的新模型采用了 SigLIP base patch-16/512 视觉编码器,相较于 SmolVLM 2B 使用的 SigLIP 400M SO,优化了图像标记的处理方式,显著减少了冗余并提升了复杂数据处理能力。

在数据集支持上,The Cauldron:包含 50 个高质量图像和文本数据集,专注于多模态学习。Docmatix:为文档理解设计的定制数据集,将扫描文档与详细标题配对,提升文档处理能力。高效图像编码,SmolVLM 模型以每标记 4096 像素的速率对图像进行编码,比早期版本的每标记 1820 像素提升了一倍以上,大幅提高了数据处理效率。

Hugging Face 表示,SmolVLM 系列模型在构建可搜索数据库时的速度和成本表现优异,可媲美参数规模是其 10 倍的模型。通过优化算法和架构设计,这些模型为开发者提供了高性价比的 AI 解决方案,使 AI 能力触手可及。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

Hugging Face 推出两款轻量级 AI 模型新标杆

2025-01-24 18:31:24 浏览量: 4319 作者: 微观猎人

1月24日,据报道,Hugging Face 发布了两款全新轻量级视觉语言模型(VLM):SmolVLM-256M-Instruct 和 SmolVLM-500M-Instruct,SmolVLM-256M-Instruct 仅有 2.56 亿参数,可在内存低于 1GB 的 PC 上高效运行。

Hugging Face 的 SmolVLM 系列以轻量化和高性能著称。本次推出的 SmolVLM-256M-Instruct 和 SmolVLM-500M-Instruct 进一步缩减了模型参数,其中SmolVLM-256M-Instruct:仅有 2.56 亿参数,是迄今为止最小的视觉语言模型,可在极低算力环境下运行,同时提供卓越的性能输出。SmolVLM-500M-Instruct:拥有 5 亿参数,针对硬件资源受限的场景设计,适用于大规模数据分析任务。两款模型均采用 Hugging Face 的先进多模态技术,能够执行图像描述、短视频分析、文档理解等任务,为开发者提供更广泛的应用场景。

在技术上,其拥有多模态能力,使SmolVLM 模型能够处理图像、文本和文档等多模态数据,支持图像描述、科学图表分析和 PDF 问答等复杂任务。优化的视觉编码器的新模型采用了 SigLIP base patch-16/512 视觉编码器,相较于 SmolVLM 2B 使用的 SigLIP 400M SO,优化了图像标记的处理方式,显著减少了冗余并提升了复杂数据处理能力。

在数据集支持上,The Cauldron:包含 50 个高质量图像和文本数据集,专注于多模态学习。Docmatix:为文档理解设计的定制数据集,将扫描文档与详细标题配对,提升文档处理能力。高效图像编码,SmolVLM 模型以每标记 4096 像素的速率对图像进行编码,比早期版本的每标记 1820 像素提升了一倍以上,大幅提高了数据处理效率。

Hugging Face 表示,SmolVLM 系列模型在构建可搜索数据库时的速度和成本表现优异,可媲美参数规模是其 10 倍的模型。通过优化算法和架构设计,这些模型为开发者提供了高性价比的 AI 解决方案,使 AI 能力触手可及。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号