阿里开源Qwen3-Embedding系列模型:多语言文本检索能力行业领先
6月6日,阿里正式开源Qwen3-Embedding系列模型,包含Embedding(文本表征)和Reranker(排序)两大模块,专为文本检索、语义匹配等任务优化。该系列基于Qwen3基础模型训练,在多项基准测试中表现卓越,尤其在多语言支持方面达到行业领先水平。
阿里官方数据显示,Qwen3-Embedding系列在多语言文本表征任务中表现突出:8B参数版本在权威评测MTEB(Massive Text Embedding Benchmark)多语言榜单中排名第一(得分70.58),超越多家商业API服务。Reranker排序模型在文本检索任务中显著提升结果相关性,适用于搜索、推荐等场景。提供0.6B、2B、8B三种参数规模,开发者可根据算力需求灵活选择。
此次开源延续了阿里通义千问(Qwen)系列的技术路线,降低企业部署AI检索能力的门槛。随着大模型竞争进入垂直化阶段,高效的Embedding与Reranker技术将成为搜索、知识库等场景的核心基础设施。
目前,模型代码及权重已公开,开发者可通过阿里官方GitHub仓库获取。业界预计,该系列将推动多语言检索技术的进一步普及。