微软开源Harrier嵌入模型:MTEB-v2基准测试超越谷歌,登顶行业第一

2026-04-09 16:16:13   |   微观猎人   |   1501

4月9日,微软必应团队宣布开源推出文本嵌入模型系列Harrier,该模型在权威的多语言MTEB-v2基准测试中排名第一,成功超越谷歌Gemini Embedding 2。这一系列模型的发布,为AI智能体系统的信息检索与语义理解提供了更强大的底层能力。

嵌入模型是一种将文本、图像等高维数据转换为低维向量表示的技术,通过捕捉数据的语义特征,让相似内容在向量空间中距离更近。在AI领域,它是搜索引擎、推荐系统和智能体进行信息检索、语义理解和知识推理的基础组件,直接决定了系统处理信息的质量与效率。

针对AI系统从单纯问答向执行操作转变过程中的“落地”难题,微软Harrier系列模型进一步提升嵌入质量,显著提升首次检索的事实准确率,降低系统延迟与成本,并有效减少模型幻觉,从而增强用户信任。

此次发布的Harrier系列包含三个版本:Harrier-OSS-v1-27B、Harrier-OSS-v1-0.6B和Harrier-OSS-v1-270M。所有型号均支持超过100种语言,具备32k上下文窗口,并能为任意输入生成固定尺寸的嵌入向量。在训练策略上,团队为适配低端设备的部署需求,在旗舰模型训练完成后,通过知识蒸馏技术推出了两个轻量级版本,兼顾了性能与部署灵活性。

技术实现层面,微软团队构建了可扩展的数据管道,利用GPT-5生成了超20亿个弱监督数据样本用于对比预训练,以及超1000万个高质量样本用于微调。这一大规模数据工程为模型的卓越性能奠定了基础。

与竞品相比,Harrier模型不仅性能优异,更采用完全开源策略。开发者可在无许可限制的情况下使用该模型,从而轻松提升AI应用的检索质量与语义理解能力。微软表示,基于Harrier的技术积累,公司正开发全新的检索服务,该服务将提供更优质的检索质量、更强的语义理解能力以及更稳健的上下文选择,未来将率先应用于必应搜索,以提升用户交互体验。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

微软开源Harrier嵌入模型:MTEB-v2基准测试超越谷歌,登顶行业第一

2026-04-09 16:16:13 浏览量: 1501 作者: 微观猎人

4月9日,微软必应团队宣布开源推出文本嵌入模型系列Harrier,该模型在权威的多语言MTEB-v2基准测试中排名第一,成功超越谷歌Gemini Embedding 2。这一系列模型的发布,为AI智能体系统的信息检索与语义理解提供了更强大的底层能力。

嵌入模型是一种将文本、图像等高维数据转换为低维向量表示的技术,通过捕捉数据的语义特征,让相似内容在向量空间中距离更近。在AI领域,它是搜索引擎、推荐系统和智能体进行信息检索、语义理解和知识推理的基础组件,直接决定了系统处理信息的质量与效率。

针对AI系统从单纯问答向执行操作转变过程中的“落地”难题,微软Harrier系列模型进一步提升嵌入质量,显著提升首次检索的事实准确率,降低系统延迟与成本,并有效减少模型幻觉,从而增强用户信任。

此次发布的Harrier系列包含三个版本:Harrier-OSS-v1-27B、Harrier-OSS-v1-0.6B和Harrier-OSS-v1-270M。所有型号均支持超过100种语言,具备32k上下文窗口,并能为任意输入生成固定尺寸的嵌入向量。在训练策略上,团队为适配低端设备的部署需求,在旗舰模型训练完成后,通过知识蒸馏技术推出了两个轻量级版本,兼顾了性能与部署灵活性。

技术实现层面,微软团队构建了可扩展的数据管道,利用GPT-5生成了超20亿个弱监督数据样本用于对比预训练,以及超1000万个高质量样本用于微调。这一大规模数据工程为模型的卓越性能奠定了基础。

与竞品相比,Harrier模型不仅性能优异,更采用完全开源策略。开发者可在无许可限制的情况下使用该模型,从而轻松提升AI应用的检索质量与语义理解能力。微软表示,基于Harrier的技术积累,公司正开发全新的检索服务,该服务将提供更优质的检索质量、更强的语义理解能力以及更稳健的上下文选择,未来将率先应用于必应搜索,以提升用户交互体验。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号