腾讯优图实验室开源通用文本表示模型Youtu-Embedding

2025-10-14 18:30:52   |   弘乐   |   1713

10月14日,腾讯优图实验室宣布正式开源通用文本表示模型Youtu-Embedding。该模型面向企业级应用设计,支持智能问答、内容推荐、知识管理及RAG检索增强生成等场景,在中文文本嵌入评测基准CMTEB中以77.46分位列榜首。

Youtu-Embedding通过三阶段训练框架,将大语言模型的广泛知识转化为专用嵌入能力:首先进行基础预训练,再经弱监督对齐,最终通过协同-判别式微调实现多任务协同优化。其创新的动态采样机制与统一数据格式,有效解决了多任务学习中的“负迁移”难题。

作为拥有20亿参数的语义表示模型,Youtu-Embedding可同时胜任文本检索、意图理解、相似度判断等六大主流任务。相比传统关键词匹配检索,该技术能基于语义关联实现更精准的内容匹配,显著提升智能客服、搜索推荐等系统的理解能力。

目前模型权重、推理代码及完整训练框架已在HuggingFace与GitHub同步开放,为企业构建高效NLP应用提供新的技术基础。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

腾讯优图实验室开源通用文本表示模型Youtu-Embedding

2025-10-14 18:30:52 浏览量: 1713 作者: 弘乐

10月14日,腾讯优图实验室宣布正式开源通用文本表示模型Youtu-Embedding。该模型面向企业级应用设计,支持智能问答、内容推荐、知识管理及RAG检索增强生成等场景,在中文文本嵌入评测基准CMTEB中以77.46分位列榜首。

Youtu-Embedding通过三阶段训练框架,将大语言模型的广泛知识转化为专用嵌入能力:首先进行基础预训练,再经弱监督对齐,最终通过协同-判别式微调实现多任务协同优化。其创新的动态采样机制与统一数据格式,有效解决了多任务学习中的“负迁移”难题。

作为拥有20亿参数的语义表示模型,Youtu-Embedding可同时胜任文本检索、意图理解、相似度判断等六大主流任务。相比传统关键词匹配检索,该技术能基于语义关联实现更精准的内容匹配,显著提升智能客服、搜索推荐等系统的理解能力。

目前模型权重、推理代码及完整训练框架已在HuggingFace与GitHub同步开放,为企业构建高效NLP应用提供新的技术基础。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号