腾讯优图实验室开源通用文本表示模型Youtu-Embedding

2025-10-14 18:30:52 | 弘乐 | 1728

10月14日，腾讯优图实验室宣布正式开源通用文本表示模型Youtu-Embedding。该模型面向企业级应用设计，支持智能问答、内容推荐、知识管理及RAG检索增强生成等场景，在中文文本嵌入评测基准CMTEB中以77.46分位列榜首。

Youtu-Embedding通过三阶段训练框架，将大语言模型的广泛知识转化为专用嵌入能力：首先进行基础预训练，再经弱监督对齐，最终通过协同-判别式微调实现多任务协同优化。其创新的动态采样机制与统一数据格式，有效解决了多任务学习中的“负迁移”难题。

作为拥有20亿参数的语义表示模型，Youtu-Embedding可同时胜任文本检索、意图理解、相似度判断等六大主流任务。相比传统关键词匹配检索，该技术能基于语义关联实现更精准的内容匹配，显著提升智能客服、搜索推荐等系统的理解能力。

目前模型权重、推理代码及完整训练框架已在HuggingFace与GitHub同步开放，为企业构建高效NLP应用提供新的技术基础。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。