腾讯优图实验室开源通用文本表示模型Youtu-Embedding
10月14日,腾讯优图实验室宣布正式开源通用文本表示模型Youtu-Embedding。该模型面向企业级应用设计,支持智能问答、内容推荐、知识管理及RAG检索增强生成等场景,在中文文本嵌入评测基准CMTEB中以77.46分位列榜首。
Youtu-Embedding通过三阶段训练框架,将大语言模型的广泛知识转化为专用嵌入能力:首先进行基础预训练,再经弱监督对齐,最终通过协同-判别式微调实现多任务协同优化。其创新的动态采样机制与统一数据格式,有效解决了多任务学习中的“负迁移”难题。
作为拥有20亿参数的语义表示模型,Youtu-Embedding可同时胜任文本检索、意图理解、相似度判断等六大主流任务。相比传统关键词匹配检索,该技术能基于语义关联实现更精准的内容匹配,显著提升智能客服、搜索推荐等系统的理解能力。
目前模型权重、推理代码及完整训练框架已在HuggingFace与GitHub同步开放,为企业构建高效NLP应用提供新的技术基础。