news 2026/6/19 15:23:27

腾讯Youtu-Embedding:20亿参数中文文本嵌入新突破

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
腾讯Youtu-Embedding:20亿参数中文文本嵌入新突破

腾讯Youtu-Embedding:20亿参数中文文本嵌入新突破

【免费下载链接】Youtu-Embedding项目地址: https://ai.gitcode.com/tencent_hunyuan/Youtu-Embedding

腾讯优图实验室(Youtu Lab)近日发布了全新的中文文本嵌入模型Youtu-Embedding,以20亿参数规模在权威中文评测基准CMTEB(Chinese Massive Text Embedding Benchmark)上取得77.58的最高分,刷新了该领域的性能纪录。这一突破不仅展示了腾讯在大语言模型领域的技术实力,更为中文语义理解、信息检索和人工智能应用开发提供了强大工具。

随着生成式AI技术的快速发展,文本嵌入(Text Embedding)作为连接自然语言与机器理解的关键桥梁,其重要性日益凸显。在搜索引擎优化、智能问答系统、推荐引擎、情感分析等众多领域,高质量的文本嵌入模型能够显著提升系统的语义理解能力和响应准确性。据行业研究显示,2024年全球文本嵌入市场规模已突破12亿美元,预计未来三年将以年均35%的速度增长,其中中文特定模型的需求增速领先全球。

Youtu-Embedding的核心优势在于其创新的"协作-判别"微调框架(Collaborative-Discriminative Fine-tuning Framework),该框架通过统一数据格式、任务差异化损失函数和动态单任务采样机制,有效解决了多任务学习中的"负迁移"问题。这使得模型在保持20亿参数轻量化设计的同时,能够在信息检索(IR)、语义文本相似度(STS)、聚类(Clustering)、重排序(Reranking)和分类(Classification)等六大任务类型上均表现出色。

在CMTEB评测中,Youtu-Embedding展现出显著的性能优势:

该图表清晰展示了Youtu-Embedding与其他主流中文嵌入模型在CMTEB基准上的综合评分对比。可以看到,尽管Youtu-Embedding的20亿参数规模远小于部分竞品(如Qwen3-Embedding-8B、QZhou-Embedding 7B等),但其77.58的总体得分和78.86的任务类型平均得分均位居第一,尤其在聚类任务上以84.27分大幅领先,展现出卓越的语义聚合能力。

从技术特性来看,Youtu-Embedding支持8K上下文长度,提供2048维向量输出,并针对中文语义理解进行了深度优化。模型同时兼容Hugging Face Transformers、Sentence-Transformers、LangChain和LlamaIndex等主流开发框架,开发者可以通过简单的API调用实现文本嵌入功能,极大降低了在实际应用中集成的门槛。

# 使用Sentence-Transformers调用Youtu-Embedding的示例代码 from sentence_transformers import SentenceTransformer model = SentenceTransformer("tencent/Youtu-Embedding", trust_remote_code=True) queries = ["今天天气怎么样?"] passages = [ '今天天气晴朗,适合户外活动。', '明天将有小雨,建议携带雨具。', '本周气温将维持在15-22摄氏度之间。' ] query_embeddings = model.encode_query(queries) passage_embeddings = model.encode_document(passages) similarities = model.similarity(query_embeddings, passage_embeddings) print(similarities) # 输出查询与各段落的相似度分数

Youtu-Embedding的发布将对多个行业产生深远影响。在电商领域,更精准的商品描述与用户查询匹配将提升推荐转化率;在金融风控场景,基于语义相似度的文本分析能够更早识别风险信号;在智能客服系统中,优化的意图识别将显著提升问题解决率。尤为值得注意的是,该模型仅需单张GPU即可高效运行,这为中小企业和开发者提供了经济可行的AI解决方案。

腾讯优图实验室表示,Youtu-Embedding已在Hugging Face平台开放下载,并提供完整的技术文档和示例代码。未来团队将持续优化模型性能,拓展多模态嵌入能力,并与产业伙伴合作开发更多垂直领域的定制化解决方案。随着Youtu-Embedding等先进文本嵌入技术的普及,中文自然语言处理应用的质量和用户体验有望实现跨越式提升。

【免费下载链接】Youtu-Embedding项目地址: https://ai.gitcode.com/tencent_hunyuan/Youtu-Embedding

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/19 1:34:37

使用GitHub Actions自动化测试ms-swift训练流水线

使用GitHub Actions自动化测试ms-swift训练流水线 在大模型研发日益工程化的今天,一个常见的困境是:开发者提交了一段看似无害的配置修改,却在数小时后才发现——某个关键模型的微调任务因为一个缺失的依赖项而彻底失败。这种“在我机器上能跑…

作者头像 李华
网站建设 2026/6/18 4:00:36

QwQ-32B-AWQ:4-bit量化推理新突破!

QwQ-32B-AWQ:4-bit量化推理新突破! 【免费下载链接】QwQ-32B-AWQ 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/QwQ-32B-AWQ 导语:Qwen系列推出QwQ-32B-AWQ模型,通过4-bit AWQ量化技术实现高性能推理,在…

作者头像 李华
网站建设 2026/6/12 18:51:35

PointMLP:重新定义点云处理的简约残差MLP框架

PointMLP:重新定义点云处理的简约残差MLP框架 【免费下载链接】pointMLP-pytorch [ICLR 2022 poster] Official PyTorch implementation of "Rethinking Network Design and Local Geometry in Point Cloud: A Simple Residual MLP Framework" 项目地址…

作者头像 李华
网站建设 2026/6/18 18:39:03

UI-TARS-1.5:超越GPT-4的全能AI交互助手

UI-TARS-1.5:超越GPT-4的全能AI交互助手 【免费下载链接】UI-TARS-1.5-7B 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-1.5-7B 字节跳动最新发布的UI-TARS-1.5-7B模型在多模态交互领域实现重大突破,其在图形用户界面(G…

作者头像 李华
网站建设 2026/6/18 7:40:33

跨平台动漫追番工具全方位使用指南

跨平台动漫追番工具全方位使用指南 【免费下载链接】animation-garden 动漫花园多平台应用程序,使用 Compose Multiplatform 构建。 项目地址: https://gitcode.com/gh_mirrors/an/animation-garden 在当今多元化的数字娱乐时代,动漫爱好者面临着…

作者头像 李华
网站建设 2026/6/13 23:55:41

ImageGPT-small:揭秘GPT如何从像素生成惊艳图像!

ImageGPT-small:揭秘GPT如何从像素生成惊艳图像! 【免费下载链接】imagegpt-small 项目地址: https://ai.gitcode.com/hf_mirrors/openai/imagegpt-small 导语 OpenAI推出的ImageGPT-small模型开创性地将GPT架构应用于图像生成领域,…

作者头像 李华