text-embedding-3-small 核心定位：低成本、高吞吐的嵌入解决方案-开发者社区

text-embedding-3-small 是 OpenAI 于 2024 年 1 月推出的轻量级文本嵌入模型，主打低成本、低延迟、多语言优化特性，支持 Matryoshka 无损降维，默认输出 1536 维归一化向量，最大上下文长度达 8191 tokens（约 6k 汉字），定价仅 $0.02 / 1M tokens，性价比远超同类模型（如 ada-002），适合大规模向量检索与 RAG 等多种场景，中文语义理解适配优秀，是兼顾性能与成本的优选嵌入模型。

一、模型核心参数与性能优势

1. 核心参数

发布时间：2024 年 1 月 25 日（与 text-embedding-3-large 同期推出）
默认维度：1536 维，支持通过dimensions参数压缩至 256/512/768 等维度
最大上下文：8191 tokens，可覆盖长文本完整切片向量化需求
输出格式：归一化浮点向量，可直接用余弦相似度计算语义关联
定价优势：$0.02 / 1M tokens，仅为 ada-002 的 1/5、text-embedding-3-large 的 1/6.5

2. 性能对比（vs ada-002）

评测集	ada-002	text-embedding-3-small	提升幅度
MTEB（英文综合）	61.0%	62.3%	+1.3%
MIRACL（多语言检索）	31.4%	44.0%	+12.6%

3. 关键特性

Matryoshka 嵌入（核心亮点）：支持无损降维，例如将 1536 维压缩至 512 维，可降低 2/3 存储与计算成本，检索精度几乎不变，是生产环境的优选方案。
多语言优化：针对中文、日文、韩文等非英语语言做专项优化，跨语言检索效果远超 ada-002，适配多语言业务场景。
低延迟高吞吐：轻量设计，即使在 CPU 环境也能高效运行，适合百万级向量库实时检索，满足高并发线上服务需求。

二、模型使用方法（从零上手，复制可用）

1. 准备工作

安装依赖：执行以下命令安装所需库，用于调用 OpenAI API 及管理环境变量。
```
pipinstallopenai python-dotenv
```
获取并配置 API Key：前往 OpenAI 平台获取个人 API Key，建议创建.env文件存放，避免直接暴露密钥，文件内容如下：
```
OPENAI_API_KEY=你的个人API Key
```

2. 基础用法：生成单条文本向量

最常用的基础功能，可直接生成单条文本的嵌入向量，默认输出 1536 维，代码可直接复制运行：

fromopenaiimportOpenAIfromdotenvimportload_dotenvimportos# 加载环境变量，读取API Keyload_dotenv()client=OpenAI(api_key=os.getenv("OPENAI_API_KEY"))defget_embedding(text):response=client.embeddings.create(input=text,model="text-embedding-3-small"# 指定核心模型)# 返回文本对应的嵌入向量returnresponse.data[0].embedding# 实际使用示例vector=get_embedding("我喜欢用AI做开发")print("向量长度：",len(vector))# 输出：1536（默认维度）print("前5个向量值：",vector[:5])# 输出示例：[0.0231, -0.0124, 0.0567, ...]

3. 推荐用法：降维至 512 维（性价比最高）

生产环境中，推荐将向量降维至 512 维，可在几乎不损失精度的前提下，大幅降低存储和计算成本，提升检索速度：

defget_embedding_small_dim(text):response=client.embeddings.create(input=text,model="text-embedding-3-small",dimensions=512# 关键：设置降维后的维度)returnresponse.data[0].embedding# 使用示例vector_512=get_embedding_small_dim("text-embedding-3-small 性价比极高")print("降维后向量长度：",len(vector_512))# 输出：512

4. 批量生成：多条文本同时向量化

适合知识库、文档批量处理场景，可一次性对多条文本生成嵌入向量，效率更高：

texts=["今天天气很好","我在学习大模型嵌入技术","向量数据库常用于RAG系统构建"# 批量生成向量（降维至512维）response=client.embeddings.create(input=texts,model="text-embedding-3-small",dimensions=512)# 提取所有文本对应的向量vectors=[data.embeddingfordatainresponse.data]print("生成向量数量：",len(vectors))# 输出：3（与文本数量一致）

5. 实用延伸：计算文本相似度

嵌入向量最核心的应用之一是计算文本语义相似度，值越接近 1，说明语义越相近，代码如下：

importnumpyasnp# 定义余弦相似度计算函数defcosine_similarity(a,b):returnnp.dot(a,b)/(np.linalg.norm(a)*np.linalg.norm(b))# 生成两条文本的向量vec1=get_embedding("我喜欢吃苹果")vec2=get_embedding("苹果是我最爱吃的水果")# 计算并输出相似度similarity_score=cosine_similarity(vec1,vec2)print(f"两条文本的相似度：{similarity_score:.4f}")# 输出示例：0.8924

【OpenAI】获取OpenAI API Key的多种方式全攻略：从入门到精通，再到详解教程！

6. 关键使用规则

文本长度限制：单条文本最大支持 8191 tokens，约 6000 汉字，超过需进行切片处理。
维度选择：默认 1536 维，生产环境优先推荐 512 维，平衡精度与成本。
向量特性：输出向量已归一化，可直接用于余弦相似度计算，无需额外处理。
成本控制：定价极低，适合大规模批量处理，百万级 tokens 仅需 $0.02。

三、模型核心应用场景

基于 text-embedding-3-small 低成本、低延迟、多语言适配的优势，其应用场景覆盖多个领域，尤其适合大规模、高并发、低成本需求，具体可分为以下 8 类：

1. RAG 知识库问答（最主流场景）

将企业内部文档、手册、笔记、PDF、Markdown 等各类文档进行批量向量化，搭建本地知识库、私有部署问答系统、客服知识库或企业 AI 助手。优势在于百万级文档嵌入成本极低，长文本可完整切片向量化，能快速实现“文档检索+智能问答”的闭环，适配企业内部培训、客户咨询等场景。

2. 语义搜索 & 全站智能检索

替代传统关键词检索，实现基于语义的智能匹配，解决同义词、转述、模糊查询等痛点。适用于官网文档中心、电商商品搜索、新闻资讯检索、网盘文件检索、后台管理系统等场景，让用户能快速找到语义相关的内容，提升检索效率和体验。

3. 文本相似度 & 内容治理

用于文案重复检测、原创查重、稿件去重，避免内容同质化；同时可对评论、弹幕等内容进行相似聚类，快速识别违规内容并聚合处理；还能用于合同、协议等文本的条款比对，精准匹配差异内容的语义关联，降低人工比对成本。

4. 内容推荐与标签体系

基于文本语义向量，实现文章、资讯、短视频文案、商品内容的个性化推荐；自动为文本打标签，完成文本分类和内容聚合归档；同时可构建用户兴趣画像，基于用户浏览、互动的文本语义，匹配更贴合用户需求的内容，提升推荐转化率。

5. 对话系统 & 意图识别

应用于聊天机器人、智能客服等场景，识别用户提问意图并进行标准化处理；将相似问题合并，实现常见问答（FAQ）的智能匹配，提升对话响应效率；还可对多轮对话记忆进行压缩，召回历史对话的语义信息，让对话更连贯自然。

6. 数据挖掘 & 文本聚类

对海量用户评论、调研问卷、用户反馈等非结构化文本进行批量聚类分析，快速提炼核心观点、聚合负面情绪，用于舆情分析、用户需求挖掘等场景；也可实现无监督文本分类，快速梳理杂乱的文本数据，为决策提供支撑。

7. 代码 & 技术文档检索

针对代码片段、开发文档、接口文档等技术类内容进行语义搜索，实现函数、代码逻辑的相似度匹配，助力开发者快速复用代码、排查技术问题，提升开发效率，是技术团队的实用工具。

8. 多语言跨语言场景

支持中文、英文、日文、韩文等多语言文本的统一向量空间，可用于跨语言检索、双语知识库搭建、跨境电商内容匹配等场景，解决多语言语义关联的痛点，适配全球化业务需求。

四、场景适配建议

1. 非常适合的场景

大规模、高体量、低成本的文本向量化需求；
中文为主的业务系统，对中文语义理解要求较高的场景；
向量库数据量大，需要控制存储与计费成本的场景；
低延迟、高并发的线上服务，如实时检索、智能客服等。

2. 不适合的场景

法律、医疗、金融等对语义精度要求极高的专业场景，此类场景建议优先使用 text-embedding-3-large；
极简短文本的极致精细语义区分场景，难以发挥其长上下文和多语言优势。

3. 生产最佳搭配

向量维度：优先选择 512 维，平衡精度与成本，大幅降低存储和计算压力；
向量库搭配：推荐使用 Chroma、Milvus、FAISS 等轻量或分布式向量库，适配大规模向量检索；
架构搭建：批量处理文档，搭建轻量化、低成本的企业级 RAG 架构，实现高效的文档检索与问答。

text-embedding-3-small 核心定位：低成本、高吞吐的嵌入解决方案