news 2026/6/4 23:08:32

JINA AI 与 Elasticsearch 的集成

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
JINA AI 与 Elasticsearch 的集成

Jina AI现在是 Elastic 的一部分,将其高性能多语言和多模态搜索 AI 带入 Elasticsearch 强大的数据存储、检索和索引能力。Jina AI 模型可以通过公共 API 与 Elasticsearch 集成,测试可获得 1000 万个免费 tokens。

jina-embeddings-v4是一个多语言、多模态嵌入模型,支持 30 种主要语言的文本和图像。它有 38 亿参数,在同规模模型中实现了最先进的性能,不仅擅长文本到图像检索,也擅长文本到文本任务。它在视觉文档检索方面表现特别出色,可处理常见图像类型,如图表、幻灯片、地图、截图、扫描件和图示,而大多数计算机视觉模型在这些场景下表现不足。

该模型支持最多 32,768 tokens 的文本输入和最高 2000 万像素的图像输入。其关键创新之一是两种输出模式:

  • 单向向量嵌入(Single-vector embeddings)— 将文本和图像嵌入到一个通用语义空间中,紧凑型文档嵌入。用户可选择 2048 到 128 维的嵌入向量尺寸,精度损失最小。较短的嵌入节省存储空间,并加快索引和检索速度,但精度略低,用户可根据速度、计算资源和检索精度自行权衡。

  • 多向量嵌入(Multi-vector embeddings)— 嵌入与输入大小一致(每个文本 token 128 维,图像按比例),适用于 “后期交互” 相似度计算。嵌入更大,计算成本高于单向量嵌入,但匹配精度更高。

Jina AI 为多个任务优化了该模型,并提供紧凑且可选择的 LoRA 扩展模块,支持三种不同用途:

  • 非对称检索(Asymmetric Retrieval)— 当文档和查询文本编码方式不同,基于嵌入的检索效果更好。Jina Embeddings v4 通过两个单独的 LoRA 扩展支持:一个用于被索引文档,一个用于查询文本。

  • 语义相似度(Semantic Similarity)— 测量两段文本在意义或主题上的相似度。常用于相关文档发现、去重和翻译对齐。

  • 代码特定任务(Code-Specific Tasks)— 针对计算机技术和编程语言相似性进行了特殊训练和行为优化。

jina-embeddings-v3是一个多语言、多用途纯文本嵌入模型,支持最多 8192 tokens 文本输入,输出用户可选长度的嵌入(64 到 1024 维)。该紧凑模型参数不足 6 亿,尽管于 2024 年发布,但在其规模内表现出色。

Jina AI 已训练五个 LoRA 扩展模块以支持四类任务:语义相似度、两类非对称检索以及另外两个:

  • 分类(Classification)— 将文本分入类别,可用于情感分析、垃圾邮件过滤、内容审核和欺诈识别等。

  • 聚类(Clustering)— 根据文本分布确定类别,常用于推荐系统、新闻聚合等任务。

jina-code-embeddings (0.5b & 1.5b)是两个专门的嵌入模型(一个 5 亿参数,一个 15 亿参数),用于编程语言和框架。两者可对自然语言文本和 15 种编程语言生成嵌入,输入最多 32,768 tokens。用户可选择输出嵌入维度:小模型 64 到 896 维,大模型 128 到 1536 维。

五种任务特定检索模式:

  • Code to Code— 跨编程语言检索相似代码,用于代码对齐、去重及迁移和重构支持。

  • Natural Language to Code— 检索与自然语言查询、注释、描述或文档匹配的代码。

  • Code to Natural Language— 将代码与文档或其他自然语言文本匹配。

  • Code to Code Completion— 建议相关代码以完成或增强现有代码。

  • 技术问答(Technical Q&A)— 查找信息技术相关问题的自然语言答案,适合技术支持任务。

jina-clip-v2是多模态嵌入模型,支持文本和图像。训练时确保文本描述图像内容时生成相似嵌入,使得多模态匹配成为可能。已有文本嵌入支持的数据库可直接使用该模型进行图像检索。

该模型也可作为高性能文本嵌入模型,支持广泛的多语言文本和 8192 tokens 输入上下文,降低了用户成本,无需为文本到文本和文本到图像检索使用不同模型。图像输入缩放至 512x512 像素。

jina-reranker-m0是多语言、多模态文本对文档重排序模型,使用更细粒度的“后期交互”分析提高检索精度。接受文本查询和两个候选项(文本、图像或各一个),返回匹配查询更好的候选项。训练覆盖幻灯片、截图、图示等多种材料。图像边长至少 56 像素,大图会调整大小至不超过 768 个 28x28 像素 patch。查询文本和候选文档总输入不超过 10,240 tokens。

jina-reranker-v3是列表式多语言文本文档重排序模型,使用与jina-reranker-m0相同的 “后期交互” 方法,对整列文档按匹配度排序。适用于任何产生有限候选列表的搜索方案,并可作为现有搜索方案的增强。总输入 131,000 tokens,包括查询和所有候选文档。

ReaderLM-v2是小型生成语言模型,可将 HTML(包括网页 DOM 树 dump)转换为 Markdown 或 JSON,遵循用户提供的输出 schema 和自然语言指令,智能处理混乱的网页爬取数据。在其针对的狭窄数据转换任务上性能超越 GPT-4。

入门

访问 Jina AI 官网获取模型及使用 Web API 或下载使用的说明。

教程和笔记本

这些教程参考了旧版 Jina AI 模型,新教程正在制作中。

  • 使用 Jina Embeddings v2 在 Elasticsearch 中进行后期 chunking

  • Elasticsearch Open Inference API 新增对 Jina AI Embeddings 和 Rerank 模型的支持

原文:https://www.elastic.co/search-labs/integrations/jina

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/4 12:33:55

IndexTTS2自动化脚本失败?可能是ChromeDriver没装对

IndexTTS2自动化脚本失败?可能是ChromeDriver没装对 1. 引言:自动化脚本为何频繁中断? 在使用 IndexTTS2(最新 V23 版本)进行语音合成任务时,许多开发者选择通过自动化脚本来实现批量文本转语音、参数调节…

作者头像 李华
网站建设 2026/5/30 18:50:56

从零开始:用AI智能二维码工坊实现批量二维码生成

从零开始:用AI智能二维码工坊实现批量二维码生成 1. 引言 1.1 业务场景描述 在现代数字化运营中,二维码已成为连接线下与线上服务的重要桥梁。无论是产品包装、广告宣传、电子票务,还是企业资产管理,都需要大量定制化二维码的生…

作者头像 李华
网站建设 2026/5/29 22:32:33

为什么我推荐科哥版IndexTTS2?实测告诉你答案

为什么我推荐科哥版IndexTTS2?实测告诉你答案 1. 背景与痛点:中文语音合成的“情感表达”难题 在当前AI语音技术快速发展的背景下,文本转语音(TTS)系统已广泛应用于智能客服、有声书生成、虚拟主播等场景。然而&…

作者头像 李华
网站建设 2026/5/30 6:48:12

分布式游戏串流系统多设备并行处理技术深度解析

分布式游戏串流系统多设备并行处理技术深度解析 【免费下载链接】Sunshine Sunshine: Sunshine是一个自托管的游戏流媒体服务器,支持通过Moonlight在各种设备上进行低延迟的游戏串流。 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine 在当今数字…

作者头像 李华
网站建设 2026/5/30 18:51:08

深度学习框架YOLOV5模型 光伏板热斑检测方法研究 光伏板热斑检测 无人机搭载红外热像仪对光伏板进行全面扫描收集到的红外热图像数据集进行实验验证

数据集情况: 无人机光伏板红外图像热斑缺陷数据集,类别为两种 0为热斑;1为热点;2为遮挡。训练验证测试共2w多张图片,标签已打好,可直接用于训练。光伏板热斑检测方法研究(YoloV5)】围绕光伏板热…

作者头像 李华
网站建设 2026/6/4 16:56:10

AnimeGANv2解析:色彩增强算法实现原理

AnimeGANv2解析:色彩增强算法实现原理 1. 技术背景与问题提出 近年来,随着深度学习在图像生成领域的快速发展,风格迁移技术逐渐从学术研究走向大众应用。传统风格迁移方法如Neural Style Transfer虽然能够实现艺术化效果,但普遍…

作者头像 李华