news 2026/5/12 3:54:36

跳过 MLOps:通过 Cloud Connect 使用 EIS 为自管理 Elasticsearch 提供托管云推理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
跳过 MLOps:通过 Cloud Connect 使用 EIS 为自管理 Elasticsearch 提供托管云推理

作者:来自 Elastic Jordi Mon Companys 及 Matt Ryan

介绍通过 Cloud Connect 的 Elastic Inference Service (EIS),它为自管理 Elasticsearch 用户提供混合架构,消除了语义搜索和 RAG 的 MLOps 与 CPU 硬件障碍。

测试 Elastic 的前沿开箱即用功能。现在就可以浏览我们的示例笔记本,启动免费的云试用,或在本地机器上体验 Elastic。


如果你在本地或私有云运行 Elasticsearch,你可能会遇到一个熟悉的困境:你想实现语义搜索。你知道像 jina-embeddings-v3 这样的最先进密集向量模型是提升相关性的标准。但当你看到运行这些模型所需的基础设施要求时,项目就停滞了。

问题通常不在于软件:Elasticsearch 多年来一直支持向量搜索。问题在于硬件。

MLOps 瓶颈

运行模型推理以生成语义搜索所需的 embeddings 是计算密集型的。如果你自管理集群,这会带来一系列关于运维复杂性和资源灵活性的艰难权衡:

  • 消耗 CPU 周期:你在现有的 CPU 节点上运行模型。这对小数据集和小模型可行,但随着数据吞吐量增加,你的索引吞吐量会急剧下降,搜索节点最终被向量生成任务占满,而无法正常服务查询。

  • 配置 GPU:你向基础设施团队申请 GPU 加速节点。在许多组织中,这会引发采购噩梦。GPU 昂贵且稀缺,同时引入新的机器学习运维(MLOps)复杂性:驱动兼容性、容器编排、扩展逻辑等,团队可能没有时间管理。

这就造成了一个差距:自管理部署往往只能停留在关键字搜索(BM25),仅仅因为 AI 的基础设施门槛太高。

引入混合推理架构

我们构建了Elastic Inference Service (EIS),并通过Cloud Connect提供,以解决硬件限制问题。它允许自管理集群(运行在 Elastic Cloud on Kubernetes [ECK]、Elastic Cloud Enterprise [ECE] 或独立环境中),无论是在本地还是私有云环境,都能将计算密集型的模型推理任务委托给Elastic Cloud

这不需要对集群架构进行整体迁移。虽然需要向云端传输你希望向量化的文本字段进行处理,但你不需要永久迁移数 TB 的业务数据,也不必重新设计存储架构。

这种混合拓扑的优势在于:数据节点、主节点和索引存储仍然保留在你的私有环境中,而生成 embeddings 的重负载计算则外包给 Elastic 管理的 GPU 集群。

工作原理:数据留在本地,智能随行

理解存储和推理的区别很重要。当你通过 Cloud Connect 使用 EIS 时:

  • 握手:你在 Elastic Cloud 生成 API key 并粘贴到自管理的 Kibana 实例中。这建立了一个安全、认证的桥梁。
  • 管道:当你使用 semantic_text 字段索引文档(或手动配置 inference processor)时,本地集群只会自动发送特定文本内容到 EIS endpoint,传输中加密。
  • 推理:文本在 Elastic 管理的 GPU 内存中处理。生成的 vector embedding 会立即返回到本地集群。
  • 存储:vector 会被索引并存储在本地磁盘,与原始源文档一起保存。

原始文本有效负载是短暂的:它仅用于推理处理后即被丢弃,永远不会在云端被索引或永久存储。你可以获得 GPU 加速集群的相关性,而无需改变你的数据驻留策略。

扩展语义搜索而无需硬件配置

来看一个实际场景。你是一个 site reliability engineer (SRE),负责管理一个大型 ecommerce 平台的集群。搜索团队想部署 Jina 来解决 “zero results” 查询问题,但你的本地节点受限于 CPU,且没有可用 GPU 基础设施。

下面是如何通过 Cloud Connect 使用 EIS,在几分钟内解决这个问题,而不是几个月。

步骤 1:握手

首先,建立自管理集群与 Elastic Cloud 之间的桥梁:

  • 在本地 Kibana 中导航到Stack Management

  • Cloud Connect部分,点击Connect to Elastic Cloud

  • 使用你的 Elastic Cloud 凭证进行认证,并授权连接。
    结果:你的本地集群现在已连接云端,作为一个卫星节点,可以使用 Software as a Service (SaaS) 服务。

步骤 2:启用服务

  • 在 Cloud connected services 页面,找到Elastic Inference Service

  • 点击Enable,并等待状态切换为Enabled

这使得所有这些 inference endpoints 可以立即在本地使用:

步骤 3:配置 pipeline

现在服务可用,你可以配置一个 ingest pipeline。无需管理本地 Jina 容器,只需指向 cloud-hosted model。打开 console,并在本地尝试 Jina embeddings model:

PUT /semantic-search-eis { "mappings": { "properties": { "text": { "type": "semantic_text", "inference_id": ".jina-embeddings-v3" } } } } POST /semantic-search-eis/_doc { "text": "Aberdeen Football Club" } GET /semantic-search-eis/_search { "query": { "match": { "text": "soccer" } } }

这个match查询会返回针对 “Aberdeen Football Club” 的语义正确结果,而不是像严格匹配 “soccer” 那样只返回字面上匹配的内容,因为语义搜索理解查询意图而不是字面词匹配。

{ "took": 42, "timed_out": false, "_shards": { "total": 1, "successful": 1, "skipped": 0, "failed": 0 }, "hits": { "total": { "value": 1, "relation": "eq" }, "max_score": 0.89421, "hits": [ { "_index": "semantic-search-eis", "_id": "1", "_score": 0.89421, "_source": { "text": "Aberdeen Football Club" } } ] } }

步骤 4:混合 ingestion

当你通过这个 pipeline 索引文档时,流程如下:

  • 你的本地 node 接收文档。
  • 文本字段被安全地传输到 EIS endpoint。
  • Elastic Cloud 使用 Jina v3 在托管 GPU 上生成 dense vector embedding。
  • 生成的 vector 被返回并在你的自管理磁盘上本地索引。

哦,还有一件事:LLMs 也可以通过 Cloud Connect 使用!

虽然 vector search 解决了 retrieval-augmented generation (RAG) 的检索部分,Cloud Connect 也解决了生成部分。通常,要让你的自管理团队访问高质量 large language models (LLMs),比如 Anthropic 的 Claude,需要单独的采购流程、管理供应商 API key,并处理安全出口。

EIS 通过 Cloud Connect 完全消除了这些障碍。

  • 预配置访问:一旦启用服务,你就可以访问预配置的 Anthropic connector(一个用于 Claude 3.7,一个用于 Claude 4.5)。你不需要提供自己的 API key,也不需要与模型提供商签署单独合同。
  • 零设置:它开箱即用。因为安全桥已经建立,你可以立即在 Search Playground 中选择这些模型来对本地数据测试 RAG。
  • 集成 workflows:这也为我们的内部 AI 工具提供动力。你的团队可以立即开始使用 Elastic AI Assistant 获取 observability insights,或使用 Attack Discovery 进行安全威胁分析,所有这些都由云托管的 LLMs 提供支持,并以你的本地数据为基础。

AI 的捷径

EIS 通过 Cloud Connect 消除了管理 GPU driver、专用硬件和复杂性能监控堆栈的操作障碍。通过将这些需求卸载到 Elastic Cloud,你可以立即构建 RAG 应用和 semantic search 界面,无论你的 cluster 是在 on-premises 还是在 private cloud VPC 上运行。

混合方法解决了自管理 AI 常见的资源利用问题。你不再需要过度配置在低负载时闲置的昂贵硬件,也不必担心流量高峰时的性能瓶颈。你只需通过 Cloud Connect 建立安全连接,就能以 managed API 的方式使用高性能 inference,同时保持数据驻留安全,并让你的 search 能力即时扩展。

EIS 通过 Cloud Connect 现已对Elastic Stack 9.3Elastic Enterprise自管理客户开放。

  • 阅读文档:配置 Cloud Connect 指南
  • 开始试用:创建一个 Elastic Cloud 账号

原文:https://www.elastic.co/search-labs/blog/cloud-connect-elastic-inference-service

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/12 3:54:18

括号配对(信息学奥赛一本通- P1572)

【题目描述】 Hecy 又接了个新任务:BE 处理。BE 中有一类被称为 GBE。 以下是 GBE 的定义: 空表达式是 GBE 如果表达式 A 是 GBE,则 [A] 与 (A) 都是 GBE 如果 A 与 B 都是 GBE,那么 AB 是 GBE。 【输入】 输入仅一行,…

作者头像 李华
网站建设 2026/5/12 2:55:42

XQuery 选择和过滤

XQuery 选择和过滤 引言 XQuery 是一种用于查询XML文档的结构化查询语言。它被广泛应用于数据的检索、转换和处理。在XQuery中,选择和过滤是基本操作,用于从XML文档中提取所需的数据。本文将深入探讨XQuery的选择和过滤机制,包括其基本语法、常用函数和技巧。 选择操作 …

作者头像 李华
网站建设 2026/5/1 17:27:13

强化学习在AI Agent交互式学习中的应用

强化学习在AI Agent交互式学习中的应用 关键词:强化学习、AI Agent、交互式学习、马尔可夫决策过程、策略梯度算法 摘要:本文深入探讨了强化学习在AI Agent交互式学习中的应用。首先介绍了相关背景知识,包括目的、预期读者、文档结构和术语表。接着阐述了强化学习和AI Agent…

作者头像 李华
网站建设 2026/5/8 22:46:26

Spark在气象大数据分析中的实践

Spark在气象大数据分析中的实践 关键词:Spark、气象大数据、数据处理、数据分析、分布式计算 摘要:本文围绕Spark在气象大数据分析中的实践展开。首先介绍了气象大数据的特点和分析需求,以及Spark作为分布式计算框架的优势。接着详细阐述了Sp…

作者头像 李华
网站建设 2026/5/8 23:42:12

不花一分钱!这几款免费降ai率神器,拯救你的毕业论文。

眼看着DDL越来越近,好不容易写完论文,结果AI检测率99%?!相信很多同学都经历过这种绝望时刻。作为一个在降AI工具上踩过无数坑的过来人,今天必须把这些宝贵经验分享出来! 我花了一个月时间深度测评了市面上…

作者头像 李华
网站建设 2026/5/8 23:43:44

app内手机防盗功能基本开发完成

我已经说完了,还是那个图片:主要用于静止情况下,手机被拿走这样的情况,类似于电子围栏。以后使用GPS都会非常方便了,因为我已经整理出了GPS类,调用都很方便。简单的开发应该没问题了。

作者头像 李华