跳过 MLOps：通过 Cloud Connect 使用 EIS 为自管理 Elasticsearch 提供托管云推理-开发者社区

作者：来自 Elastic Jordi Mon Companys 及 Matt Ryan

介绍通过 Cloud Connect 的 Elastic Inference Service (EIS)，它为自管理 Elasticsearch 用户提供混合架构，消除了语义搜索和 RAG 的 MLOps 与 CPU 硬件障碍。

测试 Elastic 的前沿开箱即用功能。现在就可以浏览我们的示例笔记本，启动免费的云试用，或在本地机器上体验 Elastic。

如果你在本地或私有云运行 Elasticsearch，你可能会遇到一个熟悉的困境：你想实现语义搜索。你知道像 jina-embeddings-v3 这样的最先进密集向量模型是提升相关性的标准。但当你看到运行这些模型所需的基础设施要求时，项目就停滞了。

问题通常不在于软件：Elasticsearch 多年来一直支持向量搜索。问题在于硬件。

MLOps 瓶颈

运行模型推理以生成语义搜索所需的 embeddings 是计算密集型的。如果你自管理集群，这会带来一系列关于运维复杂性和资源灵活性的艰难权衡：

消耗 CPU 周期：你在现有的 CPU 节点上运行模型。这对小数据集和小模型可行，但随着数据吞吐量增加，你的索引吞吐量会急剧下降，搜索节点最终被向量生成任务占满，而无法正常服务查询。
配置 GPU：你向基础设施团队申请 GPU 加速节点。在许多组织中，这会引发采购噩梦。GPU 昂贵且稀缺，同时引入新的机器学习运维（MLOps）复杂性：驱动兼容性、容器编排、扩展逻辑等，团队可能没有时间管理。

这就造成了一个差距：自管理部署往往只能停留在关键字搜索（BM25），仅仅因为 AI 的基础设施门槛太高。

引入混合推理架构

我们构建了Elastic Inference Service (EIS)，并通过Cloud Connect提供，以解决硬件限制问题。它允许自管理集群（运行在 Elastic Cloud on Kubernetes [ECK]、Elastic Cloud Enterprise [ECE] 或独立环境中），无论是在本地还是私有云环境，都能将计算密集型的模型推理任务委托给Elastic Cloud。

这不需要对集群架构进行整体迁移。虽然需要向云端传输你希望向量化的文本字段进行处理，但你不需要永久迁移数 TB 的业务数据，也不必重新设计存储架构。

这种混合拓扑的优势在于：数据节点、主节点和索引存储仍然保留在你的私有环境中，而生成 embeddings 的重负载计算则外包给 Elastic 管理的 GPU 集群。

工作原理：数据留在本地，智能随行

理解存储和推理的区别很重要。当你通过 Cloud Connect 使用 EIS 时：

握手：你在 Elastic Cloud 生成 API key 并粘贴到自管理的 Kibana 实例中。这建立了一个安全、认证的桥梁。
管道：当你使用 semantic_text 字段索引文档（或手动配置 inference processor）时，本地集群只会自动发送特定文本内容到 EIS endpoint，传输中加密。
推理：文本在 Elastic 管理的 GPU 内存中处理。生成的 vector embedding 会立即返回到本地集群。
存储：vector 会被索引并存储在本地磁盘，与原始源文档一起保存。

原始文本有效负载是短暂的：它仅用于推理处理后即被丢弃，永远不会在云端被索引或永久存储。你可以获得 GPU 加速集群的相关性，而无需改变你的数据驻留策略。

扩展语义搜索而无需硬件配置

来看一个实际场景。你是一个 site reliability engineer (SRE)，负责管理一个大型 ecommerce 平台的集群。搜索团队想部署 Jina 来解决 “zero results” 查询问题，但你的本地节点受限于 CPU，且没有可用 GPU 基础设施。

下面是如何通过 Cloud Connect 使用 EIS，在几分钟内解决这个问题，而不是几个月。

步骤 1：握手

首先，建立自管理集群与 Elastic Cloud 之间的桥梁：

在本地 Kibana 中导航到Stack Management。
在Cloud Connect部分，点击Connect to Elastic Cloud。
使用你的 Elastic Cloud 凭证进行认证，并授权连接。
结果：你的本地集群现在已连接云端，作为一个卫星节点，可以使用 Software as a Service (SaaS) 服务。

步骤 2：启用服务

在 Cloud connected services 页面，找到Elastic Inference Service。
点击Enable，并等待状态切换为Enabled。

这使得所有这些 inference endpoints 可以立即在本地使用：

步骤 3：配置 pipeline

现在服务可用，你可以配置一个 ingest pipeline。无需管理本地 Jina 容器，只需指向 cloud-hosted model。打开 console，并在本地尝试 Jina embeddings model：

PUT /semantic-search-eis { "mappings": { "properties": { "text": { "type": "semantic_text", "inference_id": ".jina-embeddings-v3" } } } } POST /semantic-search-eis/_doc { "text": "Aberdeen Football Club" } GET /semantic-search-eis/_search { "query": { "match": { "text": "soccer" } } }

这个match查询会返回针对 “Aberdeen Football Club” 的语义正确结果，而不是像严格匹配 “soccer” 那样只返回字面上匹配的内容，因为语义搜索理解查询意图而不是字面词匹配。

{ "took": 42, "timed_out": false, "_shards": { "total": 1, "successful": 1, "skipped": 0, "failed": 0 }, "hits": { "total": { "value": 1, "relation": "eq" }, "max_score": 0.89421, "hits": [ { "_index": "semantic-search-eis", "_id": "1", "_score": 0.89421, "_source": { "text": "Aberdeen Football Club" } } ] } }

步骤 4：混合 ingestion

当你通过这个 pipeline 索引文档时，流程如下：

你的本地 node 接收文档。
文本字段被安全地传输到 EIS endpoint。
Elastic Cloud 使用 Jina v3 在托管 GPU 上生成 dense vector embedding。
生成的 vector 被返回并在你的自管理磁盘上本地索引。

哦，还有一件事：LLMs 也可以通过 Cloud Connect 使用！

虽然 vector search 解决了 retrieval-augmented generation (RAG) 的检索部分，Cloud Connect 也解决了生成部分。通常，要让你的自管理团队访问高质量 large language models (LLMs)，比如 Anthropic 的 Claude，需要单独的采购流程、管理供应商 API key，并处理安全出口。

EIS 通过 Cloud Connect 完全消除了这些障碍。

预配置访问：一旦启用服务，你就可以访问预配置的 Anthropic connector（一个用于 Claude 3.7，一个用于 Claude 4.5）。你不需要提供自己的 API key，也不需要与模型提供商签署单独合同。
零设置：它开箱即用。因为安全桥已经建立，你可以立即在 Search Playground 中选择这些模型来对本地数据测试 RAG。
集成 workflows：这也为我们的内部 AI 工具提供动力。你的团队可以立即开始使用 Elastic AI Assistant 获取 observability insights，或使用 Attack Discovery 进行安全威胁分析，所有这些都由云托管的 LLMs 提供支持，并以你的本地数据为基础。

AI 的捷径

EIS 通过 Cloud Connect 消除了管理 GPU driver、专用硬件和复杂性能监控堆栈的操作障碍。通过将这些需求卸载到 Elastic Cloud，你可以立即构建 RAG 应用和 semantic search 界面，无论你的 cluster 是在 on-premises 还是在 private cloud VPC 上运行。

混合方法解决了自管理 AI 常见的资源利用问题。你不再需要过度配置在低负载时闲置的昂贵硬件，也不必担心流量高峰时的性能瓶颈。你只需通过 Cloud Connect 建立安全连接，就能以 managed API 的方式使用高性能 inference，同时保持数据驻留安全，并让你的 search 能力即时扩展。

EIS 通过 Cloud Connect 现已对Elastic Stack 9.3的Elastic Enterprise自管理客户开放。