86_Spring AI 干货笔记之 Chroma 向量存储-开发者社区

一、Chroma

本节将引导您设置 Chroma VectorStore 来存储文档嵌入并执行相似性搜索。

Chroma 是一个开源的嵌入数据库。它为您提供了存储文档嵌入、内容和元数据的工具，以及搜索这些嵌入（包括元数据过滤）的功能。

二、先决条件

访问 ChromaDB：与 Chroma Cloud 兼容，或在附录中设置本地 ChromaDB（展示了如何使用 Docker 容器在本地设置数据库）。

对于 Chroma Cloud：您需要从 Chroma Cloud 仪表板获取您的 API 密钥、租户名称和数据库名称。
对于本地 ChromaDB：除了启动容器外，无需额外配置。

一个 EmbeddingModel 实例来计算文档嵌入。有几种选择：

（如果需要）一个用于 EmbeddingModel 的 API 密钥，以生成存储在 ChromaVectorStore 中的嵌入。

启动时，如果尚未配置，ChromaVectorStore 会创建所需的集合。

三、自动配置

Spring AI 自动配置、启动器模块的工件名称发生了重大变化。请参阅升级说明以获取更多信息。

Spring AI 为 Chroma 向量存储提供了 Spring Boot 自动配置。要启用它，请将以下依赖项添加到项目的 Maven pom.xml 文件中：

<dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-starter-vector-store-chroma</artifactId></dependency>

或添加到 Gradle build.gradle 构建文件中：

dependencies{implementation'org.springframework.ai:spring-ai-starter-vector-store-chroma'}

请参阅依赖管理部分，将 Spring AI BOM 添加到您的构建文件中。

请参阅工件仓库部分，将 Maven Central 和/或快照仓库添加到您的构建文件中。

向量存储实现可以为您初始化必要的模式，但您必须通过指定相应构造器中的 initializeSchema 布尔值，或在 application.properties 文件中设置 …initialize-schema=true 来选择加入。

这是一个破坏性变更！在早期版本的 Spring AI 中，此模式初始化是默认发生的。

此外，您需要一个配置好的 EmbeddingModel bean。有关更多信息，请参阅 EmbeddingModel 部分。

以下是一个所需 bean 的示例：

@BeanpublicEmbeddingModelembeddingModel(){// 可以是任何其他 EmbeddingModel 实现。returnnewOpenAiEmbeddingModel(OpenAiApi.builder().apiKey(System.getenv("OPENAI_API_KEY")).build());}

要连接到 Chroma，您需要提供实例的访问详细信息。可以通过 Spring Boot 的 application.properties 提供简单的配置：

# Chroma 向量存储连接属性spring.ai.vectorstore.chroma.client.host=<您的 Chroma 实例主机># 对于 Chroma Cloud：api.trychroma.comspring.ai.vectorstore.chroma.client.port=<您的 Chroma 实例端口># 对于 Chroma Cloud：443spring.ai.vectorstore.chroma.client.key-token=<您的访问令牌（如果配置）># 对于 Chroma Cloud：使用 API 密钥spring.ai.vectorstore.chroma.client.username=<您的用户名（如果配置）>spring.ai.vectorstore.chroma.client.password=<您的密码（如果配置）># Chroma 向量存储租户和数据库属性（Chroma Cloud 必需）spring.ai.vectorstore.chroma.tenant-name=<您的租户名称>