news 2026/3/9 13:11:04

54_Spring AI 干货笔记之 Azure OpenAI 语音转录

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
54_Spring AI 干货笔记之 Azure OpenAI 语音转录

一、Azure OpenAI 语音转录

Spring AI 支持 Azure Whisper 模型。

二、前置条件

从 Azure 门户的 Azure OpenAI 服务部分获取您的 Azure OpenAI 端点和 API 密钥。Spring AI 定义了一个名为 spring.ai.azure.openai.api-key 的配置属性,您应将其设置为从 Azure 获取的 API 密钥值。同时还有一个名为 spring.ai.azure.openai.endpoint 的配置属性,应设置为在 Azure 中部署模型时获取的端点 URL。

三、自动配置

Spring AI 的自动配置及其 Starter 模块的构件名称发生了显著变化。更多信息请参阅升级说明。

Spring AI 为 Azure OpenAI 语音转录生成客户端提供了 Spring Boot 自动配置。要启用它,请将以下依赖项添加到项目的 Maven pom.xml 文件中:

<dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-starter-model-azure-openai</artifactId></dependency>

或者添加到您的 Gradle build.gradle 构建文件中。

dependencies{implementation'org.springframework.ai:spring-ai-starter-model-azure-openai'}

请参考“依赖管理”部分,将 Spring AI BOM 添加到您的构建文件中。

转录属性

现在通过顶级属性 spring.ai.model.audio.transcription 来启用或禁用音频转录的自动配置。

  • 要启用:spring.ai.model.audio.transcription=azure-openai (默认已启用)

  • 要禁用:spring.ai.model.audio.transcription=none (或任何非 azure-openai 的值)

此项变更是为了支持配置多个模型。

前缀 spring.ai.openai.audio.transcription 用作属性前缀,用于配置 OpenAI 图像模型的重试机制。

四、运行时选项

AzureOpenAiAudioTranscriptionOptions 类提供了进行转录时使用的选项。在启动时,会使用 spring.ai.azure.openai.audio.transcription 指定的选项,但您可以在运行时覆盖这些选项。

例如:

AzureOpenAiAudioTranscriptionOptions.TranscriptResponseFormatresponseFormat=AzureOpenAiAudioTranscriptionOptions.TranscriptResponseFormat.VTT;AzureOpenAiAudioTranscriptionOptionstranscriptionOptions=AzureOpenAiAudioTranscriptionOptions.builder().language("en").prompt("Ask not this, but ask that").temperature(0f).responseFormat(this.responseFormat).build();AudioTranscriptionPrompttranscriptionRequest=newAudioTranscriptionPrompt(audioFile,this.transcriptionOptions);AudioTranscriptionResponseresponse=azureOpenAiTranscriptionModel.call(this.transcriptionRequest);

五、手动配置

将 spring-ai-openai 依赖项添加到项目的 Maven pom.xml 文件中:

<dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-azure-openai</artifactId></dependency>

或者添加到您的 Gradle build.gradle 构建文件中。

dependencies{implementation'org.springframework.ai:spring-ai-azure-openai'}

请参考“依赖管理”部分,将 Spring AI BOM 添加到您的构建文件中。

接下来,创建一个 AzureOpenAiAudioTranscriptionModel

varopenAIClient=newOpenAIClientBuilder().credential(newAzureKeyCredential(System.getenv("AZURE_OPENAI_API_KEY"))).endpoint(System.getenv("AZURE_OPENAI_ENDPOINT")).buildClient();varazureOpenAiAudioTranscriptionModel=newAzureOpenAiAudioTranscriptionModel(this.openAIClient,null);vartranscriptionOptions=AzureOpenAiAudioTranscriptionOptions.builder().responseFormat(TranscriptResponseFormat.TEXT).temperature(0f).build();varaudioFile=newFileSystemResource("/path/to/your/resource/speech/jfk.flac");AudioTranscriptionPrompttranscriptionRequest=newAudioTranscriptionPrompt(this.audioFile,this.transcriptionOptions);AudioTranscriptionResponseresponse=this.azureOpenAiAudioTranscriptionModel.call(this.transcriptionRequest);
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/27 3:26:32

YOLO目标检测在矿业生产中的应用:矿石粒度分析

YOLO目标检测在矿业生产中的应用&#xff1a;矿石粒度分析 在矿山破碎车间的轰鸣声中&#xff0c;传送带上的矿石如潮水般涌动。操作员盯着监控屏幕&#xff0c;试图判断是否有过大块矿石可能卡住下游设备——这一幕曾是选矿厂日常的真实写照。如今&#xff0c;越来越多的企业开…

作者头像 李华
网站建设 2026/3/4 16:52:20

YOLO模型太大加载慢?NVMe + GPU显存预加载方案

YOLO模型加载慢&#xff1f;用NVMe GPU显存预加载破局 在智能制造工厂的质检线上&#xff0c;一台AOI&#xff08;自动光学检测&#xff09;设备每秒捕捉50帧高清图像&#xff0c;系统必须在20毫秒内完成缺陷识别并触发分拣动作。然而上线初期频繁出现“首帧卡顿”——前几帧处…

作者头像 李华
网站建设 2026/2/26 3:33:55

YOLO模型训练时间过长?考虑使用分布式GPU集群

YOLO模型训练时间过长&#xff1f;考虑使用分布式GPU集群 在智能工厂的质检线上&#xff0c;摄像头每秒捕捉上千张产品图像&#xff0c;AI系统需要实时识别微小缺陷。算法团队刚提交了一个基于YOLOv8的新模型&#xff0c;理论上精度提升了3%&#xff0c;但训练日志显示&#xf…

作者头像 李华
网站建设 2026/3/9 2:53:07

YOLO训练样本不平衡?使用GPU加速过采样策略

YOLO训练样本不平衡&#xff1f;使用GPU加速过采样策略 在工业质检线上&#xff0c;一台高速相机每秒捕捉数百帧图像&#xff0c;检测元件是否偏移、焊点是否存在虚焊。模型上线初期表现尚可&#xff0c;但很快发现一个问题&#xff1a;某些关键缺陷——比如微小裂纹或异物污染…

作者头像 李华
网站建设 2026/3/9 15:27:07

YOLO模型输出COCO格式?GPU加速后处理

YOLO模型输出COCO格式&#xff1f;GPU加速后处理 在智能制造车间的视觉质检线上&#xff0c;一台工业相机正以每秒60帧的速度捕捉流水线上的产品图像。后台系统需要在20毫秒内完成目标检测并触发分拣动作——这意味着从图像采集到结果输出的全流程必须极致高效。然而&#xff0…

作者头像 李华
网站建设 2026/3/7 7:14:44

Win10系统VS2019+Cmake+vtk_8.2.0环境配置

Win10系统VS2019Cmakevtk_8.2.0环境配置 1 vtk 1.1 简要介绍 VTK&#xff08;visualization toolkit&#xff09; 是一个开源的 BSD 许可证免费软件系统&#xff0c;主要用于三维计算机图形学、图像处理和科学计算可视化。 VTK 是在三角函数库 OpenGL 的基础上采用面向对象的…

作者头像 李华