准确率提升66%！上手Bedrock强化微调功能，打造更智能更经济的模型-开发者社区

re:Invent 2025，亚马逊云科技带来一系列重磅发布，掀起全球云计算创新浪潮。为帮助开发者们深入了解各项技术创新成果、上手使用最新功能，特推出本系列解读文章，助您探索云上未来的无限可能！

企业在将AI模型适配自身特定业务需求时，往往需要作出一项棘手的权衡取舍：要么采用通用模型，接受其仅能产出一般效果的局限，要么直面高级模型定制所伴随的复杂性与高昂成本。按照传统方法，企业常常陷入两难境地：选择成本较低的小模型，但其性能欠佳；部署效果较好的大模型变体，又要承担运维复杂基础设施居高不下的成本。

强化微调是一种借助反馈而非海量标注数据集来训练模型的先进技术，但实施这项技术并非易事，通常需要专业的机器学习知识储备、复杂的基础设施支撑以及高额的资金投入，而且最终也无法确保能够达到特定业务场景所要求的精度标准。

re:Invent 2025，亚马逊云科技宣布在Amazon Bedrock中新增强化微调功能，这项全新的模型定制功能可以打造更智能、更具成本效益的模型，这类模型能够从反馈中学习，为特定业务需求输出更高质量的结果。强化微调采用反馈驱动的技术路径，模型根据奖励信号进行迭代优化。相较于基础模型，采用强化微调的模型平均精度提升66%。

Amazon Bedrock将强化微调工作流实现了自动化处理，让普通开发者无需深厚的机器学习专业知识，也无需依赖大规模标注数据集，也能轻松掌握这项先进的模型定制技术。

强化微调的工作原理

强化微调技术是基于强化学习原理构建的，旨在解决一个行业普遍痛点：让模型稳定生成符合业务需求与用户偏好的输出结果。

传统微调需要依托大规模标注数据集以及成本高昂的人工标注工作，而强化微调技术则另辟蹊径。它并不依赖固定示例进行学习，而是通过奖励函数来评估、判定哪些响应适用于特定的业务场景。这种方式能够让模型无需依赖海量预标注训练数据，就能理解何为优质响应，从而降低了Amazon Bedrock上高级模型定制的门槛，使其变得更加便捷且更具成本效益。

使用Amazon Bedrock中的强化微调功能，能让您收获以下优势：

使用更便捷

Amazon Bedrock将大量复杂操作自动化，让AI应用开发者也能轻松上手强化微调技术。开发者可直接利用Amazon Bedrock中现有的API日志开展模型训练，也能通过上传数据集作为训练数据，无需额外准备标注数据集，也省去了基础设施搭建的环节。

模型性能更优

相较于基础模型，强化微调可将模型平均精度提升66%，支持开发者训练体量更小、运行速度更快、能效更优的模型变体，实现成本与性能的双重优化。该技术目前已适用于Amazon Nova 2 Lite模型，能够针对特定业务需求提升模型效果与性价比，更多兼容模型也将上线。

安全性更高

在整个定制流程中，所有数据均留存于安全的亚马逊云科技服务环境内，有效降低了安全与合规方面的潜在风险。

该功能支持两种相辅相成的方法，为模型优化提供灵活选择：

1.基于可验证奖励的强化学习

Reinforcement Learning with Verifiable Rewards，RLVR

针对代码生成、数学推理等客观性任务，采用基于规则的评分机制。

2.基于AI反馈的强化学习

Reinforcement Learning from AI Feedback，RLAIF

针对指令遵循、内容审核等主观性任务，采用基于AI的评判机制。

开始使用强化微调功能

下面将介绍创建强化微调任务的流程。

首先，登录Amazon Bedrock控制台。然后进入“自定义模型”页面，点击创建按钮，再选择“创建强化微调任务”。

输入本次定制任务的名称，随后选择所需的基础模型。强化微调功能现支持Amazon Nova 2 Lite模型，后续将推出更多兼容模型。

然后，用户需要提供训练数据。您可以直接使用已存储的调用日志，无需另行单独上传数据集。您也可以上传全新的JSONL文件，或从Amazon S3中选择现有数据集。

强化微调功能会自动校验训练数据集，同时兼容OpenAI Chat Completions数据格式。如果您提供的调用日志为Amazon Bedrock的invoke或converse格式，Amazon Bedrock会自动将其转换为Chat Completions格式。

奖励函数配置环节，您需要定义判定优质响应的标准。这里您有两个选项：

1.针对客观性任务：您可以选择自定义代码（Custom code），并编写自定义Python代码，再通过Amazon Lambda函数执行代码。

2.针对更具主观性的评估任务：您可以选择将模型作为评判者（Model as judge），通过提供评估指令，借助基础模型完成评判工作。

本例选择了自定义代码，随后创建一个新的Lambda函数，或直接使用现有Lambda函数作为奖励函数。您可以从系统提供的模板中选择其一作为基础，再根据自身特定需求进行个性化定制。

您还可以根据需求调整默认超参数，例如学习率、批次大小、训练轮数等。

为进一步提升安全性，您可以配置VPC相关设置，并启用Amazon KMS加密功能，以满足您所在组织的合规要求。然后点击创建，启动模型定制任务。

在模型训练过程中，您可以实时监控各项指标，了解掌握模型的学习进展。训练指标仪表盘会展示各项核心性能指标，包括奖励分数、损失曲线，以及模型准确率随时间推移的变化情况。这些指标能够帮助您判断模型是否实现了正常收敛，同时也能验证奖励函数是否在有效引导模型的学习过程。

完成强化微调任务后，您可在模型详情页面查看任务的最终状态。

任务完成后，即可一键部署该模型：选择“配置推理”，然后点击“按需部署”。

在此，您需要为该模型提供一些详细配置信息。

部署模型后，您可点击“在试验台中测试”，来通过Amazon Bedrock试验台快速评估模型性能，这有助于您使用示例提示词测试微调后的模型，并将其生成的回复与基础模型进行对比，来验证模型优化效果。

该试验台提供了直观易用的操作界面，支持快速测试与迭代优化，帮助用户在将模型集成至生产应用前，确认其性能是否满足质量要求。

交互式演示

您可浏览Amazon Bedrock强化微调功能的交互式演示，深入了解其实际运行效果。

交互式演示：

https://aws.storylane.io/share/2wbkrcppkxdr

其他须知事项

关于Amazon Bedrock强化微调功能，您还需要了解以下重要信息：

模板：提供7款开箱即用的奖励函数模板，覆盖客观性任务与主观性任务的各类常见应用场景。
定价：如需了解详细定价信息，请参阅Amazon Bedrock定价页面。
安全：训练数据与定制模型全程保密，不会用于优化供公共使用的基础模型。同时支持VPC与Amazon KMS加密，进一步强化安全防护能力。

您可参阅强化微调功能文档，登录Amazon Bedrock控制台，即刻开始上手体验强化微调功能。

Amazon Bedrock定价：

https://aws.amazon.com/bedrock/pricing/?trk=c4ea046f-18ad-4d23-a1ac-cdd1267f942c&sc_channel=el

强化微调功能文档：

https://docs.aws.amazon.com/bedrock/latest/userguide/reinforcement-fine-tuning.html

我们将持续推出更多关于re:Invent 2025重磅发布的解读文章，帮助您快速上手！

本篇作者

Donnie Prakoso

亚马逊云科技首席开发者布道师、软件工程师，拥有超过17年的技术行业经验，职业生涯跨越了电信、银行和初创公司等多个领域，积累了丰富的行业见解和技术专长。如今，Donnie致力于帮助开发者深入理解并掌握各种前沿技术，助力他们将创新想法转化为现实。

新用户注册海外区域账户，可获得最高200美元服务抵扣金，覆盖Amazon Bedrock生成式AI相关服务。“免费计划”账户类型，确保零花费，安心试用。

星标不迷路，开发更极速！

关注后记得星标「亚马逊云开发者」

听说，点完下面4个按钮

就不会碰到bug了！

点击阅读原文查看博客！获得更详细内容！

准确率提升66%！上手Bedrock强化微调功能，打造更智能更经济的模型

cv_resnet18_ocr-detection使用技巧：快捷键与操作效率提升

YOLOv9 cfg文件路径设置：models/detect/yolov9-s.yaml详解

Live Avatar动画风格迁移：Blizzard cinematics风格复现方法

文件系统（2）和软硬链接

上传无效文件怎么办？unet格式校验机制解析

GPT-OSS开源社区资源：文档/工具/示例代码汇总