news 2026/4/30 20:10:09

OpenAI最新发布,企业级AI智能体的强化微调实践

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
OpenAI最新发布,企业级AI智能体的强化微调实践

在2025年QCon AI NYC大会上,OpenAI的Will Hang和Wenjie Zi共同呈现了一场关于企业级AI智能体优化的深度分享。他们重点介绍了Agent RFT(强化微调)这一创新方法,这是一种专门为工具使用型AI智能体设计的强化学习微调技术,旨在显著提升智能体在多步骤任务中的表现。

在2025年QCon AI NYC大会上,OpenAI的Will Hang和Wenjie Zi共同呈现了一场关于企业级AI智能体优化的深度分享。

他们重点介绍了Agent RFT(强化微调)这一创新方法,这是一种专门为工具使用型AI智能体设计的强化学习微调技术,旨在显著提升智能体在多步骤任务中的表现。

从提示优化到模型微调的渐进路径

Hang在演讲中强调了一个实用的改进路径:在修改模型权重之前,应该先从提示词和任务优化入手。

他列举了多个实际案例,包括简化需求描述、添加防护机制以防止工具误用、改进工具描述、优化工具输出质量等,这些措施能让AI智能体做出更好的下游决策。

虽然这些优化方法往往能带来高杠杆效应,但在需要跨工具交互进行一致多步骤推理的任务上,效果可能会遇到瓶颈。这时,就需要考虑更深层次的模型微调方案。

微调方法的选择:从监督学习到强化学习

Hang将微调选项描述为一个连续谱系:

监督微调(Supervised Fine-Tuning):当输入到输出存在可预测映射关系,且目标是模仿一致的风格或结构时,这种方法非常有效。

偏好优化(Preference Optimization):通过配对比较来调整输出,使其更接近偏好响应。OpenAI的Direct Preference Optimization指南将其描述为通过比较模型输出进行微调的方法,目前主要限于文本输入和输出。

强化微调(Reinforcement Fine-Tuning):更适合需要模型在较长轨迹中发现策略,而非简单复制单一演示完成模式的任务。

警惕奖励破解!解决评分器中的任何边缘情况。连续奖励比二元奖励效果更好。—— Will Hang, OpenAI

Agent RFT:为工具使用型智能体量身定制

Agent RFT是强化微调技术在工具使用型AI智能体上的专门适配。

在训练过程中,模型会探索不同的策略,并从评分器(grader)获得学习信号。OpenAI的文档将这一循环描述为:采样候选响应、使用自定义评分器进行评分、基于这些分数更新模型。

Hang特别强调了跨完整轨迹的信用分配,这意味着包括工具选择和工具调用结构在内的早期决策,都可以基于下游结果得到强化或抑制。

他将AI智能体定义为一个能够通过工具与外部世界交互的系统,而不仅仅是响应用户提示。

工具生态与评分器设计

Hang描述了多种工具使用场景,包括编程智能体的终端工具、客户支持场景中的内部业务系统、文档搜索或检索端点等。

他特别强调,工具输出会流回同一个上下文窗口,因此工具调用、工具输出、推理标记和最终响应共同构成了一个单一的多步骤轨迹。

在这一工作流中,评分器成为核心组件。演讲中介绍了多种评分风格,包括简单匹配器、基于模型的判断器、基于代码的评分器、端点评分器,以及组合多种评分器来共同优化准确性和延迟。

超越准确性的运营属性优化

除了答案准确性,Agent RFT还关注那些仅靠准确率无法捕捉的运营属性。

Hang描述了使用Agent RFT来减少不必要的工具调用、强制执行工具调用预算、减少超长轨迹的长尾分布,这些都能有效降低不可预测的延迟并改善用户体验。

幻灯片展示了训练轨迹,显示推理标记和工具调用在训练过程中逐渐减少,这与智能体能够学会使用更少的步骤达到相似或更好任务结果的观点一致。

实际应用案例:金融领域的智能文档检索

Wenjie Zi在演讲的后半部分分享了具体用例和平台设置细节,包括一个面向金融领域的示例。

在这个场景中,模型必须在受限的工具调用预算下,从大型文档语料库中定位相关内容。智能体使用搜索、列表和文件读取工具(通过端点暴露),然后由评分器对最终答案进行评分。

Zi特别强调了即使对于数值答案,也使用基于模型的评分器,以减少因表面格式差异、单位或微小变化导致的假阴性结果。这种方法能够更准确地评估答案的正确性。

跨领域的应用价值

Zi还描述了在智能编程和其他领域的更广泛示例,重点关注具有多种工具、隔离执行环境和奖励设计的环境,这些设计需要平衡正确性、流程和效率。

报告的结果强调了改进的规划能力、减少的长轨迹尾部,在某些情况下还出现了向并行工具调用的转变,以减少顺序轮次。

对于希望深入了解的开发者,可以查阅OpenAI的强化微调和模型优化文档。

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 1:24:54

2025信创标杆:嘉为蓝鲸全栈智能可观测中心,重塑企业运维新生态

2025 年,信创产业全面进入规模化落地阶段,混合云架构、云原生转型与国产化替代成为企业 IT 建设的核心命题。传统运维监控工具面临 “数据孤岛、告警风暴、信创适配不足” 的三重挑战,难以支撑企业数字化转型的深度需求。作为智能运维领域唯一…

作者头像 李华
网站建设 2026/4/23 3:23:50

ESP-DL是什么?乐鑫官方的ESP32嵌入式深度学习工具库

在人工智能与物联网深度融合的当下,将AI能力部署至资源受限的嵌入式终端已成为关键挑战。为此,乐鑫科技推出了ESP-DL,一个专为其ESP32、ESP32-S2、ESP32-S3及ESP32-C3系列芯片设计的高性能深度学习开发库。它通过提供丰富的应用程序接口&…

作者头像 李华
网站建设 2026/4/30 17:21:06

2025CRM选型:从单点到协同的 5 大品牌 7 模块解析

随着企业数字化转型进入深水区,CRM已从“客户跟进工具”进化为“全链路业务协同平台”。企业需要的不再是单一的销售管理,而是覆盖客户-销售-进销存-财务-生产-协同的一体化解决方案。本文选取超兔一体云(国内全模块SaaS)、Salesf…

作者头像 李华
网站建设 2026/4/30 18:55:00

鸿蒙生态高级实战:多端协同与智联设备联动开发

🔗 鸿蒙生态高级实战:多端协同与智联设备联动开发 一、章节概述 ✅ 学习目标 掌握鸿蒙**超级终端(Super Device)**的组队与任务流转逻辑熟练对接**HarmonyOS Connect(鸿蒙智联)**智能硬件设备实现手机/平板…

作者头像 李华
网站建设 2026/4/30 10:14:02

区块链Web3 项目的运营

国内 Web3 项目的运营环境呈现出“强监管与数实融合”的鲜明特征。由于国内严禁虚拟货币交易,运营的核心逻辑已从国际主流的“代币经济(Tokenomics)”转向了“价值权益与场景赋能”。以下是国内区块链 Web3 项目运营的系统化策略,…

作者头像 李华
网站建设 2026/4/26 21:59:56

分享收藏|大数据分析师证书常见问题答疑

✅想考大数据分析师证书,但心里一堆问号? 别着急刷走!这篇整理了被问的10个高频问题,从“认可度”到“怎么学”,一篇给你讲清楚。 如果你是: 🔹 想转行数据分析的小白 🔹 想系统提升…

作者头像 李华