news 2026/2/12 13:18:23

qwen3实现动态决定思考与否是怎么实现的

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
qwen3实现动态决定思考与否是怎么实现的

qwen3实现动态决定思考与否是怎么实现的

已思考 34s

Qwen3 里“动态决定要不要思考”,核心不是在模型内部做了一个神秘的routing/gatingMoE 那样自动走不同子网络),而是把“思考”变成了可控的输出协议 + 推理时开关
同一个模型在需要时会输出被<think>...</think>包起来的推理段;不需要时就直接给最终答复。

下面按“怎么实现”拆开讲:

1) 统一输出协议:用<think>...</think>显式标注推理段

Qwen3 的“思考模式”本质是:模型会把中间推理写在<think> ... </think>之间,最终答案写在标签之外。很多推理服务框架(如 vLLM)也据此提供reasoning parser来抽取/隐藏这段内容。

这一步的关键:训练时让模型学会遵守这个标注协议,从而推理阶段可被系统可靠识别/过滤。

2) 硬开关:enable_thinking=True/False(严格启用/禁用推理输出)

在一些实现/文档里,Qwen3 提供了“严格开关”参数:

  • enable_thinking=True:允许/鼓励输出<think>...</think>推理段

  • enable_thinking=False:禁用推理段输出(只要最终答复)

工程上这通常是通过chat template(对话模板)注入不同的系统提示或起始标记来完成的:模板在 thinking 模式下会自动包含/引导<think>

3) 软开关:/think/no_think(同一会话里按轮切换)

Qwen3 还提供了一个非常实用的“软切换机制”:当enable_thinking=True时,你可以在 user/system 消息里加:

  • /think:这一轮强制走思考模式

  • /no_think:这一轮关闭思考、直接答复
    并且模型会遵循最近一次的指令,从而实现“按轮动态决定”。

这也是很多人说的“动态决定思考与否”的主要来源——它强调的是推理时控制(inference-time control),而非重新加载另一个模型。

4) “思考预算”thinking_budget:限制推理 token,平衡效果与延迟

Qwen3 技术报告与相关文档提到thinking budget机制:让你给“思考”设置一个最多能用多少 token 的上限,以在性能/时延/成本之间做折中。

(直觉上:复杂题给更高 budget,简单题给更低甚至 0。)

5) “动态”到底是谁在决定:模型自己 vs 系统/用户?

技术报告里说“可根据用户查询或 chat template 动态切换”。
落到工程实现,通常有两种“动态”来源:

  1. 用户/上层 Agent 决策:根据任务难度,自动在 prompt 前加/think/no_think(最常见、最可控)。

  2. 服务端策略/模板决策:同一模型提供不同模板入口(thinking vs non-thinking),路由逻辑由系统规则或产品策略决定。

也就是说,“动态”更多是可控切换,而不是模型内部“自发地决定要不要想”。


如果你愿意,我可以给一个 Agent 里“自动判定是否/think”的实用策略(基于:任务类型、约束数量、是否需要工具、多跳检索、失败重试次数、以及预算上限),并给一份可直接用的伪代码/提示模板。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/1 19:23:25

Open-AutoGLM性能对比:与传统RPA工具效率差距有多大?

Open-AutoGLM性能对比&#xff1a;与传统RPA工具效率差距有多大&#xff1f; 1. 引言 1.1 技术背景与选型动因 随着移动互联网的深度渗透&#xff0c;用户对手机操作自动化的需求日益增长。从批量处理社交媒体任务到跨应用数据采集&#xff0c;传统手动操作已无法满足高效、…

作者头像 李华
网站建设 2026/2/6 6:55:52

体验深度估计入门必看:云端GPU按需付费成主流,1块钱起步

体验深度估计入门必看&#xff1a;云端GPU按需付费成主流&#xff0c;1块钱起步 你是不是也和我当年一样&#xff1f;应届毕业生&#xff0c;简历投了一堆&#xff0c;发现很多AI岗位都写着“熟悉深度估计”“掌握单目深度预测技术”“了解3D感知基础”。心里一咯噔&#xff1…

作者头像 李华
网站建设 2026/2/6 11:58:24

Open NotebookLM:5分钟掌握PDF转播客的AI神器

Open NotebookLM&#xff1a;5分钟掌握PDF转播客的AI神器 【免费下载链接】open-notebooklm Convert any PDF into a podcast episode! 项目地址: https://gitcode.com/gh_mirrors/op/open-notebooklm 在数字化学习时代&#xff0c;你是否曾想过将枯燥的PDF文档变成生动…

作者头像 李华
网站建设 2026/2/9 5:33:55

Open NotebookLM:AI驱动PDF转播客工具完整指南

Open NotebookLM&#xff1a;AI驱动PDF转播客工具完整指南 【免费下载链接】open-notebooklm Convert any PDF into a podcast episode! 项目地址: https://gitcode.com/gh_mirrors/op/open-notebooklm 项目概述与核心价值 Open NotebookLM是一款创新的开源AI工具&…

作者头像 李华
网站建设 2026/2/13 0:23:23

GHelper完整教程:快速掌握华硕笔记本性能调校技巧

GHelper完整教程&#xff1a;快速掌握华硕笔记本性能调校技巧 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models 项目地址: h…

作者头像 李华
网站建设 2026/2/5 9:07:47

GHelper完整指南:如何免费掌控华硕笔记本性能

GHelper完整指南&#xff1a;如何免费掌控华硕笔记本性能 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models 项目地址: https…

作者头像 李华