傅聪联合人大发布OnePiece：首个全面落地推理能力的工业级生成式搜索框架-开发者社区

Datawhale学术

联合：傅聪团队、人大高瓴学院

2025年，生成式推荐技术发展十分迅猛，然而绝大多数工作都主攻生成式推荐基座模型训练方向，很少有工作聚焦在如何将当下LLM技术框架中的“推理能力”迁移至推荐系统中。以CoT、上下文工程为代表的推理技术，占据LLM优化的半壁江山，将推理技术应用至推荐有如下好处：

强化模型对推荐会话“上下文”的感知，增强模型的个性化
小模型 + 推理 ≈ 大模型，能推理的推荐模型可以有效分摊算力、参数压力

为了给推荐模型赋予推理能力，傅聪团队联合人大高瓴学院发表了研究成果《OnePiece: Bringing Context Engineering and Reasoning to Industrial Cascade Ranking System》。该成果在Shopee Search主场景已取得显著收益，全流量生效。

论文原文链接：

arxiv地址：https://arxiv.org/pdf/2509.18091

hugging face地址：https://huggingface.co/papers/2509.18091

Onepiece是一个从推理能力的scaling出发，融合上下文工程、隐式推理和多目标训练的生成式搜推框架。一经发布，就凭借强大的推理能力冲上了Hugging Face Daily Paper榜单的前三，引起了海内外的广泛关注，昭示着生成式搜推领域进入了推理时代。

一、生成式推荐特色的“上下文工程”

提到“上下文工程”，很多人会自然联想到思维链（CoT）技术。CoT 的核心思想，是通过明确的 step-by-step 文本提示，让 LLM 按照人类推理路径进行思考，从而显著提升模型的逻辑能力。

但当我们把这个思路迁移到搜索推荐（尤其是电商场景）时，问题就变得不再简单。

在传统做法中，我们给生成式推荐模型输入的通常是一段用户行为序列，例如用户最近点击、购买过的商品 ID：item A、item B、item C、item D……

如果要模仿 CoT 的方式，我们就需要根据这些行为序列构造出“用户做下一次消费决策时的完整思考过程”，并以文本形式展示给模型，期望模型通过阅读这些步骤来推断用户的购买动机。

但这在实际中几乎不可行：

第一，每个人的购物思维逻辑都不同，难以还原；

第二，即便我们能人为构造出一套推理链条，这种“自然语言文本 + 商品序列 ID”的混合形式也显得非常不协调，输入序列因此变得“异构且不连贯”，模型往往难以理解。

那么，生成式推荐到底应该如何构造 Prompt？

这里不妨回到最朴素的思路 —— test-time few-shot learning。

Few-shot 的本质，简单说就是“举例子”，让模型通过阅读示例来获得举一反三的能力。后来的 Instruct-Following SFT，本质上也是把这些“示例”固化到训练语料中，让模型逐步学习指令跟随能力。

在推荐任务中，“示例”可以怎么构造？

我们的做法是引入一类非常有效的模式：锚点物品序列（anchor item sequences）。

例如在 Shopee Search 场景下，对于某个搜索词，我们可以收集大量用户的高频点击序列、高频下单序列，并把这些序列作为“专家示例（domain expert knowledge）”拼接在目标用户的交互序列后面。这样模型不仅看到用户自己的行为，还能看到“典型用户在同一语境下会怎么行为”，从而自然引入了一种可控的 inductive bias。

基于这一思想，我们提出了如下的上下文工程框架（如下图所示）：

序列格式包含如下几个部分：

Interation History（IH）：就是常规理解的用户行为历史。
Preference Anchors（PA）：根据工程师的领域知识，构造的锚点序列，辅助引导预测和思考方向。
Situational Descriptor（SD）：一些表达场景或其它异构信息的特殊token，一般放在序列末尾聚合信息，例如我们在搜索场用到的user token、query token等。
Candidate Item Set（CIS）：潜在目标候选物品的集合，这个是ranking模式下特有的，也是相对于召回模式的优势所在，ranking模式下，候选物品对模型可见，可提供更多上下文信息。

二、生成式“思考”：自回归的隐式推理

在以 GPT-o 为代表的大模型体系中，“推理”能力之所以强大，核心在于 test-time scaling law：模型在推理阶段通过更长链路的计算、更深的思考过程产出更高质量的答案。而这种能力的典型载体是显式的语言推理——用文本一步步描述思考过程。

但对于生成式推荐（GR）来说，这恰恰是一大挑战。

GR 模型并不在自然语言上工作，而是直接操作用户行为序列与商品 ID 序列。在这种“无自然语言、无描述性逻辑结构”的环境下，模型缺乏承载思考链条的空间，那么它如何像 LLM 一样激发强大的推理能力？

幸运的是，2024 年起学术界出现了一个新方向：隐式推理（Implicit Reasoning）。

这一方向试图让模型在不依赖显式文本推理链条的情况下，仍然能够进行复杂的内部思考。那么，什么是隐式推理？

如果用最直白的方式来描述：就是在模型进行 next-token 计算时，不进行外显的 decoding，也不向外暴露推理链，而是让思考发生在模型内部的隐空间（latent space）中。

如下图所示（示意图），模型在前向计算阶段“自回归地”展开一段多步推理，但最终只输出一个 token，而不输出推理过程本身。

三、利用用户反馈的“渐进性”引导差异化“思考”

在系统性比较了显式推理与隐式推理的优缺点之后，我们发现隐式推理面临的最大挑战是：缺乏“过程监督”（process supervision）。

也就是说，如果模型在内部进行多步推理，但我们并没有告诉它应该“思考什么”或“沿着什么方向思考”，那模型极容易陷入一种“内部次优解”——推理过程中偏离目标，最终输出看似合理但其实 sub-optimal 的结果。

基于这一认识，我们借鉴了此前在 GNOLR（Embed Progressive Implicit Preference in Unified Space for Deep Collaborative Filtering）中提出的渐进式多任务建模（progressive multi-task learning）思想，并将其进一步融入 OnePiece 的推理建模框架中。

具体而言，我们在多步推理的过程中，为每一个中间推理阶段叠加不同深度和颗粒度的监督信号，从而让模型的内部推理路径从“简单模式 → 中阶模式 → 高阶模式”逐级展开。这种由浅入深的渐进式监督，使模型不仅能够完成 latent reasoning，还能以更结构化的方式“向着正确的方向思考”。

如下图所示，这种策略相当于在模型的多跳隐式思维链中插入了一系列“浅监督锚点”，在不暴露具体推理链条的前提下，有效地引导模型持续向更高质量的决策靠拢。

四、实验结果分析

1、离线实验

为了深度分析OnePiece的效果，我们进行了详细的对比和消融实验（ablation study）。

如表 2 所示，Shopee 的 DLRM 是一个经过多年工业打磨的强力基线，面对这样成熟的体系，朴素（naive）的生成式推荐模型往往难以真正竞争。

在此基础上，PA 通过上下文工程方式注入额外的 domain knowledge，这一策略本身与模型骨干结构无关，因此无论是 HSTU 还是 ReaRec 都能够从中获益。

进一步来看，OnePiece 相比 ReaRec+PA 能够取得额外提升的核心原因有二：

第一，OnePiece 的 block-wise reasoning 机制显著提升了模型在多步推理中的“信息带宽”；
第二，我们提出的渐进式训练策略有效增强了模型的推理组织性和稳定性，使其能够在更深的 latent reasoning 链条中保持方向一致。

从表 3 可以观察到，side information 对模型性能具有显著影响。为了充分利用这些丰富的商品属性信号，OnePiece 当前采用的做法是：在序列输入进入 Transformer 之前，通过一个 Linear Adaptor 进行特征融合。

具体而言，我们在每个 token 位置，将 item ID embedding 与其对应的多模态 side info embedding 进行线性聚合，使模型在最底层输入阶段就能够同时接收到 ID-level 与 attribute-level 的信息。这样做不仅提升了表达能力，也为后续的 block-wise reasoning 提供了更高质量的底层语义。

表 4 和表 5 显示，双向注意力在搜推广任务下具有明显优势。这一现象并不难理解：当前主流的搜推系统仍然采用“单请求—单页面返回”的交互模式，GR 模型在工业场景中也并不会依赖自身生成的 token 进行逐步解码。换言之，每一次请求的生成过程本质上都是“一次性完成”的，而不是语言模型那种“逐步生成”的链式过程。

在不存在自回归解码性能压力的前提下，为 pre-filling 部分引入双向注意力能够显著提升上下文聚合能力，使模型在 token 间进行更充分的信息交互，因此自然更适合该场景的建模需求。

同时，实验结果还表明：

多步推理具有 scaling 效果——随着推理步数增加，模型性能会逐步提升，但提升幅度逐渐收敛；

渐进式引导优于仅监督最终一步——通过对中间推理阶段施加层级化监督信号，模型的内部推理组织性显著增强，最终输出也更稳定。

2、在线实验

我们在Shopee主搜场景进行了实验，具体地，我们在召回阶段和prerank阶段两个正交的实验层进行了在线AB实验。在召回阶段，我们将OnePiece召回替代了原有的DeepU2I召回，取得了1.08%的GMV/user增长；在prerank阶段，我们用OnePiece ranking model替换了原有的DLRM model，取得了1.12%的GMV/user增长和2.9%的广告收入增长，可以说是相当大幅度的提升。

五、未来展望：构建更加通用的工业级搜推模型

OnePiece 可以被视为我们在 “One For All” 通用“推理型”推荐模型方向上的一次初步探索。它的实验结果证明：通过适配推荐场景的上下文工程与推理范式，我们确实能够有效地引导模型的预测路径，使其在无语言环境下展现出类似 LLM 的指令跟随能力。

OnePiece 1.0 已经让我们看到，一个全新的技术方向正在出现：

“提示词优化（Prompt Optimization）” 正在成为搜索推荐技术栈中的潜在核心能力。

这意味着未来的推荐系统，不再只是靠特征工程与模型结构优化驱动，而是可以像 LLM 一样，通过调整上下文与思考模式来显著改变模型行为。

基于此，我们的下一步工作将聚焦于打造OnePiece 2.0版本，尝试以单一模型，统一建模多场景、多类型的召回策略，构建更加通用的工业级搜推模型：General Recommender Model。

一起“点赞”三连↓