news 2026/6/20 7:19:21

聊聊大模型推理系统之 Laser:从“整块执行”到“按需分层”,看Laser如何重新定义LLM调度单元

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
聊聊大模型推理系统之 Laser:从“整块执行”到“按需分层”,看Laser如何重新定义LLM调度单元

Laser 的研究不仅是一项技术突破,更指明了未来 LLM 服务系统的重要演进方向。随着大模型应用场景日益多元化,从实时对话到后台批处理,单一的 SLO 保障模式已不再适用。Laser 所倡导的层级别调度理念,为构建弹性、高效、可定制的下一代 AI 推理基础设施提供了坚实的技术路线。

在大模型推理服务日益成为 AI 基础设施的今天,如何高效支撑多 SLO(Service-Level Objective,服务等级目标)混合负载,已成为工业界和学术界共同关注的核心挑战。

最新发表于PPoPP'26(ACM SIGPLAN 并行编程原理与实践年会)的研究《Laser: Unlocking Layer-Level Scheduling for Efficient Multi-SLO LLM Serving》提出了一种突破性方案——Laser系统,通过引入层级别调度(Layer-Level Scheduling)机制,在维持相同 SLO 达标率的前提下,将服务吞吐量(goodput)提升超过 1.67 倍。这项由中山大学团队完成的工作,为下一代 LLM 服务架构提供了全新思路。

论文标题:Laser: Unlocking Layer-Level Scheduling for Efficient Multi-SLO LLM Serving

论文链接:https://dl.acm.org/doi/pdf/10.1145/3774934.3786413

核心看点

当前主流的大语言模型(LLM)服务系统普遍采用迭代级别调度(Iteration-Level Scheduling),即以一次完整前向传播(遍历所有 Transformer 层)为最小调度单元。这种粗粒度方式在面对具有不同延迟要求的混合请求(如聊天机器人要求快首响、代码补全要求低生成延迟)时,显得力不从心,容易造成资源浪费或 SLO 违规。

Laser系统的核心突破在于,它将调度粒度从“整次迭代”细化到“单个 Transformer 层”,并设计了两大关键技术:层级别分块预填充(Layer-Level Chunked Prefill)和层级别解码批处理(Layer-Level Decode Batching)。前者允许在预填充阶段动态切换和合并请求,后者则能为不同 SLO 的请求定制每轮迭代执行的层数。配合跨实例的智能调度策略,Laser 在真实场景中实现了高达 1.67 倍的吞吐量提升,同时保持 90%以上的 SLO 达标率。

研究背景

现代 LLM 服务通常分为两个阶段:预填充(Prefill)阶段并行处理整个输入提示以生成首个 token,以及解码(Decode)阶段自回归地逐个生成后续 token。为了提升 GPU 利用率,业界广泛采用连续批处理(Continuous Batching)技术,但其调度粒度仍停留在“迭代”层面。

这一设计在多 SLO 工作负载下暴露了严重问题。在预填充阶段,长提示会阻塞对延迟敏感的新请求(即“队头阻塞”),而短提示又难以充分利用计算资源。在解码阶段,系统被迫为所有请求采用统一的批大小和生成速度,无法兼顾高响应性(小批)和高吞吐(大批)的需求。因此,亟需一种更细粒度、更灵活的调度机制来释放 LLM 服务的潜能。

Laser 的创新切入点正是打破“迭代”这一传统调度边界,深入到Transformer模型内部的层(Layer)结构,实现真正意义上的按需、分层执行。

核心贡献

1. 方法创新:提出层级别调度框架

Laser 首次将 LLM 推理的调度单元从“迭代”下沉到“层”。在预填充阶段,它实现了层级别分块预填充,能够在任意层边界处暂停当前请求,优先处理新到达的高优先级请求,并能将多个小请求动态合并成更大的计算块,从而减少平均首 token 时间(TTFT)超过 10%。在解码阶段,层级别解码批处理允许系统为每个请求独立决定每轮迭代执行多少层,例如,对宽松 SLO 的请求执行 2 层/轮,从而在同一时间内服务更多请求。

2. 系统协同:构建双层级优化架构

在方法创新的基础上,团队进一步验证了跨实例协同的重要性。Laser 采用预填充-解码分离架构,并设计了全局控制器(Global Controller)。该控制器在预填充阶段倾向于将异构 SLO 请求混合调度以利用松弛时间;而在解码阶段,则通过基于 SLO 分组的分配策略,将相似 SLO 的请求聚集到同一实例,最大化批处理效率。这种“内实例精细调度+外实例智能分发”的双层设计,是实现端到端性能提升的关键。

3. 实证成果:全面超越 SOTA 基线

实验在Qwen-14B/32B和Llama-3-70B等主流大模型上进行,对比了Sarathi-Serve和DistServe等最先进系统。结果显示,Laser 在多种负载下均显著优于基线:

  • 吞吐量(Goodput)最高提升68.9% (Qwen-32B);
  • 在集群规模受限(<8 GPU)时,甚至能实现1.23 倍的吞吐增益;
  • 当 SLO 要求极为严格(0.8 倍基准)时,其优势更为突出,吞吐量可达 DistServe 的1.08 倍和 Sarathi-Serve 的6.25 倍。

此外,其底层的模块化延迟建模方法预测准确率高达94.6%~98.6% ,为高效调度提供了可靠依据。

行业意义

Laser 的研究不仅是一项技术突破,更指明了未来 LLM 服务系统的重要演进方向。随着大模型应用场景日益多元化,从实时对话到后台批处理,单一的 SLO 保障模式已不再适用。Laser 所倡导的层级别调度理念,为构建弹性、高效、可定制的下一代 AI 推理基础设施提供了坚实的技术路线。

该工作与当前业界追求的高资源利用率和绿色计算趋势高度契合。通过更精细的资源编排,Laser 能在不增加硬件投入的情况下,显著提升单位算力的服务能力,有效降低 AI 服务的碳足迹。可以预见,这一思想将推动云原生 AI 平台、边缘大模型部署乃至自动驾驶等对实时性与效率有极致要求的产业领域,加速其感知与决策系统的智能化升级。

论文链接:https://doi.org/10.1145/3774934.3786413

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 14:16:53

大模型推理架构的演进:从GPU为中心向全系统异构协同转变

全系统异构协同不仅是应对GPU瓶颈的技术必然&#xff0c;更是实现高性能、低成本、广覆盖AI服务的战略路径。它标志着AI基础设施从“以加速器为中心”转向“以系统效能为中心”的深刻范式转移。 过去几年&#xff0c;GPU凭借其强大的并行计算能力&#xff0c;成为深度学习训练…

作者头像 李华
网站建设 2026/6/12 5:11:39

让大模型“记住”更多:RAG与长期记忆

OpenAI近期发布的更新增强了原本ChatGPT的记忆功能&#xff0c;新版本的GPT模型在回复用户问题的时候&#xff0c;除了记住用户过往的聊天记录&#xff0c;还能够跨聊天调取记忆&#xff0c;从而生成更加准确性的回答。 在此之前&#xff0c;我们使用ChatGPT等类似的AI聊天软件…

作者头像 李华
网站建设 2026/6/16 12:14:34

从孤岛到闭环:如何将企微 RPA 自动化能力无缝接入业务工作流?

QiWe开放平台 个人名片 API驱动企微自动化&#xff0c;让开发更高效 核心能力&#xff1a;为开发者提供标准化接口、快速集成工具&#xff0c;助力产品高效拓展功能场景 官方站点&#xff1a;https://www.qiweapi.com 团队定位&#xff1a;专注企微API生态的技术服务团队 对接…

作者头像 李华
网站建设 2026/6/19 21:15:34

隧道代理是什么?技术特点与实用场景全解析

隧道代理&#xff08;Tunnel Proxy&#xff09;在现代网络通信中具有重要地位。它通过建立一个加密或非加密的“通道”&#xff0c;实现客户端与目标服务器之间的数据透明转发&#xff0c;常用于提升传输效率与保护数据通信安全。本文将从原理解析、技术特点、典型应用等维度&a…

作者头像 李华
网站建设 2026/6/10 14:46:59

测试数据匿名化:GDPR合规下的AI解决方案

GDPR时代下的测试数据挑战 随着GDPR&#xff08;通用数据保护条例&#xff09;的全球影响力扩大&#xff0c;软件测试从业者面临严峻挑战&#xff1a;如何在保障数据隐私的前提下生成有效的测试数据。传统脱敏方法效率低下且易违规&#xff0c;而AI技术正成为破局关键。 一、…

作者头像 李华