news 2026/5/23 4:51:46

多卡并行——通信原语

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
多卡并行——通信原语

多卡并行(主要指数据并行 / 模型并行)中,通信操作本质是在多进程/多设备之间搬运张量。下面按你图里的典型操作逐一说明,并给出直观语义与常见用途。


1. Reduce

语义:多卡各自有一个张量 → 按某个规约算子合成一个结果 → 只保留在指定一张卡
[
y=op(x0,x1,…,xN−1)y = \text{op}(x_0, x_1, \dots, x_{N-1})y=op(x0,x1,,xN1)
]

常见算子:sum / mean / max / min
用途

  • 统计全局 loss(只在 rank0 用)
  • 收集指标但不回传给所有卡

2. Broadcast

语义:一张卡上的张量 → 复制到所有卡

x0→x0,x0,…,x0x_0 \rightarrow x_0, x_0, \dots, x_0x0x0,x0,,x0

用途

  • 初始化模型参数(rank0 加载,其余同步)
  • 同步配置、超参数

3. Gather

语义:每张卡一个张量 → 按 rank 顺序拼接 → 放在指定一张卡

y=[x0∣x1∣…∣xN−1]y = [x_0 | x_1 | \dots | x_{N-1}]y=[x0x1xN1]

特点

  • 输出 shape 会变大
  • 非对称(只有 root 有结果)

用途

  • 验证 / 推理阶段收集所有样本结果
  • 日志、评测(只在 rank0)

4. Scatter

语义:一张卡有一个“大张量” → 切分 → 分发给各卡

[x0,x1,…,xN−1]→xi[x_0, x_1, \dots, x_{N-1}] \rightarrow x_i[x0,x1,,xN1]xi

用途

  • 将数据 batch 切分到不同 GPU
  • pipeline / tensor 并行中的输入分发

5. All-Reduce

语义:Reduce + Broadcast

y=op(x0,…,xN−1),每张卡都拿到 yy = \text{op}(x_0, \dots, x_{N-1}),\quad \text{每张卡都拿到 } yy=op(x0,,xN1),每张卡都拿到y

这是训练中最核心的操作

用途

  • 梯度同步(DDP 标配)

    grad_i → AllReduce(sum) → grad_global

关键点

  • 通信量大,但高度优化(ring / tree)
  • 通常与 backward 重叠(bucket + async)

6. All-Gather

语义:Gather + Broadcast

y=[x0∣x1∣…∣xN−1],每张卡都有 yy = [x_0 | x_1 | \dots | x_{N-1}],\quad \text{每张卡都有 } yy=[x0x1xN1],每张卡都有y

用途

  • 对比学习(CLIP / InfoNCE):需要“全局 batch”
  • MoE / 检索 / 多卡负样本
  • 模型并行中拼接中间特征

常见陷阱

  • 显存暴涨(batch × world_size)
  • 反向梯度是否需要all_gather_with_grad

总结对照表

操作输入输出位置是否对称典型用途
ReduceN → 1单卡指标、统计
Broadcast1 → N所有卡参数同步
GatherN → 1单卡验证收集
Scatter1 → N所有卡数据分发
All-ReduceN → N所有卡梯度同步
All-GatherN → N所有卡全局特征
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/13 12:10:33

LLM驱动的AI Agent上下文管理技术

LLM驱动的AI Agent上下文管理技术 关键词:LLM、AI Agent、上下文管理技术、对话连贯性、信息整合 摘要:本文聚焦于LLM驱动的AI Agent上下文管理技术,深入探讨该技术的核心概念、算法原理、数学模型等内容。通过项目实战展示其在实际中的应用,分析其具体应用场景。同时,为读…

作者头像 李华
网站建设 2026/5/22 20:47:39

图表识别技术的实现步骤

在数字化办公时代,我们习惯了用Excel生成精美图表,却很少思考一个反向问题:如何将报告中的图表重新转化为可分析的原始数据?这个看似简单的需求,实际上对技术提出了极高要求。合合信息旗下的TextIn文档解析平台&#x…

作者头像 李华
网站建设 2026/5/22 18:34:09

企业AI Agent的强化学习在自动化运维中的应用

企业AI Agent的强化学习在自动化运维中的应用关键词:企业AI Agent、强化学习、自动化运维、智能决策、运维效率摘要:本文聚焦于企业AI Agent的强化学习在自动化运维中的应用。首先介绍了相关背景,包括目的、预期读者等内容。接着阐述了核心概…

作者头像 李华
网站建设 2026/5/23 20:39:24

不止是界面好看!LobeChat背后的架构设计亮点剖析

LobeChat 架构设计深度解析:不只是界面,更是工程智慧的结晶 在今天,几乎人人都能调用一次大模型 API,生成几句“智能回复”。但真正决定一个 AI 应用能否落地、被长期使用的关键,从来不是模型本身,而是人与…

作者头像 李华
网站建设 2026/5/9 10:56:00

Dify与Tesseract集成实战:如何将文本识别准确率提升90%?

第一章:Dify与Tesseract集成实战概述将光学字符识别(OCR)能力深度集成至低代码 AI 应用平台,是提升文档自动化处理效率的关键路径。Dify 作为支持可视化编排 AI 工作流的开发平台,结合 Tesseract 这一开源 OCR 引擎&am…

作者头像 李华
网站建设 2026/5/23 7:38:15

为什么顶尖团队都在用GPU加速R语言量子计算?真相令人震惊

第一章:R语言量子计算与GPU加速的融合趋势随着高性能计算需求的不断增长,R语言作为统计分析和数据科学的重要工具,正逐步向前沿计算领域拓展。近年来,量子计算与GPU加速技术的发展为R语言提供了全新的性能突破路径,推动…

作者头像 李华