news 2026/5/9 21:40:56

CANN/hccl HCCL确定性计算配置

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/hccl HCCL确定性计算配置

HCCL_DETERMINISTIC

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

功能描述

此环境变量用于配置是否开启归约类通信算子的确定性计算或保序功能,其中归约类通信算子包括AllReduce、ReduceScatter、ReduceScatterV、Reduce,归约保序是指严格的确定性计算,在确定性的基础上保证归约顺序一致。

开启归约算子的确定性计算或保序功能后,算子在相同的硬件和输入下,多次执行将产生相同的输出。

HCCL_DETERMINISTIC支持的取值如下:

  • false:默认值,关闭确定性计算。

  • true:开启归约类通信算子的确定性计算。

    • 针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,支持通信算子AllReduce、ReduceScatter、ReduceScatterV、Reduce。
    • 针对Atlas A3 训练系列产品/Atlas A3 推理系列产品,若通信算子的展开模式为AI CPU,所有归约类算子都为确定性计算,且不受此环境变量影响;若通信算子的展开模式为Vector Core,仅通信算子AllReduce和ReduceScatter涉及非确定性计算,配置为“true”后支持切换为确定性计算。
  • strict:开启归约类通信算子的严格确定性计算,即保序功能(在确定性的基础上保证所有bit位的归约顺序均一致),配置为该参数时需满足以下条件:

    • 仅支持多机对称分布场景,不支持非对称分布(即卡数非对称)的场景。
    • 仅支持INF/NaN模式,不支持饱和模式。
    • 相较于确定性计算,开启保序功能后会产生一定的性能下降,建议在推理场景下使用该功能。
    • 针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,支持通信算子AllReduce和ReduceScatter、ReduceScatterV。
    • 针对Atlas A3 训练系列产品/Atlas A3 推理系列产品,
      • 支持通信算子AllReduce、ReduceScatter,支持数据类型float16、float32、bfp16,归约操作仅支持sum。
      • 通信规模要求rank size ≥ 3。
      • 若超节点内存在多个AI Server,仅支持AI Server间使用HCCS链路进行SDMA通信的场景,不支持使用RoCE进行RDMA通信的场景,即不支持设置环境变量HCCL_INTER_HCCS_DISABLE为“TRUE”。

一般情况下无需开启归约算子的确定性计算,当模型多次执行结果不同或者精度调优时,可通过此环境变量开启确定性计算进行辅助调试调优,但开启后,算子执行时间会变慢,导致性能下降。

若通过本环境变量开启了算子确定性计算,同时又设置了算子的展开模式为“AIV”(可参见HCCL_OP_EXPANSION_MODE),则确定性计算的优先级更高,某些场景下“AIV”展开可能不生效。

配置示例

export HCCL_DETERMINISTIC=true

使用约束

若您调用HCCL C接口初始化具有特定配置的通信域时,通过“HcclCommConfig”的“hcclDeterministic”参数配置了确定性计算开关,则以通信域粒度的配置优先。

支持的型号

Atlas A2 训练系列产品/Atlas A2 推理系列产品(针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,仅支持Atlas 800T A2 训练服务器、Atlas 900 A2 PoD 集群基础单元、Atlas 200T A2 Box16 异构子框。)

Atlas A3 训练系列产品/Atlas A3 推理系列产品

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 21:37:45

解决claude code访问不稳定问题之迁移到taotoken兼容通道

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 解决 Claude Code 访问不稳定问题之迁移到 Taotoken 兼容通道 许多开发者在日常编码中依赖 Claude Code 作为编程助手,…

作者头像 李华
网站建设 2026/5/9 21:35:33

CANN稠密索引器梯度KL损失算子

aclnnDenseLightningIndexerGradKLLoss 【免费下载链接】ops-transformer 本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-transformer 产品支持情况 产品是否支持Ascend 950PR/Ascend 95…

作者头像 李华
网站建设 2026/5/9 21:35:14

构建可信AI解释:从概念到落地的四层评估框架与实践指南

1. 项目概述:为什么我们需要一个“解释”AI的框架?最近几年,AI模型,特别是那些被称为“黑箱”的深度神经网络,在图像识别、自然语言处理乃至决策支持领域取得了惊人的成功。然而,当这些模型被部署在医疗诊断…

作者头像 李华
网站建设 2026/5/9 21:35:04

CANN / pypto - PReLU API文档

pypto.prelu 【免费下载链接】pypto PyPTO(发音: pai p-t-o):Parallel Tensor/Tile Operation编程范式。 项目地址: https://gitcode.com/cann/pypto 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/At…

作者头像 李华
网站建设 2026/5/9 21:31:52

CANN/driver DCMI获取卡电子标签API

dcmi_get_card_elabel 【免费下载链接】driver 本项目是CANN提供的驱动模块,实现基础驱动和资源管理及调度等功能,使能昇腾芯片。 项目地址: https://gitcode.com/cann/driver 函数原型 int dcmi_get_card_elabel(int card_id, struct dcmi_elab…

作者头像 李华
网站建设 2026/5/9 21:28:38

脑电信号实时预测:从CNN+Transformer+RNN混合模型到工程部署全解析

1. 项目概述:从脑电信号到实时预测的工程实践脑电图信号处理,听起来像是实验室里的高深学问,离我们很远。但如果你接触过神经反馈训练、专注力监测设备,或者对脑机接口有点兴趣,那你其实已经摸到了它的边。简单说&…

作者头像 李华