news 2026/5/10 3:34:36

CANN/HCCL执行超时配置

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/HCCL执行超时配置

HCCL_EXEC_TIMEOUT

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

功能描述

不同设备进程在分布式训练或推理过程中存在卡间执行任务不一致的场景(如仅特定进程会保存checkpoint数据),通过该环境变量可控制设备间执行时同步等待的时间,在该配置时间内各设备进程等待其他设备执行通信同步。

  • 针对Ascend 950PR/Ascend 950DT:单位为s,取值范围为:[0, 2147483647],默认值为1836,支持整数秒配置。当配置为0时代表永不超时。

  • 针对Atlas A3 训练系列产品/Atlas A3 推理系列产品:

    • “AI_CPU”与“AICPU_CacheDisable”模式下(参见HCCL_OP_EXPANSION_MODE):单位为s,取值范围为:[0, 2147483647],默认值为1836,支持十毫秒级精度配置(例如,需要50毫秒超时,则配置为0.05)。当配置为0时代表永不超时。

    • “AIV”模式下:单位为s,取值范围为[0, 1091],默认值为1091,支持十毫秒级精度配置(例如,需要50毫秒超时,则配置为0.05)。若设置为0或超出最大值1091,将按照1091处理。

      “AIV”模式下实际生效的超时时间为interval*N*10-3毫秒,其中interval为硬件支持的算子超时最短时间间隔(可通过aclrtGetOpTimeoutInterval接口获取),N的取值为[1, 254]范围内整数,如果配置的超时时间不等于interval*N*10-3毫秒,则向上对齐至interval*N*10-3毫秒。

  • 针对Atlas A2 训练系列产品/Atlas A2 推理系列产品:

    • “HOST”与“HOST_TS”模式下(参见HCCL_OP_EXPANSION_MODE):单位为s,取值范围为:[0, 2147483647],默认值为1836,支持整数秒配置。当配置为0时代表永不超时。

    • “AIV”模式下:单位为s,取值范围为[0, 1091],默认值为1091,支持十毫秒级精度配置(例如,需要50毫秒超时,则配置为0.05)。若设置为0或超出最大值1091,将按照1091处理。

      “AIV”模式下实际生效的超时时间为interval*N*10-3毫秒,其中interval为硬件支持的算子超时最短时间间隔(可通过aclrtGetOpTimeoutInterval接口获取),N的取值为[1, 254]范围内整数,如果配置的超时时间不等于interval*N*10-3毫秒,则向上对齐到interval*N*10-3毫秒。

  • **针对Atlas 训练系列产品:**单位为s,取值范围为:(0, 17340],默认值为1836,支持整数秒配置。

    需要注意:针对Atlas 训练系列产品,系统实际设置的超时时间 = 环境变量的取值先整除“68”,然后再乘以“68”,单位s。如果环境变量的取值小于68,则默认按照68s进行处理。

    例如,假设HCCL_EXEC_TIMEOUT=600,则系统实际设置的超时时间为:600整除68乘以68 = 8*68 = 544s。

  • **针对Atlas 推理系列产品:**单位为s,取值范围为:(0, 17340],默认值为1836,支持整数秒配置。

    需要注意:针对Atlas 推理系列产品,系统实际设置的超时时间 = 环境变量的取值先整除“68”,然后再乘以“68”,单位s。如果环境变量的取值小于68,则默认按照68s进行处理。

    例如,假设HCCL_EXEC_TIMEOUT=600,则系统实际设置的超时时间为:600整除68乘以68 = 8*68 = 544s。

[!NOTE]说明 一般情况下,用户保持默认值即可。当默认值无法满足设备间执行通信同步的需求时,可通过此环境变量适当增大设备间的同步等待时间。

配置示例

export HCCL_EXEC_TIMEOUT=1800

使用约束

若您调用HCCL C接口初始化具有特定配置的通信域时,通过“HcclCommConfig”的“hcclExecTimeOut”参数配置了设备间执行时的同步等待时间,则以通信域粒度的配置为准。

支持的型号

Ascend 950PR/Ascend 950DT

Atlas A3 训练系列产品/Atlas A3 推理系列产品

Atlas A2 训练系列产品/Atlas A2 推理系列产品(针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,仅支持Atlas 800T A2 训练服务器、Atlas 900 A2 PoD 集群基础单元、Atlas 200T A2 Box16 异构子框。)

Atlas 训练系列产品

Atlas 推理系列产品(针对Atlas 推理系列产品,仅支持Atlas 300I Duo 推理卡。)

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 3:32:40

APC:统一管理AI编程工具配置,告别配置孤岛与同步困境

1. 项目概述:告别AI工具配置孤岛 如果你和我一样,日常开发中同时用着Claude Code、Cursor、GitHub Copilot,可能还会在终端里调戏一下Gemini CLI,那你一定深有体会:每个工具都是一个信息孤岛。我在Claude Code里精心调…

作者头像 李华
网站建设 2026/5/10 3:31:38

GitHub仓库模板:现代软件项目的标准化起点与自动化实践

1. 项目概述:一个现代软件项目的“基因蓝图” 在软件开发的日常里,我们总会遇到一些重复性的“仪式感”工作:新建一个仓库,然后开始配置 .gitignore 、 README.md 、 LICENSE 、CI/CD流水线、代码规范检查工具……这些工作…

作者头像 李华
网站建设 2026/5/10 3:31:37

PTO 虚拟 ISA 手册

PTO 虚拟 ISA 手册 【免费下载链接】pto-isa Parallel Tile Operation (PTO) is a virtual instruction set architecture designed by Ascend CANN, focusing on tile-level operations. This repository offers high-performance, cross-platform tile operations across Asc…

作者头像 李华
网站建设 2026/5/10 3:27:20

FPGA入门核心笔记 · CLB 与 Slice 详解

一、CLB 和 Slice 是什么?(基础概念) 在学习 FPGA 的过程中,你会经常听到 CLB 和 Slice 这两个词。 Slice:是 FPGA 里面真正存放逻辑资源的小单元(可以把它想象成一个“乐高积木”)。 CLB(Configurable Logic Block,可配置逻辑块):是由几个 Slice 组合在一起形成的…

作者头像 李华
网站建设 2026/5/10 3:26:46

MNN推理引擎全解析:从移动端部署到性能优化实战

1. 项目概述:从移动端到全平台的推理引擎如果你在移动端或者边缘设备上做过AI模型部署,大概率听说过或者用过MNN。这个由阿里巴巴开源的深度学习推理引擎,从2019年正式开源到现在,已经成了很多移动端和IoT场景下的“标配”工具之一…

作者头像 李华
网站建设 2026/5/10 3:25:30

MOLT:AI多智能体系统的反射式协同进化引擎

1. 项目概述:当你的AI团队开始自我进化如果你正在运行一个多智能体系统,无论是用OpenClaw搭建的,还是其他任何框架,你大概率遇到过这样的场景:某个智能体重复了另一个智能体已经完成的工作,导致资源浪费&am…

作者头像 李华