CATLASS量化矩阵全载TLA-开发者社区

CATLASS Quant Matmul Full LoadA Tla 样例介绍

【免费下载链接】catlass本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass

名称/Name	类型/Class	数据类型/Dtype	维度/Dims	格式/Format	描述/Description
matA	inTensor	int8	[m, k]	ND	左矩阵
matB	inTensor	int8	[n, k]	ND	右矩阵，支持转置
scale	inTensor	float	[n]	ND	perChannel量化系数
perTokenScale	inTensor	float	[m]	ND	perToken量化系数
matD	outTensor	bf16	[m, n]	ND	输出矩阵

CATLASS44_quant_matmul_full_loadA_tla样例算子是基于CATLASS Gemm API实现的昇腾亲和Matmul算子，针对大尺寸矩阵计算场景优化设计，关键算子组件包括以下几部分:

Example组装：quant_matmul_full_loadA_tla.cpp
Kernel实现：
- 主Kernel文件：quant_matmul_full_loadA_tla.hpp
Block组件，包含：
- 全载专门的mmad组件block_mmad_pingpong_full_loadA_tla.hpp
- 反量化后处理组件block_epilogue_per_token_dequant_tla.hpp；
- 多核全载用的swizzleGemmIdentityBlockSwizzleL1FullLoad

如下图所示，模板库矩阵有关键参数L1TileShape<M, N, K>，C矩阵按照L1TileShape::M和L1TileShape::N参数切分基本块并分核，而后普通Matmul模板会将A矩阵中L1TileShape::M * L1TileShape::K大小的矩阵块载入L1，而A矩阵全载模板会直接将L1TileShape::M * K大小的矩阵块载入L1，而对于B矩阵，普通模板和A矩阵全载模板都是载入L1TileShape::K * L1TileShape::N大小的矩阵块L1。

采用A矩阵全载模板时，需要一半的L1空间以放入L1TileShape::M * problemShape.K的数据，若L1空间不够A矩阵全载，则返回报错。
A矩阵全载时，N轴越大，单核越能多次复用L1中的A矩阵、无需再从GM或L2Cache搬运A矩阵，性能收益就越大。
A矩阵全载时，N轴较小，无法复用A矩阵，性能收益较00_basic_matmul可能会出现劣化。
若problemShape.M > L1TileShape::M，可使用GemmIdentityBlockSwizzleL1FullLoad<SwizzleOffset, SwizzleDirection, AicCoreNum>策略，使得每个核需要处理的基本块尽可能地连在一起，提升A矩阵分核全载时的块间复用率。
若problemShape.M <= L1TileShape::M，即M方向不切块分核，此时使用GemmIdentityBlockSwizzle策略即可适用，常用的策略参数选取可参考swizzle_explanation。
以20个cube核为例，常用的GemmIdentityBlockSwizzle策略的基本块分核顺序为0-1-2-...-18-19-0-1-2...-18-19-0-1-2...，每个核需要处理的基本块跳跃分布，而GemmIdentityBlockSwizzleL1FullLoad策略的基本块分核顺序为0-0...-0-1-1...-1-2-2...-19，每个核需要处理的基本块连续分布。

使用相同tileShape和swizzle参数，相比标杆样例12_quant_matmul，具备A矩阵全载特性的样例性能平均提升5%~15%，这是由于全载实现减少了计算过程中的A矩阵搬运，提升了全载矩阵的数据复用率，可参考下表。

说明：

【免费下载链接】catlass本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

1. 项目概述：当AI工作流成为团队协作的“操作系统”如果你和我一样，在AI应用开发这条路上摸爬滚打了好几年，肯定经历过这样的场景：一个看似简单的智能客服项目，背后是十几个独立的脚本——一个负责调用大语言模型API&a…

李华

1. 项目概述与核心价值最近在折腾一些本地AI应用和自动化流程时，遇到了一个挺典型的问题：我手头有一些功能强大的云端API服务，比如OpenAI的ChatGPT、Claude，或者一些图像生成模型，但出于数据隐私、网络延迟、成本控制或…

李华

1. ARM7TDMI-S处理器架构深度解析 ARM7TDMI-S是ARM公司推出的经典32位RISC处理器，采用冯诺依曼架构设计。作为ARMv4T架构的代表性实现，它在嵌入式系统领域具有里程碑意义。这款处理器最显著的特点是支持双指令集——标准的32位ARM指令集和压缩的16位Thum…

李华

1. 项目概述：一次数据泄露引发的深度思考最近，关于ChatGPT数据泄露的讨论在技术圈和商业圈里又热了起来。这已经不是第一次，但每次类似事件发生，都像一记重锤，敲打着所有正在或准备拥抱AI的企业。我作为一个在数据安全…

李华

1. 项目概述与核心问题最近在信息检索和自然语言处理社区里，一个话题讨论得挺热：既然像ChatGPT这样的大语言模型已经能生成相当不错的答案，我们为什么还需要传统的检索模型？更进一步，ChatGPT生成的这些答案&#xff0c…

李华

1. 项目概述：一个提升网页搜索效率的浏览器扩展如果你和我一样，是个重度键盘使用者，那么你一定经历过这种场景：打开一个电商网站或者在线词典，准备搜索商品或单词时，手不得不离开键盘，挪动鼠标…

李华