news 2026/5/30 4:43:57

CANN/CATLASS单块广播操作

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/CATLASS单块广播操作

tile_broadcast_one_blk

【免费下载链接】catlass本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass

代码位置

[TOC]

概述

tile_broadcast_one_blk模块实现 epilogue 阶段的 one-block 广播操作。将 UB 上的单个元素广播到整个 block(32B),常用于将 scalar scale/zero 点广播后参与向量计算。

API 清单

API风格说明
TileBroadcastOneBlk非 TLAAscendC::Brcb+BrcbRepeatParams
TileBroadcastOneBlkTlaTLATLA 版本,tensor.layout()(tensor.coord())偏移

调用示例

TileBroadcastOneBlk(非 TLA)

#include "catlass/epilogue/tile/tile_broadcast_one_blk.hpp" using namespace Catlass::Epilogue::Tile; using ComputeType = Gemm::GemmType<half, layout::RowMajor>; constexpr uint32_t COMPUTE_LENGTH = 256; using BroadcastOp = TileBroadcastOneBlk<Arch::AtlasA2, ComputeType, COMPUTE_LENGTH>; AscendC::LocalTensor<half> ubOut, ubIn; BroadcastOp broadcastOp; broadcastOp(ubOut, ubIn);

TileBroadcastOneBlkTla(TLA)

constexpr uint32_t COMPUTE_LENGTH = 256; auto layoutOut = tla::MakeLayout<half, layout::RowMajor>(COMPUTE_LENGTH, 32); auto layoutIn = tla::MakeLayout<half, layout::VectorLayout>(COMPUTE_LENGTH, 1); AscendC::LocalTensor<half> ubOutData, ubInData; auto ubOut = tla::MakeTensor(ubOutData, layoutOut, Arch::PositionUB{}); auto ubIn = tla::MakeTensor(ubInData, layoutIn, Arch::PositionUB{}); TileBroadcastOneBlkTla<Arch::AtlasA2, half, COMPUTE_LENGTH> op; op(ubOut, ubIn);

【免费下载链接】catlass本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/30 4:43:57

Claude体验地图绘制方法论(企业级SOP首次解密)

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;Claude体验地图绘制方法论&#xff08;企业级SOP首次解密&#xff09; 企业级AI体验治理的核心&#xff0c;始于对用户与Claude交互路径的系统性测绘。我们摒弃碎片化反馈收集&#xff0c;转而构建可复…

作者头像 李华
网站建设 2026/5/30 4:42:14

企业知识库管理系统(支持企业公众号文章专业写作)|把散落文档做成「可问、可搜、可管」的企业知识中台

一、项目背景及简介很多团队不是缺文档&#xff0c;而是缺「统一入口 可控权限 好用检索」。文档在网盘、邮件、Wiki、IM 文件里各有一份时&#xff0c;新人问老人、老人翻收藏夹&#xff0c;成本高且难审计&#xff1b;一旦要做 AI 问答&#xff0c;没有规范化的语料与引用来…

作者头像 李华
网站建设 2026/5/30 4:32:18

手把手教程:如何用OmniParser-v2.0构建你的第一个GUI智能代理

手把手教程&#xff1a;如何用OmniParser-v2.0构建你的第一个GUI智能代理 【免费下载链接】OmniParser-v2.0 项目地址: https://ai.gitcode.com/hf_mirrors/AI-ModelScope/OmniParser-v2.0 想要让AI理解屏幕内容并自动操作吗&#xff1f;OmniParser-v2.0就是你的终极解…

作者头像 李华
网站建设 2026/5/30 4:32:17

隐私优先的设备端AI架构:从模型轻量化到安全落地的实战指南

1. 项目概述&#xff1a;当AI在本地设备上“思考”最近几年&#xff0c;AI应用遍地开花&#xff0c;但一个核心矛盾也越来越突出&#xff1a;我们既想享受AI带来的便利&#xff0c;又担心自己的数据被上传到云端&#xff0c;成为“透明人”。无论是聊天记录、照片分析&#xff…

作者头像 李华