news 2026/5/26 4:54:23

Linux显卡信息查询与排错

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Linux显卡信息查询与排错

查看显卡情况

lspci | grep -i vga
lspci | grep -E "VGA|3D|Display"
显示
04:00.0 VGA compatible controller: ASPEED Technology, Inc. ASPEED Graphics Family (rev 41)
4b:00.0 VGA compatible controller: NVIDIA Corporation Device 2204 (rev a1)
65:00.0 VGA compatible controller: NVIDIA Corporation Device 2204 (rev a1)
点击型号网址进行查询
更多指令
查看gpu对应位置

nvidia-smi -q|grep-E"GPU 0000|Product Name|Bus Id"
GPU 00000000:4B:00.0 Product Name:***** Bus Id:00000000:4B:00.0 GPU 00000000:B1:00.0 Product Name:***** Bus Id:00000000:B1:00.0

查看所有的bus address

sudodmidecode -t slot|grep-E"Designation|Bus Address"
Designation: OCPA_CPU0_NVME0 Bus Address: 0000:17:00.0 Designation: OCPA_CPU0_NVME1 Bus Address: 0000:18:00.0 Designation: PCIE1_CPU0_SLOT0 Bus Address: 0000:4b:00.0 Designation: SLIM0_CPU0 Bus Address: 0000:65:00.0 Designation: PCIE0_CPU1_SLOT1 Bus Address: 0000:b1:00.0 Designation: SLIM0_CPU1 Bus Address: 0000:e3:00.0

浪潮 NF5280M6中00000000:4B:00.0对应左侧位置,00000000:B1:00.0对应右侧或中间的位置。

显示报错信息

dmesg|grep-i"XID"
[357.496185]NVRM: Xid(PCI:0000:b1:00):79, GPU has fallen off the bus.[357.497065]NVRM: Xid(PCI:0000:4b:00):154, GPU recovery action changed from 0x0(None)to 0x2(Node Reboot Required)[357.497078]NVRM: Xid(PCI:0000:b1:00):154, GPU recovery action changed from 0x0(None)to 0x2(Node Reboot Required)

Xid Errors表
常见错误

XID代码含义严重性典型原因
32推送缓冲区流无效或损坏驱动Bug、显存溢出
43GPU执行超时计算任务死锁、散热不良
74NVLink链路异常致命硬件损坏、固件故障
79GPU从总线脱落致命电源故障、PCIe插槽接触不良
48显存页分配失败显存不足、驱动兼容性问题

常见维修方法

对于Xid (PCI:0000:b1:00): 79, GPU has fallen off the bus.:将两张显卡交换位置,启动后使用服务器显卡,若产生掉卡,使用dmesg | grep -i "XID"查看信息,如果后续运行中依然报错Xid (PCI:0000:b1:00): 79, GPU has fallen off the bus.说明是PCIe插槽或电源线有问题,如果报错变成Xid (PCI:0000:4b:00): 79, GPU has fallen off the bus.说明显卡有问题。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/26 4:53:27

Python高级技巧:利用Miniconda-Python3.10实现多项目环境隔离

Python高级技巧:利用Miniconda-Python3.10实现多项目环境隔离 在人工智能与数据科学的开发实践中,你是否曾遇到过这样的场景?一个刚跑通的模型,在换了一台机器后却因“找不到模块”或“版本不兼容”而彻底罢工;又或者&…

作者头像 李华
网站建设 2026/5/26 4:53:49

vue基于django教室预约管理系统

目录已开发项目效果实现截图关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!已开发项目效果实现截图 同行可拿货,招校园代理 ,本人源头供货商 vue基于django教室预约管理系统 …

作者头像 李华
网站建设 2026/5/26 4:54:17

使用Miniconda创建独立环境避免PyTorch与TensorFlow版本冲突

使用Miniconda创建独立环境避免PyTorch与TensorFlow版本冲突 在现代AI开发中,一个令人头疼的现实是:你刚跑通的项目,在同事机器上却“无法导入模块”;或者你想复现一篇论文代码,却发现它依赖的是早已被弃用的框架旧版本…

作者头像 李华
网站建设 2026/5/26 4:52:28

如何在Miniconda环境中同时安装PyTorch和Transformers库

如何在 Miniconda 环境中同时安装 PyTorch 和 Transformers 库 在当今的 AI 开发实践中,搭建一个稳定、可复现且高效的深度学习环境,几乎是每个项目的第一步。尤其是在处理自然语言任务时,PyTorch Transformers 已成为事实上的标准组合。然…

作者头像 李华
网站建设 2026/4/30 16:45:14

使用flit发布Python包到Miniconda环境

使用 Flit 发布 Python 包到 Miniconda 环境 在数据科学、AI 工程和自动化工具开发的日常中,一个常见的挑战是:如何快速、干净地将一个小而精的工具库发布为可复用的 Python 包,并确保它能在团队成员或 CI/CD 流水线中无缝安装?尤…

作者头像 李华
网站建设 2026/5/22 5:51:38

从Anaconda迁移到Miniconda:更轻量的PyTorch开发体验

从Anaconda迁移到Miniconda:更轻量的PyTorch开发体验 在深度学习项目日益复杂的今天,一个干净、高效且可复现的开发环境,往往比模型本身更能决定研发效率。许多开发者都曾经历过这样的场景:本地训练好的模型,部署到服…

作者头像 李华