功率通常利用率为80%
1、8kw 可用=8kw * 80% = 6.4kw
2、16kw 可用=16kw * 80%= 12.8kw
UPS通常需要总功率的1.2倍
网卡
| 分类维度 | 类型 | 特点与解析 |
|---|---|---|
| 物理接口 | 电口 (RJ45) | 也就是常见的网线接口。优点是部署方便,兼容旧网线;缺点是发热大,速率通常限制在 10G/25G 以下,延迟相对较高。 |
| 光口 (SFP+/QSFP28) | 使用光纤或高速铜缆。优点是速率高(100G/400G+)、延迟极低、功耗低;缺点是需要配套光模块,成本高。 | |
| 连接方式 | 板载 (LOM) | 直接集成在主板上。适合普通办公、Web服务器,成本低,但性能一般,坏了难修。 |
| PCIe 扩展卡 | 插在主板 PCIe 插槽上。这是高性能网卡的主流形态,带宽足,功能强(支持卸载、RDMA等)。 | |
| OCP 网卡 | 数据中心专用,直接插在服务器前端的 OCP 插槽,无挡板设计,利于散热和自动化部署。 |
1、RDMA (远程直接内存访问) —— 解决“CPU 太累”和“速度太慢”
核心逻辑:传统网络传输中,数据要从网卡拷贝到内存,CPU 要参与搬运和处理协议,效率低。RDMA 允许网卡绕过 CPU,直接把数据写入另一台服务器的内存(零拷贝)。
2、SR-IOV (单根 I/O 虚拟化) —— 解决“虚拟化性能损耗”
核心逻辑:在虚拟化环境中,传统网卡需要通过 Hypervisor(虚拟化层)来转发数据,这会产生大量的上下文切换(VM Exit),消耗 CPU 并增加延迟。SR-IOV 允许一块物理网卡虚拟出成百上千个“虚拟网卡”(VF),直接分配给虚拟机使用。
各个参数
1、带宽—万兆网卡 (10 Gigabit Ethernet, 10GbE)带宽:10 Gbps,即 10,000 Mbps。
应用场景:
适用于高性能计算、大型数据传输、存储网络(如 NAS 和 SAN)等场景。
2、25 千兆网卡 (25 Gigabit Ethernet, 25GbE)带宽:25 Gbps,即 25,000 Mbps。
应用场景:
数据中心、虚拟化环境、云计算、高性能计算(HPC)和大数据处理。
3、40 千兆网卡 (40 Gigabit Ethernet, 40GbE)带宽:40 Gbps,即 40,000 Mbps。
接口类型:
QSFP+(Quad Small Form-factor Pluggable Plus):通常用于光纤连接,支持较远距离的传输。
应用场景:
高性能数据中心、存储区域网络(SAN)、高性能计算(HPC)。
4、Fibre Channel (光纤通道网卡)通常用于存储,具有低延时可靠性高的特点
内存
各个参数解析
1、内存大小—内存大小越大,能够同时处理的任务就越多。
2、内存频率—表示内存每秒能够传输的数据量。频率越高,内存的性能越强。常见频率有2133MHz、2400MHz、2933MHz、3600MHz等。
影响:内存频率越高,内存传输速度就越快,进而提升系统性能,特别是在进行大量数据处理时(如科学计算、渲染、大数据分析)。
注意:内存频率需要与CPU和主板支持的频率匹配,否则会受到瓶颈影响。
3、内存延迟 (Latency)内存延迟通常通过 CAS 延迟(Column Address Strobe Latency)表示,常见的有 CL15、CL16、CL18 等。延迟值越低,内存响应速度越快。
4、内存类型 (Memory Type)内存类型决定了内存技术的版本,常见的有 DDR3、DDR4、DDR5 等。
影响:DDR4 相比 DDR3 提供更高的频率、更低的功耗,而 DDR5 则进一步提升了数据传输速度和带宽。
建议:选择较新且与主板和 CPU 配置兼容的内存类型。
5、ECC内存 (Error-Correcting Code Memory)ECC 内存是一种带有错误检测和修正功能的内存,常见于服务器和工作站。
影响:ECC 内存可以检测和修正内存中的单个比特错误,保证数据的完整性和系统的稳定性。
6、内存带宽 (Memory Bandwidth)内存带宽是指单位时间内内存能够传输的数据量。其大小与内存频率、通道数和每通道的带宽相关。
影响:较高的内存带宽可以加速数据传输,尤其是在大数据量或高并发任务中,内存带宽的提升能带来显著性能改善。
CPU
各个参数解析:
1、56 核—物理核心(56 核):CPU 的 “实体计算单元”,每个核心独立处理任务
2、112 线程—通过英特尔 “超线程技术”,每个物理核心可模拟出 2 个逻辑线程(56×2=112),相当于 “虚拟增加了核心数量”
3、基础频率 2.0GHz—CPU “日常稳定运行” 的默认速度(1GHz = 每秒 10 亿次运算),2.0GHz 即每个核心每秒可执行约 20 亿条基础指令。
4、最大睿频 3.8GHz—当 CPU 负载较低(如只有少数核心在工作)时,可短暂 “超频” 到 3.8GHz,提升单个任务的处理速度。比如 56 核中只有 4 个核心在处理一个复杂查询,这 4 个核心可跑到 3.8GHz,让查询更快完成。
实际意义:
基础频率保证 “多任务并行时的底线性能”(比如 50 台虚拟机同时运行时,每台都能分到稳定的算力);
最大睿频应对 “突发单任务需求”(比如某台虚拟机突然需要处理一个大文件压缩、一次复杂的数据分析),避免单个任务耗时过长。
5、CPU缓存 105MB—CPU 缓存是集成在芯片内的 “高速临时存储器”,用于临时存放频繁使用的数据(比如数据库的热数据、程序的中间计算结果),速度比内存快 10-100 倍。
实际意义:
减少 CPU “访问内存的次数”:比如处理数据库查询时,若频繁访问的数据(如用户信息表)能存放在 105MB 缓存中,CPU 就不用每次都去内存读取(内存速度慢),查询响应时间可缩短 50% 以上。
6、最大内存大小—单颗 CPU 支持的最大内存容量为 4TB,若服务器是双路(2S) 配置(两颗同款 CPU),总内存可扩展至8TB。
GPU
通过nvidia-smi监控查看信息
具体参数意义
| 表头字段 | 全称/来源 | 解释 | 常见值/判断阈值 |
|---|---|---|---|
| GPU | GPU index | 物理序号,0 开始计数 | 0~7(8 卡节点) |
| Name | Product Name | 芯片型号 | A100/A800/RTX4090 等 |
| Persistence-M | Persistence Mode | 持久模式:ON=驱动常驻,OFF=用时才加载 | 长期跑任务建议ON |
| Bus-Id | PCI Bus Location | 物理插槽地址,格式00000000:XX:00.0 | 定位哪条 PCIe 槽 |
| Disp.A | Display Active | 是否接显示器 | 服务器卡=Off;桌面卡=On |
| Volatile Uncorr. ECC | Volatile Uncorrectable ECC | 本次上电累计不可纠正 ECC 错误 | 0为正常;>0 考虑返修 |
| Fan | Fan Speed % | 风扇转速百分比 | 被动散热=N/A;>85 % 说明高温 |
| Temp | Temperature | 核心温度 | 服务器卡 <70 ℃ 优秀;>83 ℃ 降频 |
| Perf | Performance State | GPU 电源状态 | P0=满频;P8/P12=节能;高温自动降到 P2 |
| Pwr:Usage/Cap | Power Draw / Power Limit | 实时功耗 / 功耗墙 | 300 W 卡跑 295 W≈满载;<50 W≈空载 |
| Memory-Usage | Used / Total VRAM | 显存占用 | 训练大模型常见 70 GB+/80 GB |
| GPU-Util | GPU Utilization | 采样周期内 kernel 执行时间占比 | 0 %≠空闲;需结合显存看 |
| Compute M. | Compute Mode | 计算模式 | Default 多进程共享,先到先得 训练框架默认,单机单卡 无需改动;Exclusive_Process 一卡只能被一个进程独占 多人公用节点,防止抢资源 nvidia-smi -c 3; Prohibited 暂时禁止任何计算 维护、排错 nvidia-smi -c 1 |
| MIG M. | Multi-Instance GPU Mode | 是否开启 MIG 分区 | Disabled 完整 GPU 整卡训练、大 batch nvidia-smi -mig 0 ;Enabled 已切成 MIG 实例 一卡变多卡,租户隔离 nvidia-smi -mig 1 |