H100服务器硬件验收-o1¶
下面是一份针对新采购的 H100 GPU 服务器在硬件层面进行检查和验收的示例文档,涵盖 CPU、内存、硬盘、GPU 等主要硬件组件的验收测试。文档内容可根据公司实际情况、操作系统和测试工具的可用性进行调整和补充。
H100 GPU 服务器硬件检查与验收文档¶
1. 概述¶
本验收方案主要对新采购的 H100 GPU 服务器在硬件层面进行全面检查和验收,确保各硬件模块(CPU、内存、硬盘、GPU、网络等)符合采购要求,并满足后续在生产环境运行的可靠性和性能要求。本测试计划分为以下几个部分:
- 硬件信息确认与系统基本检查
- CPU 测试
- 内存测试
- 磁盘(硬盘/SSD)测试
- GPU 测试(H100)
- 网络与扩展接口测试(可选)
- 其他辅助检查及验收结果整理
2. 硬件信息确认与系统基本检查¶
2.1 硬件信息确认¶
- 服务器型号与序列号
- 确认服务器品牌、型号、序列号是否与采购订单一致。
- CPU/主板信息
- 查看 CPU 型号、主板 BIOS 版本、BMC/IPMI 固件版本等。
- 内存信息
- 检查内存容量和内存条数量、插槽位置、频率是否与采购要求相符。
- 硬盘信息
- 检查硬盘(HDD/SSD)容量、接口类型(SATA/NVMe/PCIe)、数量、RAID 控制器信息等。
- GPU 信息
- 检查 GPU 型号(NVIDIA H100)、数量、显存容量、散热或水冷/风冷方案。
2.2 系统基本检查¶
- 上电自检(POST)
- 确认主机上电后进入 BIOS/UEFI,无报错信息。
- 操作系统启动
- 在预安装的操作系统(如 Linux)环境下正常启动,无异常提示。
- 系统日志检查
- 通过
dmesg
、journalctl -xe
(或其他日志检查命令)查看是否有硬件相关告警或错误。
3. CPU 测试¶
CPU 测试需要确认 CPU 是否能够在长时间负载下保持稳定,并达到应有性能。可使用以下方法:
3.1 CPU 信息查看¶
- 查看 CPU 信息
- 在 Linux 下可使用
lscpu
、cat /proc/cpuinfo
,或者dmidecode -t processor
查看型号、核心数量、主频等是否与采购要求一致。
3.2 CPU 压力测试和性能测试¶
- 压力测试
- 工具:
stress-ng
、sysbench
或者stress
- 方法:
- 对 CPU 进行高负载连续运行(例如 100% 利用率)至少 30 分钟到 1 小时
- 同时监控温度、风扇转速(如有传感器)、系统稳定性
-
验收标准:
- 期间服务器无宕机、无报错、CPU 温度和散热状况在正常范围。
-
性能测试
- 工具:
sysbench --test=cpu
、Geekbench
(有 GUI 环境)或其他 CPU Benchmark 工具 - 方法:
- 运行单线程、多线程 CPU 性能测试,获取分数或性能指标
- 验收标准:
- 测试成绩与同型号 CPU 的行业基准值相差不大(通常在±5~10% 以内)
4. 内存测试¶
内存测试一方面需要检查容量、频率、插槽分布是否正确,另一方面也要测试内存稳定性和带宽性能。
4.1 内存容量与频率确认¶
- 通过
dmidecode -t memory
、lshw -c memory
或者主板 BIOS/UEFI 查看内存总容量、单条容量、频率和插槽布局是否与采购要求一致。
4.2 内存压力测试¶
- MemTest86 / memtester
- 可以使用 MemTest86(需要制作可启动介质) 或者在 Linux 环境下使用
memtester
工具。 - 建议选择对全部内存进行测试,确保在长时间内无错误报告。
- stress-ng 内存测试
- 也可利用
stress-ng --vm ...
模块对内存进行大规模分配和释放测试。 - 测试时间建议至少 1 小时。
4.3 内存性能测试¶
- 工具:
sysbench --test=memory
、stream
等 - 方法:
- 测试内存带宽、读写延迟等指标
- 验收标准:与相同规格内存的常规基准对比,无明显异常(在合理误差范围内)
5. 磁盘(硬盘/SSD)测试¶
5.1 硬盘信息检查¶
- 使用
lsblk
、lshw -class disk
或 RAID 工具查看具体硬盘或 RAID 信息,确认硬盘型号、容量、接口类型与采购信息吻合。
5.2 磁盘健康度与 SMART 信息¶
- 工具:
smartctl
(smartmontools) - 方法:
smartctl -a /dev/sdX
查看 SMART 信息,检查是否有 Reallocated_Sector_Ct、Pending_Sector_Ct 等异常。
5.3 磁盘性能测试¶
- 顺序读写性能
- 工具:
dd
命令、fio
工具 - 方法(示例):
# 使用 dd 测试顺序写 dd if=/dev/zero of=/mnt/testfile bs=1G count=4 oflag=direct # 使用 dd 测试顺序读 dd if=/mnt/testfile of=/dev/null bs=1G count=4 iflag=direct
- 记录写入/读取速度是否符合硬盘规格要求(如 SATA SSD ~ 500MB/s、NVMe SSD 可能在 2-3GB/s 以上)。
- 随机读写性能
- 工具:
fio
- 方法(示例):
fio --name=randread --filename=/mnt/testfile --rw=randread --bs=4k --size=1G --iodepth=32 --runtime=60 --time_based --direct=1 fio --name=randwrite --filename=/mnt/testfile --rw=randwrite --bs=4k --size=1G --iodepth=32 --runtime=60 --time_based --direct=1
- 关注 IOPS、延迟(latency)等指标,是否与硬盘性能规格相符。
6. GPU 测试 (NVIDIA H100)¶
H100 属于高端数据中心 GPU,用于高性能计算、AI 训练推理等场景。需要从信息确认、功能测试、压力测试三个层次进行验证。
6.1 GPU 信息确认¶
- 查看 GPU 基础信息
- 工具:
nvidia-smi
-
确认 H100 型号、GPU 数量、显存(80GB 或 94GB 版本等)、驱动版本、GPU BIOS 版本等与采购要求一致。
-
环境确认
- 确认已安装对应的 NVIDIA GPU 驱动及 CUDA Toolkit,版本与项目需求或采购要求兼容(例如 CUDA 11.x、CUDA 12.x 等)。
6.2 GPU 功能测试¶
- nvidia-smi 基础功能测试
- 运行
nvidia-smi -q
,确认 GPU 当前温度、风扇状态、功耗限制(Power Limit)等是否正常。 - CUDA 样例测试
- NVIDIA CUDA Toolkit 中自带测试样例(如
deviceQuery
、bandwidthTest
)。 - 运行并确认输出结果正常,无报错,显存容量、带宽等信息与期望相符。
6.3 GPU 压力及性能测试¶
- GPU 压力测试
- 工具:
gpu-burn
、nvidia-smi --stress-test
(部分版本提供) 或者其他类似工具 - 方法:
- 运行高负载(满载)测试 1 ~ 2 小时,期间监测 GPU 温度、功耗、频率有无波动过大或报错。
-
验收标准:
- 测试过程中无宕机、无报错,温度和功耗在正常范围内(可以对照 nvidia-smi 显示的 Power Limit)。
-
性能测试 (可根据需求选用)
- AI 训练基准:可使用
DeepBench
、MLPerf
中的小规模测试,或简单运行 TensorFlow/PyTorch 的 benchmark。 - HPC 基准:可使用
HPL (High-Performance Linpack)
或HPCG
等工具进行浮点运算能力测试。 - 验收标准:与公开的 H100 性能基准进行对比,性能基本一致(±5~10% 以内)。
7. 网络与扩展接口测试(可选)¶
如果服务器配置了高速网络(如 10GbE、25GbE、InfiniBand 或 100GbE),或对网络有高性能需求,可以进行以下测试:
- 硬件信息检查
lspci | grep Ethernet
或lshw -class network
查看网卡型号、驱动加载情况。- 网络连通性测试
ping
、iperf3
进行带宽、延迟测试,对照网卡规格进行比较。- 带宽和吞吐量测试
- 服务器端
iperf3 -s
- 客户端
iperf3 -c <服务器IP> -P 8 -t 30
- 观察实测带宽是否满足网卡标称峰值的合理范围。
同理,对于 USB、PCIe 扩展槽位等也可进行功能性检查(是否可以正确识别外接设备、传输性能稳定等)。
8. 其他辅助检查¶
- BIOS/固件版本
- 确认 BIOS、BMC (IPMI) 等固件是否为最新或符合供应商建议版本。
- 风扇与机箱散热检查
- 对主板风扇转速和机箱气流进行巡检,尤其是 GPU 服务器热量较大,需确认散热正常。
- 冗余电源检测(若有)
- 如果配备冗余电源,可在保证安全的情况下拔掉其中一个电源线,确认服务器能正常运行。
- 噪音及能耗测试(可选)
- 在满载、空载时检查服务器噪音水平和功耗是否符合机房要求。
9. 验收结果与文档归档¶
- 测试数据记录
- 将 CPU、内存、磁盘、GPU 的各项测试结果(温度、带宽、IOPS、吞吐量、Benchmark 分数等)整理成表格或附件保存。
- 问题及整改
- 若在测试中发现硬件故障或性能异常,需进行原因分析,联系硬件供应商或厂商技术支持。
- 最终验收报告
- 将服务器硬件、操作系统基本信息与测试结果汇总,签字或存档,以作为服务器入库与正式投入使用的依据。
10. 参考工具列表¶
- 系统信息与硬件检查
lshw
,lscpu
,lsblk
,lspci
,dmidecode
,smartctl
,nvidia-smi
- CPU 测试
stress-ng
,sysbench
,Geekbench
(可选)- 内存测试
MemTest86
,memtester
,stress-ng
- 硬盘测试
dd
,fio
,smartctl
- GPU 测试
nvidia-smi
,gpu-burn
,deepbench
,MLPerf
,HPL/HPCG
- 网络测试
iperf3
,ethtool
附件:验收测试结果示例表¶
测试项目 | 工具/方法 | 测试结果 | 验收标准 | 是否通过 |
---|---|---|---|---|
CPU 信息确认 | lscpu | 型号:xxxx / 核心数:xxxx | 与采购要求一致 | 通过 |
CPU 压力测试 | stress-ng 1hr | 稳定无报错,温度正常 | 无异常宕机/报错 | 通过 |
内存容量与频率 | dmidecode/lshw | 容量:xxx GB / 频率:xxx MHz | 与采购要求一致 | 通过 |
内存稳定性测试 | MemTest86 1hr | 无错误报告 | 无错误 | 通过 |
磁盘信息确认 | lsblk | SSD/NVMe x 个, 型号xxxx | 与采购要求一致 | 通过 |
磁盘性能测试 | fio/dd | 读速率/写速率/IOPS数据 | ≥90% 理论值 | 通过 |
GPU 信息确认 | nvidia-smi | H100 GPU x 张 / 显存 xxx GB | 与采购要求一致 | 通过 |
GPU 压力测试 | gpu-burn 2hr | 温度稳定在 70℃ 以下无报错 | 稳定无报错 | 通过 |
GPU 性能测试 | HPL / HPCG | 实测 TFLOPS 与基准相近 | ≥ 90% 公告性能 | 通过 |
网络带宽测试 | iperf3 | 测试带宽达到理论峰值 90% 以上 | 符合网卡规格 | 通过 |
其它(BIOS 等) | BIOS / IPMI 版本 | 版本:xxxx / x.x.x | 符合建议版本 | 通过 |
通过以上各项测试后,如均无异常,即可判定该 H100 GPU 服务器硬件验收合格。若发现问题或性能未达预期,需要联系硬件厂商或技术支持进行故障排查或硬件更换。
备注:实际验收过程中可根据机房环境、操作系统版本、服务器厂商提供的工具(如厂商自带诊断工具)进行灵活调整。上述文档仅为参考模板,帮助快速搭建硬件验收测试的整体流程。
Human¶
2025-04-01 01:34:00 UTC
H100 上架之后,如何确认 GPU 卡的功率,以及电源供电是否达标
Assistant¶
2025-04-01 01:34:01 UTC
在服务器上架并投入使用后,若要确认 NVIDIA H100 GPU 的实际功耗以及服务器电源供电是否能够满足需求,通常需要从以下几个方面进行检查和测量:
1. 查看 GPU 的功率上限 (Power Limit)¶
- 使用
nvidia-smi
工具查看 - 运行命令: ```bash nvidia-smi -q -d POWER ```
- 输出示例(根据实际环境会有所不同):
Power Readings Power Management : Supported Power Draw : 100.45 W Power Limit : 350.00 W Default Power Limit : 350.00 W Enforced Power Limit : 350.00 W
- 其中
Power Limit
就是该 GPU 当前被设置的最大功率限制(例如 350W、400W,具体数值根据显卡型号和厂商 BIOS 可能略有差异)。 -
Power Draw
则是当前实时功耗,可以在不同工作负载下观察数值变化。 -
确认 H100 GPU 版本
- 不同版本的 H100(PCIe 版、SXM 模块、以及不同散热设计等)在功率上限上可能会存在细微差异。要先确认自己的具体型号(如 H100 PCIe 350W、H100 SXM 700W 等)。
- 如果是 PCIe 插卡式的 H100,一般厂商或 NVIDIA 官网会标注最大功率限制(TDP/ TGP),通常在 300W~350W 左右;如果是 SXM(HGX)方案,功率会更高。
2. 在高负载下监测 GPU 实际功耗¶
- 模拟或实际负载
- 可以运行高负载的 GPU Benchmark 或者压力测试工具,例如:
gpu-burn
- 深度学习训练脚本 (PyTorch / TensorFlow)
- HPC 测试 (如 HPL / HPCG)
- 在负载运行期间,通过
nvidia-smi -q -d POWER -l 5
(每 5 秒刷新一次)或watch -n 5 nvidia-smi -q -d POWER
等方式观察 Power Draw 变化。 -
如果看到 GPU 的 Power Draw 多次接近其 Power Limit(例如 350W),说明已经在“满载”功率附近运行。
-
配合 BMC 或机房 PDU 观测整机功耗
- 除了 GPU 的单卡功耗,还可以通过服务器的 BMC/IPMI 或 机房 PDU(Power Distribution Unit) 查看整个服务器的输入功耗。
- 在 GPU 满载时,如果整机功率距离电源额定功率过近,可能产生供电风险(如电源进入保护模式、风扇速度过高、甚至出现意外掉电)。
3. 确认电源供电是否达标¶
- 电源额定功率及数量(是否冗余)
- 检查服务器电源的 额定功率(如 1,600W、2,000W、3,000W,或更高),以及是否是单电源还是双电源冗余。
-
一般来说,GPU 服务器会配备 高功率电源 或 多电源并行/冗余,以确保在所有 GPU 满载时仍有一定余量(通常建议保留至少 20%~30% 的富余功率)。
-
估算总功耗
- 粗略计算公式示例: [ \text{总功耗估算} = (\text{CPU 功耗} + \text{GPU 功耗总和} + \text{其他硬件功耗} + \text{冗余预留}) \times \text{一定余量} ]
- 例如:
- 双路 CPU,每路 TDP 约 200W → CPU 部分合计约 400W
- GPU:H100 PCIe 350W x 4 → GPU 部分合计 1,400W
- 其他硬盘、内存、主板负载、风扇等估算 200~300W
- 大约总计 2,000W 左右,再预留一些余量(200~300W)。
-
对应电源配置就需要能够保证在最大时段 2,200~2,500W(或更高)稳定输出,比如配备两块 2,000W 电源并联,或单块 3,000W 电源等。
-
实际测量整机输入功率
-
服务器出厂一般会在满载下有额定功率标注,但建议 实际测试 来验证:
- 在满载 GPU + CPU 同时进行压力测试时,通过 BMC 或 PDU 读取整机实际功率。
- 若实测功率远超过电源的额定值(或接近上限),则存在潜在的供电风险,需要更换更大功率的电源或减少部分 GPU。
-
温度、风扇及环境因素
- 在确定电源功率够用的同时,也要保证机箱及机房的散热能力能够支撑这样的高负载。温度过高也会导致电源效率降低或过热保护。
4. 其他辅助验证手段¶
- nvidia-smi 配置/查看电源限制
-
部分驱动或管理工具允许手动调整 GPU 的 Power Limit,例如: ```bash # 显示可设置的范围 nvidia-smi -i 0 --query-gpu=power.limit,power.min_limit,power.max_limit --format=csv
# 设置新的 Power Limit(仅在驱动允许的范围内) sudo nvidia-smi -i 0 -pl 300 ``` - 通过调整 Power Limit 可以进一步验证不同功耗下的性能表现,也可以确保在电源容量不足的机房临时限功。
-
BMC 或 IPMI 界面查看实时功耗
- 部分服务器在 BMC 网页或 IPMI Sensor 中提供了 GPU Power 或 系统输入功率 传感器值,可以随时查看。
-
如果在 BMC 里发现经常有电源相关的警告或告警(如电源过载、电压异常),则说明供电可能接近瓶颈。
-
机房环境/供电线路检查
- 若机柜内同时运行多台高功率服务器,需要检查机架的 总负载容量(PDU、UPS、空调制冷能力等)。
- 避免因一台服务器 GPU 满载导致整个机柜供电或制冷出现隐患。
5. 总结与建议¶
- 确认 GPU 功率
- 通过
nvidia-smi
或厂家文档查看 H100 的 默认 Power Limit,并在实际负载环境下观察Power Draw
。 - 检查电源配置
- 电源输出功率应 高于实际负载 至少 20%~30%,且最好使用 高效电源(80+ Platinum / Titanium) 以减少损耗。
- 满载测试验证
- 使用 GPU/CPU 双重压力测试(如
gpu-burn
+stress-ng
同时运行),观察 BMC 或 PDU 读数,确认供电稳定无过载告警。 - 环境与散热
- 高功率 GPU 服务器对机房散热要求也较高,需确保进风口温度、出风口通畅以及机房空调能满足散热需求。
- 记录测试结果
- 将 GPU 实际功耗、整机功率、温度、风扇转速等数据做成验收或巡检报告,便于后续追溯和容量规划。
通过以上步骤,即可较为全面地确认 H100 GPU 的功率使用情况,以及服务器电源供电能力是否达标。若在高负载场景下电源或散热出现告警,需及时评估是否 更换更高功率电源、增加 额外散热措施,或对 GPU 进行 功率限制 来避免潜在风险。
Human¶
2025-04-01 01:37:28 UTC
例如: 一台 8 卡 H100 ,最低需要多少瓦可以正常运行
Assistant¶
2025-04-01 01:37:29 UTC
下面给出一个大致估算,帮助您判断 8 卡 H100 服务器在满载时所需的最小电源功率(仅供参考,具体数值还需结合您使用的 H100 版本、CPU 及其他硬件配置来确定)。
1. 不同版本 H100 的功率差异¶
- H100 PCIe 版
- 常见 TDP(或 TGP)约为 300W~350W/卡。
-
实际功耗上限通常由 “Power Limit” 设置决定,可以在
nvidia-smi
中查看或手动调整。 -
H100 SXM(HGX) 版
- 常见 TDP 可能达到 700W/卡,主要用于高密度 GPU 服务器或整合式 GPU 计算节点(如 4/8 卡在同一加速模块上)。
- 这类服务器常常搭配水冷/热板散热等方案,配合更高功率电源。
2. 8 卡 H100(PCIe) 的功耗估算¶
以下以 PCIe 版 H100(功耗 ~350W/卡)为例做大致计算:
-
GPU 部分: [ 350\text{W} \times 8 = 2800\text{W} ]
-
CPU 部分(假设双路服务器,每路 CPU TDP ~ 250~300W): [ 2 \times 300\text{W} \approx 600\text{W} ]
-
其他硬件(主板、内存、风扇、硬盘、网络接口等): [ 200\text{W} \sim 300\text{W} (\text{大致区间}) ]
-
小结:满载时约需 [ 2800\text{W} (\text{GPU}) + 600\text{W} (\text{CPU}) + 200\text{~}300\text{W (其他)} \approx 3600\text{~}3700\text{W} ]
-
预留冗余:
- 通常建议至少保留 20%~30% 的电源余量,以应对功耗波动、启动冲击、以及电源效率损耗。
- 按 20% 余量估算: [ 3600\text{W} \times (1 + 0.20) = 4320\text{W} ]
- 因此,一台配备 8 张 H100 PCIe 的服务器,推荐电源总功率至少在 4kW~4.5kW 之间(或者更高),才能在满载时相对稳妥地运行。
3. 8 卡 H100(SXM) 的功耗估算¶
若是 SXM 版(单卡功耗可达 700W),其总功耗会比 PCIe 版高得多:
-
GPU 部分: [ 700\text{W} \times 8 = 5600\text{W} ]
-
CPU + 其他硬件: [ \text{CPU(双路)} \approx 600\text{W},\quad \text{其他} \approx 300\text{W} ]
-
小结: [ 5600\text{W} + 600\text{W} + 300\text{W} \approx 6500\text{W} ]
-
预留冗余:
- 按 20% 余量: [ 6500\text{W} \times (1 + 0.20) \approx 7800\text{W} ]
- 这类服务器在实际部署时一般使用多路高功率电源(如 2~3 个 3kW 电源并联),或更高配置才能支撑。
4. 结论与建议¶
- 对于 8 卡 H100(PCIe)
- 最低建议配备 4kW 以上(最好 4.5kW~5kW)的电源配置,才能在全卡满载时确保供电稳定。
-
如果服务器主板、CPU、硬盘配置本身比较高,那么所需冗余会更多。
-
对于 8 卡 H100(SXM)
-
满载功耗可能会达到 6.5kW 或以上,实际部署中往往需要 7kW 甚至更高 的电源配置(可能是多电源并联)。
-
实际测试验证
- 上述只是理论估算。建议在服务器上电后,使用 GPU/CPU 压力测试(如
gpu-burn
+stress-ng
同时运行)观察 BMC / IPMI 或 机房 PDU 的 实际功耗读数,并留足安全余量。 - 如果发现整机功耗频繁逼近电源额定功率,可能会导致不稳定(电源过载保护或温度过高),需考虑升级电源或限制 GPU 的 Power Limit。
提示: 高功率 GPU 服务器不仅要关注电源瓦数,还要保证机房供电回路、UPS、PDU 以及空调制冷系统能够支撑对应的负载和散热。
Human¶
2025-04-01 01:40:19 UTC
以下是 8 卡 H100 [xs] root@h100-1:/home/openbayes# nvidia-smi Tue Apr 1 09:36:09 2025 +---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.183.01 Driver Version: 535.183.01 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 NVIDIA H100 80GB HBM3 On | 00000000:18:00.0 Off | 0 | | N/A 30C P0 112W / 700W | 74563MiB / 81559MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 1 NVIDIA H100 80GB HBM3 On | 00000000:2A:00.0 Off | 0 | | N/A 32C P0 72W / 700W | 3MiB / 81559MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 2 NVIDIA H100 80GB HBM3 On | 00000000:3A:00.0 Off | 0 | | N/A 30C P0 72W / 700W | 3MiB / 81559MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 3 NVIDIA H100 80GB HBM3 On | 00000000:5D:00.0 Off | 0 | | N/A 28C P0 72W / 700W | 3MiB / 81559MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 4 NVIDIA H100 80GB HBM3 On | 00000000:9A:00.0 Off | 0 | | N/A 28C P0 69W / 700W | 3MiB / 81559MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 5 NVIDIA H100 80GB HBM3 On | 00000000:AB:00.0 Off | 0 | | N/A 31C P0 74W / 700W | 3MiB / 81559MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 6 NVIDIA H100 80GB HBM3 On | 00000000:BA:00.0 Off | 0 | | N/A 31C P0 72W / 700W | 3MiB / 81559MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 7 NVIDIA H100 80GB HBM3 On | 00000000:DB:00.0 Off | 0 | | N/A 29C P0 71W / 700W | 3MiB / 81559MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+
+---------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=======================================================================================| | 0 N/A N/A 4945 C /usr/local/bin/python 4680MiB | | 0 N/A N/A 162462 C /usr/local/bin/python 7748MiB | | 0 N/A N/A 233118 C /usr/local/bin/python 54252MiB | | 0 N/A N/A 252897 C /usr/local/bin/python 7858MiB | +---------------------------------------------------------------------------------------+
Assistant¶
从上述 nvidia-smi
输出可以看出,每张 H100 80GB SXM GPU 的功率上限(Power Cap)是 700W,当前实时功耗(Power Draw)分别在 70~110W 左右(说明暂时处于低负载或中等负载状态)。下面是一些关于 8 卡 H100 服务器供电 需求的要点说明,以帮助您确认最小需要多少瓦的电源才能满足满载运行:
1. H100 SXM 单卡最大功耗¶
-
从输出可见: [ \text{Power Usage/Cap} = (约70~110W) / 700W ] 700W 是该 GPU 的 功率上限(TDP/TGP),意味着在高强度计算(HPC、深度学习训练等)满载场景下,每张卡的瞬时功耗最高可逼近 700W。
-
当前您看到的 70~110W 并非 GPU 的“固定”功耗,而是该时刻(或近几秒内)实际使用的功率。 当 GPU 工作负载上升(如进行大规模训练或高负载推理),功耗会升至更高水平,可能逼近 700W。
2. 8 卡 H100 SXM 的总功耗估算¶
2.1 GPU 部分¶
- 理论上,8 卡 H100 SXM 在极限满载时: [ 700W \times 8 = 5600W ] 仅 GPU 部分就可能达到 5600W 的消耗。
2.2 CPU + 其他硬件¶
- 服务器往往至少是双路 CPU(高端至强或 EPYC 等),单路 CPU TDP 可能在 250~300W 甚至更高;双路合计可达 500~600W。
- 主板、内存、大风扇阵列、硬盘、扩展卡等额外也会消耗 200~300W 不等。
2.3 理论整机功耗¶
- 将上述各部分相加: [ 5600W (\text{8卡 GPU满载}) + 600W (\text{双路CPU}) + 300W (\text{其他硬件}) \approx 6500W ]
- 这是在 极限负载 下的估算,实际会随着应用场景波动。
2.4 建议预留冗余¶
- 通常建议电源留有 20%~30% 的冗余,以应对功耗波动或启动浪涌,并避免电源在接近满载时出现效率下降或过热保护。
- 如果以 6500W 的极限值来估算,预留 20% 冗余: [ 6500W \times (1 + 0.20) \approx 7800W ]
- 因此,面向 8 卡 H100 SXM 服务器的整机电源规划,往往会在 7kW~8kW 乃至更高(根据实际配置)范围内。
3. 实际情况 vs. 理论值¶
- 当前低负载状态
- 您看到大多数 GPU 显示 70~110W,说明此时运行的任务负载不重,所以整机功耗远未达到上限。
-
仅凭当前读数并不能代表高负载时的需求。
-
满载/极限场景
- 如果后续要进行大规模训练、HPC 计算或需要 8 张卡全部高负载工作,那么整机功耗可能会瞬间攀升至 6000~7000W 区间。
-
若电源规格不足,可能会触发电源过载保护或导致不稳定(降频、掉电)。
-
多电源并联或高功率单电源
- 高端 GPU 服务器通常配备 2~3 个 3kW(甚至更高)的电源并联,或单个 6kW+ 的电源,以确保负载均衡和冗余。
- 建议查看服务器厂商提供的 最大电源配置,或者 BMC 中查看传感器告警、监控系统输入功率。
4. 结论与建议¶
- 最低电源需求
- 理论上,8 张 H100 SXM(700W/卡)在满载时可达 ~5600W,仅 GPU 就达到这个级别,再加上 CPU 和其他部件,整机满载约 6500W。
-
实际应用中,要想稳定运行并留有余量,最好 7kW~8kW 及以上 的电源功率配置(或多路电源并联)。
-
监控和测试
- 建议在确定机房与电源容量足够后,执行 高负载压力测试(如
gpu-burn
、深度学习大规模训练,甚至再叠加 CPU 负载),通过 BMC/IPMI 或 PDU 监测实际整机功耗,验证是否逼近电源上限。 -
如果经常达到电源额定功率上限,应考虑扩大电源容量或对 GPU 设置功率限制(
nvidia-smi -pl <值>
)来避免过载风险。 -
机房环境与散热
- 能耗高同时意味着散热量大;需要确保机房空调、风道、机柜散热都能满足至少 6kW 以上 的热功耗散发。
总结¶
- 最小供电需求:以 8 卡 H100(SXM 700W/卡) 为例,整机在高负载情况下的功耗大约在 6500W 上下,建议电源配置 7kW~8kW(含冗余)才能保证供电稳定。
- 当前 GPU 每张只有 70~110W 使用量,只能说明此刻负载较轻,并不代表峰值需求。若您要真正“满血”使用 8 卡 H100,需要根据上述估算或实际测试来规划电源,确保机器和机房都有足够余量。