跳转至

H100服务器硬件验收-o1

下面是一份针对新采购的 H100 GPU 服务器在硬件层面进行检查和验收的示例文档,涵盖 CPU、内存、硬盘、GPU 等主要硬件组件的验收测试。文档内容可根据公司实际情况、操作系统和测试工具的可用性进行调整和补充。


H100 GPU 服务器硬件检查与验收文档

1. 概述

本验收方案主要对新采购的 H100 GPU 服务器在硬件层面进行全面检查和验收,确保各硬件模块(CPU、内存、硬盘、GPU、网络等)符合采购要求,并满足后续在生产环境运行的可靠性和性能要求。本测试计划分为以下几个部分:

  1. 硬件信息确认与系统基本检查
  2. CPU 测试
  3. 内存测试
  4. 磁盘(硬盘/SSD)测试
  5. GPU 测试(H100)
  6. 网络与扩展接口测试(可选)
  7. 其他辅助检查及验收结果整理

2. 硬件信息确认与系统基本检查

2.1 硬件信息确认
  1. 服务器型号与序列号
  2. 确认服务器品牌、型号、序列号是否与采购订单一致。
  3. CPU/主板信息
  4. 查看 CPU 型号、主板 BIOS 版本、BMC/IPMI 固件版本等。
  5. 内存信息
  6. 检查内存容量和内存条数量、插槽位置、频率是否与采购要求相符。
  7. 硬盘信息
  8. 检查硬盘(HDD/SSD)容量、接口类型(SATA/NVMe/PCIe)、数量、RAID 控制器信息等。
  9. GPU 信息
  10. 检查 GPU 型号(NVIDIA H100)、数量、显存容量、散热或水冷/风冷方案。
2.2 系统基本检查
  1. 上电自检(POST)
  2. 确认主机上电后进入 BIOS/UEFI,无报错信息。
  3. 操作系统启动
  4. 在预安装的操作系统(如 Linux)环境下正常启动,无异常提示。
  5. 系统日志检查
  6. 通过 dmesgjournalctl -xe(或其他日志检查命令)查看是否有硬件相关告警或错误。

3. CPU 测试

CPU 测试需要确认 CPU 是否能够在长时间负载下保持稳定,并达到应有性能。可使用以下方法:

3.1 CPU 信息查看
  • 查看 CPU 信息
  • 在 Linux 下可使用 lscpucat /proc/cpuinfo,或者 dmidecode -t processor 查看型号、核心数量、主频等是否与采购要求一致。
3.2 CPU 压力测试和性能测试
  1. 压力测试
  2. 工具:stress-ngsysbench 或者 stress
  3. 方法:
    • 对 CPU 进行高负载连续运行(例如 100% 利用率)至少 30 分钟到 1 小时
    • 同时监控温度、风扇转速(如有传感器)、系统稳定性
  4. 验收标准:

    • 期间服务器无宕机、无报错、CPU 温度和散热状况在正常范围。
  5. 性能测试

  6. 工具:sysbench --test=cpuGeekbench(有 GUI 环境)或其他 CPU Benchmark 工具
  7. 方法:
    • 运行单线程、多线程 CPU 性能测试,获取分数或性能指标
  8. 验收标准:
    • 测试成绩与同型号 CPU 的行业基准值相差不大(通常在±5~10% 以内)

4. 内存测试

内存测试一方面需要检查容量、频率、插槽分布是否正确,另一方面也要测试内存稳定性和带宽性能。

4.1 内存容量与频率确认
  • 通过 dmidecode -t memorylshw -c memory 或者主板 BIOS/UEFI 查看内存总容量、单条容量、频率和插槽布局是否与采购要求一致。
4.2 内存压力测试
  1. MemTest86 / memtester
  2. 可以使用 MemTest86(需要制作可启动介质) 或者在 Linux 环境下使用 memtester 工具。
  3. 建议选择对全部内存进行测试,确保在长时间内无错误报告。
  4. stress-ng 内存测试
  5. 也可利用 stress-ng --vm ... 模块对内存进行大规模分配和释放测试。
  6. 测试时间建议至少 1 小时。
4.3 内存性能测试
  • 工具sysbench --test=memorystream
  • 方法
  • 测试内存带宽、读写延迟等指标
  • 验收标准:与相同规格内存的常规基准对比,无明显异常(在合理误差范围内)

5. 磁盘(硬盘/SSD)测试

5.1 硬盘信息检查
  • 使用 lsblklshw -class disk 或 RAID 工具查看具体硬盘或 RAID 信息,确认硬盘型号、容量、接口类型与采购信息吻合。
5.2 磁盘健康度与 SMART 信息
  • 工具smartctl (smartmontools)
  • 方法
  • smartctl -a /dev/sdX 查看 SMART 信息,检查是否有 Reallocated_Sector_Ct、Pending_Sector_Ct 等异常。
5.3 磁盘性能测试
  1. 顺序读写性能
  2. 工具dd 命令、fio 工具
  3. 方法(示例)
    # 使用 dd 测试顺序写
    dd if=/dev/zero of=/mnt/testfile bs=1G count=4 oflag=direct
    
    # 使用 dd 测试顺序读
    dd if=/mnt/testfile of=/dev/null bs=1G count=4 iflag=direct
    
  4. 记录写入/读取速度是否符合硬盘规格要求(如 SATA SSD ~ 500MB/s、NVMe SSD 可能在 2-3GB/s 以上)。
  5. 随机读写性能
  6. 工具fio
  7. 方法(示例)
    fio --name=randread --filename=/mnt/testfile --rw=randread --bs=4k --size=1G --iodepth=32 --runtime=60 --time_based --direct=1
    fio --name=randwrite --filename=/mnt/testfile --rw=randwrite --bs=4k --size=1G --iodepth=32 --runtime=60 --time_based --direct=1
    
  8. 关注 IOPS、延迟(latency)等指标,是否与硬盘性能规格相符。

6. GPU 测试 (NVIDIA H100)

H100 属于高端数据中心 GPU,用于高性能计算、AI 训练推理等场景。需要从信息确认、功能测试、压力测试三个层次进行验证。

6.1 GPU 信息确认
  1. 查看 GPU 基础信息
  2. 工具:nvidia-smi
  3. 确认 H100 型号、GPU 数量、显存(80GB 或 94GB 版本等)、驱动版本、GPU BIOS 版本等与采购要求一致。

  4. 环境确认

  5. 确认已安装对应的 NVIDIA GPU 驱动及 CUDA Toolkit,版本与项目需求或采购要求兼容(例如 CUDA 11.x、CUDA 12.x 等)。
6.2 GPU 功能测试
  1. nvidia-smi 基础功能测试
  2. 运行 nvidia-smi -q,确认 GPU 当前温度、风扇状态、功耗限制(Power Limit)等是否正常。
  3. CUDA 样例测试
  4. NVIDIA CUDA Toolkit 中自带测试样例(如 deviceQuerybandwidthTest)。
  5. 运行并确认输出结果正常,无报错,显存容量、带宽等信息与期望相符。
6.3 GPU 压力及性能测试
  1. GPU 压力测试
  2. 工具gpu-burnnvidia-smi --stress-test(部分版本提供) 或者其他类似工具
  3. 方法
    • 运行高负载(满载)测试 1 ~ 2 小时,期间监测 GPU 温度、功耗、频率有无波动过大或报错。
  4. 验收标准

    • 测试过程中无宕机、无报错,温度和功耗在正常范围内(可以对照 nvidia-smi 显示的 Power Limit)。
  5. 性能测试 (可根据需求选用)

  6. AI 训练基准:可使用 DeepBenchMLPerf 中的小规模测试,或简单运行 TensorFlow/PyTorch 的 benchmark。
  7. HPC 基准:可使用 HPL (High-Performance Linpack)HPCG 等工具进行浮点运算能力测试。
  8. 验收标准:与公开的 H100 性能基准进行对比,性能基本一致(±5~10% 以内)。

7. 网络与扩展接口测试(可选)

如果服务器配置了高速网络(如 10GbE、25GbE、InfiniBand 或 100GbE),或对网络有高性能需求,可以进行以下测试:

  1. 硬件信息检查
  2. lspci | grep Ethernetlshw -class network 查看网卡型号、驱动加载情况。
  3. 网络连通性测试
  4. pingiperf3 进行带宽、延迟测试,对照网卡规格进行比较。
  5. 带宽和吞吐量测试
  6. 服务器端 iperf3 -s
  7. 客户端 iperf3 -c <服务器IP> -P 8 -t 30
  8. 观察实测带宽是否满足网卡标称峰值的合理范围。

同理,对于 USB、PCIe 扩展槽位等也可进行功能性检查(是否可以正确识别外接设备、传输性能稳定等)。


8. 其他辅助检查

  1. BIOS/固件版本
  2. 确认 BIOS、BMC (IPMI) 等固件是否为最新或符合供应商建议版本。
  3. 风扇与机箱散热检查
  4. 对主板风扇转速和机箱气流进行巡检,尤其是 GPU 服务器热量较大,需确认散热正常。
  5. 冗余电源检测(若有)
  6. 如果配备冗余电源,可在保证安全的情况下拔掉其中一个电源线,确认服务器能正常运行。
  7. 噪音及能耗测试(可选)
  8. 在满载、空载时检查服务器噪音水平和功耗是否符合机房要求。

9. 验收结果与文档归档

  1. 测试数据记录
  2. 将 CPU、内存、磁盘、GPU 的各项测试结果(温度、带宽、IOPS、吞吐量、Benchmark 分数等)整理成表格或附件保存。
  3. 问题及整改
  4. 若在测试中发现硬件故障或性能异常,需进行原因分析,联系硬件供应商或厂商技术支持。
  5. 最终验收报告
  6. 将服务器硬件、操作系统基本信息与测试结果汇总,签字或存档,以作为服务器入库与正式投入使用的依据。

10. 参考工具列表

  • 系统信息与硬件检查
  • lshw, lscpu, lsblk, lspci, dmidecode, smartctl, nvidia-smi
  • CPU 测试
  • stress-ng, sysbench, Geekbench(可选)
  • 内存测试
  • MemTest86, memtester, stress-ng
  • 硬盘测试
  • dd, fio, smartctl
  • GPU 测试
  • nvidia-smi, gpu-burn, deepbench, MLPerf, HPL/HPCG
  • 网络测试
  • iperf3, ethtool

附件:验收测试结果示例表

测试项目 工具/方法 测试结果 验收标准 是否通过
CPU 信息确认 lscpu 型号:xxxx / 核心数:xxxx 与采购要求一致 通过
CPU 压力测试 stress-ng 1hr 稳定无报错,温度正常 无异常宕机/报错 通过
内存容量与频率 dmidecode/lshw 容量:xxx GB / 频率:xxx MHz 与采购要求一致 通过
内存稳定性测试 MemTest86 1hr 无错误报告 无错误 通过
磁盘信息确认 lsblk SSD/NVMe x 个, 型号xxxx 与采购要求一致 通过
磁盘性能测试 fio/dd 读速率/写速率/IOPS数据 ≥90% 理论值 通过
GPU 信息确认 nvidia-smi H100 GPU x 张 / 显存 xxx GB 与采购要求一致 通过
GPU 压力测试 gpu-burn 2hr 温度稳定在 70℃ 以下无报错 稳定无报错 通过
GPU 性能测试 HPL / HPCG 实测 TFLOPS 与基准相近 ≥ 90% 公告性能 通过
网络带宽测试 iperf3 测试带宽达到理论峰值 90% 以上 符合网卡规格 通过
其它(BIOS 等) BIOS / IPMI 版本 版本:xxxx / x.x.x 符合建议版本 通过

通过以上各项测试后,如均无异常,即可判定该 H100 GPU 服务器硬件验收合格。若发现问题或性能未达预期,需要联系硬件厂商或技术支持进行故障排查或硬件更换。


备注:实际验收过程中可根据机房环境、操作系统版本、服务器厂商提供的工具(如厂商自带诊断工具)进行灵活调整。上述文档仅为参考模板,帮助快速搭建硬件验收测试的整体流程。

Human

2025-04-01 01:34:00 UTC

H100 上架之后,如何确认 GPU 卡的功率,以及电源供电是否达标

Assistant

2025-04-01 01:34:01 UTC

在服务器上架并投入使用后,若要确认 NVIDIA H100 GPU 的实际功耗以及服务器电源供电是否能够满足需求,通常需要从以下几个方面进行检查和测量:


1. 查看 GPU 的功率上限 (Power Limit)

  1. 使用 nvidia-smi 工具查看
  2. 运行命令: ```bash nvidia-smi -q -d POWER ```
  3. 输出示例(根据实际环境会有所不同):
    Power Readings
        Power Management         : Supported
        Power Draw               : 100.45 W
        Power Limit              : 350.00 W
        Default Power Limit      : 350.00 W
        Enforced Power Limit     : 350.00 W
    
  4. 其中 Power Limit 就是该 GPU 当前被设置的最大功率限制(例如 350W、400W,具体数值根据显卡型号和厂商 BIOS 可能略有差异)。
  5. Power Draw 则是当前实时功耗,可以在不同工作负载下观察数值变化。

  6. 确认 H100 GPU 版本

  7. 不同版本的 H100(PCIe 版、SXM 模块、以及不同散热设计等)在功率上限上可能会存在细微差异。要先确认自己的具体型号(如 H100 PCIe 350W、H100 SXM 700W 等)。
  8. 如果是 PCIe 插卡式的 H100,一般厂商或 NVIDIA 官网会标注最大功率限制(TDP/ TGP),通常在 300W~350W 左右;如果是 SXM(HGX)方案,功率会更高。

2. 在高负载下监测 GPU 实际功耗

  1. 模拟或实际负载
  2. 可以运行高负载的 GPU Benchmark 或者压力测试工具,例如:
    • gpu-burn
    • 深度学习训练脚本 (PyTorch / TensorFlow)
    • HPC 测试 (如 HPL / HPCG)
  3. 在负载运行期间,通过 nvidia-smi -q -d POWER -l 5(每 5 秒刷新一次)或 watch -n 5 nvidia-smi -q -d POWER 等方式观察 Power Draw 变化。
  4. 如果看到 GPU 的 Power Draw 多次接近其 Power Limit(例如 350W),说明已经在“满载”功率附近运行。

  5. 配合 BMC 或机房 PDU 观测整机功耗

  6. 除了 GPU 的单卡功耗,还可以通过服务器的 BMC/IPMI机房 PDU(Power Distribution Unit) 查看整个服务器的输入功耗。
  7. 在 GPU 满载时,如果整机功率距离电源额定功率过近,可能产生供电风险(如电源进入保护模式、风扇速度过高、甚至出现意外掉电)。

3. 确认电源供电是否达标

  1. 电源额定功率及数量(是否冗余)
  2. 检查服务器电源的 额定功率(如 1,600W、2,000W、3,000W,或更高),以及是否是单电源还是双电源冗余。
  3. 一般来说,GPU 服务器会配备 高功率电源多电源并行/冗余,以确保在所有 GPU 满载时仍有一定余量(通常建议保留至少 20%~30% 的富余功率)。

  4. 估算总功耗

  5. 粗略计算公式示例: [ \text{总功耗估算} = (\text{CPU 功耗} + \text{GPU 功耗总和} + \text{其他硬件功耗} + \text{冗余预留}) \times \text{一定余量} ]
  6. 例如:
    • 双路 CPU,每路 TDP 约 200W → CPU 部分合计约 400W
    • GPU:H100 PCIe 350W x 4 → GPU 部分合计 1,400W
    • 其他硬盘、内存、主板负载、风扇等估算 200~300W
    • 大约总计 2,000W 左右,再预留一些余量(200~300W)。
  7. 对应电源配置就需要能够保证在最大时段 2,200~2,500W(或更高)稳定输出,比如配备两块 2,000W 电源并联,或单块 3,000W 电源等。

  8. 实际测量整机输入功率

  9. 服务器出厂一般会在满载下有额定功率标注,但建议 实际测试 来验证:

    • 在满载 GPU + CPU 同时进行压力测试时,通过 BMC 或 PDU 读取整机实际功率。
    • 若实测功率远超过电源的额定值(或接近上限),则存在潜在的供电风险,需要更换更大功率的电源或减少部分 GPU。
  10. 温度、风扇及环境因素

  11. 在确定电源功率够用的同时,也要保证机箱及机房的散热能力能够支撑这样的高负载。温度过高也会导致电源效率降低或过热保护。

4. 其他辅助验证手段

  1. nvidia-smi 配置/查看电源限制
  2. 部分驱动或管理工具允许手动调整 GPU 的 Power Limit,例如: ```bash # 显示可设置的范围 nvidia-smi -i 0 --query-gpu=power.limit,power.min_limit,power.max_limit --format=csv

    # 设置新的 Power Limit(仅在驱动允许的范围内) sudo nvidia-smi -i 0 -pl 300 ``` - 通过调整 Power Limit 可以进一步验证不同功耗下的性能表现,也可以确保在电源容量不足的机房临时限功。

  3. BMC 或 IPMI 界面查看实时功耗

  4. 部分服务器在 BMC 网页或 IPMI Sensor 中提供了 GPU Power系统输入功率 传感器值,可以随时查看。
  5. 如果在 BMC 里发现经常有电源相关的警告或告警(如电源过载、电压异常),则说明供电可能接近瓶颈。

  6. 机房环境/供电线路检查

  7. 若机柜内同时运行多台高功率服务器,需要检查机架的 总负载容量(PDU、UPS、空调制冷能力等)。
  8. 避免因一台服务器 GPU 满载导致整个机柜供电或制冷出现隐患。

5. 总结与建议

  1. 确认 GPU 功率
  2. 通过 nvidia-smi 或厂家文档查看 H100 的 默认 Power Limit,并在实际负载环境下观察 Power Draw
  3. 检查电源配置
  4. 电源输出功率应 高于实际负载 至少 20%~30%,且最好使用 高效电源(80+ Platinum / Titanium) 以减少损耗。
  5. 满载测试验证
  6. 使用 GPU/CPU 双重压力测试(如 gpu-burn + stress-ng 同时运行),观察 BMC 或 PDU 读数,确认供电稳定无过载告警。
  7. 环境与散热
  8. 高功率 GPU 服务器对机房散热要求也较高,需确保进风口温度、出风口通畅以及机房空调能满足散热需求。
  9. 记录测试结果
  10. 将 GPU 实际功耗、整机功率、温度、风扇转速等数据做成验收或巡检报告,便于后续追溯和容量规划。

通过以上步骤,即可较为全面地确认 H100 GPU 的功率使用情况,以及服务器电源供电能力是否达标。若在高负载场景下电源或散热出现告警,需及时评估是否 更换更高功率电源、增加 额外散热措施,或对 GPU 进行 功率限制 来避免潜在风险。

Human

2025-04-01 01:37:28 UTC

例如: 一台 8 卡 H100 ,最低需要多少瓦可以正常运行

Assistant

2025-04-01 01:37:29 UTC

下面给出一个大致估算,帮助您判断 8 卡 H100 服务器在满载时所需的最小电源功率(仅供参考,具体数值还需结合您使用的 H100 版本、CPU 及其他硬件配置来确定)。


1. 不同版本 H100 的功率差异

  1. H100 PCIe 版
  2. 常见 TDP(或 TGP)约为 300W~350W/卡。
  3. 实际功耗上限通常由 “Power Limit” 设置决定,可以在 nvidia-smi 中查看或手动调整。

  4. H100 SXM(HGX) 版

  5. 常见 TDP 可能达到 700W/卡,主要用于高密度 GPU 服务器或整合式 GPU 计算节点(如 4/8 卡在同一加速模块上)。
  6. 这类服务器常常搭配水冷/热板散热等方案,配合更高功率电源。

2. 8 卡 H100(PCIe) 的功耗估算

以下以 PCIe 版 H100(功耗 ~350W/卡)为例做大致计算:

  • GPU 部分: [ 350\text{W} \times 8 = 2800\text{W} ]

  • CPU 部分(假设双路服务器,每路 CPU TDP ~ 250~300W): [ 2 \times 300\text{W} \approx 600\text{W} ]

  • 其他硬件(主板、内存、风扇、硬盘、网络接口等): [ 200\text{W} \sim 300\text{W} (\text{大致区间}) ]

  • 小结:满载时约需 [ 2800\text{W} (\text{GPU}) + 600\text{W} (\text{CPU}) + 200\text{~}300\text{W (其他)} \approx 3600\text{~}3700\text{W} ]

  • 预留冗余

  • 通常建议至少保留 20%~30% 的电源余量,以应对功耗波动、启动冲击、以及电源效率损耗。
  • 按 20% 余量估算: [ 3600\text{W} \times (1 + 0.20) = 4320\text{W} ]
  • 因此,一台配备 8 张 H100 PCIe 的服务器,推荐电源总功率至少在 4kW~4.5kW 之间(或者更高),才能在满载时相对稳妥地运行。

3. 8 卡 H100(SXM) 的功耗估算

若是 SXM 版(单卡功耗可达 700W),其总功耗会比 PCIe 版高得多:

  • GPU 部分: [ 700\text{W} \times 8 = 5600\text{W} ]

  • CPU + 其他硬件: [ \text{CPU(双路)} \approx 600\text{W},\quad \text{其他} \approx 300\text{W} ]

  • 小结: [ 5600\text{W} + 600\text{W} + 300\text{W} \approx 6500\text{W} ]

  • 预留冗余

  • 按 20% 余量: [ 6500\text{W} \times (1 + 0.20) \approx 7800\text{W} ]
  • 这类服务器在实际部署时一般使用多路高功率电源(如 2~3 个 3kW 电源并联),或更高配置才能支撑。

4. 结论与建议

  1. 对于 8 卡 H100(PCIe)
  2. 最低建议配备 4kW 以上(最好 4.5kW~5kW)的电源配置,才能在全卡满载时确保供电稳定。
  3. 如果服务器主板、CPU、硬盘配置本身比较高,那么所需冗余会更多。

  4. 对于 8 卡 H100(SXM)

  5. 满载功耗可能会达到 6.5kW 或以上,实际部署中往往需要 7kW 甚至更高 的电源配置(可能是多电源并联)。

  6. 实际测试验证

  7. 上述只是理论估算。建议在服务器上电后,使用 GPU/CPU 压力测试(如 gpu-burn + stress-ng 同时运行)观察 BMC / IPMI机房 PDU实际功耗读数,并留足安全余量。
  8. 如果发现整机功耗频繁逼近电源额定功率,可能会导致不稳定(电源过载保护或温度过高),需考虑升级电源或限制 GPU 的 Power Limit。

提示: 高功率 GPU 服务器不仅要关注电源瓦数,还要保证机房供电回路、UPS、PDU 以及空调制冷系统能够支撑对应的负载和散热。

H100 显卡

以下是 8 卡 H100

[xs] root@h100-1:/home/openbayes# nvidia-smi
Tue Apr  1 09:36:09 2025
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.01             Driver Version: 535.183.01   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          On  | 00000000:18:00.0 Off |                    0 |
| N/A   30C    P0             112W / 700W |  74563MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  | 00000000:2A:00.0 Off |                    0 |
| N/A   32C    P0              72W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  | 00000000:3A:00.0 Off |                    0 |
| N/A   30C    P0              72W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  | 00000000:5D:00.0 Off |                    0 |
| N/A   28C    P0              72W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  | 00000000:9A:00.0 Off |                    0 |
| N/A   28C    P0              69W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  | 00000000:AB:00.0 Off |                    0 |
| N/A   31C    P0              74W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  | 00000000:BA:00.0 Off |                    0 |
| N/A   31C    P0              72W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  | 00000000:DB:00.0 Off |                    0 |
| N/A   29C    P0              71W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A      4945      C   /usr/local/bin/python                      4680MiB |
|    0   N/A  N/A    162462      C   /usr/local/bin/python                      7748MiB |
|    0   N/A  N/A    233118      C   /usr/local/bin/python                     54252MiB |
|    0   N/A  N/A    252897      C   /usr/local/bin/python                      7858MiB |
+---------------------------------------------------------------------------------------+

Assistant

从上述 nvidia-smi 输出可以看出,每张 H100 80GB SXM GPU 的功率上限(Power Cap)是 700W,当前实时功耗(Power Draw)分别在 70~110W 左右(说明暂时处于低负载或中等负载状态)。下面是一些关于 8 卡 H100 服务器供电 需求的要点说明,以帮助您确认最小需要多少瓦的电源才能满足满载运行:


1. H100 SXM 单卡最大功耗

  • 从输出可见: [ \text{Power Usage/Cap} = (约70~110W) / 700W ] 700W 是该 GPU 的 功率上限(TDP/TGP),意味着在高强度计算(HPC、深度学习训练等)满载场景下,每张卡的瞬时功耗最高可逼近 700W。

  • 当前您看到的 70~110W 并非 GPU 的“固定”功耗,而是该时刻(或近几秒内)实际使用的功率。 当 GPU 工作负载上升(如进行大规模训练或高负载推理),功耗会升至更高水平,可能逼近 700W。


2. 8 卡 H100 SXM 的总功耗估算

2.1 GPU 部分
  • 理论上,8 卡 H100 SXM 在极限满载时: [ 700W \times 8 = 5600W ] 仅 GPU 部分就可能达到 5600W 的消耗。
2.2 CPU + 其他硬件
  • 服务器往往至少是双路 CPU(高端至强或 EPYC 等),单路 CPU TDP 可能在 250~300W 甚至更高;双路合计可达 500~600W
  • 主板、内存、大风扇阵列、硬盘、扩展卡等额外也会消耗 200~300W 不等。
2.3 理论整机功耗
  • 将上述各部分相加: [ 5600W (\text{8卡 GPU满载}) + 600W (\text{双路CPU}) + 300W (\text{其他硬件}) \approx 6500W ]
  • 这是在 极限负载 下的估算,实际会随着应用场景波动。
2.4 建议预留冗余
  • 通常建议电源留有 20%~30% 的冗余,以应对功耗波动或启动浪涌,并避免电源在接近满载时出现效率下降或过热保护。
  • 如果以 6500W 的极限值来估算,预留 20% 冗余: [ 6500W \times (1 + 0.20) \approx 7800W ]
  • 因此,面向 8 卡 H100 SXM 服务器的整机电源规划,往往会在 7kW~8kW 乃至更高(根据实际配置)范围内。

3. 实际情况 vs. 理论值

  1. 当前低负载状态
  2. 您看到大多数 GPU 显示 70~110W,说明此时运行的任务负载不重,所以整机功耗远未达到上限。
  3. 仅凭当前读数并不能代表高负载时的需求。

  4. 满载/极限场景

  5. 如果后续要进行大规模训练、HPC 计算或需要 8 张卡全部高负载工作,那么整机功耗可能会瞬间攀升至 6000~7000W 区间。
  6. 若电源规格不足,可能会触发电源过载保护或导致不稳定(降频、掉电)。

  7. 多电源并联或高功率单电源

  8. 高端 GPU 服务器通常配备 2~3 个 3kW(甚至更高)的电源并联,或单个 6kW+ 的电源,以确保负载均衡和冗余。
  9. 建议查看服务器厂商提供的 最大电源配置,或者 BMC 中查看传感器告警、监控系统输入功率。

4. 结论与建议

  1. 最低电源需求
  2. 理论上,8 张 H100 SXM(700W/卡)在满载时可达 ~5600W,仅 GPU 就达到这个级别,再加上 CPU 和其他部件,整机满载约 6500W
  3. 实际应用中,要想稳定运行并留有余量,最好 7kW~8kW 及以上 的电源功率配置(或多路电源并联)。

  4. 监控和测试

  5. 建议在确定机房与电源容量足够后,执行 高负载压力测试(如 gpu-burn、深度学习大规模训练,甚至再叠加 CPU 负载),通过 BMC/IPMIPDU 监测实际整机功耗,验证是否逼近电源上限。
  6. 如果经常达到电源额定功率上限,应考虑扩大电源容量或对 GPU 设置功率限制(nvidia-smi -pl <值>)来避免过载风险。

  7. 机房环境与散热

  8. 能耗高同时意味着散热量大;需要确保机房空调、风道、机柜散热都能满足至少 6kW 以上 的热功耗散发。

总结
  • 最小供电需求:以 8 卡 H100(SXM 700W/卡) 为例,整机在高负载情况下的功耗大约在 6500W 上下,建议电源配置 7kW~8kW(含冗余)才能保证供电稳定。
  • 当前 GPU 每张只有 70~110W 使用量,只能说明此刻负载较轻,并不代表峰值需求。若您要真正“满血”使用 8 卡 H100,需要根据上述估算或实际测试来规划电源,确保机器和机房都有足够余量。
回到页面顶部