LoongLee's blog

Nvidia GPU监控

Nvidia GPU监控

来源

原始文档: Nvidia Use.md

核心内容

Nvidia 显卡实时监控命令。

实时查看GPU状态

watch -n 1 nvidia-smi

常用 nvidia-smi 命令

# 基本信息
nvidia-smi

# 持续监控(每秒刷新)
nvidia-smi -l 1

# 查看 GPU 详细信息
nvidia-smi -q

# 查看特定 GPU
nvidia-smi -i 0

# 显示进程信息
nvidia-smi pmon -s um

# 重置 GPU
nvidia-smi --gpu-reset -i 0

输出字段说明

字段 说明
GPU GPU 编号
Name 显卡型号
Temp 温度
Perf 性能状态
Pwr 功耗
Memory-Usage 显存使用
GPU-Util GPU 利用率
Compute M. 计算模式

关键要点

  • watch -n 1 每秒刷新一次显示
  • 训练深度学习模型时监控显存使用
  • 多 GPU 环境使用 -i 指定设备

相关实体

  • Nvidia - Nvidia 公司
  • GPU - 图形处理器
  • CUDA - 并行计算平台
  • 深度学习 - 深度学习训练