导购网站模板免费下载,google推广妙招,app开发价格多少,医药网站建设nvidia-smi#xff08;NVIDIA System Management Interface#xff09;是一种命令行实用程序#xff0c;用于监控和管理NVIDIA GPU#xff08;图形处理器#xff09;的状态和性能。它提供了一种简单而强大的方式来获取有关GPU的实时信息#xff0c;并且可以用于诊断、…nvidia-smiNVIDIA System Management Interface是一种命令行实用程序用于监控和管理NVIDIA GPU图形处理器的状态和性能。它提供了一种简单而强大的方式来获取有关GPU的实时信息并且可以用于诊断、优化和管理GPU资源。 显存与GPU
显存使用率和GPU使用率是两个不一样的概念显卡是由GPU和显存等组成的显存和GPU的关系有点类似于内存和CPU的关系。
当没有设置好CPU的线程时Volatile GPU-Util 参数是在反复跳动的0%20%70%95%0%。这样停息1-2秒然后又重复起来。这是因为GPU在等待数据从CPU传输过来当从总线传输到GPU之后GPU开始计算GPU的利用率突然升高。但GPU的算力很强大所以GPU利用率接下来又会降下来等待下一个batch的传入。
因此GPU的利用率瓶颈在内存带宽和内存介质上以及CPU的性能上面。最直接的解决办法就是更换高频率的内存条配合更好的CPU。
nvidia-smi
#执行一次
nvidia-smi # 每秒刷新一次 nvidia-smi -l 1 watch 指令是周期性的执行下一个程序可以监测一个命令的运行结果并全屏显示执行结果。 # 每秒刷新一次 watch -n 1 -d nvidia-smi
参数解释 -n或--interval指定间隔时间watch缺省每2秒运行一下程序。 -d或--differences高亮显示变化的区域。 nvidia-smi 常用的选项包括
-L, --list-gpus显示连接到系统的GPU列表。 -B, --list-excluded-gpus显示系统中排除的GPU列表。 -i, --id指定目标GPU。 -f, --filename将输出日志到指定文件而不是标准输出。 -l, --loop以指定间隔时间循环查询GPU信息2。 nvidia-smi的输出信息 GPU本机中的GPU编号从0开始上图为0123四块GPU Fan风扇转速0%-100%N/A表示没有风扇 NameGPU名字/类型上图四块均为NVIDIA GeForce RTX 3080 TempGPU温度GPU温度过高会导致GPU频率下降 Perf性能状态从P0最大性能到P12最小性能上图均为P2 PwrUsager/CapGPU功耗Usage表示用了多少Cap表示总共多少 Persistence-M持续模式状态持续模式耗能大但在新的GPU应用启动时花费时间更少上图均为On Bus-IdGPU总线 Disp.ADisplay Active表示GPU是否初始化 Memory-Usage显存使用率 Volatile GPU-UTilGPU使用率与显存使用率的区别可参考显存与GPU Uncorr. ECC是否开启错误检查和纠错技术0/DISABLED1/ENABLED上图均为N/A Compute M计算模式0/DEFAULT1/EXCLUSIVE_PROCESS2/PROHIBITED上图均为Default Processes显示每个进程占用的显存使用率、进程号、占用的哪个GPU 高级功能和技巧 nvidia-smi可以通过不同的选项来查询更详细的信息或执行特定操作
nvidia-smi -q --unittemperature查询所有GPU的温度信息。 nvidia-smi -L列出所有连接的GPU。 nvidia-smi -i 0 -q查询编号为0的GPU的详细信息。 参考
linux: nvidia-smi用法详解-CSDN博客
https://www.cnblogs.com/freedom-w/articles/17867561.html
nvidia-smi命令详解 - 猴子吃桃_Q - 博客园 参考
nvidia-smi指令解读_nividia -sim-CSDN博客