ubuntu 18.04LTS
迭代4000/6000 batch之后就会自动重启
从CPU温度,显卡温度等方面没有看出来原因
机器情况:
TITAN RTX * 6, 显卡功率 280x6=1680 W
主板:Supermicro X11DPG-OT
CPU:Intel? Xeon? Silver 4215R CPU @ 3.20GHz, 130x2=260W
电源:2000W/slot, 4 slots, 两主两备,配备=2x2000=4000W
故障排查(看不出错误):
$ dmesg|grep -i xid
$ dmesg|grep -i error
$ ipmitool sel list
$ nvidia-smi
$ iostat -mx2
$ ipmitool dcmi power reading
目前做法:
- 不再VNC远程桌面中运行程序,不打开VNC,改在mobaxterm终端内
- 插上两备电源 (可能最主要)
- 保留 nvidia-smi 中的/usr/lib/xorg/Xorg进程
已连续运行21小时。(之前运行4、5个小时左右就会自动重启)
其他做法:
- 限制显卡功率为280: nvidia-smi -pl 280
- 将batch size 从1470 (2456) 降至 1410 (2356)
没有作用。
另:
显卡的详细信息可以通过 nvidia-smi -q 查看