当前位置: 代码迷 >> 综合 >> ubuntu mxnet joint training 机器反复重启
  详细解决方案

ubuntu mxnet joint training 机器反复重启

热度:37   发布时间:2023-12-15 16:22:39.0

ubuntu 18.04LTS
迭代4000/6000 batch之后就会自动重启
从CPU温度,显卡温度等方面没有看出来原因


机器情况:
TITAN RTX * 6, 显卡功率 280x6=1680 W
主板:Supermicro X11DPG-OT
CPU:Intel? Xeon? Silver 4215R CPU @ 3.20GHz, 130x2=260W
电源:2000W/slot, 4 slots, 两主两备,配备=2x2000=4000W

故障排查(看不出错误):

$ dmesg|grep -i xid
$ dmesg|grep -i error
$ ipmitool sel list
$ nvidia-smi
$ iostat -mx2
$ ipmitool dcmi power reading

目前做法:

  1. 不再VNC远程桌面中运行程序,不打开VNC,改在mobaxterm终端内
  2. 插上两备电源 (可能最主要)
  3. 保留 nvidia-smi 中的/usr/lib/xorg/Xorg进程

已连续运行21小时。(之前运行4、5个小时左右就会自动重启)


其他做法:

  1. 限制显卡功率为280: nvidia-smi -pl 280
  2. 将batch size 从1470 (2456) 降至 1410 (2356)

没有作用。

另:
显卡的详细信息可以通过 nvidia-smi -q 查看