Pytorch 分布式 torch.distributed.send & recv 报错:libc++abi: terminating with uncaught exception of type gloo::EnforceNotMet: [enforce fail at /Users/distiller/project/conda/conda-bld/pytorch_1595629430416/work/third_party/gloo/gloo/transport/uv/pair.cc:248] op.nread == op.preamble.nbytes.
问题搜索
经过百度和谷歌的搜索,都没有遇到类似的问题。
使用测试样例查找问题原因
通过test.py进行测试:
import os
import torch
import torch.distributed as dist