分布式backends

@TOC

DistributedDataParallel(DDP)

Backend

在Pytorch进行分布式训练中,需要在不同的进程间进行通信,完成模型训练过程中参数的传递,主要考虑通信后端和通信模式选择,这要依赖IPC通信机制,这些通信机制是由Pytorch之外的第三方实现的,目前一共支持三种: Pytorch backends

  1. nccl——NVIDIA(GPU训练推荐)
  2. gloo——Facebook
  3. mpi——OpenMPI

Initialization Methods

通信方法,目前主要有三种

  1. TCP initialization :init_method=‘tcp://10.1.1.20:23456’
  2. Shared file-system initialization:init_method=‘file:///mnt/nfs/sharedfile’
  3. env