- NCCL使用時にジョブがハングする、またはエラーが発生する
NCCL使用時にジョブがハングする、またはエラーが発生するといった問題がいくつか報告されております。
カーネルパニックが発生する例も報告されております。
この問題にヒットしていると疑われる場合、以下をお試し下さい。
export NCCL_IB_DISABLE=1 または export NCCL_BUFFSIZE=1048576 |
NCCL_IB_DISABLE=1はパフォーマンス低下する場合がございますので、その場合はNCCL_BUFFSIZE=1048576をお試し下さい。
- MPI+OpenACCを実行時にsegmentation faultが発生する
openmpi+OpenACCを使用時にsegmentation faultが発生する問題が報告されております。
回避策として、以下をお試し下さい。
export PSM2_MEMORY=large または export OMPI_MCA_pml=ob1 |
- GPUDirect使用時にエラーが発生する
(2021/08/19 追記)
本問題は今回のメンテナンスにより修正されております。
GPUDirect使用時にプログラム正常終了・異常終了時にまれにエラーが発生する事例が報告されております。
こちらもカーネルパニックを発生させる場合があるようです。
こちらが疑われた場合は、以下のようにしてGPUDirectをオフにしてお試し下さい。
mpirun ... -x PSM2_CUDA=1 -x PSM2_GPUDIRECT=0 |
- 大規模なジョブ時にmpirunがハングする
過去に大規模なジョブ時にmpirunがハングする事例が報告されております。
こちらはmpirunからfork()されるqrsh -inheritに起因するようです。
こちらが疑われた場合は、以下をお試し下さい。
* openmpiの場合
mpirun -mca plm_rsh_disable_qrsh true -mca plm_rsh_agent ssh ... |
* intel MPIの場合
export I_MPI_HYDRA_BOOTSTRAP=ssh unset I_MPI_HYDRA_BOOTSTRAP_EXEC_EXTRA_ARGS |
※これらはf_nodeでのみ動作しますのでご注意下さい。