TSUBAME3 既知の問題のワークアラウンド

  • NCCL使用時にジョブがハングする、またはエラーが発生する

NCCL使用時にジョブがハングする、またはエラーが発生するといった問題がいくつか報告されております。

カーネルパニックが発生する例も報告されております。

この問題にヒットしていると疑われる場合、以下をお試し下さい。

export NCCL_IB_DISABLE=1

または

export NCCL_BUFFSIZE=1048576

NCCL_IB_DISABLE=1はパフォーマンス低下する場合がございますので、その場合はNCCL_BUFFSIZE=1048576をお試し下さい。

 

  • MPI+OpenACCを実行時にsegmentation faultが発生する

openmpi+OpenACCを使用時にsegmentation faultが発生する問題が報告されております。

回避策として、以下をお試し下さい。

export PSM2_MEMORY=large

または

export OMPI_MCA_pml=ob1

 

  • GPUDirect使用時にエラーが発生する

(2021/08/19 追記)

本問題は今回のメンテナンスにより修正されております。

GPUDirect使用時にプログラム正常終了・異常終了時にまれにエラーが発生する事例が報告されております。

こちらもカーネルパニックを発生させる場合があるようです。

こちらが疑われた場合は、以下のようにしてGPUDirectをオフにしてお試し下さい。

mpirun ... -x PSM2_CUDA=1 -x PSM2_GPUDIRECT=0

 

  • 大規模なジョブ時にmpirunがハングする

過去に大規模なジョブ時にmpirunがハングする事例が報告されております。

こちらはmpirunからfork()されるqrsh -inheritに起因するようです。

こちらが疑われた場合は、以下をお試し下さい。

* openmpiの場合

mpirun -mca plm_rsh_disable_qrsh true -mca plm_rsh_agent ssh ...

* intel MPIの場合

export I_MPI_HYDRA_BOOTSTRAP=ssh
unset I_MPI_HYDRA_BOOTSTRAP_EXEC_EXTRA_ARGS

※これらはf_nodeでのみ動作しますのでご注意下さい。