OpenMPIでGPUメモリを対象とした集団通信実行時にデータが化ける現象について

2018.05.31

TSUBAME3.0にインストールされているOpenMPI 2.1.1および2.1.2を利用して、GPUメモリを対象にMPI_Allgatherを行った際に、正常に動作していない(通信結果が化ける)ことが確認されました。

現在、現象の詳細および発生条件・回避策について調査中です。詳細がわかりましたら更新いたします。

  • CPUメモリ利用時には本現象は発生しておりません
  • 現象には再現性があり、本事象が発生する状況では常にデータ異常が発生します


6月12日 追記
ワークアラウンドとして以下のオプションをつけることで回避できることがわかりました。
mpirun -mca coll_tuned_use_dynamic_rules 1 -mca coll_tuned_allgather_algorithm 2