既知の問題として、OpenMPIでGPUバッファを対象とした集団通信実行時にデータが化ける現象がございます。
(2019.04) この問題は2018年度末メンテナンスのアップデートで解消されています。
この問題に遭遇した場合、回避策として以下をお試し下さい。
- MPI_Allgather()
mpirun -mca coll_tuned_use_dynamic_rules 1 -mca coll_tuned_allgather_algorithm 2
- MPI_Alltoall()
mpirun -mca coll_tuned_use_dynamic_rules 1 -mca coll_tuned_alltoall_algorithm 3
もし上記で解決しなかった場合、以下をお試し下さい。
mpirun -mca pml ob1
この問題はOPA10.8(2018年度末メンテナンスでアップデート予定)で修正される予定です。