2017.11.16
頻発しているOmni-Pathネットワーク障害や関連する障害の解決のため、広範囲な停止を伴うTSUBAME計算サービスのメンテナンスを行います。
1. 作業時間
2017年12月4日(月) 9:00 - 18:00
※作業が完了次第、順次、開放させていただきます。
2. 停止サービス
ログイン (login0,1にログインできません)
バッチキュー (全計算ノードは停止し利用できません)
ストレージサービス (/home,/gs/hs0,/gs/hs1,/gs/hs2にアクセスできません。これらの領域へのCIFSゲートウエイサーバを含む)
TSUBAMEポータル (メンテナンス中と画面表示されている間、利用できません。)
ライセンスサーバ (lice0等TSUBAME3.0のソフトウエア。このサーバを参照する学内配布ソフトウエアを含む)
3.停止しないサービス
TSUBAMEホスティング(現在TSUBAMEとは独立して稼働しています)
教育用計算機システム(確認中。演習室のiMac端末)
→(12:15-13:15に停止します)(11/28追記)手違いにより想定より遅い13:40頃復旧しました。申し訳ございません。
TSUBAME計算サービスのWebページ(このWebサイト)
4. 作業内容、作業目的
Omni-Path ネットワークに接続する全機器のFablic Softwareを 10.4 から 10.6 にバージョンアップします。
1) Omni-Pathネットワーク障害の対応
2) GPU Direct RDMA機能の適用
(11/28追記)明日、上記以外の更新一覧を掲載予定です。
(11/29追記)
Lustre : lustre-2.7.21.3.ddn9.gbd2c642 lustre 2.7.21.3-ddn11 にアップデートします。
NVIDIA Driver: 384.66 にアップデートします。
OpenMPI : 2.1.2 にアップデートします。
5. 作業後の注意点
再コンパイルを行わない場合プログラムが正常に動作しない可能性があるもの
・Open MPI
Open MPI を利用している場合は、Open MPI 2.1.2 (モジュール名: openmpi/2.1.2)を使用し再コンパイルを行いご利用ください。
(11/29追記)
・CUDA
CUDA(モジュール名cudaもしくは、cuda/8.0.44)を利用している場合は、CUDA8.0.61 (モジュール名:cuda/8.0.61) を利用して再コンパイルを行いご利用下さい。