Omni-Pathネットワークのメンテナンスについて(7/25実施)

2018.7.19

 7/10頃にOmni-Pathネットワークを管理するファブリックマネージャに障害が発生しネットワークへの再加入ができない状態が続いています。例えば計算ノードに障害が発生し、本体の再起動を行うとネットワークから離脱することになりますが、再加入できないため、利用できない状態となっています。なお既にネットワークに参加中の正常な計算ノード等の通信には問題はありません。

 この問題はファブリックマネージャの再起動で治る見込みですが、少なからずジョブに影響を与える可能性があるため、8月の停電時に実施する予定でした。しかし、昨日から今日にかけて、ソフトウエア障害により数十台の計算ノードがネットワークから離脱してしまい、台数減少が無視できない状況になってきましたので、以下の日程でファブリックマネージャの再起動を行います。

(7/25追記) 予定通り12:15頃に作業を開始し、14:10頃に離脱した計算ノードの再加入を含め全て作業を完了しました。

1. 実施日

 7月25日(水)12:15-14:15頃   *進捗状況により前後します

2. 影響

 ジョブの投入:通常通り投入できます。

 実行中のジョブ(ファイルIO,ノード間通信):基本的に影響はない予定ですが、一時的に通信断が発生する可能性があります。

 実行前のジョブ:実施期間中、ジョブは実行開始されずキューに待たされます。メンテナンス終了後、順次実行が再開します。