グループディスク/gs/hs1のメンテナンスについて(4/25実施)(追記あり)

2018.4.24

/gs/hs1を構成する Lustre ファイルシステムのOSSの内の1台(ossb2)に、Omni-Pathネットワークのエラーが多数検出されました。現状、大きな速度低下などは確認できていませんが、調査及び修理のため、この ossb3 の切り離し作業を以下の通り行います。

1.実施日

 2018年4月25日 (水) 10:00-13:00 頃     *終了時刻は前後する場合があります

2.内容

 不具合のある OSS(ossb2) がマウントしている 全OST を正常な他の OSS にテイクオーバーします

3.影響

  アクセスしたい /gs/hs1 上のデータが作業対象のOSTにあった場合、アクセスが遅延(最大30分)しますが、Lustreファイルシステムとしてはタイムアウト等せずI/Oが継続される予定です。

4.今後

 OSTをペアとなる正常なOSSに片寄するため、パフォーマンスの低下がおこる可能性があります。
 後日、調査と復旧を行い、あらためて別途アナウンスをした上で、元の構成に戻す(OSTを本来のOSS配下にテイクオーバーする)作業を行います。 

用語説明

  OST:Lustreファイルシステムにおいて、ファイルの中身を実際に保存しているディスクの集合体

  OSS:Lustreファイルシステムにおいて、計算ノードに対してファイルの中身を実際に送受信するサーバ


(4/25追記) 10:00頃に作業開始し11:05頃に作業終了致しました。その間に原因の特定と修理も行い、元に戻すテイクオーバーも完了しています。そのため後日メンテナンスはございません。