2018.4.24
/gs/hs1を構成する Lustre ファイルシステムのOSSの内の1台(ossb2)に、Omni-Pathネットワークのエラーが多数検出されました。現状、大きな速度低下などは確認できていませんが、調査及び修理のため、この ossb3 の切り離し作業を以下の通り行います。
記
1.実施日
2018年4月25日 (水) 10:00-13:00 頃 *終了時刻は前後する場合があります
2.内容
不具合のある OSS(ossb2) がマウントしている 全OST を正常な他の OSS にテイクオーバーします
3.影響
アクセスしたい /gs/hs1 上のデータが作業対象のOSTにあった場合、アクセスが遅延(最大30分)しますが、Lustreファイルシステムとしてはタイムアウト等せずI/Oが継続される予定です。
4.今後
OSTをペアとなる正常なOSSに片寄するため、パフォーマンスの低下がおこる可能性があります。
後日、調査と復旧を行い、あらためて別途アナウンスをした上で、元の構成に戻す(OSTを本来のOSS配下にテイクオーバーする)作業を行います。
用語説明
OST:Lustreファイルシステムにおいて、ファイルの中身を実際に保存しているディスクの集合体
OSS:Lustreファイルシステムにおいて、計算ノードに対してファイルの中身を実際に送受信するサーバ
(4/25追記) 10:00頃に作業開始し11:05頃に作業終了致しました。その間に原因の特定と修理も行い、元に戻すテイクオーバーも完了しています。そのため後日メンテナンスはございません。