グループディスク/gs/hs0のメンテナンスについて(6/6実施)

2018.5.28

5月25日に発生した/gs/hs0障害で、一部縮退運転を行なっていましたが、下記の通り復旧のためのメンテナンスを行います。実施日の6月6日にはログインノード及びロードバランサのメンテナンスも行われますのでご注意ください。
(6/5 追記) 6月4日に発生した同様の障害についても作業が行われます。

1.実施日

 2018年6月6日 (水) 13:30-14:30 頃     *終了時刻は前後する場合があります

2.内容

 (/gs/hs0 を構成するOSSの一つである)ossa3が本来管理するOSTが、障害によりossa2の管理下にあるので、本メンテナンスにより元に戻します(テイクバック)。
 (6/5追記) ossa1が本来管理するOSTが、障害によりossa0の管理下にあるので、本メンテナンスにより元に戻します。

3.影響

  作業中に /gs/hs0 に対するI/Oが滞留し、最大30分程度遅延する見込みですが、Lustreファイルシステムとしてはタイムアウト等せずI/Oが継続される予定です。

4.今後

 ossa3の障害はLustreの既知のバグによるもので、新バージョンで修正されています。修正には停止を伴うので8月のキャンパス停電対応時に合わせて修正する予定です。 

用語説明

  OST:Lustreファイルシステムにおいて、ファイルの中身を実際に保存しているディスクの集合体

  OSS:Lustreファイルシステムにおいて、計算ノードに対してファイルの中身を実際に送受信するサーバ

以上