グループディスク/gs/hs0のメンテナンスについて(6/27実施)(6/25追記)

2018.6.15

6月15日に発生した/gs/hs0障害で、一部縮退運転を行なっていましたが、下記の通り復旧のためのメンテナンスを行います。(6/25 追記) 6月25日に発生した同様の障害についても作業が行われます。

1.実施日

 2018年6月27日 (水) 12:15-13:15 頃     *終了時刻は前後する場合があります

2.内容

 (/gs/hs0 を構成するOSSの一つである)ossa0が本来管理するOSTが、障害によりossa1の管理下にあるので、本メンテナンスにより元に戻します(テイクバック)。(6/25 追記) ossa2,ossa3のペアの縮退も修正する予定です。

3.影響

  作業中に /gs/hs0 に対するI/Oが滞留し、最大30分程度遅延する見込みですが、Lustreファイルシステムとしてはタイムアウト等せずI/Oが継続される予定です。

4.今後

 ossa0の障害はLustreの既知のバグによるもので5/24 に発生した障害6/4に発生した障害と同種のものになります。新バージョンで修正されていますが修正には停止を伴うので8月のキャンパス停電対応時に合わせて修正する予定です。

用語説明

  OST:Lustreファイルシステムにおいて、ファイルの中身を実際に保存しているディスクの集合体

  OSS:Lustreファイルシステムにおいて、計算ノードに対してファイルの中身を実際に送受信するサーバ

以上