2018.6.15
6月15日に発生した/gs/hs0障害で、一部縮退運転を行なっていましたが、下記の通り復旧のためのメンテナンスを行います。(6/25 追記) 6月25日に発生した同様の障害についても作業が行われます。
記
1.実施日
2018年6月27日 (水) 12:15-13:15 頃 *終了時刻は前後する場合があります
2.内容
(/gs/hs0 を構成するOSSの一つである)ossa0が本来管理するOSTが、障害によりossa1の管理下にあるので、本メンテナンスにより元に戻します(テイクバック)。(6/25 追記) ossa2,ossa3のペアの縮退も修正する予定です。
3.影響
作業中に /gs/hs0 に対するI/Oが滞留し、最大30分程度遅延する見込みですが、Lustreファイルシステムとしてはタイムアウト等せずI/Oが継続される予定です。
4.今後
ossa0の障害はLustreの既知のバグによるもので5/24 に発生した障害と6/4に発生した障害と同種のものになります。新バージョンで修正されていますが修正には停止を伴うので8月のキャンパス停電対応時に合わせて修正する予定です。
用語説明
OST:Lustreファイルシステムにおいて、ファイルの中身を実際に保存しているディスクの集合体
OSS:Lustreファイルシステムにおいて、計算ノードに対してファイルの中身を実際に送受信するサーバ
以上