【障害報告】2018.6.4発生:/gs/hs0 障害

2018.6.4

 下記の通り障害が発生し仮復旧しました。

1.概要

 /gs/hs0の一部に一時的にアクセス不可、仮復旧後はパフォーマンスが低下している可能性あり。

2.期間

 2018年6月4日(月)01:52頃 から 02:06頃(仮復旧時刻)

3.詳細

 6/4 01:52 頃に Lustre (/gs/hs0 )のOSTを管理するossa1サーバでpanicが発生し、/gs/hs0 に一時的にアクセスできない状況が発生しました。01:52頃ossa0にテイクオーバーされ、現在は/gs/hs0は使用可能ですが、該当時間前後に一時的にlustreファイルシステムへのI/Oがストールしたと思われます。現在はossa1が担当するOSTがossa0にマウントされておりますので、/gs/hs0へのI/O帯域幅が低下する可能性がございます。

 5/24 に発生した障害と同種のものと考えられますが、発生したOSSのペアが異なるため、現在さらに縮退した状態となっています。

 6/6のメンテナンスで縮退状態は解消されますが、根本的な原因解決ではないので再発する可能性があります。8月の構内停電時に修正する予定でしたが、サービスを停止してでも早期に実施する可能性がありますので今後のアナウンスにご注意ください。