【障害報告】2018.6.25発生:/gs/hs0 障害

2018.6.25

下記の通り障害が発生し仮復旧しました。

1.概要

 /gs/hs0の一部に一時的にアクセス不可、仮復旧後はパフォーマンスが低下する場合がある。

2.期間

 2018年6月25日(月)13:39頃 から 13:54頃(仮復旧時刻)

3.詳細

 06/25 13:39頃に Lustre ( /gs/hs0 )のOSTを管理するossa2サーバでpanicが発生し、/gs/hs0 に一時的にアクセスできない状況が発生しました。13:54頃にossa3にテイクオーバーされ、現在は/gs/hs0は使用可能ですが、該当時間前後に一時的にlustreファイルシステムへのI/Oがストールしたと思われます。現在はossa2が担当するOSTがossa3にマウントされておりますので、/gs/hs0へのI/O帯域幅が低下している可能性がございます。

 6/15に発生した障害5/24 に発生した障害6/4に発生した障害と同種のものと考えられます。

 一連の問題は原因はわかっているため修正が可能ですが大規模な停止になる予定なため慎重に検討しています。

 6/27にテイクバックするメンテナンスを予定しています