【障害報告】2018.6.15発生:/gs/hs0 障害

2018.6.18

 下記の通り障害が発生し仮復旧しました。

1.概要

 /gs/hs0の一部に一時的にアクセス不可、仮復旧後はパフォーマンスが低下する場合がある。

2.期間

 2018年6月15日(金)21:42頃 から 21:57頃(仮復旧時刻)

3.詳細

 6/15 21:42 頃に Lustre (/gs/hs0 )のOSTを管理するossa0サーバでpanicが発生し、/gs/hs0 に一時的にアクセスできない状況が発生しました。21:57頃ossa1にテイクオーバーされ、現在は/gs/hs0は使用可能ですが、該当時間前後に一時的にlustreファイルシステムへのI/Oがストールしたと思われます。現在はossa0が担当するOSTがossa1にマウントされておりますので、/gs/hs0へのI/O帯域幅が低下する可能性がございます。

 5/24 に発生した障害6/4に発生した障害と同種のものと考えられます。

 一連の問題は原因はわかっているため修正が可能ですが大規模な停止になる予定なため慎重に検討しています。