【障害報告】2017.11.2発生:/gs/hs0 障害(11/6更新)

2017.11.2

以下の通りLustreファイルシステム/gs/hs0に障害が発生し復旧しました。

1.期間

 2017年11月2日(木) 1:56 から 22:40頃

2.影響

 11/2(木) 1:56 頃に Lustre (/gs/hs0 )に障害が発生し、/gs/hs0 にアクセスできない状況が発生しました。/gs/hs1,/gs/hs2へのアクセスは可能ですが、dfコマンドなど /gs/hs0を参照するようなものはstuckします。

3.復旧

 /gs/hs0を構成する機器を再起動し復旧しました。障害原因ですが11/6時点ではまだ原因特定には至っておりません。障害発生時は Lustre サーバ間の OmniPath インタフェースの通信に問題があり、Lustreファイルシステム、SFA14KXEストレージ 双 方の調査を進めております。 

4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)

146058,146066,146074,146082,146092,146105,146106,146143,146145,146161,146191,146207,146209,146226,146227,146233,146234,146239,146241,146245,146246,146255,146256,146263,146266,146276,146284,146286,146293,146295,146320,146325,146352,146353,146362,146407,146410,146439,146442,146469,146475,146476,146574,146043,146049,146050,146051,146052,146053,146054,146056,146057,146061,146062,146063,146069,146070,146072,146073,146083,146087,146089,146115,146119,146122,146126,146133,146135,146136,146137,146138,146141,146142,146146,146163,146164,146182,146183,146185,146189,146201,146208,146215,146216,146217,146219,146221,146222,146223,146224,146230,146231,146237,146242,146244,146250,146257,146259,146261,146265,146271,146280,146290,146291,146297,146298,146307,146339,146340,146341,146343,146344,146347,146348,146351,146386,146396,146415,146420,146424,146427,146460,146468,146473,146474,146492,146501,146505,146506