• Mon, 11/06/2017 - 12:10

    2017.11.6

    以下の通りLustreファイルシステム/gs/hs0に障害が発生し復旧しました。

    1.期間

     2017年11月5日(日) 2:43 から 13:33頃

    2.影響

     11/5 2:43 頃に Lustre (/gs/hs0 )に障害が発生し、/gs/hs0 にアクセスできない状況が発生しました。

    3.復旧

     11月2日(木)に発生した障害と同様なものと考えられます。/gs/hs0を構成する機器を再起動し復旧しました。障害原因ですが11/6時点ではまだ原因特定には至っておりません。障害発生時は Lustre サーバ間の OmniPath インタフェースの通信に問題があり、Lustreファイルシステム、SFA14KXEストレージ 双 方の調査を進めております。 

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)



  • Mon, 11/06/2017 - 10:05

    2017.11.6

    以下の通りOmni-Pathネットワークに障害が発生し復旧しました。

    1.期間

    2017年11月5日(日) 16:14 から 16:19 頃

    2.影響

    11/5(日) 16:14 頃に Omni-Path ネットワークに障害が発生し、約419ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。login0,1においては、正常にアクセスできている状況でした。

    3.復旧

    OmniPathをコントロールする装置であるファブリックマネージャ(fm0) の restart を実施

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)



  • Thu, 11/02/2017 - 10:31

    2017.11.2

    以下の通りLustreファイルシステム/gs/hs0に障害が発生し復旧しました。

    1.期間

     2017年11月2日(木) 1:56 から 22:40頃

    2.影響

     11/2(木) 1:56 頃に Lustre (/gs/hs0 )に障害が発生し、/gs/hs0 にアクセスできない状況が発生しました。/gs/hs1,/gs/hs2へのアクセスは可能ですが、dfコマンドなど /gs/hs0を参照するようなものはstuckします。

    3.復旧

     /gs/hs0を構成する機器を再起動し復旧しました。障害原因ですが11/6時点ではまだ原因特定には至っておりません。障害発生時は Lustre サーバ間の OmniPath インタフェースの通信に問題があり、Lustreファイルシステム、SFA14KXEストレージ 双 方の調査を進めております。 

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)



  • Tue, 10/31/2017 - 16:26

    2017.10.31

    Fault occured in OminiPath network as follows and now resolved.

    1.Period

    30 Oct., 2017 (Mon.) 19:42 - 21:53

    2.Influence

    Around 30 Oct. (Mon.) 19:42, a failure occured in the Omini-Path network. During this time, could not access between about 340 computation nodes and storage (Luster, NFS). In login0 and login1, could be accessed normally.

    We are verifying version 10.6 released on 27 Oct. (Fri.) of Fabric Manager which controls Omni-Path to fix this.

    3.Recovery



  • Tue, 10/31/2017 - 16:26

    2017.10.31

    Fault occured in OminiPath network as follows and now resolved.

    1.Period

    30 Oct., 2017 (Mon.) 19:42 - 21:53

    2.Influence

    Around 30 Oct. (Mon.) 19:42, a failure occured in the Omini-Path network. During this time, could not access between about 340 computation nodes and storage (Luster, NFS). In login0 and login1, could be accessed normally.

    We are verifying version 10.6 released on 27 Oct. (Fri.) of Fabric Manager which controls Omni-Path to fix this.

    3.Recovery



  • Tue, 10/31/2017 - 16:26

    2017.10.31

    Fault occured in OminiPath network as follows and now resolved.

    1.Period

    30 Oct., 2017 (Mon.) 19:42 - 21:53

    2.Influence

    Around 30 Oct. (Mon.) 19:42, a failure occured in the Omini-Path network. During this time, could not access between about 340 computation nodes and storage (Luster, NFS). In login0 and login1, could be accessed normally.

    We are verifying version 10.6 released on 27 Oct. (Fri.) of Fabric Manager which controls Omni-Path to fix this.

    3.Recovery



  • Tue, 10/31/2017 - 16:26

    2017.10.31

    Fault occured in OminiPath network as follows and now resolved.

    1.Period

    30 Oct., 2017 (Mon.) 19:42 - 21:53

    2.Influence

    Around 30 Oct. (Mon.) 19:42, a failure occured in the Omini-Path network. During this time, could not access between about 340 computation nodes and storage (Luster, NFS). In login0 and login1, could be accessed normally.

    We are verifying version 10.6 released on 27 Oct. (Fri.) of Fabric Manager which controls Omni-Path to fix this.

    3.Recovery



  • Tue, 10/31/2017 - 10:05

    2017.10.31

    以下の通りOmniPathネットワークに障害が発生し復旧しました。

    1.期間

    2017年10月30日(月) 19:42 から 21:53 頃

    2.影響

    10/30(月) 19:42 頃に Omni-Path ネットワークに障害が発生し、約340ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。login0,1においては、正常にアクセスできている状況でした。

    10/27(金)にリリースされたOmni-Pathをコントロールするファブリックマネージャ バージョン10.6にて解消されている可能性があり検証を進めます。

    3.復旧

    OmniPathをコントロールする装置であるファブリックマネージャ の restart を実施

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)



  • Thu, 10/19/2017 - 11:10

    2017年10月19日

    以下の通りOmniPathネットワークに障害が発生し復旧しました。

    1.期間

    2017/10/18(水) 14:16 から 15:05 頃

    2.影響

    約200ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。なおlogin0,1においては、正常にアクセスできている状況でした。

    3.復旧

    OmniPathをコントロールする装置であるファブリックマネージャ (fm0) の restart を実施

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)



  • Thu, 10/05/2017 - 15:49

    2017年10月5日

    デフォルトグループでのジョブ失敗」の障害でnewgrpした場合に本来、お試し(ポイント消費しない)となるジョブがポイント消費されてることがわかりました。これらは後ほど返ポイントされる予定です。詳細については後ほど掲載いたします。

    (10/20追記)

    10/23(月)17:00頃に「9/23から10/19 00:00まで」のバグによるポイント消費分(1575件)の返却作業を行います。10/19 00:00 以降の分についてはまた別途行います。

    (10/24追記)

    昨日、予定どおり対象ジョブのポイント返却を行いました。

    (11/2追記)

    この返ポイントは11/30までの実行分とし、12/1以降に一括で返却作業を行います。