• 【障害報告】2017.12.11発生:ログインノードでのユーザプロセスの誤った強制終了について

    2017.12.11

    以下の通りログインノード上で実行されていたユーザプロセスが誤って強制終了されました。

    1.期間

     2017年12月11日(月) 12:05 から13:10頃

    2.影響

     12月11日 12:05 頃から13:10分までの間、ログインノード上で動作していた一部のユーザプロセスが、高負荷プロセス監視プログラムの誤判定により強制終了される状況が発生しました。

    3.復旧

     13:10頃に監視プログラムを停止しました。今後修正と十分なテストを行った上、再度監視プログラムを実行する予定です。

    4.影響があった可能性のあるスケジューラ上のジョブ

     ログインノード上の問題のため、本障害によるスケジューラ上のジョブへの影響はありません。




  • 【障害報告】2017.11.5発生:/gs/hs0 障害

    2017.11.6

    以下の通りLustreファイルシステム/gs/hs0に障害が発生し復旧しました。

    1.期間

     2017年11月5日(日) 2:43 から 13:33頃

    2.影響

     11/5 2:43 頃に Lustre (/gs/hs0 )に障害が発生し、/gs/hs0 にアクセスできない状況が発生しました。

    3.復旧

     11月2日(木)に発生した障害と同様なものと考えられます。/gs/hs0を構成する機器を再起動し復旧しました。障害原因ですが11/6時点ではまだ原因特定には至っておりません。障害発生時は Lustre サーバ間の OmniPath インタフェースの通信に問題があり、Lustreファイルシステム、SFA14KXEストレージ 双 方の調査を進めております。 

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)




  • 【障害報告】2017.11.5発生:Omni-Pathネットワーク障害

    2017.11.6

    以下の通りOmni-Pathネットワークに障害が発生し復旧しました。

    1.期間

    2017年11月5日(日) 16:14 から 16:19 頃

    2.影響

    11/5(日) 16:14 頃に Omni-Path ネットワークに障害が発生し、約419ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。login0,1においては、正常にアクセスできている状況でした。

    3.復旧

    OmniPathをコントロールする装置であるファブリックマネージャ(fm0) の restart を実施

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)




  • 【障害報告】2017.11.2発生:/gs/hs0 障害(11/6更新)

    2017.11.2

    以下の通りLustreファイルシステム/gs/hs0に障害が発生し復旧しました。

    1.期間

     2017年11月2日(木) 1:56 から 22:40頃

    2.影響

     11/2(木) 1:56 頃に Lustre (/gs/hs0 )に障害が発生し、/gs/hs0 にアクセスできない状況が発生しました。/gs/hs1,/gs/hs2へのアクセスは可能ですが、dfコマンドなど /gs/hs0を参照するようなものはstuckします。

    3.復旧

     /gs/hs0を構成する機器を再起動し復旧しました。障害原因ですが11/6時点ではまだ原因特定には至っておりません。障害発生時は Lustre サーバ間の OmniPath インタフェースの通信に問題があり、Lustreファイルシステム、SFA14KXEストレージ 双 方の調査を進めております。 

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)




  • [Disability Report] 30 Oct., 2017: OmniPath network failure

    2017.10.31

    Fault occured in OminiPath network as follows and now resolved.

    1.Period

    30 Oct., 2017 (Mon.) 19:42 - 21:53

    2.Influence

    Around 30 Oct. (Mon.) 19:42, a failure occured in the Omini-Path network. During this time, could not access between about 340 computation nodes and storage (Luster, NFS). In login0 and login1, could be accessed normally.

    We are verifying version 10.6 released on 27 Oct. (Fri.) of Fabric Manager which controls Omni-Path to fix this.

    3.Recovery




  • 【障害報告】2017.10.18発生:OmniPathネットワーク障害

    2017.10.19

    以下の通りOmniPathネットワークに障害が発生し復旧しました。

    1.期間

    2017/10/18(水) 14:16 から 15:05 頃

    2.影響

    約200ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。なおlogin0,1においては、正常にアクセスできている状況でした。

    3.復旧

    OmniPathをコントロールする装置であるファブリックマネージャ (fm0) の restart を実施

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)




  • 「デフォルトグループでのジョブ失敗」に伴う対処でお試しジョブがポイント消費してしまうバグについて(10/24追記)

    2017.10.5

    デフォルトグループでのジョブ失敗」の障害でnewgrpした場合に本来、お試し(ポイント消費しない)となるジョブがポイント消費されてることがわかりました。これらは後ほど返ポイントされる予定です。詳細については後ほど掲載いたします。

    (10/20追記)

    10/23(月)17:00頃に「9/23から10/19 00:00まで」のバグによるポイント消費分(1575件)の返却作業を行います。10/19 00:00 以降の分についてはまた別途行います。

    (10/24追記)

    昨日、予定どおり対象ジョブのポイント返却を行いました。

    (11/2追記)

    この返ポイントは11/30までの実行分とし、12/1以降に一括で返却作業を行います。




  • 【Trouble】occurred on 2017.9.23: batch job scheduler - Job submission fails when default group is used

    Sep. 25, 2017

    (Added on 2017/11/01) This problem is already solved. You no longer need to follow workaround below.

    Since Sep. 23, trouble has occurred in the batch scheduling system . Symptom and provisional workaround are as follows.

    Symptom:
    If you belong to tsubame-users group (default group), executing the UGE command (qsub, qstat, qdel) results in an error.




  • 【障害報告】2017.9.11発生:OmniPathネットワーク障害

    2017.9.15

    次の通りネットワークに障害が発生し復旧しました。

    9/11 17:44に Omin-Path ネットワークに障害が発生しており、約200ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。login0,1においては正常にアクセスできていました。

    2017年9月12日(火) 9:30にOmni-Pathネットワークのファブリックマネージャを再起動し10:40頃に復旧しました。

    影響のあった可能性のあるジョブは以下の通りです。