• 【障害報告】2017.12.11発生:ログインノードでのユーザプロセスの誤った強制終了について

    2017.12.11

    以下の通りログインノード上で実行されていたユーザプロセスが誤って強制終了されました。

    1.期間

     2017年12月11日(月) 12:05 から13:10頃

    2.影響

     12月11日 12:05 頃から13:10分までの間、ログインノード上で動作していた一部のユーザプロセスが、高負荷プロセス監視プログラムの誤判定により強制終了される状況が発生しました。

    3.復旧

     13:10頃に監視プログラムを停止しました。今後修正と十分なテストを行った上、再度監視プログラムを実行する予定です。

    4.影響があった可能性のあるスケジューラ上のジョブ

     ログインノード上の問題のため、本障害によるスケジューラ上のジョブへの影響はありません。




  • 【障害報告】2017.11.5発生:/gs/hs0 障害

    2017.11.6

    以下の通りLustreファイルシステム/gs/hs0に障害が発生し復旧しました。

    1.期間

     2017年11月5日(日) 2:43 から 13:33頃

    2.影響

     11/5 2:43 頃に Lustre (/gs/hs0 )に障害が発生し、/gs/hs0 にアクセスできない状況が発生しました。

    3.復旧

     11月2日(木)に発生した障害と同様なものと考えられます。/gs/hs0を構成する機器を再起動し復旧しました。障害原因ですが11/6時点ではまだ原因特定には至っておりません。障害発生時は Lustre サーバ間の OmniPath インタフェースの通信に問題があり、Lustreファイルシステム、SFA14KXEストレージ 双 方の調査を進めております。 

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)




  • 【障害報告】2017.11.5発生:Omni-Pathネットワーク障害

    2017.11.6

    以下の通りOmni-Pathネットワークに障害が発生し復旧しました。

    1.期間

    2017年11月5日(日) 16:14 から 16:19 頃

    2.影響

    11/5(日) 16:14 頃に Omni-Path ネットワークに障害が発生し、約419ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。login0,1においては、正常にアクセスできている状況でした。

    3.復旧

    OmniPathをコントロールする装置であるファブリックマネージャ(fm0) の restart を実施

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)




  • 【障害報告】2017.11.2発生:/gs/hs0 障害(11/6更新)

    2017.11.2

    以下の通りLustreファイルシステム/gs/hs0に障害が発生し復旧しました。

    1.期間

     2017年11月2日(木) 1:56 から 22:40頃

    2.影響

     11/2(木) 1:56 頃に Lustre (/gs/hs0 )に障害が発生し、/gs/hs0 にアクセスできない状況が発生しました。/gs/hs1,/gs/hs2へのアクセスは可能ですが、dfコマンドなど /gs/hs0を参照するようなものはstuckします。

    3.復旧

     /gs/hs0を構成する機器を再起動し復旧しました。障害原因ですが11/6時点ではまだ原因特定には至っておりません。障害発生時は Lustre サーバ間の OmniPath インタフェースの通信に問題があり、Lustreファイルシステム、SFA14KXEストレージ 双 方の調査を進めております。 

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)




  • 【障害報告】2017.10.30発生:OmniPathネットワーク障害

    2017.10.31

    以下の通りOmniPathネットワークに障害が発生し復旧しました。

    1.期間

    2017年10月30日(月) 19:42 から 21:53 頃

    2.影響

    10/30(月) 19:42 頃に Omni-Path ネットワークに障害が発生し、約340ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。login0,1においては、正常にアクセスできている状況でした。

    10/27(金)にリリースされたOmni-Pathをコントロールするファブリックマネージャ バージョン10.6にて解消されている可能性があり検証を進めます。

    3.復旧

    OmniPathをコントロールする装置であるファブリックマネージャ の restart を実施

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)




  • 【障害報告】2017.10.18発生:OmniPathネットワーク障害

    2017.10.19

    以下の通りOmniPathネットワークに障害が発生し復旧しました。

    1.期間

    2017/10/18(水) 14:16 から 15:05 頃

    2.影響

    約200ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。なおlogin0,1においては、正常にアクセスできている状況でした。

    3.復旧

    OmniPathをコントロールする装置であるファブリックマネージャ (fm0) の restart を実施

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)




  • 「デフォルトグループでのジョブ失敗」に伴う対処でお試しジョブがポイント消費してしまうバグについて(10/24追記)

    2017.10.5

    デフォルトグループでのジョブ失敗」の障害でnewgrpした場合に本来、お試し(ポイント消費しない)となるジョブがポイント消費されてることがわかりました。これらは後ほど返ポイントされる予定です。詳細については後ほど掲載いたします。

    (10/20追記)

    10/23(月)17:00頃に「9/23から10/19 00:00まで」のバグによるポイント消費分(1575件)の返却作業を行います。10/19 00:00 以降の分についてはまた別途行います。

    (10/24追記)

    昨日、予定どおり対象ジョブのポイント返却を行いました。

    (11/2追記)

    この返ポイントは11/30までの実行分とし、12/1以降に一括で返却作業を行います。




  • 【障害報告】2017.9.23発生:バッチスケジューラ障害(デフォルトグループでのジョブ失敗)(11/1解決)

    2017.9.25

    (2017/11/1追記) 本問題は解決しました。下記暫定対応を行わなくてもジョブの実行ができます。

    9月23日頃から、バッチシステムにおいて不具合が発生しております。現象、暫定対応方法についてご連絡させていただきます。

    現象:
    ログイン時にデフォルトに設定されているグループ(tsubame-users)において qsub,qstat,qdelコマンドを実行したし際にエラーとなります。

    暫定対応:
    暫定的な対応としてログイン後などに newgrp コマンドで登録されているTSUBAMEグループに変更することでエラーを回避することが可能です。




  • 【障害報告】2017.9.11発生:OmniPathネットワーク障害

    2017.9.15

    次の通りネットワークに障害が発生し復旧しました。

    9/11 17:44に Omin-Path ネットワークに障害が発生しており、約200ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。login0,1においては正常にアクセスできていました。

    2017年9月12日(火) 9:30にOmni-Pathネットワークのファブリックマネージャを再起動し10:40頃に復旧しました。

    影響のあった可能性のあるジョブは以下の通りです。