• 「デフォルトグループでのジョブ失敗」に伴う対処でお試しジョブがポイント消費してしまうバグについて(10/24追記)

    2017.10.5

    デフォルトグループでのジョブ失敗」の障害でnewgrpした場合に本来、お試し(ポイント消費しない)となるジョブがポイント消費されてることがわかりました。これらは後ほど返ポイントされる予定です。詳細については後ほど掲載いたします。

    (10/20追記)

    10/23(月)17:00頃に「9/23から10/19 00:00まで」のバグによるポイント消費分(1575件)の返却作業を行います。10/19 00:00 以降の分についてはまた別途行います。

    (10/24追記)

    昨日、予定どおり対象ジョブのポイント返却を行いました。

    (11/2追記)

    この返ポイントは11/30までの実行分とし、12/1以降に一括で返却作業を行います。




  • 【障害報告】2017.9.23発生:バッチスケジューラ障害(デフォルトグループでのジョブ失敗)(11/1解決)

    2017.9.25

    (2017/11/1追記) 本問題は解決しました。下記暫定対応を行わなくてもジョブの実行ができます。

    9月23日頃から、バッチシステムにおいて不具合が発生しております。現象、暫定対応方法についてご連絡させていただきます。

    現象:
    ログイン時にデフォルトに設定されているグループ(tsubame-users)において qsub,qstat,qdelコマンドを実行したし際にエラーとなります。

    暫定対応:
    暫定的な対応としてログイン後などに newgrp コマンドで登録されているTSUBAMEグループに変更することでエラーを回避することが可能です。




  • 【障害報告】2017.9.11発生:OmniPathネットワーク障害

    2017.9.15

    次の通りネットワークに障害が発生し復旧しました。

    9/11 17:44に Omin-Path ネットワークに障害が発生しており、約200ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。login0,1においては正常にアクセスできていました。

    2017年9月12日(火) 9:30にOmni-Pathネットワークのファブリックマネージャを再起動し10:40頃に復旧しました。

    影響のあった可能性のあるジョブは以下の通りです。