• 2017/10/19 (木) - 11:10

    2017年10月19日

    以下の通りOmniPathネットワークに障害が発生し復旧しました。

    1.期間

    10/18 14:16 から 15:05 頃

    2.影響

    約200ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。なおlogin0,1においては、正常にアクセスできている状況でした。

    3.復旧

    OmniPathをコントロールする装置であるファブリックマネージャ (fm0) の restart を実施

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)



  • 2017/10/05 (木) - 15:49

    2017年10月5日

    デフォルトグループでのジョブ失敗」の障害でnewgrpした場合に本来、お試し(ポイント消費しない)となるジョブがポイント消費されてることがわかりました。これらは後ほど返ポイントされる予定です。詳細については後ほど掲載いたします。

    (10/20追記)

    10/23(月)17:00頃に「9/23から10/19 00:00まで」のバグによるポイント消費分(1575件)の返却作業を行います。10/19 00:00 以降の分についてはまた別途行います。



  • 2017/09/29 (金) - 16:42

    Sep. 25, 2017

    Since Sep. 23, trouble has occurred in the batch scheduling system . Symptom and provisional workaround are as follows.

    Symptom:
    If you belong to tsubame-users group (default group), executing the UGE command (qsub, qstat, qdel) results in an error.

    Workaround:
    Change the TSUBAME group with "newgrp" command before executing the UGE command. You can check the TSUBAME groups you can change by "id" command. 



  • 2017/09/25 (月) - 15:09

    2017.9.25

    9月23日頃から、バッチシステムにおいて不具合が発生しております。現象、暫定対応方法についてご連絡させていただきます。

    現象:
    ログイン時にデフォルトに設定されているグループ(tsubame-users)において qsub,qstat,qdelコマンドを実行したし際にエラーとなります。

    暫定対応:
    暫定的な対応としてログイン後などに newgrp コマンドで登録されているTSUBAMEグループに変更することでエラーを回避することが可能です。

    例)
          $ id 
          $ newgrp [tsubame-users以外TSUBAMEグループなど。idコマンドで確認可能です]

    (2017/10/02 追記)
    newgrp [TSUBAMEグループ]は.bashrcには記載しないでください。
    正常にログインできなくなります。



  • 2017/09/15 (金) - 16:33

    2017年9月15日

    次の通りネットワークに障害が発生し復旧しました。

    9/11 17:44に Omin-Path ネットワークに障害が発生しており、約200ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。login0,1においては正常にアクセスできていました。

    2017年9月12日(火) 9:30にOmni-Pathネットワークのファブリックマネージャを再起動し10:40頃に復旧しました。


    影響のあった可能性のあるジョブは以下の通りです。