過去のバッチキューの情報

2018.3.9 10:50   特定のユーザジョブで計算機資源が占有されているため、投入量を調整していただくよう連絡を行っています。システム的に制限をかけることが現時点ではできないため、実行数合計が72ノード程度になるよう、調整にご協力いただきますようお願いいたします。

2018.2.21 9:30  ジョブ投入時にエラーとなる場合があります。 

2018.2.19 9:27  電源系統に異常が発生し、2/18 16:05頃に複数のノードが停止しました。2/19 0:35に復旧しましたが原因は調査中です。後ほど詳細をお知らせに掲載します。

2018.2.9 18:00  q_coreに2ノード以上の並列を指定すると正しく資源が割り当てられない問題は本日解消いたしました。

2018.2.9 18:00  17:00頃から17:45頃にかけて、qsub, qdel等のコマンドが実行できませんでした。詳細は調査中ですが、現在は利用可能です。

2018.2.1 17:00  q_coreに2以上を指定すると正しく資源割り当てが行われないことがわかりました。詳しくはお知らせをご覧ください。

2018.1.30 15:00  1/29のメンテナンスの結果ノードの予約利用ができるようになりました

2018.1.26 18:00  漏水個所の修理が終わり、準備ができたノードから順に運用再開します。

2018.1.26 10:10  本日、0:32ごろに水冷クーリングラックで漏水センサーが反応し、7:39にRack1において漏水を確認したため、最小単位となる計算ノード72台を緊急停止しました。これらのノードで稼働中のジョブが強制終了されております。詳細は後ほどお知らせに掲載します。

2017.12.29 6:00 ジョブモニタリングページの一部データが0と表示されておりますが、ジョブは正常に処理されているようです。(12.29 11:30 修正済)

2017.12.22 17:30  資源タイプs_gpuが利用できない問題は長期化しそうで年内の解決は難しい予測です。

2017.12.20 16:30  資源タイプs_gpuにてGPUが確保できない問題が発見されたため、これよりs_gpuにジョブが投入できないよう変更を行います。原因および復旧時期は未定となっています。

2017.12.19 17:05  予定通りメンテナンスは終了しました。

2017.12.19 9:30  予定されたメンテナンス中です。

2017.12.1 18:00 15:45頃より断続的にジョブが投入できない事象が発生しています。現在は投入できるようですが、週末に再発の可能性があります。

2017.11.11 14:30 予定されていた本日のメンテナンスは12:00に終了しました。

2017.10.31 10:00 昨日(10/30)OmniPathネットワークに障害が発生し復旧しました。

2017.10.24 10:00 グランドチャレンジ実施中によりバッチキューは利用できません。

2017.9.23 19:55 newgrp (グループ名) で利用するTSUBAMEグループに切り替えるとqsub等が利用できることが分かりました。ジョブの投入・削除等ができない場合はお試しください。

2017.9.23 19:30 バッチスケジューラのバグにより問題が発生しており、新規ジョブの投入・ジョブ状態表示・ジョブ削除ができなくなっています。

2017.9.12 12:00 Omni-Pathネットワークの障害は10:50ごろに復旧しました。

2017.9.12 9:30 Omni-Pathネットワークに障害が発生しており、9/12 9:30-12:00の間でファブリックマネージャ(FM)及び計算ノードのメンテナンス(再起動)を行います。

2017.9.11 20:30 Omni-Pathネットワークに障害が発生しており、約200ノードの計算ノードとストレージ(Lustre,NFS) 間において正常にアクセスできない現象が発生しております。

2017.9.1 9:30 運用を再開しました。運用開始に伴い改めてTSUBAMEポイントを設定する必要があります。

2017.8.31 15:30 予定されたメンテナンスを開始しました。

2017.8.17 12:00 資源の占有を防ぐためジョブ投入量を調整してください。詳しくはこちら