過去のバッチキューの情報

2024.2.1 14:35 CDUの修理が完了して復旧しました。

2024.1.22 11:30 CDU修理に時間を要するため、今日明日中の復帰は見込めない状況です。

2024.1.19 22:40 CDU(冷却設備)異常のため、144台の計算ノードが停止中です。復旧は1/22以降の見込みです。

2024.1.19 21:35 一部の計算ノードが停止しています。詳細は調査中ですが、停止が長期化する可能性があります。

2022.10.21 11:55 11:50頃にジョブスケジューラを再起動し状況が改善しております。

2022.10.21 11:45 本日11:10頃よりスケジューラ障害につき、新規ジョブの投入・実行が出来ない状態になっています。実行中のジョブには影響がない模様です。

2022.8.21 20:15 スケジューラ障害は17:04に解消し、現在はジョブの投入が出来る状態です。

2022.8.21 12:00 本日0:00頃よりスケジューラ障害につき、TSUBAMEポイントを消費するジョブの投入が出来ない状態になっています。

2021.10.21 13:30 インタラクティブキューを管理するジョブスケジューラに問題が発生し、現在インタラクティブキューが利用できません。

2021.10.15 16:40 本日10:15-10:38頃にかけてジョブスケジューラに問題が発生し、ジョブの投入ができなかった可能性があります。なおジョブの実行には問題はなかったと推測されます。

2021.9.10 10:50 下記機能上の問題は、先ほど解消されました。影響があった可能性のある時間帯は 9/9 14:15~9/10 10:35になります。

2021.9.10 10:20 お試し実行時にのみ表示されるメッセージに関して未解決のバグが発生している可能性があり調査をしています。ジョブの投入・MPIジョブの実行に影響がある可能性があります。

2021.9.9 16:00 表示のバグは解消されました。

2021.9.9 15:20 本日14:15頃より、お試し実行時にのみ表示されるメッセージが、そうでない通常のジョブ(有償のジョブ)にも表示されてしまうバグが発生し、対応を行なっています。表示だけの問題なため消費されるポイントや実行結果に影響はありません。

2021.8.18 18:20 計算ノードからの外部接続の問題は解消しました。

2021.8.18 18:00 計算ノードからTSUBAME外へのアクセスができなくなっています。

2021.8.18 17:20 インタラクティブジョブ専用キューの学外ユーザへの有償提供を開始しました。詳しくはこちら

2020.11.13 13:30 今日10:35頃から計算ノード全台においてジョブスケジューラが応答不能になる障害が発生しました。11:40頃にジョブスケジューラのマスターをリスタートした結果、状況は改善されました。現在は問題なくジョブを投入できます。現在詳しい原因とジョブへの影響について調査を行っています。

2020.9.10 14:30 今回の障害の概要および対応についてお知らせに掲載いたしました。

2020.9.9 17:30 9.9 13:15頃に障害の影響が残っているノードの再起動が完了しております。影響のあったジョブの特定が終わり次第、対応についてお知らせいたします。

2020.9.8 17:30 /gs/hs0の障害の影響が残っている計算ノードは新規のジョブが入らないよう設定しました。

2020.4.10 13:50 問題が解消されたため予約を再開をしました。

2020.4.9 15:30 問題の影響範囲の調査のため、新規予約の受付を再度停止しました。

2020.4.9 15:00 開始前の予約キューに事前にジョブを投入することができない場合があります。

2020.2.17 9:50   2月15日 7:03頃から11:50頃にかけてジョブスケジューラに障害が発生しました。現在、影響範囲や原因をまとめています。まとまり次第お知らせに掲載します。

2019.9.20 10:00 10:00に再開しました。

2019.9.20 8:50 本日、10:00頃に再開予定です。

2019.9.19 16:25 本日中の復旧は難しく、明日のサービス再開を目指しています。

2019.9.19 15:50 現時点で復旧の見込みが立っていません。なおこの障害の影響が受けたジョブについては後ほどTSUBAMEポイントを返却いたします。

2019.9.19 14:00 先日発生した台風による冷却機器故障の影響で、再び全計算ノードが停止しています。現在復旧中です。

2019.9.9 18:10 計算ノード・ポータルの復旧は9/10 9:00になる見込みです。

2019.9.9 13:30 計算ノードの復旧は明日になる見込みです。

2019.9.9 10:25 台風による冷却機器故障のため、全計算ノードを停止しています。復旧時期は未定です。

2019.9.9 09:45 台風による冷却機器故障のため、全計算ノードを停止しています。

2019.9.9 09:30 台風による冷却機器故障のため、一部計算ノードを停止しています。

2018.11.28 18:00  計算ノードが混雑しており、ジョブの実行がされにくくなっております。使用状況はこちらをご覧ください。

2018.8.2 13:30  クーリングラックの故障により停止していた計算ノード72台は本日10:52頃サービスインしました。

2018.3.9 10:50   特定のユーザジョブで計算機資源が占有されているため、投入量を調整していただくよう連絡を行っています。システム的に制限をかけることが現時点ではできないため、実行数合計が72ノード程度になるよう、調整にご協力いただきますようお願いいたします。

2018.2.21 9:30  ジョブ投入時にエラーとなる場合があります。 

2018.2.19 9:27  電源系統に異常が発生し、2/18 16:05頃に複数のノードが停止しました。2/19 0:35に復旧しましたが原因は調査中です。後ほど詳細をお知らせに掲載します。

2018.2.9 18:00  q_coreに2ノード以上の並列を指定すると正しく資源が割り当てられない問題は本日解消いたしました。

2018.2.9 18:00  17:00頃から17:45頃にかけて、qsub, qdel等のコマンドが実行できませんでした。詳細は調査中ですが、現在は利用可能です。

2018.2.1 17:00  q_coreに2以上を指定すると正しく資源割り当てが行われないことがわかりました。詳しくはお知らせをご覧ください。

2018.1.30 15:00  1/29のメンテナンスの結果ノードの予約利用ができるようになりました

2018.1.26 18:00  漏水個所の修理が終わり、準備ができたノードから順に運用再開します。

2018.1.26 10:10  本日、0:32ごろに水冷クーリングラックで漏水センサーが反応し、7:39にRack1において漏水を確認したため、最小単位となる計算ノード72台を緊急停止しました。これらのノードで稼働中のジョブが強制終了されております。詳細は後ほどお知らせに掲載します。

2017.12.29 6:00 ジョブモニタリングページの一部データが0と表示されておりますが、ジョブは正常に処理されているようです。(12.29 11:30 修正済)

2017.12.22 17:30  資源タイプs_gpuが利用できない問題は長期化しそうで年内の解決は難しい予測です。

2017.12.20 16:30  資源タイプs_gpuにてGPUが確保できない問題が発見されたため、これよりs_gpuにジョブが投入できないよう変更を行います。原因および復旧時期は未定となっています。

2017.12.19 17:05  予定通りメンテナンスは終了しました。

2017.12.19 9:30  予定されたメンテナンス中です。

2017.12.1 18:00 15:45頃より断続的にジョブが投入できない事象が発生しています。現在は投入できるようですが、週末に再発の可能性があります。

2017.11.11 14:30 予定されていた本日のメンテナンスは12:00に終了しました。

2017.10.31 10:00 昨日(10/30)OmniPathネットワークに障害が発生し復旧しました。

2017.10.24 10:00 グランドチャレンジ実施中によりバッチキューは利用できません。

2017.9.23 19:55 newgrp (グループ名) で利用するTSUBAMEグループに切り替えるとqsub等が利用できることが分かりました。ジョブの投入・削除等ができない場合はお試しください。

2017.9.23 19:30 バッチスケジューラのバグにより問題が発生しており、新規ジョブの投入・ジョブ状態表示・ジョブ削除ができなくなっています。

2017.9.12 12:00 Omni-Pathネットワークの障害は10:50ごろに復旧しました。

2017.9.12 9:30 Omni-Pathネットワークに障害が発生しており、9/12 9:30-12:00の間でファブリックマネージャ(FM)及び計算ノードのメンテナンス(再起動)を行います。

2017.9.11 20:30 Omni-Pathネットワークに障害が発生しており、約200ノードの計算ノードとストレージ(Lustre,NFS) 間において正常にアクセスできない現象が発生しております。

2017.9.1 9:30 運用を再開しました。運用開始に伴い改めてTSUBAMEポイントを設定する必要があります。

2017.8.31 15:30 予定されたメンテナンスを開始しました。

2017.8.17 12:00 資源の占有を防ぐためジョブ投入量を調整してください。詳しくはこちら