2020.11.13 13:30 今日10:35頃から計算ノード全台においてジョブスケジューラが応答不能になる障害が発生しました。11:40頃にジョブスケジューラのマスターをリスタートした結果、状況は改善されました。現在は問題なくジョブを投入できます。現在詳しい原因とジョブへの影響について調査を行っています。
2020.9.10 14:30 今回の障害の概要および対応についてお知らせに掲載いたしました。
2020.9.9 17:30 9.9 13:15頃に障害の影響が残っているノードの再起動が完了しております。影響のあったジョブの特定が終わり次第、対応についてお知らせいたします。
2020.9.8 17:30 /gs/hs0の障害の影響が残っている計算ノードは新規のジョブが入らないよう設定しました。
2020.4.10 13:50 問題が解消されたため予約を再開をしました。
2020.4.9 15:30 問題の影響範囲の調査のため、新規予約の受付を再度停止しました。
2020.4.9 15:00 開始前の予約キューに事前にジョブを投入することができない場合があります。
2020.2.17 9:50 2月15日 7:03頃から11:50頃にかけてジョブスケジューラに障害が発生しました。現在、影響範囲や原因をまとめています。まとまり次第お知らせに掲載します。
2019.9.20 10:00 10:00に再開しました。
2019.9.20 8:50 本日、10:00頃に再開予定です。
2019.9.19 16:25 本日中の復旧は難しく、明日のサービス再開を目指しています。
2019.9.19 15:50 現時点で復旧の見込みが立っていません。なおこの障害の影響が受けたジョブについては後ほどTSUBAMEポイントを返却いたします。
2019.9.19 14:00 先日発生した台風による冷却機器故障の影響で、再び全計算ノードが停止しています。現在復旧中です。
2019.9.9 18:10 計算ノード・ポータルの復旧は9/10 9:00になる見込みです。
2019.9.9 13:30 計算ノードの復旧は明日になる見込みです。
2019.9.9 10:25 台風による冷却機器故障のため、全計算ノードを停止しています。復旧時期は未定です。
2019.9.9 09:45 台風による冷却機器故障のため、全計算ノードを停止しています。
2019.9.9 09:30 台風による冷却機器故障のため、一部計算ノードを停止しています。
2018.11.28 18:00 計算ノードが混雑しており、ジョブの実行がされにくくなっております。使用状況はこちらをご覧ください。
2018.8.2 13:30 クーリングラックの故障により停止していた計算ノード72台は本日10:52頃サービスインしました。
2018.3.9 10:50 特定のユーザジョブで計算機資源が占有されているため、投入量を調整していただくよう連絡を行っています。システム的に制限をかけることが現時点ではできないため、実行数合計が72ノード程度になるよう、調整にご協力いただきますようお願いいたします。
2018.2.21 9:30 ジョブ投入時にエラーとなる場合があります。
2018.2.19 9:27 電源系統に異常が発生し、2/18 16:05頃に複数のノードが停止しました。2/19 0:35に復旧しましたが原因は調査中です。後ほど詳細をお知らせに掲載します。
2018.2.9 18:00 q_coreに2ノード以上の並列を指定すると正しく資源が割り当てられない問題は本日解消いたしました。
2018.2.9 18:00 17:00頃から17:45頃にかけて、qsub, qdel等のコマンドが実行できませんでした。詳細は調査中ですが、現在は利用可能です。
2018.2.1 17:00 q_coreに2以上を指定すると正しく資源割り当てが行われないことがわかりました。詳しくはお知らせをご覧ください。
2018.1.30 15:00 1/29のメンテナンスの結果ノードの予約利用ができるようになりました。
2018.1.26 18:00 漏水個所の修理が終わり、準備ができたノードから順に運用再開します。
2018.1.26 10:10 本日、0:32ごろに水冷クーリングラックで漏水センサーが反応し、7:39にRack1において漏水を確認したため、最小単位となる計算ノード72台を緊急停止しました。これらのノードで稼働中のジョブが強制終了されております。詳細は後ほどお知らせに掲載します。
2017.12.29 6:00 ジョブモニタリングページの一部データが0と表示されておりますが、ジョブは正常に処理されているようです。(12.29 11:30 修正済)
2017.12.22 17:30 資源タイプs_gpuが利用できない問題は長期化しそうで年内の解決は難しい予測です。
2017.12.20 16:30 資源タイプs_gpuにてGPUが確保できない問題が発見されたため、これよりs_gpuにジョブが投入できないよう変更を行います。原因および復旧時期は未定となっています。
2017.12.19 17:05 予定通りメンテナンスは終了しました。
2017.12.19 9:30 予定されたメンテナンス中です。
2017.12.1 18:00 15:45頃より断続的にジョブが投入できない事象が発生しています。現在は投入できるようですが、週末に再発の可能性があります。
2017.11.11 14:30 予定されていた本日のメンテナンスは12:00に終了しました。
2017.10.31 10:00 昨日(10/30)OmniPathネットワークに障害が発生し復旧しました。
2017.10.24 10:00 グランドチャレンジ実施中によりバッチキューは利用できません。
2017.9.23 19:55 newgrp (グループ名) で利用するTSUBAMEグループに切り替えるとqsub等が利用できることが分かりました。ジョブの投入・削除等ができない場合はお試しください。
2017.9.23 19:30 バッチスケジューラのバグにより問題が発生しており、新規ジョブの投入・ジョブ状態表示・ジョブ削除ができなくなっています。
2017.9.12 12:00 Omni-Pathネットワークの障害は10:50ごろに復旧しました。
2017.9.12 9:30 Omni-Pathネットワークに障害が発生しており、9/12 9:30-12:00の間でファブリックマネージャ(FM)及び計算ノードのメンテナンス(再起動)を行います。
2017.9.11 20:30 Omni-Pathネットワークに障害が発生しており、約200ノードの計算ノードとストレージ(Lustre,NFS) 間において正常にアクセスできない現象が発生しております。
2017.9.1 9:30 運用を再開しました。運用開始に伴い改めてTSUBAMEポイントを設定する必要があります。
2017.8.31 15:30 予定されたメンテナンスを開始しました。
2017.8.17 12:00 資源の占有を防ぐためジョブ投入量を調整してください。詳しくはこちら。