【復旧】TSUBAMEの再開の大幅な遅れについて(21日14:30追記)

冷却系に大きな問題(*)が発生しており、再開作業が大幅に遅延しています。定刻通りの再開は不可能で、具体的な再開時刻は未定となっています。今後のアナウンスにご注意ください。*…原因は特定済み

直前のアナウンスとなってしまい大変申し訳ございません。

(8/17 13:45追記)

TSUBAME3の冷却には2系統の水冷機構があり、T2で導入した系(低温冷却)とT3で導入した蒸散冷却塔の系統(高温冷却)があります。問題が発生しているのはT2で導入した方で計算ノード以外の主にストレージの冷却に用いられています。

冷却機能は徐々に復旧してきておりますが、Lustreファイルシステム全体の稼働には不十分な状態で、/gs/hs0, /gs/hs1のサービスインの目処が立っておりません。

ですが、室内空調で、ホームディレクトリや、認証サーバ周りのみであれば冷却ができることから、(お約束はできませんが)1,2時間以内に/gs/hs0, /gs/hs1を除いたTSUBAMEのサービスインを予定しています。

(8/17 14:00追記)

/gs/hs0, /gs/hs1 を除いたサービスインをするために、現在、停電前に投入されていたジョブのクリアと課金(ポイント消費)情報の整合性のチェックを行なっています。ジョブ情報を維持したまま再開してしまうと、ジョブ失敗が大量に発生し、ポイント消費が行われしまうためです。

運用が部分再開しますと高速ストレージが利用できないため、負荷が集中する事が予想されます。loginノードおよびホームディレクトリに大きな負荷をかけないようご協力お願いします。

(8/17 14:10追記)

ジョブのクリアが終わりました。部分再開に向けて最終チェックを行っています。

(8/17 14:15追記)

冷却の不具合の原因ですが、停電でチラーとポンプを停止したことがきっかけで、冷却水中に不純物が大量に発生し、フィルタを詰まらせ循環が止まってしまうためです。現在も2時間ほどで詰まってしまい都度フィルターの清掃を行っております。

これまでも(停電との関連性は不明ですが)不純物が冷却水に溜まることは知られておりましたが、運用が止まるほどの大量の不純物が溜まったことはなく、その原因究明と定期的な除去は今後の課題となります。

(8/17 14:20追記)

14:15に部分再開をしました。ただし/gs/hs0, /gs/hs1, TSUBAMEポータルは利用できません。

(8/17 14:25追記)

/gs/hs0, /gs/hs1は、冷却水の不純物の除去を効率よく行う手段が現時点では無く、再開のめどは立っておりません。

(8/17 14:30追記)

バッチキューについて現在、確認中です。

(8/17 14:40追記)

14:37にバッチキューと全台の計算ノードの解放を行いました

(8/17 14:55追記)

タイトルを変更しました「TSUBAMEの再開が大幅に遅れる見込みです」->「TSUBAMEの再開の大幅な遅れについて」

(8/17 16:00追記)

冷却水の緊急放水(と給水)を検討中です。

(8/17 16:50追記)

今日中の復旧は不可能な状況です。土日も使ってスタッフが交代で冷却水の交換作業を行い、ストレージの復旧作業は月曜日に行うことになる可能性が高いです。

(8/17 18:30追記)

本日のこのページの更新は終了します。

(8/20 10:30追記)

土日を利用した冷却水の計6回に及ぶ交換作業による簡易洗浄で、水質が改善していることが確認できたため、冷却機器へのバルブを解放しております。今のところ水量計は振れておりますが、時間経過で再度詰まらないか確認中で、Lustreファイルシステムの起動は明日朝の時点で判断したいと考えております。

(8/21 10:30追記)

昨日の16:00に実施した最後のフィルター清掃から今朝までに約4%の流量低下が見られましたが安定的に流量が出ているため、現状では起動可能との判断でいます。具体的なサービスイン時間が決まりましたらこちらのページにてご連絡します。

(8/21 11:30追記)

本日、21日13:00よりストレージサービスを再開予定です。

(8/21 13:30追記)

13:15よりストレージサービスを再開しました。TSUBAMEポータルはまだメンテナンス中です。

(8/21 14:30追記)

14:20ごろTSUBAEMポータルの運用も再開しました。

(8/21 16:25追記)

タイトルの【重要】を【復旧】に変更しました。