【障害報告】 2024.1.19発生:CDU故障による大規模な計算ノードの停止 (復帰済み)

2024-01-22

CDU(熱交換器、Cooling Distribution Unit)が故障し、多くの計算ノードが停止しました。

  • 2024-01-19(金)20:30頃にCDU(熱交換器、Cooling Distribution Unit)が故障しポンプが停止しました。その結果、配下に設置されるホスト名がr3,r4で始まる全ての計算ノード144台が緊急停止しました。
  • 2024-01-22(月)13:30時点で障害は継続中です。
  • 修理が完了するには数日かかる予定であり、その間、使用できる計算ノードが少なくなります。
  • ノード減に対するジョブ実行機会の均等化のため復旧までは各種制限値を以下のように変更します。
    • 予約提供ノードを最大72ノード
    • 1ユーザあたり同時に実行状態になるジョブ数を20ジョブ(平日)/80ジョブ(週末)
  • (2024-01-23 12:45) 通常ジョブおよび障害により全ノードが停止した予約ジョブが消費したポイントは返却済みです
  • (2024-01-25 16:30) 修理手配の都合上、修理完了は早くても2月1日(木)となる見込みです。
  • (2024-02-01 14:00) CDU修理が完了したため、本日中に計算ノードを起動します。
  • (2024-02-01 14:35) 計算ノードの起動が完了しました。

 

影響を受けた可能性のあるジョブは以下の通りです。


通常ジョブ

15057856, 15057861, 15057866, 15062875, 15062882, 15062887, 15062889, 15062891, 15062893, 15062894, 15062897, 15063823, 15063824, 15063825, 15063826, 15063828, 15063829, 15063830, 15063831, 15063832, 15063833, 15063835, 15063836, 15065873, 15065876, 15065891, 15066034, 15066035, 15066043, 15066078, 15066090, 15066091, 15066439, 15066833, 15066873, 15066884, 15067665, 15068532, 15068568, 15068569, 15068574, 15068579, 15068626, 15068627, 15068634, 15068689, 15068814, 15068815, 15068886, 15068916, 15068917, 15068918, 15068920, 15068928, 15068929, 15068946, 15068949, 15068951, 15068979, 15068983, 15068985, 15068986, 15068987, 15069032, 15069062, 15069063, 15069064, 15069066, 15069075, 15069078, 15069169, 15069640, 15069757, 15069758, 15069761, 15069762, 15069763, 15069946, 15069975, 15069976, 15069978, 15069981, 15069990, 15070008, 15070016, 15070021, 15070030, 15070035, 15070041, 15070042, 15070047, 15070049, 15070051, 15070055, 15070062, 15070063, 15070064, 15070067, 15070070, 15070072, 15070076, 15070098, 15070380, 15070649, 15070662, 15070664, 15070702, 15070716, 15070722, 15070728, 15070730, 15070745, 15070748, 15070771, 15070860, 15070970, 15070975, 15070976, 15070977, 15070978, 15070985, 15070986, 15070990, 15070991, 15071043, 15071044, 15071050, 15071063, 15071073, 15071079, 15071080, 15071081, 15071082, 15071107, 15071120, 15071121, 15071122, 15071123, 15071154, 15071157, 15071162, 15071165, 15071289, 15071339, 15071342, 15071348, 15071359, 15071366, 15071367, 15071397, 15071399, 15071400, 15071403

予約ジョブ

11750, 11845, 11847 障害により削除されました
11811, 11830, 11836, 11842 障害によりノード数が減少しています
11812, 11813, 11814 障害ノードを含んでいましたが、予約開始前だったので正常なノードの再割り当てが行われました。