2018.8.1
下記の通り障害が発生し復旧作業中です。
1. 障害の概要
2018/08/01 12:45頃にクーリングラックの1台の故障によりr8で始まる計算ノード72台に障害が発生しました。
2. 原因
調査中
(8/24追記) 8/1 にクーリングラックのPDUの故障が確認されました。
3. 今後の対策
未定
(8/24追記) 8/1にPDUの交換は完了し、8/2 11:52に全ての計算ノードのサービスインをしました。
なおファンブロアー等の故障も確認されましたので8/10に交換を行いました。
障害による影響の可能性があるジョブは以下の通りです。
2827380, 2827571, 2828629, 2828652, 2828880, 2828988, 2829210, 2829212, 2829215, 2829352, 2829359, 2829441, 2829696, 2829781, 2829810, 2829903, 2829974, 2829991, 2829994, 2830039, 2830041, 2830048, 2830140, 2830222, 2830243, 2830338, 2830531, 2830532, 2830542, 2830551, 2830572, 2830573, 2830574, 2830653, 2830693, 2830697, 2830713, 2830740, 2830781