【障害報告】2018.8.1発生:クーリングラック故障によるノード停止(8/24追記)

2018.8.1

 下記の通り障害が発生し復旧作業中です。

1. 障害の概要

 2018/08/01 12:45頃にクーリングラックの1台の故障によりr8で始まる計算ノード72台に障害が発生しました。

2. 原因

 調査中
 (8/24追記) 8/1 にクーリングラックのPDUの故障が確認されました。

3. 今後の対策

 未定
 (8/24追記) 8/1にPDUの交換は完了し、8/2 11:52に全ての計算ノードのサービスインをしました。
       なおファンブロアー等の故障も確認されましたので8/10に交換を行いました。


障害による影響の可能性があるジョブは以下の通りです。

2827380, 2827571, 2828629, 2828652, 2828880, 2828988, 2829210, 2829212, 2829215, 2829352, 2829359, 2829441, 2829696, 2829781, 2829810, 2829903, 2829974, 2829991, 2829994, 2830039, 2830041, 2830048, 2830140, 2830222, 2830243, 2830338, 2830531, 2830532, 2830542, 2830551, 2830572, 2830573, 2830574, 2830653, 2830693, 2830697, 2830713, 2830740, 2830781