• 【障害報告】2018.8.1発生:クーリングラック故障によるノード停止(8/24追記)

    2018.8.1

     下記の通り障害が発生し復旧作業中です。

    1. 障害の概要

     2018/08/01 12:45頃にクーリングラックの1台の故障によりr8で始まる計算ノード72台に障害が発生しました。

    2. 原因

     調査中
     (8/24追記) 8/1 にクーリングラックのPDUの故障が確認されました。

    3. 今後の対策

     未定
     (8/24追記) 8/1にPDUの交換は完了し、8/2 11:52に全ての計算ノードのサービスインをしました。
           なおファンブロアー等の故障も確認されましたので8/10に交換を行いました。


    障害による影響の可能性があるジョブは以下の通りです。




  • 【障害報告】2018.6.25発生:/gs/hs0 障害

    2018.6.25

    下記の通り障害が発生し仮復旧しました。

    1.概要

     /gs/hs0の一部に一時的にアクセス不可、仮復旧後はパフォーマンスが低下する場合がある。

    2.期間

     2018年6月25日(月)13:39頃 から 13:54頃(仮復旧時刻)

    3.詳細

     06/25 13:39頃に Lustre ( /gs/hs0 )のOSTを管理するossa2サーバでpanicが発生し、/gs/hs0 に一時的にアクセスできない状況が発生しました。13:54頃にossa3にテイクオーバーされ、現在は/gs/hs0は使用可能ですが、該当時間前後に一時的にlustreファイルシステムへのI/Oがストールしたと思われます。現在はossa2が担当するOSTがossa3にマウントされておりますので、/gs/hs0へのI/O帯域幅が低下している可能性がございます。




  • 【障害報告】2018.6.15発生:/gs/hs0 障害

    2018.6.18

     下記の通り障害が発生し仮復旧しました。

    1.概要

     /gs/hs0の一部に一時的にアクセス不可、仮復旧後はパフォーマンスが低下する場合がある。

    2.期間

     2018年6月15日(金)21:42頃 から 21:57頃(仮復旧時刻)

    3.詳細

     6/15 21:42 頃に Lustre (/gs/hs0 )のOSTを管理するossa0サーバでpanicが発生し、/gs/hs0 に一時的にアクセスできない状況が発生しました。21:57頃ossa1にテイクオーバーされ、現在は/gs/hs0は使用可能ですが、該当時間前後に一時的にlustreファイルシステムへのI/Oがストールしたと思われます。現在はossa0が担当するOSTがossa1にマウントされておりますので、/gs/hs0へのI/O帯域幅が低下する可能性がございます。




  • 【障害報告】2018.6.4発生:/gs/hs0 障害

    2018.6.4

     下記の通り障害が発生し仮復旧しました。

    1.概要

     /gs/hs0の一部に一時的にアクセス不可、仮復旧後はパフォーマンスが低下している可能性あり。

    2.期間

     2018年6月4日(月)01:52頃 から 02:06頃(仮復旧時刻)

    3.詳細

     6/4 01:52 頃に Lustre (/gs/hs0 )のOSTを管理するossa1サーバでpanicが発生し、/gs/hs0 に一時的にアクセスできない状況が発生しました。01:52頃ossa0にテイクオーバーされ、現在は/gs/hs0は使用可能ですが、該当時間前後に一時的にlustreファイルシステムへのI/Oがストールしたと思われます。現在はossa1が担当するOSTがossa0にマウントされておりますので、/gs/hs0へのI/O帯域幅が低下する可能性がございます。

     5/24 に発生した障害と同種のものと考えられますが、発生したOSSのペアが異なるため、現在さらに縮退した状態となっています。




  • 【障害報告】2018.5.24発生:/gs/hs0 障害

    2018.5.25

     下記の通り障害が発生し仮復旧しました。

    1.概要

     /gs/hs0の一部に一時的にアクセス不可、仮復旧後はパフォーマンスが低下している可能性あり。

    2.期間

     2018年5月24日(木)19:18頃 から 19:36頃(仮復旧時刻)

    3.詳細

     5/24 19:18 頃に Lustre (/gs/hs0 )のOSTを管理するossa3サーバでpanicが発生し、/gs/hs0 に一時的にアクセスできない状況が発生しました。19:36頃ossa2にテイクオーバーされ、現在は/gs/hs0は使用可能ですが、該当時間前後に一時的にlustreファイルシステムへのI/Oがストールしたと思われます。現在はossa3が担当するOSTがossa2にマウントされておりますので、/gs/hs0へのI/O帯域幅が低下する可能性がございます。




  • 【障害報告】2018.2.18発生:地域の電力供給不安定によるノード停止

    2018.2.27

     掲載が大幅に遅くなりましたが、下記の通り障害が発生し復旧しました。

    1. 障害の概要

     2/18 15:50頃に発生した東京神奈川の電力供給不安定によりRack1,2 配下の144ノードが停止しました。

    2. 原因

     電力会社からの電力供給不安定 


    障害による影響の可能性があるジョブは以下の通りです。




  • 【障害報告】2018.1.26発生:クーリングラック冷却水漏れによるノード停止

    2018.2.27

     掲載が大幅に遅くなりましたが、下記の通り障害が発生し復旧しました。(2/28現在、一部の計算ノードはパーツが不足しているため停止しています)

    1. 障害の概要

     1 月 26 日に Rack1 のクーリングラック#1 内部において漏水が発生し、
     それに起因して 19 ノードで障害が発生しました。
     Rack1を緊急停止した為、ラック内の全72ノードのジョブに影響がありました。
     漏水だけでは故障しない構造ですが、
     冷却ファンにあたり、跳ねた為計算ノードにも影響が発生しました。
     クーリングラック#1 を分解および目視確認により漏水箇所を特定し、
     漏水に対する処置を完了しております。

    2. 原因




  • 【障害報告】2017.12.4発生:ポイント精算における障害

    2018.2.13

    以下のポイント精算における障害が発生し復旧しました。

    1. 期間
      2017年12月4日 から 2018年2月9日 12:24

    2. 影響
      2017年12月4日 18:21 ~ 2017年12月7日 12:03 投入されたジョブの精算処理が正常に行われていませんでした。
      ポイントの仮押さえ後、精算処理(消費ポイント、返却ポイント)が行われず、仮押さえのままになっていました。

    3. 復旧
      2017年12月4日 18:21 ~ 2017年12月7日 12:03 投入された未精算ジョブの精算処理を2018年2月9日 12:24に完了いたしました。
      本問題は、2017年12月07日12:04以降で発生することはございません。



  • 【障害報告】2017.12.11発生:ログインノードでのユーザプロセスの誤った強制終了について

    2017.12.11

    以下の通りログインノード上で実行されていたユーザプロセスが誤って強制終了されました。

    1.期間

     2017年12月11日(月) 12:05 から13:10頃

    2.影響

     12月11日 12:05 頃から13:10分までの間、ログインノード上で動作していた一部のユーザプロセスが、高負荷プロセス監視プログラムの誤判定により強制終了される状況が発生しました。

    3.復旧

     13:10頃に監視プログラムを停止しました。今後修正と十分なテストを行った上、再度監視プログラムを実行する予定です。

    4.影響があった可能性のあるスケジューラ上のジョブ

     ログインノード上の問題のため、本障害によるスケジューラ上のジョブへの影響はありません。




  • 【障害報告】2017.11.5発生:/gs/hs0 障害

    2017.11.6

    以下の通りLustreファイルシステム/gs/hs0に障害が発生し復旧しました。

    1.期間

     2017年11月5日(日) 2:43 から 13:33頃

    2.影響

     11/5 2:43 頃に Lustre (/gs/hs0 )に障害が発生し、/gs/hs0 にアクセスできない状況が発生しました。

    3.復旧

     11月2日(木)に発生した障害と同様なものと考えられます。/gs/hs0を構成する機器を再起動し復旧しました。障害原因ですが11/6時点ではまだ原因特定には至っておりません。障害発生時は Lustre サーバ間の OmniPath インタフェースの通信に問題があり、Lustreファイルシステム、SFA14KXEストレージ 双 方の調査を進めております。 

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)