• 【障害報告】2018.5.24発生:/gs/hs0 障害

    2018.5.25

     下記の通り障害が発生し仮復旧しました。

    1.概要

     /gs/hs0の一部に一時的にアクセス不可、仮復旧後はパフォーマンスが低下している可能性あり。

    2.期間

     2018年5月24日(木)19:18頃 から 19:36頃(仮復旧時刻)

    3.詳細

     5/24 19:18 頃に Lustre (/gs/hs0 )のOSTを管理するossa3サーバでpanicが発生し、/gs/hs0 に一時的にアクセスできない状況が発生しました。19:36頃ossa2にテイクオーバーされ、現在は/gs/hs0は使用可能ですが、該当時間前後に一時的にlustreファイルシステムへのI/Oがストールしたと思われます。現在はossa3が担当するOSTがossa2にマウントされておりますので、/gs/hs0へのI/O帯域幅が低下する可能性がございます。




  • 【障害報告】2018.2.18発生:地域の電力供給不安定によるノード停止

    2018.2.27

     掲載が大幅に遅くなりましたが、下記の通り障害が発生し復旧しました。

    1. 障害の概要

     2/18 15:50頃に発生した東京神奈川の電力供給不安定によりRack1,2 配下の144ノードが停止しました。

    2. 原因

     電力会社からの電力供給不安定 


    障害による影響の可能性があるジョブは以下の通りです。




  • 【障害報告】2018.1.26発生:クーリングラック冷却水漏れによるノード停止

    2018.2.27

     掲載が大幅に遅くなりましたが、下記の通り障害が発生し復旧しました。(2/28現在、一部の計算ノードはパーツが不足しているため停止しています)

    1. 障害の概要

     1 月 26 日に Rack1 のクーリングラック#1 内部において漏水が発生し、
     それに起因して 19 ノードで障害が発生しました。
     Rack1を緊急停止した為、ラック内の全72ノードのジョブに影響がありました。
     漏水だけでは故障しない構造ですが、
     冷却ファンにあたり、跳ねた為計算ノードにも影響が発生しました。
     クーリングラック#1 を分解および目視確認により漏水箇所を特定し、
     漏水に対する処置を完了しております。

    2. 原因




  • 【障害報告】2017.12.4発生:ポイント精算における障害

    2018.2.13

    以下のポイント精算における障害が発生し復旧しました。

    1. 期間
      2017年12月4日 から 2018年2月9日 12:24

    2. 影響
      2017年12月4日 18:21 ~ 2017年12月7日 12:03 投入されたジョブの精算処理が正常に行われていませんでした。
      ポイントの仮押さえ後、精算処理(消費ポイント、返却ポイント)が行われず、仮押さえのままになっていました。

    3. 復旧
      2017年12月4日 18:21 ~ 2017年12月7日 12:03 投入された未精算ジョブの精算処理を2018年2月9日 12:24に完了いたしました。
      本問題は、2017年12月07日12:04以降で発生することはございません。



  • 【障害報告】2017.12.11発生:ログインノードでのユーザプロセスの誤った強制終了について

    2017.12.11

    以下の通りログインノード上で実行されていたユーザプロセスが誤って強制終了されました。

    1.期間

     2017年12月11日(月) 12:05 から13:10頃

    2.影響

     12月11日 12:05 頃から13:10分までの間、ログインノード上で動作していた一部のユーザプロセスが、高負荷プロセス監視プログラムの誤判定により強制終了される状況が発生しました。

    3.復旧

     13:10頃に監視プログラムを停止しました。今後修正と十分なテストを行った上、再度監視プログラムを実行する予定です。

    4.影響があった可能性のあるスケジューラ上のジョブ

     ログインノード上の問題のため、本障害によるスケジューラ上のジョブへの影響はありません。




  • 【障害報告】2017.11.5発生:/gs/hs0 障害

    2017.11.6

    以下の通りLustreファイルシステム/gs/hs0に障害が発生し復旧しました。

    1.期間

     2017年11月5日(日) 2:43 から 13:33頃

    2.影響

     11/5 2:43 頃に Lustre (/gs/hs0 )に障害が発生し、/gs/hs0 にアクセスできない状況が発生しました。

    3.復旧

     11月2日(木)に発生した障害と同様なものと考えられます。/gs/hs0を構成する機器を再起動し復旧しました。障害原因ですが11/6時点ではまだ原因特定には至っておりません。障害発生時は Lustre サーバ間の OmniPath インタフェースの通信に問題があり、Lustreファイルシステム、SFA14KXEストレージ 双 方の調査を進めております。 

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)




  • 【障害報告】2017.11.5発生:Omni-Pathネットワーク障害

    2017.11.6

    以下の通りOmni-Pathネットワークに障害が発生し復旧しました。

    1.期間

    2017年11月5日(日) 16:14 から 16:19 頃

    2.影響

    11/5(日) 16:14 頃に Omni-Path ネットワークに障害が発生し、約419ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。login0,1においては、正常にアクセスできている状況でした。

    3.復旧

    OmniPathをコントロールする装置であるファブリックマネージャ(fm0) の restart を実施

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)




  • 【障害報告】2017.11.2発生:/gs/hs0 障害(11/6更新)

    2017.11.2

    以下の通りLustreファイルシステム/gs/hs0に障害が発生し復旧しました。

    1.期間

     2017年11月2日(木) 1:56 から 22:40頃

    2.影響

     11/2(木) 1:56 頃に Lustre (/gs/hs0 )に障害が発生し、/gs/hs0 にアクセスできない状況が発生しました。/gs/hs1,/gs/hs2へのアクセスは可能ですが、dfコマンドなど /gs/hs0を参照するようなものはstuckします。

    3.復旧

     /gs/hs0を構成する機器を再起動し復旧しました。障害原因ですが11/6時点ではまだ原因特定には至っておりません。障害発生時は Lustre サーバ間の OmniPath インタフェースの通信に問題があり、Lustreファイルシステム、SFA14KXEストレージ 双 方の調査を進めております。 

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)




  • 【障害報告】2017.10.30発生:OmniPathネットワーク障害

    2017.10.31

    以下の通りOmniPathネットワークに障害が発生し復旧しました。

    1.期間

    2017年10月30日(月) 19:42 から 21:53 頃

    2.影響

    10/30(月) 19:42 頃に Omni-Path ネットワークに障害が発生し、約340ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。login0,1においては、正常にアクセスできている状況でした。

    10/27(金)にリリースされたOmni-Pathをコントロールするファブリックマネージャ バージョン10.6にて解消されている可能性があり検証を進めます。

    3.復旧

    OmniPathをコントロールする装置であるファブリックマネージャ の restart を実施

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)




  • 【障害報告】2017.10.18発生:OmniPathネットワーク障害

    2017.10.19

    以下の通りOmniPathネットワークに障害が発生し復旧しました。

    1.期間

    2017/10/18(水) 14:16 から 15:05 頃

    2.影響

    約200ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。なおlogin0,1においては、正常にアクセスできている状況でした。

    3.復旧

    OmniPathをコントロールする装置であるファブリックマネージャ (fm0) の restart を実施

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)