• [Fault report] /gs/hs0 - occurred on May 24, 2018

    2018.5.25

    An fault occurred and now temporarily recovered.

    1. Summary

    Impossible to access a part of /gs/hs0. It has temporarily recovered, but there is the possibility of performance decline.

    2. Period

    From 19:18 to 19:36, on May 24

    3. Details




  • [Fault report] 2018.2.18: Node stop due to instability of local power supply

    2018.2.27

     Sorry for delaying to notice. As described below, the failure occurred and  recovered. 

    1. Outline of failure
     2/18 15:50 144 nodes under Rack 1,2 stopped due to power supply instability in Tokyo and Kanagawa. 

    2. Cause
     Power supply instability from power company. 


    Jobs that may be affected by failures are as follows. 




  • [Fault report] 2018.1.26: Node stop due to leakage of cooling rack

    2018.2.27

     Sorry for delaying to notice. 

    1. Outline of failure
     Water leakage occurred inside the cooling rack #1 on Jan. 26.
     That caused a failure in 19 nodes, and it affected all the 72 jobs in the rack.
     Although it does not break down only by water leakage, it hits cooling fan, and it bounced, so compute node also affected.
     Disassembly and visual inspection of cooling rack#1 have identified water leakage points, and we have completed the treatment against water leakage.




  • 【Failure information】2017.12.4発生:ポイント精算における障害

    2018.2.13

    The following event has occur. We have done the corrective action.

    1. Date
      2017-12-4 - 2018-2-9 12:24

    2. Impact
      The points which need to be returned to TSUBAME groups were not returned to TSUBAME groups which submitted the jobs at 2017-12-4 18:21 - 2017-12-7 12:03.
      The affected TSUBAME groups have less holding points than originally.

    3. Recovery
      We returned the points at 2017-02-09 12:14.
      The same event will never occur again after 2017-12-07 12:04.
       



  • 【障害報告】2017.12.11発生:ログインノードでのユーザプロセスの誤った強制終了について

    2017.12.11

    以下の通りログインノード上で実行されていたユーザプロセスが誤って強制終了されました。

    1.期間

     2017年12月11日(月) 12:05 から13:10頃

    2.影響

     12月11日 12:05 頃から13:10分までの間、ログインノード上で動作していた一部のユーザプロセスが、高負荷プロセス監視プログラムの誤判定により強制終了される状況が発生しました。

    3.復旧

     13:10頃に監視プログラムを停止しました。今後修正と十分なテストを行った上、再度監視プログラムを実行する予定です。

    4.影響があった可能性のあるスケジューラ上のジョブ

     ログインノード上の問題のため、本障害によるスケジューラ上のジョブへの影響はありません。




  • 【障害報告】2017.11.5発生:/gs/hs0 障害

    2017.11.6

    以下の通りLustreファイルシステム/gs/hs0に障害が発生し復旧しました。

    1.期間

     2017年11月5日(日) 2:43 から 13:33頃

    2.影響

     11/5 2:43 頃に Lustre (/gs/hs0 )に障害が発生し、/gs/hs0 にアクセスできない状況が発生しました。

    3.復旧

     11月2日(木)に発生した障害と同様なものと考えられます。/gs/hs0を構成する機器を再起動し復旧しました。障害原因ですが11/6時点ではまだ原因特定には至っておりません。障害発生時は Lustre サーバ間の OmniPath インタフェースの通信に問題があり、Lustreファイルシステム、SFA14KXEストレージ 双 方の調査を進めております。 

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)




  • 【障害報告】2017.11.5発生:Omni-Pathネットワーク障害

    2017.11.6

    以下の通りOmni-Pathネットワークに障害が発生し復旧しました。

    1.期間

    2017年11月5日(日) 16:14 から 16:19 頃

    2.影響

    11/5(日) 16:14 頃に Omni-Path ネットワークに障害が発生し、約419ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。login0,1においては、正常にアクセスできている状況でした。

    3.復旧

    OmniPathをコントロールする装置であるファブリックマネージャ(fm0) の restart を実施

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)




  • 【障害報告】2017.11.2発生:/gs/hs0 障害(11/6更新)

    2017.11.2

    以下の通りLustreファイルシステム/gs/hs0に障害が発生し復旧しました。

    1.期間

     2017年11月2日(木) 1:56 から 22:40頃

    2.影響

     11/2(木) 1:56 頃に Lustre (/gs/hs0 )に障害が発生し、/gs/hs0 にアクセスできない状況が発生しました。/gs/hs1,/gs/hs2へのアクセスは可能ですが、dfコマンドなど /gs/hs0を参照するようなものはstuckします。

    3.復旧

     /gs/hs0を構成する機器を再起動し復旧しました。障害原因ですが11/6時点ではまだ原因特定には至っておりません。障害発生時は Lustre サーバ間の OmniPath インタフェースの通信に問題があり、Lustreファイルシステム、SFA14KXEストレージ 双 方の調査を進めております。 

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)




  • [Disability Report] 30 Oct., 2017: OmniPath network failure

    2017.10.31

    Fault occured in OminiPath network as follows and now resolved.

    1.Period

    30 Oct., 2017 (Mon.) 19:42 - 21:53

    2.Influence

    Around 30 Oct. (Mon.) 19:42, a failure occured in the Omini-Path network. During this time, could not access between about 340 computation nodes and storage (Luster, NFS). In login0 and login1, could be accessed normally.

    We are verifying version 10.6 released on 27 Oct. (Fri.) of Fabric Manager which controls Omni-Path to fix this.

    3.Recovery




  • 【障害報告】2017.10.18発生:OmniPathネットワーク障害

    2017.10.19

    以下の通りOmniPathネットワークに障害が発生し復旧しました。

    1.期間

    2017/10/18(水) 14:16 から 15:05 頃

    2.影響

    約200ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。なおlogin0,1においては、正常にアクセスできている状況でした。

    3.復旧

    OmniPathをコントロールする装置であるファブリックマネージャ (fm0) の restart を実施

    4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)