• 【障害報告】2019.10.17発生:LDAP認証サーバ障害

    2019.10.17

    以下の通りLDAPサーバに障害が発生し各サービスに影響が発生し復旧しました。

    1.期間

     2019年10月17日(木) 13:20頃 から  14:40 頃

    2.内容

     loginノードにアクセスできないアラートを元に不具合の調査を開始したところ、13:21頃にLDAPへの通信がタイムアウトしていることが確認れました。login1を再起動するも症状が改善されないため、LDAPサーバを確認したところslapdの負荷が異常に上がっていることが確認されました。同14:39にslapdのサービスを再起動し、状況が改善したことを確認しました。

    3.影響

     ログインノード :login0, login1にログインできませんでした。また復旧作業の中でlogin0を再起動しました。

     計算ノード:認証に失敗し計算に失敗した可能性があります。影響があった可能性のあるジョブIDは最下部に掲載します。

     TSUBAMEポータル:確認中

     その他のシステム:確認中

    4.原因と対策

     調査中




  • 【障害報告】2019.9.19発生:冷却設備停止に伴う計算ノード全台停止(9/27追記)

    2019.9.20

    以下の通り計算ノードが停止し復旧しました。

    1.期間

    2019年9月19日(木) 14:08 から 翌9月20日(金) 10:00 頃

    2.内容

     9/9の障害から停止中だった冷却塔の2番機の復旧作業を進めたところ、全ての冷却塔が異常停止しました。その結果、同様に全ての計算ノードが停止し、合わせてTSUBAMEポータルも手動で停止しました。

     その後、2番機の散水ポンプのリレー回路に損傷があることがわかり、2番機だけではなく3台全てのリレーを交換した上で、1番と3番機を再稼働し、冷却が安定したと確認できた、翌2019年9月20日 10:00に計算ノードの運用を再開しました。

     2番機についてももう問題はないものと思われますが、再稼働は11月実施予定の計画メンテナンス時に行う予定です。

    3.影響があったジョブ




  • 【障害報告】2019.9.9発生:冷却設備停止に伴う計算ノード全台停止(9/27追記)

    2019.9.20

    以下の通り計算ノードが停止し復旧しました。お知らせへの掲載が遅くなり大変申し訳ございません。

    1.期間

    2019年9月9日(月) 4:56 から 翌9月10日(火) 9:00 頃

    2.内容

     2019年9月9日の4時56分頃、台風の影響により屋上冷却塔に漏電が発生し冷却が停止しました。その結果、計算ノードが温度上昇からシステムを保護するため順次停止し、実行中のジョブは全て停止しました。また計算ノードが全て停止したことにより、その操作がエラーにならないようにTSUBAMEポータルも手動で停止しました。

     状況から雨による漏電と判断し、漏電、絶縁、機器破損の有無などのチェックを行いました。水分の拭き取りなどにより、3台ある冷却塔の内の2台が再稼働し冷却が始まりましたが、夜間に再度停止した場合の被害を考慮し、冷却が安定したと確認できた、翌2019年9月10日 9:00に計算ノードの運用を再開しました。

     問題のある2番機は詳細な調査を行い原因究明と再発防止の検討をしています。

    3.影響があったジョブ




  • 【障害報告】2019.6.11発生:login0 ネットワーク障害

    2019.6.12

    下記の通り障害が発生し復旧しました。

    1.概要

     学内ネットワークとlogin0間の通信障害

    2.期間

     2019年6月11日(火)14:10頃 から 19:00頃

    3.詳細

     2019/06/11 14:10頃から、ログインノード( login0 )にインターネット上からログインができない障害が発生しました。18:49にlogin0の再起動し復旧しました。なお、TSUBAME内部からはlogin0へアクセスが可能で発見が遅れたため、以後、監視体制を見直し早期に発見、復旧できるよう改善いたします。




  • 【障害報告】2018.12.17発生:/gs/hs1 障害

    2018.12.25

    下記の通り障害が発生し復旧しました。

    1.概要

     /gs/hs1の応答が極端に悪くなる

    2.期間

     2018年12月17日(月)17:20頃 から 23:16頃

    3.詳細

     hs1の応答が極端に悪くなっておりました。同期間に特定のユーザのinode(≒ファイル数)がquota値に達している事がわかり、ファイル数が減少したところ応答が正常に戻ったことから、Lustreファイルシステムのquota処理に何らかの不具合があった可能性を調査しています。




  • 【障害報告】2018.8.1発生:クーリングラック故障によるノード停止(8/24追記)

    2018.8.1

     下記の通り障害が発生し復旧作業中です。

    1. 障害の概要

     2018/08/01 12:45頃にクーリングラックの1台の故障によりr8で始まる計算ノード72台に障害が発生しました。

    2. 原因

     調査中
     (8/24追記) 8/1 にクーリングラックのPDUの故障が確認されました。

    3. 今後の対策

     未定
     (8/24追記) 8/1にPDUの交換は完了し、8/2 11:52に全ての計算ノードのサービスインをしました。
           なおファンブロアー等の故障も確認されましたので8/10に交換を行いました。


    障害による影響の可能性があるジョブは以下の通りです。




  • 【障害報告】2018.6.25発生:/gs/hs0 障害

    2018.6.25

    下記の通り障害が発生し仮復旧しました。

    1.概要

     /gs/hs0の一部に一時的にアクセス不可、仮復旧後はパフォーマンスが低下する場合がある。

    2.期間

     2018年6月25日(月)13:39頃 から 13:54頃(仮復旧時刻)

    3.詳細

     06/25 13:39頃に Lustre ( /gs/hs0 )のOSTを管理するossa2サーバでpanicが発生し、/gs/hs0 に一時的にアクセスできない状況が発生しました。13:54頃にossa3にテイクオーバーされ、現在は/gs/hs0は使用可能ですが、該当時間前後に一時的にlustreファイルシステムへのI/Oがストールしたと思われます。現在はossa2が担当するOSTがossa3にマウントされておりますので、/gs/hs0へのI/O帯域幅が低下している可能性がございます。




  • 【障害報告】2018.6.15発生:/gs/hs0 障害

    2018.6.18

     下記の通り障害が発生し仮復旧しました。

    1.概要

     /gs/hs0の一部に一時的にアクセス不可、仮復旧後はパフォーマンスが低下する場合がある。

    2.期間

     2018年6月15日(金)21:42頃 から 21:57頃(仮復旧時刻)

    3.詳細

     6/15 21:42 頃に Lustre (/gs/hs0 )のOSTを管理するossa0サーバでpanicが発生し、/gs/hs0 に一時的にアクセスできない状況が発生しました。21:57頃ossa1にテイクオーバーされ、現在は/gs/hs0は使用可能ですが、該当時間前後に一時的にlustreファイルシステムへのI/Oがストールしたと思われます。現在はossa0が担当するOSTがossa1にマウントされておりますので、/gs/hs0へのI/O帯域幅が低下する可能性がございます。




  • 【障害報告】2018.6.4発生:/gs/hs0 障害

    2018.6.4

     下記の通り障害が発生し仮復旧しました。

    1.概要

     /gs/hs0の一部に一時的にアクセス不可、仮復旧後はパフォーマンスが低下している可能性あり。

    2.期間

     2018年6月4日(月)01:52頃 から 02:06頃(仮復旧時刻)

    3.詳細

     6/4 01:52 頃に Lustre (/gs/hs0 )のOSTを管理するossa1サーバでpanicが発生し、/gs/hs0 に一時的にアクセスできない状況が発生しました。01:52頃ossa0にテイクオーバーされ、現在は/gs/hs0は使用可能ですが、該当時間前後に一時的にlustreファイルシステムへのI/Oがストールしたと思われます。現在はossa1が担当するOSTがossa0にマウントされておりますので、/gs/hs0へのI/O帯域幅が低下する可能性がございます。

     5/24 に発生した障害と同種のものと考えられますが、発生したOSSのペアが異なるため、現在さらに縮退した状態となっています。




  • 【障害報告】2018.5.24発生:/gs/hs0 障害

    2018.5.25

     下記の通り障害が発生し仮復旧しました。

    1.概要

     /gs/hs0の一部に一時的にアクセス不可、仮復旧後はパフォーマンスが低下している可能性あり。

    2.期間

     2018年5月24日(木)19:18頃 から 19:36頃(仮復旧時刻)

    3.詳細

     5/24 19:18 頃に Lustre (/gs/hs0 )のOSTを管理するossa3サーバでpanicが発生し、/gs/hs0 に一時的にアクセスできない状況が発生しました。19:36頃ossa2にテイクオーバーされ、現在は/gs/hs0は使用可能ですが、該当時間前後に一時的にlustreファイルシステムへのI/Oがストールしたと思われます。現在はossa3が担当するOSTがossa2にマウントされておりますので、/gs/hs0へのI/O帯域幅が低下する可能性がございます。