【障害報告】2019.10.17発生:LDAP認証サーバ障害

2019.10.17

以下の通りLDAPサーバに障害が発生し各サービスに影響が発生し復旧しました。

1.期間

 2019年10月17日(木) 13:20頃 から  14:40 頃

2.内容

 loginノードにアクセスできないアラートを元に不具合の調査を開始したところ、13:21頃にLDAPへの通信がタイムアウトしていることが確認れました。login1を再起動するも症状が改善されないため、LDAPサーバを確認したところslapdの負荷が異常に上がっていることが確認されました。同14:39にslapdのサービスを再起動し、状況が改善したことを確認しました。

3.影響

 ログインノード :login0, login1にログインできませんでした。また復旧作業の中でlogin0を再起動しました。

 計算ノード:認証に失敗し計算に失敗した可能性があります。影響があった可能性のあるジョブIDは最下部に掲載します。

 TSUBAMEポータル:確認中

 その他のシステム:確認中

4.原因と対策

 調査中

進学等に伴うログイン名の変更について

2019.10.4

TSUBAMEアカウントのログイン名は進学等に合わせて一か月に一度の頻度で自動で変更されます。次回の変更は10/10 15:00を予定しています。変更されるまでは現在のログイン名を引き続きご利用ください。

変更後のログイン名が不明な場合は、東工大ポータル経由でTSUBAMEポータルにログインすることで確認することができます。

2019年度  秋の講習会の開催について

(2019/10/9 追記) 調整中となっていた Maple, Schrodinger, Abaqus の開催日時が確定しました。

(2019/10/16 追記) 国プロアプリ講習会のURLを記載しました。

対象者

TSUBAMEアカウントをお持ちの東工大の全学生・教職員

*TSUBAME利用法入門編(Linux基礎)(大岡山)・TSUBAME利用法入門編(Linux基礎)(すずかけ台)・Introduction to TSUBAME(Linux basics)・GPUプログラミング・並列化プログラミング・ TSUBAME3利用法・ TSUBAME3ストレージ ・Gaussian / GaussViewについては東工大関係者かどうかに関わらずTSUBAMEアカウントをお持ちのすべての方がご参加いただけます。

TSUBAMEポータルメンテナンスのお知らせ(10/2実施)

2019.9.27

下記のとおりTSUBAMEポータルのメンテナンスを行います。

実施期間:2019年10月2日(水) 12:00 - 13:00頃

影響:一時的にTSUBAMEポータルが利用できません。

内容:グループディスクの購入量を減らした際に履歴にTSUBAMEポイントが増えずに減ったように表示されるバグの修正

ANSYSライセンスメンテナンスについて(10/9実施)(10/9追記)

2019年9月27日

下記のとおりANSYSのライセンスのメンテナンスを行います。

実施期間:2019年10月9日(水) 12:00 - 13:00

影響:アプリケーションが一部使えない時間が発生します。メンテナンス時間の利用は避けるようお願いします。

内容:ライセンスの更新

【障害報告】2019.9.19発生:冷却設備停止に伴う計算ノード全台停止(9/27追記)

2019.9.20

以下の通り計算ノードが停止し復旧しました。

1.期間

2019年9月19日(木) 14:08 から 翌9月20日(金) 10:00 頃

2.内容

 9/9の障害から停止中だった冷却塔の2番機の復旧作業を進めたところ、全ての冷却塔が異常停止しました。その結果、同様に全ての計算ノードが停止し、合わせてTSUBAMEポータルも手動で停止しました。

 その後、2番機の散水ポンプのリレー回路に損傷があることがわかり、2番機だけではなく3台全てのリレーを交換した上で、1番と3番機を再稼働し、冷却が安定したと確認できた、翌2019年9月20日 10:00に計算ノードの運用を再開しました。

 2番機についてももう問題はないものと思われますが、再稼働は11月実施予定の計画メンテナンス時に行う予定です。

3.影響があったジョブ

【障害報告】2019.9.9発生:冷却設備停止に伴う計算ノード全台停止(9/27追記)

2019.9.20

以下の通り計算ノードが停止し復旧しました。お知らせへの掲載が遅くなり大変申し訳ございません。

1.期間

2019年9月9日(月) 4:56 から 翌9月10日(火) 9:00 頃

2.内容

 2019年9月9日の4時56分頃、台風の影響により屋上冷却塔に漏電が発生し冷却が停止しました。その結果、計算ノードが温度上昇からシステムを保護するため順次停止し、実行中のジョブは全て停止しました。また計算ノードが全て停止したことにより、その操作がエラーにならないようにTSUBAMEポータルも手動で停止しました。

 状況から雨による漏電と判断し、漏電、絶縁、機器破損の有無などのチェックを行いました。水分の拭き取りなどにより、3台ある冷却塔の内の2台が再稼働し冷却が始まりましたが、夜間に再度停止した場合の被害を考慮し、冷却が安定したと確認できた、翌2019年9月10日 9:00に計算ノードの運用を再開しました。

 問題のある2番機は詳細な調査を行い原因究明と再発防止の検討をしています。

3.影響があったジョブ

繁忙期におけるノード予約の上限値について(2019年度)

2019.9.2

昨年度同様、繁忙期(10月-翌3月)における計算ノードの利用機会の均等化のため以下の通りノード予約の上限値を変更いたします。上限値にかかわらず混雑時は混雑緩和にご協力をお願いいたします。

ノード予約上限

  繁忙期の制限値 参考: 4-9月の設定値
予約提供ノード数(全体) 135ノード 270ノード
1予約の最大予約時間 96時間(4日間) 168時間(7日間)
1グループが同時に確保できる予約枠の合計 6480ノード時 12960ノード時

 

関連リンク:

TSUBAMEポータルメンテナンスのお知らせ(8/29実施)

2019.8.27

下記のとおりTSUBAMEポータルのメンテナンスを行います。

実施期間:2019年8月29日(木) 12:00 - 12:30頃

影響:一時的にTSUBAMEポータルが利用できません。

内容:一部機能において表示結果が多い場合に発生するタイムアウトの軽減
   ポータルから自動送付されるメール内のURLがうまくリンクとして認識されないメーラーへの対処
   一部機能に「アカウント名」という表記が残っていたため「ログイン名」に修正