【障害報告】2019.10.17発生:LDAP認証サーバ障害

2019.10.17

以下の通りLDAPサーバに障害が発生し各サービスに影響が発生し復旧しました。

1.期間

 2019年10月17日(木) 13:20頃 から  14:40 頃

2.内容

 loginノードにアクセスできないアラートを元に不具合の調査を開始したところ、13:21頃にLDAPへの通信がタイムアウトしていることが確認れました。login1を再起動するも症状が改善されないため、LDAPサーバを確認したところslapdの負荷が異常に上がっていることが確認されました。同14:39にslapdのサービスを再起動し、状況が改善したことを確認しました。

3.影響

 ログインノード :login0, login1にログインできませんでした。また復旧作業の中でlogin0を再起動しました。

 計算ノード:認証に失敗し計算に失敗した可能性があります。影響があった可能性のあるジョブIDは最下部に掲載します。

 TSUBAMEポータル:確認中

 その他のシステム:確認中

4.原因と対策

 調査中


影響があった可能性のあるジョブ一覧(期間中に実行を開始したジョブ)

5927322, 5927672, 5927720, 5927723, 5927733, 5927758, 5927853, 5927856, 5927895, 5927897, 5927898, 5927901, 5927902, 5927903, 5927904, 5927905, 5927906, 5927907, 5927908, 5927909, 5927910, 5927911, 5927912, 5927913, 5927914, 5927915, 5927916, 5927917, 5927918, 5927919, 5927920, 5927921, 5927922, 5927923, 5927924, 5927925, 5927926, 5927927, 5927928, 5927929, 5927930, 5927931, 5927932, 5927933, 5927934, 5927935, 5927936, 5927937, 5927939, 5927940, 5927941, 5927942, 5927943, 5927944, 5927945, 5927946, 5927947, 5927949, 5927951, 5927952, 5927953, 5927954, 5927956, 5927957, 5927958, 5927969, 5927970, 5927971, 5927972, 5927973, 5927974, 5927975, 5927976, 5927977, 5927978, 5927979, 5927980, 5927981, 5927982, 5927983, 5927984, 5927985, 5927986, 5927987, 5927988, 5927989, 5927990, 5927991, 5927992, 5927993, 5927994, 5927995, 5927996, 5927997, 5927998, 5927999, 5928000, 5928001, 5928002, 5928003, 5928005, 5928006, 5928007, 5928009, 5928010