【障害報告】2018.5.24発生:/gs/hs0 障害

2018.5.25

 下記の通り障害が発生し仮復旧しました。

1.概要

 /gs/hs0の一部に一時的にアクセス不可、仮復旧後はパフォーマンスが低下している可能性あり。

2.期間

 2018年5月24日(木)19:18頃 から 19:36頃(仮復旧時刻)

3.詳細

 5/24 19:18 頃に Lustre (/gs/hs0 )のOSTを管理するossa3サーバでpanicが発生し、/gs/hs0 に一時的にアクセスできない状況が発生しました。19:36頃ossa2にテイクオーバーされ、現在は/gs/hs0は使用可能ですが、該当時間前後に一時的にlustreファイルシステムへのI/Oがストールしたと思われます。現在はossa3が担当するOSTがossa2にマウントされておりますので、/gs/hs0へのI/O帯域幅が低下する可能性がございます。

ログインノード及びロードバランサのメンテナンスのお知らせ(6/6実施)

2018.5.23

下記のとおりログインノードとロードバランサ(キャンパスネットワーク-TSUBAME間接続の負荷分散装置)のメンテナンスを行います。

実施期間:

  2018年6月6日(水) 12:00 - 15:00

  1. ログインノード作業 (12:00 - 14:00)
  2. ロードバランサ作業 (12:00 - 14:00)
  3. 運用再開確認作業 (14:00 - 15:00)

影響:

  実施期間中qrsh及びsshによる計算ノードへの接続、並びにTSUBAMEポータルには断続的に繋がらなくなります。
  計算ノードで実行中またはキュー待ちのジョブは継続されます。

内容:

  セキュリティに関するアップデート

 

MSCライセンスメンテナンスのお知らせ(5/22実施)

2018年5月15日

下記のとおりMSCライセンスのメンテナンスを行います。

実施期間:2018年5月22日(火) 10:00 - 10:30

影響:アプリケーションが一部使えない時間が発生します。実行中のジョブに影響がある可能性があります。メンテナンス時間までに終了するように実行をお願いします。

内容:MSC Patran 2018インストールのため、ライセンスマネージャを更新します。
 

ANSYSライセンスメンテナンスのお知らせ(5/21実施)

2018年4月18日

下記のとおりANSYSのライセンスのメンテナンスを行います。

実施期間:2018年5月21日(月) 9:00 - 10:00

影響:アプリケーションが一部使えない時間が発生します。実行中のジョブに影響がある可能性があります。メンテナンス時間までに終了するように実行をお願いします。

内容:ANSYS19インストールのため、ライセンスを更新します。
 

グループディスク/gs/hs1のメンテナンスについて(4/25実施)(追記あり)

2018.4.24

/gs/hs1を構成する Lustre ファイルシステムのOSSの内の1台(ossb2)に、Omni-Pathネットワークのエラーが多数検出されました。現状、大きな速度低下などは確認できていませんが、調査及び修理のため、この ossb3 の切り離し作業を以下の通り行います。

1.実施日

 2018年4月25日 (水) 10:00-13:00 頃     *終了時刻は前後する場合があります

2.内容

 不具合のある OSS(ossb2) がマウントしている 全OST を正常な他の OSS にテイクオーバーします

3.影響

  アクセスしたい /gs/hs1 上のデータが作業対象のOSTにあった場合、アクセスが遅延(最大30分)しますが、Lustreファイルシステムとしてはタイムアウト等せずI/Oが継続される予定です。

4.今後