10/10 ~10/24における過剰ポイント返却障害について

2017.11.9

2017年10月10日 ~ 2017年10月24日にジョブ投入利用者様に対し過剰なポイント返却処理が行われる事象が発生しました。

2017年10月27日 18:45 に再発防止のための対策を行い、2017年11月9日現在、本件の再発の有無について経過観察を行っています。

影響のあったTSUBAMEグループは所有ポイントが本来より多い状態となっており、今後の対応については、決まり次第、情報を掲載します。

 

Omni-Pathネットワークアップデートに伴うTSUBAME計算サービス全体の停止について(12/4実施)

2017.11.16

(11/16)日程が変更になる可能性があるため今後のアナウンスにご注意ください

 頻発しているOmni-Pathネットワーク障害や関連する障害の解決のため、広範囲な停止を伴うTSUBAME計算サービスのメンテナンスを行います。

1. 作業時間

    2017年12月4日(月) 9:00 - 18:00
    ※作業が完了次第、順次、開放させていただきます。

2. 停止サービス

【障害報告】2017.11.5発生:/gs/hs0 障害

2017.11.6

以下の通りLustreファイルシステム/gs/hs0に障害が発生し復旧しました。

1.期間

 2017年11月5日(日) 2:43 から 13:33頃

2.影響

 11/5 2:43 頃に Lustre (/gs/hs0 )に障害が発生し、/gs/hs0 にアクセスできない状況が発生しました。

3.復旧

 11月2日(木)に発生した障害と同様なものと考えられます。/gs/hs0を構成する機器を再起動し復旧しました。障害原因ですが11/6時点ではまだ原因特定には至っておりません。障害発生時は Lustre サーバ間の OmniPath インタフェースの通信に問題があり、Lustreファイルシステム、SFA14KXEストレージ 双 方の調査を進めております。 

4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)

【障害報告】2017.11.5発生:Omni-Pathネットワーク障害

2017.11.6

以下の通りOmni-Pathネットワークに障害が発生し復旧しました。

1.期間

2017年11月5日(日) 16:14 から 16:19 頃

2.影響

11/5(日) 16:14 頃に Omni-Path ネットワークに障害が発生し、約419ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。login0,1においては、正常にアクセスできている状況でした。

3.復旧

OmniPathをコントロールする装置であるファブリックマネージャ(fm0) の restart を実施

4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)

ログインノードでCPUを占有する利用は行わないでください

2017.11.2

ログインノード(login, login0, login1)でCPUを占有するプログラムの実行は行わないでください。並列計算、長時間な計算は計算ノードを利用してください。以下に判断の目安を例示します。ここで許可されている、もしくは触れていない項目についても、他ユーザの利用の妨げとなっているプログラムについては、システム管理者の判断で予告なく停止・削除させていただきます。

計算機システムの管理若しくは運用に重大な支障を生じさせた場合は利用細則第10条に該当し、同細則第14条のとおりに対応させていただきます。

基本的には問題ないこと
・ファイルの転送・展開 (scp, sftp, rsync, tarなど)
・プログラムのコンパイル(並列コンパイルなど多数の資源を一度に使う場合は計算ノードをご利用ください)

TSUBAME2.5ソフトウェア配布サービスご利用の方へ

 TSUBAME2で学内配布しているアプリケーションについて、8/1以降はTSUBAME3のライセンスサーバを参照するように設定し直す必要があります。ライセンスサーバおよびポート設定は以下の通りです。

 hostname: lice0.int.t3.gsic.titech.ac.jp

また、変更する箇所について不明な点がある場合はこのページに掲載のインストール手順書(学内限定)をご覧ください。

以下の表は学内配布アプリケーションの設定方法です。TSUBAME2.5内でアプリケーションを利用する場合の設定方法はこちらをご確認ください。

バッチスケジューラ障害復旧のお知らせ(newgrp実行不要)

2017.11.2

 9月23日より、バッチスケジューラのコマンド(qsub, qstat, qdel, qrshなど)が実行できなくなる障害1が発生しておりましたが、11月1日のメンテナンスにより復旧いたしました。

 現在は、暫定対処法にある newgrp コマンドを利用せずともこれらのコマンドを実行することができます。今後は上記コマンドの実行時に newgrp を行わないでください。

 なお、既報2の通り本障害の対処によるバグにより消費されたポイントの返却対応をしておりますが、本対応は11/30までに実行されたジョブをもって終了させていただきます。(残件については12/1以降に一括で返却します)

[1] 【障害報告】2017.9.23発生:バッチスケジューラ障害(デフォルトグループでのジョブ失敗)
  http://www.t3.gsic.titech.ac.jp/node/69

【障害報告】2017.11.2発生:/gs/hs0 障害(11/6更新)

2017.11.2

以下の通りLustreファイルシステム/gs/hs0に障害が発生し復旧しました。

1.期間

 2017年11月2日(木) 1:56 から 22:40頃

2.影響

 11/2(木) 1:56 頃に Lustre (/gs/hs0 )に障害が発生し、/gs/hs0 にアクセスできない状況が発生しました。/gs/hs1,/gs/hs2へのアクセスは可能ですが、dfコマンドなど /gs/hs0を参照するようなものはstuckします。

3.復旧

 /gs/hs0を構成する機器を再起動し復旧しました。障害原因ですが11/6時点ではまだ原因特定には至っておりません。障害発生時は Lustre サーバ間の OmniPath インタフェースの通信に問題があり、Lustreファイルシステム、SFA14KXEストレージ 双 方の調査を進めております。 

4.影響があった可能性のあるジョブ(障害期間中に実行中だったジョブ)