【障害報告】2017.9.11発生:OmniPathネットワーク障害

2017年9月15日

次の通りネットワークに障害が発生し復旧しました。

9/11 17:44に Omin-Path ネットワークに障害が発生しており、約200ノードの計算ノードとストレージ(Lustre,NFS)間において正常にアクセスできない現象が発生しました。login0,1においては正常にアクセスできていました。

2017年9月12日(火) 9:30にOmni-Pathネットワークのファブリックマネージャを再起動し10:40頃に復旧しました。


影響のあった可能性のあるジョブは以下の通りです。

TSUBAMEグランドチャレンジ大規模計算制度 課題公募(9/19締切)

平成23年度から開始したTSUBAMEグランドチャレンジ大規模計算制度(無償利用)では、世界トップレベルのTSUBAMEのピーク性能をフル活用する機会を確保することを目的としており、この制度を利用した課題の二つが平成23年度にスパコンの分野での最高栄誉と言われるゴードンベル賞・特別賞(本賞)と奨励賞を受賞するなど多くの実績を残しております。
 これまでTSUBAME2.0, 2.5にて実施してきた本制度は、平成29年度秋期からはTSUBAME3.0において引き続き実施します。平成29年度秋期は、全ノードを用いた大規模計算のピーク性能(計算速度)を目指す課題(カテゴリA、10月)の公募を行います。平成29年8月に稼働開始した TSUBAME3.0 のピーク性能(倍精度12.15 PFLOPS, 単精度 24.3 PFLOPS, 半精度 47.2 PFLOPS)を生かして初めて可能となる挑戦的な研究課題のご提案をお待ちしております。

http://www.gsic.titech.ac.jp/GrandChallenge/H29_2nd_GC

ログインノード(login0)メンテナンス(再起動)のお知らせ(9/4実施)

2017年9月1日

下記のとおりログインノード(login0.t3.gsic.titech.ac.jp)のメンテナンス(再起動)を行います。ログインノードは2台あるため、メンテナンス期間中はログインノード(login1.t3.gsic.titech.ac.jp)をご利用ください。

実施期間:2017年9月4日(月) 9:00 - 9:30

影響:実施期間中、login0が利用できません。実施期間中に実行中のlogin0のプロセス(ファイル転送含む)は終了します。

内容:高負荷状態の解消及びログの採取

TSUBAME3.0正式運用開始のためのメンテナンスについて(8/31実施)(8/30更新)

2017年8月25日

(8月30日11:45更新)

スケジュール

8月30日17:00
8月31日15:00 から 9月1日9:00
ジョブの新規投入ができません。実行、未実行に関わらず全てのジョブはクリアされます。
8月31日17:00 から 9月1日9:00 TSUBAMEポータルにログインできません

 

主な変更点

資源の占有を防ぐためジョブ投入量を調整してください

2017年8月18日

占有を防ぐため1ユーザあたり待ちジョブを含めて合計最大70ノード程度に抑えていただきます様お願いします。8月末までテスト運用期間として無償で利用できますが資源を独占するような行為、その他別の利用者に迷惑になるとGSICが判断する行為等につきましては、GSICの判断で利用を停止させていただきます。