TSUBAME2.5とTSUBAME3.0の主な違いについて (ノード予約)

TSUBAME2.5とTSUBAME3.0との主な違いについて説明します。ノードの予約方法はTSUBAMEポータル、予約したノードへのジョブ投入方法はTSUBAME3.0の利用の手引きをご参照ください。

また、システムの利用状況などを勘案し、一部の設定・制限値を更新することがあります。設定変更時にはアナウンスを行いますので、最新のお知らせを定期的にご確認ください。

小規模の予約が取りやすくなりました

TSUBAME2.5のHキューでは、16ノード以上、1日単位と大規模な実行でしか予約を行えませんでしたが、TSUBAME3.0では1ノード以上、1時間単位での予約を取ることができるようになり、大規模実行以外にも、長時間実行などにも利用できるようになりました。

TSUBAME3.0の予約関係制限値一覧
最新の制限については「各種制限値一覧」を確認してください。

予約の最大ノード数: 135ノード(10~3月), 270ノード(4~9月)
予約時間の長さ: 1時間~96時間(4日間)(10~3月), 1時間~168時間(7日間)(4~9月)
1グループが同時に確保できる予約枠の合計: 6480ノード時(10~3月), 12960ノード時(4~9月)

実際にジョブを実行できる時間について

TSUBAME2.5では予約開始日の午前10時から予約終了日の午前9時までノードを占有することができました。
TSUBAME3.0では予約開始時刻から予約終了時刻の5分前までノードを利用することができ、終了時刻5分前にすべてのジョブが停止されます。

予約したノードへのジョブ投入について

qsub、qrsh等の引数に「-ar 予約番号」を付加することで、予約したノードにジョブを投入できます。(予約枠の開始時刻よりも前にジョブを投入することができます)
「-ar」の指定がないと、ポイントを消費して予約枠の外でジョブを実行するのでご注意ください。
f_node以外の資源タイプを利用している場合でも、予約したノード数以上の並列数のジョブは投入できませんのでご注意ください。たとえば20ノード予約時にh_node 40並列は実行できません。20並列ジョブを2つ同時に実行することはできます。

予約したノードへのSSH・直接ログインについて

TSUBAME2.5では、予約の実行中は予約に使用したTSUBAMEグループの全メンバーが計算ノードにSSHを行い、スケジューラを介さずに直接プログラムの実行を行えました。
TSUBAME3.0では、f_nodeのジョブを投入したときのみ、ジョブを投入したユーザのみがSSHを行うことができます。
プログラムの直接実行を行う場合は、f_nodeで必要なノード数のジョブを作成するか、qrshでログインするなどの方法をとってください。

開始時刻間際の予約についての注意

TSUBAME2.5では1週間以内に開始する予約のポイント消費量は一定でしたが、TSUBAME3.0では24時間以内に開始する予約のポイント消費量はすでに投入されている予約以外のジョブへの影響が大きくなるため、24時間以上先(2週間以内)の予約に比べて4倍高額に設定されております。
また、予約に用いているノードと予約以外のジョブに用いているノードを共有しているため、24時間以内の予約はジョブの実行状況によっては確保できなくなる可能性が上がります。
大規模実行については、事前に準備を行い、早めの予約をお勧めします。

予約をキャンセルするときの注意

TSUBAME2.5では、予約を削除した際に消費したTSUBAMEポイントが全額返却されましたが、TSUBAME3.0では予約削除時には以下の理由の場合を除いてTSUBAMEポイントが半額までしか返却されません。

  • 予約作成後5分以内のキャンセル
  • システムメンテナンスなどの、利用者の責任によらないキャンセル

ノードの予約を行うと、予約した時刻に計算ノードを確保するため他のジョブが実行されづらくなります。ノードの予約時には予約内容をよく確認して、必要な分のみを予約してください。