バッチジョブスケジューラの仕様について

TSUBAME3ではバッチジョブスケジューラによる資源管理を行っております。

資源タイプ

利用可能な資源タイプは以下の6つがあります。
資源タイプの指定は「-l」オプションで行います。(「-pe」や「-q」オプションは利用できません。)

  資源タイプ名 使用物理CPUコア数 メモリ(GB) GPU数
F f_node 28 235 4
H h_node 14 120 2
Q q_node 7 60 1
C1 s_core 1 7.5 0
C4 q_core 4 30 0
G1 s_gpu 2 15 1


ジョブの投入方法

ジョブはログインノードから以下のようなコマンドで投入できます。
・ジョブスクリプトによる投入(GSICGROUPに所属しているユーザがtrain.shを実行する場合)

qsub -g GSICGROUP train.sh

・インタラクティブジョブを実行する場合(GSICGROUPに所属しているユーザが2時間s_coreをX環境下で利用する場合)

qrsh -g GSICGROUP -l s_core=1,h_rt=2:: -pty yes -display $DISPLAY -v TERM /bin/bash


ジョブスクリプトによる投入での資源タイプ指定方法などジョブの投入方法の詳細については利用手引きをご確認ください。
利用の手引き 5.2. ジョブの投入

また、ここで説明していない項目については下記の関連FAQをご確認ください。
関連FAQ
スクラッチ領域の利用方法
依存ジョブの投入方法について
qrshでX転送する方法

 

ジョブの制限について

最新の制限については「各種制限値一覧」を確認してください。
ユーザごとの制限を超えるジョブはTSUBAME全体に空きがある場合でも実行されず、qw状態で待たされます。
ジョブが終了し、制限を下回ると(TSUBAMEに空きがある範囲で)実行状態rに遷移します。

予約について

予約は1時間単位で設定可能で予約終了時刻の5分前までノードを利用することができます。
ジョブ投入時には以下のようなコマンドで実行する必要があります。AR IDはポータルで確認が可能です。

$ qsub -g [TSUBAME3グループ] –ar [AR ID] スクリプト名

予約終了時刻の5分前までの利用となるため、ジョブスクリプトの-lオプションを工夫する必要があります。
例)予約期間が2日の場合の資源指定

#$ -l h_rt=47:55:00

「ノード予約」には上記の「ジョブの制限」はかからず、「ノード予約」の制限があります。
制限については「各種制限値一覧」を確認してください。


関連FAQ
TSUBAME2.5とTSUBAME3.0の主な違いについて (ノード予約)

 

エラーの対処

エラーの対処については下記の関連FAQをご確認ください。


関連FAQ
ジョブ投入時にエラーになりますが、どのオプションが悪いかわかりません
ジョブステータスが「Eqw」となり実行されない。
qrshコマンドを実行した際のエラーについて
結果ファイルのエラーメッセージについて