予約実行時のトラブルシュートについて

予約実行時にジョブが投入できない際のトラブルシューティングについてまとめています。
以下のコマンドはGSICグループが2日の利用となるAR番号20190108を実行する場合を例としております。

1.ARIDのつけわすれ

arオプションをつけない場合は通常ジョブとして実行されます。
(ポイントも通常通り消費されます)

NG例
以下のコマンドを実行した場合は、通常ジョブとして実行されます。

$ qsub -g GSIC hoge.sh

OK例
予約実行を行う際は必ず-arオプションを利用してください。

$ qsub -g GSIC -ar 20190108 hoge.sh

 

2.h_rtが予約時間より長い


h_rtオプションの時間指定が予約時間より長い場合はジョブが流れません。
また、予約終了時刻の5分前までの利用となる仕様のため、指定時間は予約時間より5分短くしてください。

NG例
予約時間いっぱいとなっているため、実行されません。

$ grep h_rt hoge.sh
#$ -l h_rt=48:00:00
$ qsub -g GSIC -ar 20190108 hoge.sh

OK例(終了時刻-5分となっている)

$ grep h_rt hoge.sh
#$ -l h_rt=47:55:00
$ qsub -g GSIC -ar 20190108 hoge.sh


プログラムが異常終了した場合や予約開始時間前にジョブを投入できなかった場合など、予約開始時間後に実行する場合は経過時間を考慮する必要があります。
例えば、予約開始時間から2時間経過したあとにジョブを投入する場合は以下のようなスクリプトとなります。(qsubコマンド実行から計算ノードの割当までの内部処理の時間を1分取った場合)

$ grep h_rt hoge.sh
#$ -l h_rt=45:54:00
$ qsub -g GSIC -ar 20190108 hoge.sh

関連URL
TSUBAME3.0利用の手引き 「5.3. 計算ノードの予約」

TSUBAMEポータル利用の手引き 「9. 計算ノードの予約」

バッチジョブスケジューラの仕様について

TSUBAME2.5とTSUBAME3.0の主な違いについて (ノード予約)