既知の問題

最終更新日(2018.8.17)

問題

管理番号 確認日 更新日 内容
T3KI-20180817 2018/8  

Abaqus/Explicitで並列実行時に以下のようなエラーが発生する場合がある

Abaqus Error: Abaqus/Explicit Packager exited with an error - Please see the 
status file for possible error messages if the file exists.
Begin MFS->SFS and SIM cleanup
Fri 17 Aug 2018 10:40:23 AM JST
Run SMASimUtility
Fri 17 Aug 2018 10:40:24 AM JST
End MFS->SFS and SIM cleanup
Abaqus/Analysis exited with errors

回避策として、以下の様に対策用モジュールを読み込んでください
module load abaqus/2017_explicit

T3KI-20180731 2018/7  

intelMPIで以下ようなエラーでジョブが失敗する場合がある

xxx:yyy terminated with signal 11 at PC=0 SP=7fffffffa558.  Backtrace:
/usr/lib64/libinfinipath.so.4(+0x45a8)[0x2aaabee125a8]
/lib64/libpthread.so.0(+0x10b20)[0x2aaaaacdeb20]

このエラーはいくつかの原因で発生する場合があるようです。

ワークアラウンドとして、以下のいずれかを試してみて下さい。

1. export I_MPI_FABRICS=shm:tcp

2. プロセス数/ノードが28で上記エラーが起きた場合、プロセス数/ノードを16にする(-ppn 16)

3. mpirunを使って上記エラーが起きた場合、mpiexec.hydraを使う

T3KI-20180629 2018/6  

intelMPI/OpenMPIでラージスケールで集団通信を行うとランダムにタイムアウトのエラーが発生することがある

 

回避策として、ジョブスクリプトのmpirun/mpiexec.hydraより前に以下のオプションを追加して下さい。

export HFI_UNIT=0

T3KI-20180531 2018/5  

TSUBAME3.0にインストールされているOpenMPI 2.1.1および2.1.2を利用して、GPUメモリを対象にMPI_Allgatherを行った際に、正常に動作していない(通信結果が化ける)

回避策として、以下のオプションを追加してください。
mpirun -mca coll_tuned_use_dynamic_rules 1 -mca coll_tuned_allgather_algorithm 2

詳細情報:OpenMPIでGPUメモリを対象とした集団通信実行時にデータが化ける現象について

T3KI-20180420 2018/4  

openmpiで2バイトのデータを大量に送受信するとsegmentation faultが発生する場合がある。

回避策として、以下の環境変数を設定して下さい。

export PSM2_MQ_RNDV_HFI_THRESH=128000

T3KI-20180301 2017/12 2018/4/5 ポイントを過剰に消費することがある。順次自動(個別の利用者への報告なし)で返却を行う。(2018/4/5)定期的に問題を検出し返却を行いつつ、根本的な解消を目指します。
T3KI-20171222A 2017/12/22   chshでcshから他のshellへ変更できない。回避策として以下を実行してください。
1. cshで以下を実行しbashに変更
 % bash
2. bashでchshを実行
 $ chsh /bin/bash
T3KI-20171207A 2017/11 2018/4/5 ジョブ投入に失敗した際にポータルにも表示されないポイントの仮押さえが発生する。(過剰にポイントを消費する問題)。順次自動(個別の利用者への報告なし)で返却を開始。(2018/4/5)定期的に問題を検出し返却を行いつつ、根本的な解消を目指します。
T3KI-20171130A 2017/11 2018/4/5 ポータルにおいて終了済みのジョブでも「処理中」と表示されポイントの仮押さえ状態が解除されない。(過剰にポイントを消費する問題)(2018/4/5)定期的に問題を検出し返却を行いつつ、根本的な解消を目指します。
T3KI-20171031A 2017/10 2018/4/5 「TSUBAMEポイント利用状況確認」において利用履歴が負の値を取っている場合がある。(利用後にポイントが減らないどころか増えている問題)(2018/4/5)定期的に問題を検出し返却を行いつつ、根本的な解消を目指します。
T3KI-20170913A 2017/9/13   Ubuntu16.04で次のようにエラーが出てTSUBAME3.0に鍵認証でSSHができない場合がある。「sign_and_send_pubkey: signing failed: agent refused operation」手元の端末でssh-addコマンドで事前に鍵登録すると解決する。
T3KI-20170829D  2017/8/29   Ansys FluentをCygwin/Xで起動するとsegmentation faultになる場合がある。PuTTy + Xmingなどの組み合わせをお試しください。
T3KI-20170829C 2017/8/25   macOS Sierra 10.12.6のXQuartzでTSUBAME3.0に接続し、COMSOLを起動しようとすると、エラーメッセージが表示され起動できない。 PC側のOpenGLとの相性による不具合との可能性が高い。次のオプションで接続してください。 $ ssh -YC login.t3.gsic.titech.ac.jp -l USER-ID
T3KI-20170824A 2017/8/24   2ノード目以降でモジュールが読み込めない場合がある。ジョブスケジューラUGEの問題で、LD_LIBRARY_PATHが引き継げないことを確認している。UGEスクリプトに環境変数を指定する-vオプションを追加し、計算に必要なライブラリを御指定ください。
例: #$ -v LD_LIBRARY_PATH=/apps/t3/sles12sp2/cuda/8.0/lib64
T3KI-20170822A 2017/8/18   qrshで固まる。 端末の設定でフロー制御が有効になっているため、rshによりリモートホスト上で操作を行う場合に特定の処理(Ctrl + s)が使用できないことが原因である。qrshを実行する前に以下のコマンドを実行する。
stty -ixon
T3KI-20170818B 2017/8/18   予約ノード以外でも24時間を超えるジョブがsubmitできてしまう。
T3KI-20170818A 2017/8/18 2017/9/14 LAMMPSが複数ノードで実行できない。ジョブスケジューラUGEのバグである。
(9/14)ジョブスクリプトの冒頭で #$ -v LD_LIBRARY_PATH=/apps/t3/sles12sp2/cuda/8.0/lib.375.66:/apps/t3/sles12sp2/cuda/8.0/lib64 と指定することで回避できます。

解決済み

管理番号 確認日 更新日 内容
T3KI-20171221A 2017/12/20 2018/4/5 12月19日のジョブスケジューラアップデート以降s_gpuでGPUが必ず確保できない。原因が特定できないので資源タイプs_gpuの提供を停止しています。(2018/1/11)これまでの調査で検証・解析環境での不具合再現はできているものの具体的な解決時期は未定となっています。(2018/4/5年度末メンテナンスで解消されました)
T3KI-20180201 2017/2/1 2017/2/13 q_core=2以上を指定した場合、各ノードにおいて 正しく4coreが正しく割り当てられない。q_core=1では問題ない。
(2/13追記)本日修正されました。
T3KI-20170926A 2017/9/26 2017/12/21 fnodeを指定した際バッチシステム側のリソースマップ(CPUコアとGPUのトポロジー)に不具合が発生してることを確認しました。例えば物理コア28コア中、21コアしか利用できないなど。バッチシステムの不具合でりベンダーと調整中
(9/28)ベンダーで障害の再現ができ、回避策の提案がありテスト中です。
(9/29)28日の15:30に暫定回避措置を実施。
(12/21)12月19日のジョブスケジューラアップデートで修正されました。正しく動作するか経過観察中です。
T3KI-20170925A 2017/9/23 2017/11/1 9月23日頃よりqsub,qstat,qdelが失敗する。バッチスケジューラのバグで暫定措置としてnewgrpコマンドで自分のグループを指定する。詳しくはこちら
(11/1)本日のスケジューラのバージョンアップで修正されました。
T3KI-20170914A 2017/8/1 2018/4/5 予約出来ない。予約機能の動作に問題があるため、公開を見合わせております。
(2018/1/30)1/29のメンテナンスを持って予約機能を公開しました
(2018/4/5)不具合によりすぐに公開を見合わせていた予約機能を年度末メンテナンスで修正してサービスインしました。
T3KI-20170829B 2017/8/29   東工大共通メールアドレスが作成されていないとTSUBAMEアカウントが作成できない。先に姓名読み登録を行いメールアドレスを発行してください。またその旨を表示するようポータルの改修を行います。
T3KI-20170829A 2017/8/28 2017/9/14 ポータルのジョブ利用履歴にてログインノードと食い違う場合がある。例えば終了したのにSTATUSが処理中(r)の表示がされることがある。ログインノードで参照できる情報が正しい。累計使用ポイントについても修正を行う。(9/xx)現在は修正が終わっております。
T3KI-20170825A 2017/8/23 2017/8/25 複数ノードを利用した場合ローカルスクラッチ領域が作成されない場合がある。バッチスケジューラUGEの修正で解決。
T3KI-20170822B 2017/8/1 2017/8/23 利用申請時に「予期せぬエラーが発生しました。システム管理者へ連絡してください。」と表示されてアカウントが作成できない人がいる。ブラウザを変えても無理。
(8/23追記)原因が特定でき修正されました。
T3KI-20170803A 2017/8/3 2017/9/14 ジョブ投入時・qrsh実行時に下記のエラーが表示される。一時的なエラーですので、再度実行してください。
Unable to run job: master got unknown command from JSV: "ERROR".Exiting.
(9/14)現在は解消されているようですが、再発する場合はご連絡ください。
T3KI-20170802F 2017/8/2 2017/9/14 TSUBAMEポータルで言語切り替え時にエラー画面となる。(9/xx)現在はこのような現象は発生しないよう修正済みです。問題発生時にはご連絡ください。
T3KI-20170802D 2017/8/1 2017/9/14 ポータルでパスワードを変更しても成功したか失敗したか表示されない。(x/xx)変更結果を通知するダイアログが表示されるようになりました。
T3KI-20170802C 2017/8/1 2017/9/14 ストレージサービス(CIFS)に接続できない。(9/xx)接続できるようになりました。
T3KI-20170802A 2017/8/1 2017/8/7 一部のブラウザから新規利用申請ができない。
(8/7更新) 2017/8/3にポータルを修正いたしました。
現在も上手くいかない場合は、回避策として別のブラウザを利用してください。
Windows10+IE -> Firefoxをご利用ください
macOS Sieera+Chrome 57 -> Safariをご利用ください
また、JavaScriptが有効になっていることをご確認ください。
T3KI-20170803B 2017/8/3 2017/8/4 グループ招待メールの有効期限が30分で切れる。有効期限を1週間に修正予定です。
(8/4更新) グループ招待メールの有効期限が1週間に修正されました。
T3KI-20170802Bもご参照ください
T3KI-20170802B 2017/8/1 2017/8/3 グループの招待メールのリンクをクリックするも正しく処理されない。メーラによって、末尾の「=」がリンクに含まれない場合がある。その場合は「=」を含めてブラウザにコピーペーストしてご対応ください。

仕様である

管理番号 確認日 更新日 内容
T3KI-20170802E 2017/8/1 2017/9/14 (2017/9/14)お問い合わせフォームでエラーとなることがある。chmodなどのシステムコマンドと一致する文字列が攻撃と誤検知されてエラーとなる。当面はこの文のように2バイト文字に置き換えるなどで対処してください。
T3Ki-20170926A 2017/8/1   Aで始まる8桁のアクセスカードの利用申請が承認されない。アクセスカードは誰でも取得しようと思えばできてしまうので、身分を示す書類提出が必要です。アカウント取得のページをご覧ください。