機械学習向け読み込み専用ストレージ領域

機械学習などに用いられるデータベースを、TSUBAMEに接続された専用サーバ上のSSDで提供します。

(注: 実験的サービスとしての公開であるため、予告なく変更・公開終了する可能性があります)

(2023.4.11) 運用上の都合で一時提供を中止していましたが、再開しました。昨年度と利用法が変更となっているためご注意ください。

注意点

  • Lustre並列ファイルシステム(/gs/hs*/)上のファイルとは以下の点で異なるため、場合によってはLustreよりも性能が出ない可能性もあります
    • Pros: データの置き場所がRAID-0のSSD (/gs/hs*/ は RAID-6のHDD)
    • Cons: サーバやSSD、ネットワークの並列化をしていないため、アクセスが集中すると極端に遅くなる
  • 一般ユーザによるデータの書き込みはできません、データ配置リクエストは本記事の末尾をご参照ください
  • ディスク故障などの際には長期間のサービス停止が見込まれます
  • f_node において、ジョブスクリプト内に #$ -v USE_SS=1を記載した場合のみ利用できます。(2023.04より)
    • f_node以外および上記記載がない場合はアクセスできません。

提供しているデータ一覧

  • Alphafold2データベース
    • /gs/ss0/alphafold/2.X.X/data/
    • module load alphafold ののちに、ALPHAFOLD_DATA_DIR環境変数に上記パスを設定してください
    • パス内 X.X は利用するAlphafoldのバージョンに合わせて、元のALPHAFOLD_DATA_DIRの内容を参考に適宜変更してください。
  • ILSVRC2012データセット(いわゆるImageNet): 学術利用ユーザのみ
    • /gs/academic/ss0/ILSVRC2012/
    • ImageNet公式サイト上でユーザ登録を行ったうえでご利用ください
    • データ配置の詳細は上記ディレクトリ内を適宜ご確認ください
    • 同一のデータが /gs/hs0/GSIC/ILSVRC2012/ にも保存されています (f_node以外からも利用可能)

学術利用ユーザのみとなっているデータについては、ライセンスの関係で学内利用者のみにアクセスを開放しています。東工大外の学術利用ユーザには個別にアクセス権を設定いたしますので、お問い合わせください。

データ配置リクエストについて

以下の条件を満たすデータベースについて、リクエストに基づきデータを配置いたします。リクエストがある方はお問い合わせください。
なお、リクエストいただいたすべてのデータを配置するとは限りませんのでご了承ください。

  • 広く利用されているソフトウェアに向けた公開データベースであること
    • 1つの研究グループでしか利用しえないデータは当面対象としません
    • 非商用利用などの一般的なライセンス条項よりも複雑な許諾条件のものは対象としません
  • 適切なデータベースサイズであること
    • 1GB未満の、ホームディレクトリやグループディスクに難なく収まるサイズのものは対象としません
    • SSD容量(RAID-0容量15TB)の関係で大きすぎるデータセットはお断りすることがあります