機械学習向け読み込み専用ストレージ領域

機械学習などに用いられるデータベースを、TSUBAMEに接続された専用サーバ上のSSDで提供します。

 

(2023.3.2)運用上の都合につき一時的に公開を停止しました、再開は4月の予定です

 

(注: 実験的サービスとしての公開であるため、予告なく変更・公開終了する可能性があります)

注意点

  • Lustre並列ファイルシステム(/gs/hs*/)上のファイルとは以下の点で異なるため、場合によってはLustreよりも性能が出ない可能性もあります
    • Pros: データの置き場所がRAID-0のSSD (/gs/hs*/ は RAID-6のHDD)
    • Cons: サーバやSSD、ネットワークの並列化をしていないため、アクセスが集中すると極端に遅くなる
  • 一般ユーザによるデータの書き込みはできません、データ配置リクエストは本記事の末尾をご参照ください
  • ディスク故障などの際には長期間のサービス停止が見込まれます

提供しているデータ一覧

  • Alphafold2データベース
    • /gs/ss0/alphafold/2.1.1/data/ $ALPHAFOLD_DATA_DIR
    • module load alphafold ののちに、ALPHAFOLD_DATA_DIR環境変数に上記パスを設定してください
  • ILSVRC2012データセット(いわゆるImageNet): 学術利用ユーザのみ
    • /gs/academic/ss0/ILSVRC2012/ /gs/hs0/GSIC/ILSVRC2012/
    • ImageNet公式サイト上でユーザ登録を行ったうえでご利用ください
    • データ配置の詳細は上記ディレクトリ内を適宜ご確認ください

学術利用ユーザのみとなっているデータについては、ライセンスの関係で学内利用者のみにアクセスを開放しています。東工大外の学術利用ユーザには個別にアクセス権を設定いたしますので、お問い合わせください。

データ配置リクエストについて

以下の条件を満たすデータベースについて、リクエストに基づきデータを配置いたします。リクエストがある方はお問い合わせください。
なお、リクエストいただいたすべてのデータを配置するとは限りませんのでご了承ください。

  • 広く利用されているソフトウェアに向けた公開データベースであること
    • 1つの研究グループでしか利用しえないデータは当面対象としません
    • 非商用利用などの一般的なライセンス条項よりも複雑な許諾条件のものは対象としません
  • 適切なデータベースサイズであること
    • 1GB未満の、ホームディレクトリやグループディスクに難なく収まるサイズのものは対象としません
    • SSD容量(RAID-0容量15TB)の関係で大きすぎるデータセットはお断りすることがあります