DVC

管理方法

S3でのセットアップ

先にバケットとIAM User(S3FullAccess)を作っておく、 そして.envで設定しておき、pipenvで読み込み、その後.envを作成する。

$ cp .env.example .env

初期設定

$ dvc init

リモート設定

ローカルでのデータの管理ディレクトリの設定

$ dvc remote add mylocal /tmp/local_storage

リモートでデータの管理パスの設定 (-dでデフォルトになる)

$ dvc remote add -d newremote s3://mydvc/bush-api

リモートの確認

$ dvc remote list
mylocal /tmp/local_storage
newremote       s3://mydvc/bush-api

NOTE:

  • デフォルト以外で実行する時は、明示的に--remote mylocalが必要

追加時

DVCではcommitは不要

$ touch data/data.xml
$ dvc add data/data.xml
$ git add data/.gitignore data/data.xml.dvc
$ git commit -m "add data.xml"

Push

$ dvc push
$ git push origin main

Status

$ dvc status

Checkout

$ dvc checkout data/data.xml

Fetch

$ git fetch
$ dvc fetch

Pull

$ git pull origin main
$ dvc pull

参考文献

  • https://takaherox.hatenablog.com/entry/2020/02/24/134850
  • https://dvc.org/doc/command-reference/remote/add