这是我参加2022初次更文应战的第14天,活动概况查看:2022初次更文应战
与 Git 相同,DVC 答应在分布式环境进行协作。 咱们可以轻松地将一切数据文件、目录以及匹配的源代码完全相同地导入任何机器。 您需求做的就是为您的 DVC 项目设置长途存储库,并将数据推送到那里,以便其他人可以访问它。 现在 DVC 支撑 Amazon S3
、Microsoft Azure Blob Storage
、Google Drive
、Google Cloud Storage
、SSH
、HDFS
和其他长途存储地址,而且该列表还在持续增长。 (一个完整的列表和装备阐明,请参阅 dvc remote add
。)
例如,咱们来为 DVC 项目设置 S3 长途存储,并 push
或 pull
它。
创立 S3 存储桶
如果您的 S3 账户中还没有可用的,请按照创立存储桶中的阐明进行操作。 作为更高档的可选计划,您可以改用 aws s3 mb
指令作为代替。
设置 DVC 长途存储
要在项目中实践装备 S3 长途存储,请向 dvc remote add
指令供给用来存储数据的存储桶 URL ,如下所示:
$ dvc remote add -d myremote s3://mybucket/path
Setting 'myremote' as a default remote.
其中,-d
(--default
) 参数将 myremote
设置为该项目的默认长途存储。这会将 myremote
添加到您的 .dvc/config
中。 装备文件中现在有一个remote
部分:
['remote "myremote"']
url = s3://mybucket/path
[core]
remote = myremote
dvc remote modify
指令供给了多种装备 S3 存储桶的参数选项。
下面,咱们提交更改并推送代码到 Git 长途仓库:
$ git add .dvc/config
$ git push
上传数据和代码
运用 dvc run
或其他指令将数据添加到项目后,它将存储在本地缓存中。 运用 dvc push
指令将其上传到长途存储:
dvc push
下载代码
下面运用惯例的 Git 指令从您的 Git 服务器下载代码和 DVC 元数据文件。
例如,本地没有的项目,运用git clone
:
$ git clone https://github.com/example/project.git
$ cd myproject
关于本地已有的项目,运用git pull
:
$ git pull
下载数据
为您的项目下载数据文件,请运行dvc pull
:
$ dvc pull
dvc pull
将从 .dvc/config
文件中装备的默认长途存储库下载缺失的数据文件。