返回

DVC 使用指南:项目结构中 .dvcignore 文件详解

人工智能

DVC(Data Version Control)是一种数据版本控制工具,可让您跟踪和管理机器学习项目中的数据。与 Git 类似,DVC 使用 .dvcignore 文件来指定在遍历项目时应排除哪些文件和目录。

什么是 .dvcignore 文件?

.dvcignore 文件是一个文本文件,包含要从 DVC 跟踪中排除的文件和目录的模式。这些模式与 Git 中 .gitignore 文件的语法相同。

为何使用 .dvcignore 文件?

使用 .dvcignore 文件的原因有几个:

  • 排除大型文件: 避免跟踪占用大量存储空间的大型文件,例如数据集或预训练模型。
  • 排除临时文件: 排除临时生成的文件,例如中间输出或缓存。
  • 排除编译文件: 排除编译过程中生成的文件,例如 .pyc 文件。
  • 排除私人数据: 保护敏感数据,例如密码或 API 密钥。
  • 提高性能: 通过减少 DVC 需要跟踪的文件数量来提高性能。

.dvcignore 文件语法

.dvcignore 文件的语法与 .gitignore 文件相同,使用以下模式指定要排除的文件和目录:

  • Glob 模式: 类似于文件名的通配符模式,例如 *.csvdata/*exclude.txt
  • 绝对路径: 指定文件的完整路径,例如 /path/to/file.txt
  • 目录: 使用 / 结尾的模式指定目录,例如 logs/__pycache__
  • 排除模式: 使用 ! 字符否定模式,例如 !README.md 将包括 README.md 文件。

创建 .dvcignore 文件

要创建 .dvcignore 文件,请执行以下步骤:

  1. 在项目根目录中创建一个名为 .dvcignore 的文本文件。
  2. 添加要排除的文件和目录的模式。
  3. 保存并关闭文件。

限制

  • DVC 将忽略 .dvcignore 文件中列出的所有文件和目录,即使它们存在于版本控制中。
  • 使用通配符模式时,DVC 将递归遍历目录。
  • 更改 .dvcignore 文件后,您需要使用 dvc add 命令将更改添加到版本控制中。

结论

.dvcignore 文件是一个强大的工具,可让您从 DVC 跟踪中排除不必要的文件。通过使用此文件,您可以提高性能、保护敏感数据并使项目结构井然有序。