Bash 中解析 CSV 文件的权威指南：轻松提取和处理数据

2024-03-19 04:12:54

Bash 中解析 CSV 文件的终极指南

前言

在 Bash 脚本中处理 CSV（逗号分隔值）文件是一项常见的任务。这些文件包含结构化的数据，每行代表一条记录，每列代表该记录的一个值。解析这些文件对于提取和使用数据至关重要。本文将引导你完成 Bash 中解析 CSV 文件的分步过程。

设置分隔符

解析 CSV 文件的第一步是设置分隔符。分隔符指示单元格之间的分隔。在 Bash 中，使用 IFS（内部字段分隔符）变量来设置分隔符。

IFS=","

读取 CSV 文件

接下来，我们需要读取 CSV 文件并逐行进行处理。使用 read 命令读取每一行：

while read -r line; do
  ...
done < myfile.csv

解析各列

现在，我们需要将每一行解析为单独的列。Bash 提供了一种简单的方法来做到这一点：将行分配给一个数组，其中每个元素代表一列。

columns=($line)

迭代列

一旦我们有了包含各列的数组，就可以使用循环迭代数组，并访问每个列的值。

for col in "${columns[@]}"; do
  echo "$col"
done

完整示例

以下是一个完整的示例，演示了如何解析 CSV 文件并打印所有列：

IFS=","
while read -r line; do
  columns=($line)
  echo "Column 1: ${columns[0]}"
  echo "Column 2: ${columns[1]}"
  echo "Column 3: ${columns[2]}"
done < myfile.csv

代码问题分析

你提供的代码只能打印第一列，因为 read -d, col1 col2 < <(echo $line) 只读取了第一列。为了解析所有列，我们需要将整行解析为一个数组，然后再迭代数组。

常见问题解答

1. 如何处理空值？

column_value="${columns[0]-"NULL"}"

2. 如何忽略行首或行尾的空白？

IFS=","
while read -r -d, line; do
  ...
done < myfile.csv

3. 如何处理引号包围的值？

IFS=","
while read -r -d, line; do
  columns=($line)
  value="${columns[0]%\"}" # 去除尾部引号
  value="${value#\"}" # 去除首部引号
  echo "$value"
done < myfile.csv

4. 如何检测 CSV 文件是否有错误？

IFS=","
while read -r line || [[ -n "$line" ]]; do
  if [[ $(echo "$line" | wc -w) -ne 3 ]]; then
    echo "Error: Incorrect number of columns in line '$line'"
  fi
done < myfile.csv