如何使用 Python 和 Openpyxl 解析 Excel 中的目录代码？

python

2024-03-26 19:41:32

使用 Python 和 Openpyxl 解析 Excel 中具有层次结构的目录代码

理解 Excel 数据结构

在 Excel 工作表中，每个目录代码由四列组成，分别表示主要目录代码、次要目录代码、三级目录代码和四级目录代码。它们共同了具有层次结构的目录。

例如，目录代码 "F 1 10 08" 表示：

F: 财务
F 1: 收入（包括回收）
F 1 10: 服务接收者服务收入
F 1 10 08: LHIN 一次性资助

解析 Excel 数据

1. 创建目录类

我们创建一个 Directory 类来表示目录，其中包含代码、名称、和父目录属性。

2. 构建目录树

使用根目录创建一棵目录树，并根据提供的 Excel 数据添加子目录。

3. 查找目录

实现一个 find_directory 函数，使用给定的目录代码查找目录树中的目录。

4. 处理 Excel 文件

加载 Excel 文件并遍历数据行，对于每一行：

提取目录信息
使用 find_directory 函数查找对应的目录
如果找到，获取目录描述并将其添加到一行中

添加目录描述

使用目录树中的目录名称和描述来填充 Excel 工作表中的附加列，从而创建具有层次结构的完整目录描述。

Python 代码实现

以下是 Python 代码的简化版本：

import openpyxl

class Directory:
    def __init__(self, code, name, description=""):
        self.code = code
        self.name = name
        self.description = description
        self.subdirectories = []

def find_directory(directory, target_code):
    if directory.code == target_code:
        return directory
    for subdirectory in directory.subdirectories:
        result = find_directory(subdirectory, target_code)
        if result:
            return result
    return None

def process_excel_file(excel_file):
    wb = openpyxl.load_workbook(excel_file)
    sheet = wb.active
    data_rows = sheet.iter_rows(min_row=2, min_col=1, max_col=4, values_only=True)
    processed_data = []
    for row in data_rows:
        directory_info = [str(cell).strip() if cell else "" for cell in row]
        target_code = directory_info[0]
        directory = find_directory(root_directory, target_code)
        if directory:
            descriptions = [directory.description]
            current_directory = directory
            while current_directory:
                descriptions.append(current_directory.name)
                current_directory = current_directory.parent
            descriptions.reverse()
            processed_row = directory_info + descriptions[1:]
            processed_data.append(processed_row)
        else:
            print(f"Directory {target_code} not found.")
    return processed_data