让文本数据起舞：用Pandas征服str/object类型操作

2024-01-03 05:05:32

引言

在数据分析的广阔天地中，文本数据扮演着不可或缺的角色。从社交媒体评论到新闻报道，文本数据蕴含着宝贵的见解，等待着我们去挖掘。而作为数据分析界的瑞士军刀，Pandas凭借其强大的文本处理能力，成为我们驾驭文本数据的利器。

正则表达式的艺术

正则表达式（Regex）堪称文本处理领域的超级英雄。它用一套简洁而强大的语法，赋予我们精细操控文本的能力。例如，要提取电子邮件地址，只需一行代码：

import re

pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
email_addresses = re.findall(pattern, text)

字符串方法的魅力

除了正则表达式，Pandas还提供了一系列字符串方法，让我们可以轻松处理文本数据。从拆分字符串到查找子字符串，这些方法应有尽有。例如，要将姓名拆分为名和姓：

full_name = 'John Doe'
first_name, last_name = full_name.split()

缺失值处理的技巧

缺失值是文本数据处理中常见的挑战。Pandas提供了多种方法来处理缺失值，包括填充、删除或替换。例如，要用"未知"值填充缺失的姓名：

data['name'].fillna('Unknown', inplace=True)

数据清洗的魔法

在处理文本数据时，数据清洗至关重要。它能去除噪声和不一致性，确保数据的高质量。Pandas提供了一系列内置函数，帮助我们轻松完成数据清洗任务。例如，要删除标点符号：

data['text'] = data['text'].str.replace('[^\w\s]', '')

示例代码

以下代码演示了如何在Pandas中处理文本数据：

import pandas as pd
import re

data = pd.DataFrame({
    'name': ['John Doe', 'Jane Smith', None],
    'email': ['john.doe@example.com', 'jane.smith@example.com', 'unknown'],
    'text': ['Hello, world!', 'This is a test.', '']
})

# 正则表达式提取电子邮件地址
email_addresses = re.findall(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', data['email'])

# 字符串方法拆分姓名
names = data['name'].str.split()

# 缺失值填充
data['name'].fillna('Unknown', inplace=True)

# 数据清洗删除标点符号
data['text'] = data['text'].str.replace('[^\w\s]', '')

# 打印结果
print(data)