如何高效找到两个数据框中的匹配行索引？

2024-03-11 01:37:49

找出两个数据框中的匹配行：一种高效的方法

在数据处理中，我们经常需要比较两个数据框并找出其中的匹配行。这在许多应用中都有用，例如合并数据集、识别重复项以及执行数据清理。在本文中，我们将探讨一种高效的方法来查找两个数据框之间匹配行的索引。

问题陈述

假设我们有两个数据框 df1 和 df2，它们都包含一个共同的列 data。我们的目标是找到 df2 中每行的匹配 df1 中的行索引。

示例：

data_a = ['a', 'b', 'c', 'd', 'e', 'f']
data_b = ['b', 'd', 'f', 'h']
df1 = pd.DataFrame(data_a, columns=['data'])
df2 = pd.DataFrame(data_b, columns=['data'])

我们的目标是获得以下输出：

indices = [1, 3, 5, None]

其中，df2 的第 0 行索引匹配 df1 的第 1 行索引，df2 的第 1 行索引匹配 df1 的第 3 行索引，依此类推。如果没有匹配，则值将为 None 或任何负值。

解决方法：pandas merge() 函数

我们可以使用 pandas 中的 merge() 函数高效地查找匹配行的索引。此函数根据指定列上的公共值合并两个数据框。在本例中，我们将使用 df1 和 df2 中的 data 列。

以下代码演示了如何使用 merge() 函数：

import pandas as pd

df = pd.merge(df1, df2, how='left', on='data', indicator=True)

# 提取匹配索引
indices = df[df['_merge'] == 'both']['_index_right']

代码解析

pd.merge(df1, df2, how='left', on='data', indicator=True) 合并 df1 和 df2，使用 data 列作为公共列，并使用 indicator=True 指定包含合并信息的附加列 _merge。
df[df['_merge'] == 'both'] 过滤出 _merge 列值为 'both' 的行，表示 df1 和 df2 中都有匹配的数据。
df['_index_right'] 提取 df2 中匹配行的索引，存储在 indices 中。