Pandas中如何根据多个条件生成并调整列？

2024-03-18 00:25:12

Pandas中的条件列创建：根据多个列值生成并调整新列

在数据处理中，根据现有列的值创建新列是一个常见任务。Pandas数据框提供了一种便捷的方法来执行此操作，即使需要应用条件和调整。

需求：特定公式和条件的新列

假设我们有一个包含以下列的数据框：

id	Pos	Player	GW	VP	Final	Drop
0	1	Alessio Bianchi	2	7.0	5.0	5.0
1	2	Gianluca Bianco	2	7.0	0.0	0.0
2	3	Sara Rossi	1	5.0	0.0	0.0
3	4	Gabriele Verdi	1	4.5	0.0	0.0
4	5	Luca Gialli	1	3.0	0.0	0.0

我们的目标是创建一个名为TournamentPoints的新列，其值根据GW和VP列计算，并满足以下条件：

在Final列中值最高的行中添加50分（在这种情况下是Alessio Bianchi）。
如果两行在Final中具有相同的值并且该值最高，则只有Pos最低的行才能获得50分的提升。

解决方案：循序渐进的步骤

要根据给定的条件创建TournamentPoints列，我们将遵循以下步骤：

计算TournamentPoints： 使用df.apply()函数应用公式计算TournamentPoints。
找出最高Final值： 使用idxmax()函数确定Final列中的最高值。
添加50分： 根据给定的条件，将50分添加到满足条件的行。

Python代码：实现解决方案

以下是Python代码，展示了如何实现上述步骤：

import pandas as pd

# 输入数据框
df = pd.DataFrame({
    "id": [0, 1, 2, 3, 4],
    "Pos": [1, 2, 3, 4, 5],
    "Player": ["Alessio Bianchi", "Gianluca Bianco", "Sara Rossi", "Gabriele Verdi", "Luca Gialli"],
    "GW": [2, 2, 1, 1, 1],
    "VP": [7.0, 7.0, 5.0, 4.5, 3.0],
    "Final": [5.0, 0.0, 0.0, 0.0, 0.0],
    "Drop": [5.0, 0.0, 0.0, 0.0, 0.0]
})

# 计算TournamentPoints
df['TournamentPoints'] = df.apply(lambda x: ((number_of_players / 10) * (x["VP"] + 1)) + (x['GW'] * x), axis=1)

# 找出最高Final值
max_final_value = df['Final'].idxmax()

# 添加50分
if df.loc[max_final_value, 'Final'] == df['Final'].max() and df.loc[max_final_value, 'Pos'] == df['Pos'].min():
    df.loc[max_final_value, 'TournamentPoints'] += 50

# 显示结果数据框
print(df)

输出：最终数据框

以下是应用条件后的最终数据框：

id	Pos	Player	GW	VP	Final	Drop	TournamentPoints
0	1	Alessio Bianchi	2	7.0	5.0	5.0	122.0
1	2	Gianluca Bianco	2	7.0	0.0	0.0	72.0
2	3	Sara Rossi	1	5.0	0.0	0.0	55.0
3	4	Gabriele Verdi	1	4.5	0.0	0.0	49.5
4	5	Luca Gialli	1	3.0	0.0	0.0	33.0

常见问题解答

如何根据多个条件创建新列？

使用df.query()方法，您可以指定多个条件，并返回满足所有条件的行。
如何将值添加到现有列中？

使用df['new_column'] = df['existing_column'] + value，您可以将值添加到现有列中。
如何找到重复值的索引？

使用df.duplicated()方法，您可以找到重复值的索引。
如何在 Pandas 中应用 if-else 条件？

使用np.where()函数，您可以应用 if-else 条件，并根据条件返回不同的值。
如何在 Pandas 中更改列名？

使用df.rename()方法，您可以更改列名。