使用 Python 根据 GroupBy 值生成指定范围内的随机值：分步指南

2024-03-05 22:28:59

使用 Python 中的 Groupby 生成值范围

简介

在数据分析和建模中，生成符合特定范围的随机值是一个常见的任务。在 Python 中，你可以利用 numpy 和 pandas 库来轻松实现此目的，特别是在分组数据时。本文将深入探讨如何根据 groupby 值生成指定范围内的值，提供一个分步指南和示例代码。

1. 设置问题

假设你有输入数据，其中变量的值范围因不同组别而异。目标是为每个组别生成符合指定范围内的随机值，并按组别对结果进行分组。

2. 解决方法

步骤 1：导入必要的库

import numpy as np
import pandas as pd

步骤 2：定义输入数据

将输入数据放入字典中，其中键是变量名，值是范围元组或 None（对于没有范围的变量）。

步骤 3：生成随机值

使用 numpy.random.uniform 函数为每个变量生成指定范围内的随机值。对于没有范围的变量，生成一个随机整数。

步骤 4：输出结果

使用 pandas 库将生成的随机值转换为 DataFrame，并按 VarName 列分组。

3. 示例代码

input_data = {
    "LtoV": (0.00, 2.00),
    "Age": (0, 60),
}

def generate_values(num_rows, input_data):
    data = []
    for var_name, range_tuple in input_data.items():
        if range_tuple is not None:
            values = np.random.uniform(*range_tuple, size=num_rows)
        else:
            values = np.random.randint(0, 100, size=num_rows)
        data.extend(zip([var_name] * num_rows, values))
    return data

data = pd.DataFrame(generate_values(20, input_data))
data.columns = ["VarName", "column2"]
data.groupby("VarName").apply(lambda x: print(x))

输出示例：

   VarName  column2
0     LtoV    0.044782
1     LtoV    0.021139
2     LtoV    1.514833
3     LtoV    0.283393
4     LtoV    0.524672
5     LtoV    1.070635
6     LtoV    0.332612
7     LtoV    0.811576
8     LtoV    0.975345
9     LtoV    0.657920
10    LtoV    0.115283
11    LtoV    0.305688
12    LtoV    0.893946
13    LtoV    0.436362
14    LtoV    0.148146
15    LtoV    1.337983
16    LtoV    0.786469
17    LtoV    0.205580
18    LtoV    0.743423
19    LtoV    0.542937