针对 Pandas 数据框每一行训练线性回归：如何生成斜率？

python

2024-03-12 00:53:14

针对 Pandas 数据框中的每一行训练线性回归：生成斜率

导言

在数据分析和机器学习中，线性回归是一种广泛使用的技术，用于了解输入变量和输出变量之间的关系。本教程将引导你逐步完成如何针对 Pandas 数据框中的每一行训练线性回归模型并生成相应的斜率。

背景

线性回归假设输入变量和输出变量之间存在线性关系。模型的目标是找出能够最准确地此关系的直线。直线的斜率代表因变量相对于自变量的变化率，为我们提供了变量之间关系的宝贵见解。

构建训练数据

创建数组目标和预测特征

训练线性回归模型的第一步是将数据转换为适当的形式。我们需要创建两个数组：arrayTarget 和 arrayPred。arrayTarget 将包含每个行的目标值，而 arrayPred 将包含相应的预测特征值。

数组目标 ：目标值是我们想要预测的变量。
预测特征 ：预测特征值是用于预测目标值的变量。

训练线性回归

有了数组目标和预测特征后，我们可以使用 Scikit-learn 库中的 LinearRegression 类来训练线性回归模型。我们将在数据框的每一行上执行以下步骤：

提取目标和预测特征 ：对于每一行，我们需要提取目标值和预测特征值。
训练模型 ：如果数据点数量足够，我们使用 Scikit-learn 的 fit() 方法训练线性回归模型。
获取斜率 ：从训练后的模型中，我们可以获取斜率。斜率代表因变量相对于自变量的变化率。

代码示例

# 导入必要的库
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression

# 创建数据框
ds = {'col1': [11, 22, 33, 24, 15, 6, 7, 68, 79, 10, 161, 12, 113, 147, 115]}
df = pd.DataFrame(data=ds)

# 创建预测特征
df['predFeature'] = range(1, len(df) + 1)

# 创建数组目标和预测特征
df['arrayTarget'] = [np.array(df['col1'][i-4:i]) for i in range(len(df))]
df['arrayPred'] = [np.array(df['predFeature'][i-4:i]) for i in range(len(df))]

# 训练线性回归和获取斜率
for i in range(len(df)):
    y = df['arrayTarget'][i]
    X = df['arrayPred'][i]
    
    if len(y) >= 2:
        model = LinearRegression()
        model.fit(X.reshape(-1, 1), y)
        slope = model.coef_[0]
        df.at[i, 'slope'] = slope