从算法原理到编程实践：掌握线性回归模型，揭秘人工智能核心

人工智能

2023-11-08 10:51:57

什么是线性回归？

线性回归是一种简单的统计学模型，用于预测数值型目标变量。这类模型通过寻找输入特征与输出之间的线性关系来工作。这种关系通常表示为一个直线方程。

数学表达式

假设有一个单一的输入特征 (x) 和对应的输出值 (y)，线性回归模型可以写作：
[ y = \beta_0 + \beta_1 x ]
其中，( \beta_0 ) 是截距，而 ( \beta_1 ) 是斜率。

目标

目标是找到最佳的 ( \beta_0 ) 和 ( \beta_1 )，使得预测值与实际观测值之间的差异最小。这个过程通常通过最小化误差平方和来完成，这就是所谓的“最小二乘法”。

实现线性回归模型

使用Python语言实现一个简单的线性回归模型非常直接，可以借助Scikit-Learn库。

安装必要的库

pip install scikit-learn numpy matplotlib

导入库和创建数据集

首先导入需要的库并生成一些伪随机的数据用于演示。

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt

# 生成数据集
np.random.seed(0)
x = np.random.rand(100, 1) * 10
y = 3 + 2.5 * x + np.random.randn(100, 1)

plt.scatter(x, y)
plt.xlabel('Input Feature')
plt.ylabel('Target Variable')
plt.title('Scatter Plot of Data')
plt.show()

划分训练集与测试集

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

模型训练

使用Scikit-Learn库中的LinearRegression类来训练模型。

model = LinearRegression()
model.fit(x_train, y_train)

# 获取截距和斜率
intercept = model.intercept_[0]
slope = model.coef_[0][0]

print(f"Intercept: {intercept:.2f}, Slope: {slope:.2f}")

模型预测与评估

y_pred = model.predict(x_test)
mse = mean_squared_error(y_test, y_pred)

# 绘制回归线
plt.scatter(x_train, y_train, color='blue', label="Training Data")
plt.plot(x_train, intercept + slope * x_train, color='red', linewidth=3, label=f"Linear Regression Line\ny={intercept:.2f}+{slope:.2f}*x")

# 绘制测试数据
plt.scatter(x_test, y_test, color='green', marker='s', label="Test Data")
plt.xlabel('Input Feature')
plt.ylabel('Target Variable')
plt.title(f'Linear Regression Model (MSE={mse:.2f})')
plt.legend()
plt.show()