返回

从零开始的机器学习 - Machine Learning(一) 线性回归

人工智能

从零开始的机器学习 - Machine Learning(一) 线性回归

写在前面


机器学习,听起来就高大上,自从人工智能的崛起,机器学习就一直是炙手可热的技术,几乎所有的互联网大厂都在招机器学习相关人才,我也希望有朝一日能学有所成,加入到这些大厂中,在这之前,我需要做的就是学习!


初识机器学习


机器学习属于人工智能的一个分支,它能让计算机在不显式编程的情况下学习。通俗来讲,就是让计算机像人一样,从经验中自动学习。机器学习的应用场景非常广泛,比如图像识别、自然语言处理、推荐系统等等。


机器学习分类


机器学习可以分为 supervised learning(监督学习)、unsupervised learning(无监督学习)和 reinforcement learning(强化学习)三类。

  • 监督学习 :有标签的数据集,通过学习已知输入和输出之间的关系,来预测或分类新的数据。例如,图像识别,输入是图像,输出是图像中的物体类别。
  • 无监督学习 :没有标签的数据集,通过发现数据中的模式和结构,来提取有用的信息。例如,聚类,将具有相似特征的数据点归为一类。
  • 强化学习 :通过试错的方式,学习采取哪些行动可以获得最大的奖励。例如,机器人学习如何在不撞到障碍物的情况下在房间中行走。

线性回归


线性回归是监督学习中的一种简单且常用的算法。它用于预测连续型目标变量,即给定一组输入变量,预测一个连续型输出变量。例如,根据房子的面积和卧室数量预测房价。


线性回归的模型是一个线性方程:

y = a + bx

其中,y 是输出变量,x 是输入变量,a 和 b 是模型参数。


模型训练


模型训练的目标是找到一组参数 a 和 b,使得模型预测的输出与真实输出之间的误差最小。通常使用均方误差(MSE)作为误差度量:

MSE = 1/n * Σ(y_i - ŷ_i)^2

其中,n 是数据集中样本的数量,y_i 是真实输出,ŷ_i 是模型预测的输出。


模型评估


模型训练完成后,需要对模型进行评估,以衡量其泛化能力,即预测新数据的能力。通常使用以下指标:

  • 均方根误差(RMSE) :MSE 的平方根。
  • 决定系数(R^2) :衡量模型预测与真实输出之间的相关性,取值范围为 0 到 1。
  • 交叉验证 :将数据集划分为多个子集,轮流使用其中一个子集作为测试集,其余子集作为训练集,以减轻过拟合。

总结


线性回归是一种简单的监督学习算法,用于预测连续型目标变量。它通过训练一个线性方程模型来找到输入变量和输出变量之间的关系。通过评估模型的性能,可以确定其泛化能力。


推荐阅读