返回
《西瓜书》中机器学习的基本术语解读
人工智能
2024-02-10 00:40:22
1. 基本术语
机器学习的基本术语包括数据集、属性、特征、属性值、属性空间、样本空间、输入空间、特征向量、维数、训练数据、训练样本、训练集、标记、样例、假设空间、目标函数、泛化误差、训练误差、过拟合、欠拟合等。这些术语对于理解机器学习的概念和算法至关重要。
**1.1 数据集**
数据集是机器学习算法学习和训练的数据集合。数据集通常包含许多个样本,每个样本都由若干个属性组成。
**1.2 属性**
属性是样本的特征,用于样本的性质。例如,在一个人的数据集 中,属性可能包括年龄、性别、身高、体重等。
**1.3 特征**
特征是属性的取值。例如,在描述人的数据集 中,“年龄”属性的特征可以是10岁、20岁、30岁等。
**1.4 属性值**
属性值是属性的具体取值。例如,在描述人的数据集 中,“年龄”属性的属性值可以是10岁、20岁、30岁等。
**1.5 属性空间**
属性空间是所有属性值的集合。例如,在描述人的数据集 中,“年龄”属性的属性空间是所有年龄值的集合。
**1.6 样本空间**
样本空间是所有样本的集合。例如,在一个描述人的数据集 中,样本空间是所有人的集合。
**1.7 输入空间**
输入空间是所有样本的特征向量的集合。例如,在一个描述人的数据集 中,输入空间是所有人的年龄、性别、身高、体重等特征向量的集合。
**1.8 特征向量**
特征向量是样本的属性值的集合。例如,在一个描述人的数据集 中,一个人的特征向量可能包含他的年龄、性别、身高、体重等属性值。
**1.9 维数**
维数是特征向量的长度。例如,在一个描述人的数据集 中,一个人的特征向量可能包含10个属性值,那么这个特征向量的维数就是10。
**1.10 训练数据**
训练数据是机器学习算法学习和训练所使用的数据。训练数据通常占整个数据集的大部分。
**1.11 训练样本**
训练样本是训练数据中的单个样本。
**1.12 训练集**
训练集是所有训练样本的集合。
**1.13 标记**
标记是样本的真实值。例如,在一个描述人的数据集 中,“性别”属性的标记可以是“男”或“女”。
**1.14 样例**
样例是样本的另一种称呼。
**1.15 假设空间**
假设空间是所有可能的模型的集合。
**1.16 目标函数**
目标函数是用来衡量模型好坏的函数。目标函数通常是模型的误差。
**1.17 泛化误差**
泛化误差是模型在整个样本空间上的误差。
**1.18 训练误差**
训练误差是模型在训练数据上的误差。
**1.19 过拟合**
过拟合是指模型在训练数据上的误差很小,但在整个样本空间上的误差很大。
**1.20 欠拟合**
欠拟合是指模型在训练数据上的误差很大,但在整个样本空间上的误差很小。