返回

机器学习的数学基础:高维空间中的点积和距离

人工智能

机器学习的数学基础(三)

暑假打算做一个大数据项目巩固所学知识。我参加了某硅谷的实时推荐和机器学习项目(https://www.bilibili.com/video/BV1R4411N78S?p=1),以下是我的学习笔记:

高维空间中的点积

在机器学习中,我们经常处理高维空间中的数据,其中每个数据点由多个特征表示。点积是衡量两个向量相似性的关键度量。

对于两个向量 x = (x_1, x_2, ..., x_n)y = (y_1, y_2, ..., y_n),其点积为:

点积(x, y) = x_1y_1 + x_2y_2 + ... + x_ny_n

点积反映了向量在相同方向上的投影。它可以用来判断两个向量的相似性。点积越大,两个向量越相似。

正交性

两个向量 xy 是正交的,如果它们的点积为零。这表明两个向量在彼此不同的方向上。正交性在机器学习中非常重要,因为它可以帮助我们识别和消除冗余特征。

内积

内积是点积的推广,它可以用于衡量非正交向量的相似性。内积为:

内积(x, y) = ||x|| ||y|| cosθ

其中 ||x||||y|| 是向量的模长,θ 是两个向量之间的夹角。内积的值介于 -1 到 1 之间,-1 表示完全反向,0 表示正交,1 表示完全相同。

余弦相似度

余弦相似度是衡量两个向量相似性的另一种方法。它是内积与向量模长的乘积的商:

余弦相似度(x, y) = cosθ = (x_1y_1 + x_2y_2 + ... + x_ny_n) / (||x|| ||y||)

余弦相似度不受向量模长影响,因此它可以用于比较具有不同模长的向量。余弦相似度值介于 -1 到 1 之间,-1 表示完全反向,0 表示正交,1 表示完全相同。

距离

在机器学习中,距离度量用于衡量两个数据点之间的差异。常用的距离度量包括:

欧氏距离:

欧氏距离(x, y) = √((x_1 - y_1)^2 + (x_2 - y_2)^2 + ... + (x_n - y_n)^2)

欧氏距离是两个点之间的直线距离。它考虑了所有特征的差异。

曼哈顿距离:

曼哈顿距离(x, y) = |x_1 - y_1| + |x_2 - y_2| + ... + |x_n - y_n|

曼哈顿距离是两个点之间沿轴的距离。它只考虑特征差异的绝对值。

结论

点积和距离是机器学习中衡量相似性和差异性的重要度量。它们在特征选择、聚类和分类等任务中发挥着至关重要的作用。理解这些概念对于成功地应用机器学习算法至关重要。