机器学习的数学基础:高维空间中的点积和距离
2024-01-18 02:10:19
机器学习的数学基础(三)
暑假打算做一个大数据项目巩固所学知识。我参加了某硅谷的实时推荐和机器学习项目(https://www.bilibili.com/video/BV1R4411N78S?p=1),以下是我的学习笔记:
高维空间中的点积
在机器学习中,我们经常处理高维空间中的数据,其中每个数据点由多个特征表示。点积是衡量两个向量相似性的关键度量。
对于两个向量 x = (x_1, x_2, ..., x_n) 和 y = (y_1, y_2, ..., y_n),其点积为:
点积(x, y) = x_1y_1 + x_2y_2 + ... + x_ny_n
点积反映了向量在相同方向上的投影。它可以用来判断两个向量的相似性。点积越大,两个向量越相似。
正交性
两个向量 x 和 y 是正交的,如果它们的点积为零。这表明两个向量在彼此不同的方向上。正交性在机器学习中非常重要,因为它可以帮助我们识别和消除冗余特征。
内积
内积是点积的推广,它可以用于衡量非正交向量的相似性。内积为:
内积(x, y) = ||x|| ||y|| cosθ
其中 ||x|| 和 ||y|| 是向量的模长,θ 是两个向量之间的夹角。内积的值介于 -1 到 1 之间,-1 表示完全反向,0 表示正交,1 表示完全相同。
余弦相似度
余弦相似度是衡量两个向量相似性的另一种方法。它是内积与向量模长的乘积的商:
余弦相似度(x, y) = cosθ = (x_1y_1 + x_2y_2 + ... + x_ny_n) / (||x|| ||y||)
余弦相似度不受向量模长影响,因此它可以用于比较具有不同模长的向量。余弦相似度值介于 -1 到 1 之间,-1 表示完全反向,0 表示正交,1 表示完全相同。
距离
在机器学习中,距离度量用于衡量两个数据点之间的差异。常用的距离度量包括:
欧氏距离:
欧氏距离(x, y) = √((x_1 - y_1)^2 + (x_2 - y_2)^2 + ... + (x_n - y_n)^2)
欧氏距离是两个点之间的直线距离。它考虑了所有特征的差异。
曼哈顿距离:
曼哈顿距离(x, y) = |x_1 - y_1| + |x_2 - y_2| + ... + |x_n - y_n|
曼哈顿距离是两个点之间沿轴的距离。它只考虑特征差异的绝对值。
结论
点积和距离是机器学习中衡量相似性和差异性的重要度量。它们在特征选择、聚类和分类等任务中发挥着至关重要的作用。理解这些概念对于成功地应用机器学习算法至关重要。