返回

熵:信息的不确定性

人工智能

机器学习面试之各种混乱的熵(一)

这个标题能否吸引你继续阅读下去呢?

如果你对这个问题的答案是否定的,那么你就不会独自一人。机器学习中熵的概念通常令人困惑且难以理解。然而,了解这些概念对于任何机器学习从业者来说都是至关重要的。在本文中,我们将深入探讨熵的不同类型,包括交叉熵、联合熵、条件熵和相对熵。我们将了解它们的联系和区别,并通过一个简单的硬币抛掷示例来说明这些概念。

熵是一个源自信息论的概念,用于衡量一个系统的不确定性或无序程度。在机器学习中,熵用于衡量数据集中的不确定性。熵越高,数据的不确定性就越大。

交叉熵衡量模型预测分布与真实分布之间的差异。它用于评估模型预测的准确性。交叉熵越低,模型预测越准确。

联合熵衡量两个随机变量的联合不确定性。它考虑了这两个变量同时发生的情况。联合熵等于两个变量的熵之和减去它们之间的互信息。

条件熵衡量给定一个随机变量后的另一个随机变量的不确定性。它考虑了当一个变量已知时,另一个变量的不确定性如何变化。条件熵等于联合熵减去互信息。

相对熵衡量两个概率分布之间的差异。它用于比较模型预测分布与真实分布之间的差异。相对熵越大,两个分布之间的差异就越大。

联系与区别

这些熵类型的联系在于它们都是衡量不确定性的度量。然而,它们衡量不确定性的方式不同。熵衡量一个随机变量的不确定性,而交叉熵衡量模型预测分布与真实分布之间的差异。联合熵衡量两个随机变量的联合不确定性,而条件熵衡量给定一个随机变量后的另一个随机变量的不确定性。相对熵衡量两个概率分布之间的差异。

例子:硬币抛掷

为了更好地理解这些概念,让我们考虑一个简单的硬币抛掷示例。假设我们有一枚硬币,将其抛出,落下后朝上的面为 y。

  • 熵: 抛掷硬币的结果是不确定的,因此其熵为 1。
  • 交叉熵: 如果我们预测硬币总是正面朝上,那么交叉熵将为 0.5(因为硬币正面朝上的概率为 0.5)。
  • 联合熵: 如果我们还记录抛硬币的时间,那么联合熵将为 1.5。
  • 条件熵: 如果我们知道硬币是正面朝上的,那么条件熵将为 0(因为我们知道硬币是正面朝上的)。
  • 相对熵: 如果我们预测硬币总是正面朝上,那么相对熵将为 0.5。

结论

熵及其类型是机器学习的关键概念。理解这些概念对于任何机器学习从业者来说都是至关重要的。通过了解熵的不同类型以及它们的联系和区别,我们可以更好地评估模型并做出更明智的决策。