探寻CountVectorizer与TfidfVectorizer的奥秘，开启文本挖掘的新天地

2023-10-26 18:40:34

CountVectorizer：朴实无华的词频统计专家

CountVectorizer是文本挖掘领域中最为基础的特征提取器之一。它的工作原理非常简单：将文本中的词语转换为词频矩阵。换句话说，它会统计每个词语在文本中出现的次数，并以矩阵的形式呈现出来。

举个例子，假设我们有一个文本集合，包含三篇文档：

文档1：我爱北京天安门
文档2：天安门广场是中国的象征
文档3：故宫博物院位于北京市中心

使用CountVectorizer进行特征提取后，我们会得到一个词频矩阵：

| 词语 | 文档1 | 文档2 | 文档3 |
|---|---|---|---|
| 我 | 1 | 0 | 0 |
| 爱 | 1 | 0 | 0 |
| 北京 | 1 | 1 | 1 |
| 天安门 | 1 | 1 | 0 |
| 广场 | 0 | 1 | 0 |
| 是 | 0 | 1 | 0 |
| 中国 | 0 | 1 | 0 |
| 象征 | 0 | 1 | 0 |
| 故宫 | 0 | 0 | 1 |
| 博物院 | 0 | 0 | 1 |
| 位于 | 0 | 0 | 1 |
| 市 | 0 | 0 | 1 |
| 中心 | 0 | 0 | 1 |

从词频矩阵中，我们可以看到词语"北京"在三个文档中都出现了，因此其词频为3；而词语"故宫"只在文档3中出现过一次，因此其词频为1。

TfidfVectorizer：兼顾词频与词重要性的平衡者

TfidfVectorizer是CountVectorizer的进阶版，它在词频统计的基础上，加入了词语的重要性权重。TfidfVectorizer的原理是：词语的权重与词语在文档中出现的频率以及词语在整个文档集合中的分布情况相关。

具体来说，TfidfVectorizer的计算公式为：

tf-idf(t, d) = tf(t, d) * idf(t)

其中：

tf(t, d)是词语t在文档d中的词频。
idf(t)是词语t在整个文档集合中的逆文档频率。

逆文档频率的计算公式为：

idf(t) = log(N / df(t))

其中：

N是文档集合中的文档总数。
df(t)是包含词语t的文档数。

举个例子，假设我们有一个包含10篇文档的文档集合，其中词语"北京"在3篇文档中出现过，词语"故宫"在2篇文档中出现过。那么，词语"北京"的逆文档频率为：

idf("北京") = log(10 / 3) = 0.4771

词语"故宫"的逆文档频率为：

idf("故宫") = log(10 / 2) = 0.6931

现在，我们使用TfidfVectorizer对同一个文本集合进行特征提取，我们会得到一个tf-idf矩阵：

| 词语 | 文档1 | 文档2 | 文档3 |
|---|---|---|---|
| 我 | 0.2630 | 0.0000 | 0.0000 |
| 爱 | 0.2630 | 0.0000 | 0.0000 |
| 北京 | 0.6931 | 0.4771 | 0.4771 |
| 天安门 | 0.6931 | 0.4771 | 0.0000 |
| 广场 | 0.0000 | 0.4771 | 0.0000 |
| 是 | 0.0000 | 0.4771 | 0.0000 |
| 中国 | 0.0000 | 0.4771 | 0.0000 |
| 象征 | 0.0000 | 0.4771 | 0.0000 |
| 故宫 | 0.0000 | 0.0000 | 0.6931 |
| 博物院 | 0.0000 | 0.0000 | 0.6931 |
| 位于 | 0.0000 | 0.0000 | 0.6931 |
| 市 | 0.0000 | 0.0000 | 0.6931 |
| 中心 | 0.0000 | 0.0000 | 0.6931 |