来吧！让你一眼就看明白的朴素贝叶斯算法

人工智能

2023-01-20 17:24:51

朴素贝叶斯算法：一个初学者指南

朴素贝叶斯算法是一种简单而有效的分类算法，广泛应用于各种机器学习应用中。让我们深入了解其原理、优缺点以及实际应用吧！

朴素贝叶斯算法的原理

朴素贝叶斯算法基于一个称为贝叶斯定理的概率定理。贝叶斯定理允许我们计算一个事件在另一个事件发生后发生的概率。朴素贝叶斯算法利用这一定理来计算给定一组特征，样本属于特定类别的概率。

算法步骤：

计算特征分布： 算法计算不同类别中每个特征的分布情况。
应用贝叶斯定理： 使用特征分布和贝叶斯定理来计算样本属于每个类别的概率。
选择概率最大的类别： 将样本分配给具有最高概率的类别。

朴素贝叶斯算法的优缺点

优点：

简单易懂： 朴素贝叶斯算法的原理清晰明了。
计算量小： 算法的计算成本相对较低。
鲁棒性强： 算法对数据分布不敏感。

缺点：

特征独立性假设： 朴素贝叶斯算法假设特征相互独立，这在现实中往往不成立。
对缺失值敏感： 算法对缺失值比较敏感。
零概率问题： 在计算概率时可能会出现零概率的情况。

代码示例

import numpy as np

class NaiveBayes:
    def __init__(self):
        self.prior = None
        self.likelihood = None

    def fit(self, X, y):
        """
        训练朴素贝叶斯模型

        参数：
        X: 特征矩阵
        y: 目标向量
        """

        # 计算先验概率
        self.prior = np.bincount(y) / len(y)

        # 计算似然概率
        self.likelihood = {}
        for feature in range(X.shape[1]):
            self.likelihood[feature] = {}
            for value in np.unique(X[:, feature]):
                self.likelihood[feature][value] = np.bincount(y[X[:, feature] == value]) / np.bincount(X[:, feature] == value)[1]

    def predict(self, X):
        """
        预测样本所属的类别

        参数：
        X: 特征矩阵

        返回：
        预测的类别
        """

        # 计算每个类别的后验概率
        posteriors = []
        for i in range(self.prior.shape[0]):
            posterior = np.log(self.prior[i])
            for feature in range(X.shape[1]):
                posterior += np.log(self.likelihood[feature][X[i, feature]])
            posteriors.append(posterior)

        # 返回概率最大的类别
        return np.argmax(posteriors)