数据平滑让数据分析更丝滑，9种妙招轻松搞定

2023-08-19 06:08:17

数据平滑技术：消除数据中的噪声和异常值

在处理数据时，我们经常会遇到噪声和异常值，它们会掩盖数据的真实趋势。数据平滑技术就是用来消除这些干扰，提取数据中真正有价值的信息。本文将深入探讨各种数据平滑技术，帮助你掌握如何让数据焕然一新。

1. 简单移动平均

简单移动平均（SMA）就像是对数据进行简单的取平均。它将特定时间段内的所有数据点加起来，然后除以该时间段的长度。SMA 可以有效消除短期波动，但对于快速变化的数据可能滞后。

def sma(data, window_size):
    smoothed_data = []
    for i in range(window_size, len(data)):
        smoothed_data.append(sum(data[i - window_size:i]) / window_size)
    return smoothed_data

2. 指数移动平均

指数移动平均（EMA）是对 SMA 的改进，它对近期数据赋予更高的权重，从而可以更快速地响应数据的变化。EMA 对于预测未来的趋势非常有用。

def ema(data, alpha):
    smoothed_data = []
    smoothed_data.append(data[0])
    for i in range(1, len(data)):
        smoothed_data.append(alpha * data[i] + (1 - alpha) * smoothed_data[i - 1])
    return smoothed_data

3. 加权移动平均

加权移动平均（WMA）允许对不同的数据点赋予不同的权重。这意味着你可以根据数据的相对重要性来平滑数据。

def wma(data, weights):
    smoothed_data = []
    for i in range(len(data)):
        smoothed_data.append(sum(data[i - len(weights) + 1:i + 1] * weights) / sum(weights))
    return smoothed_data

4. 卡尔曼滤波

卡尔曼滤波是一种递归滤波方法，它根据观测数据来估计系统的真实状态。卡尔曼滤波对于处理噪声数据和预测未来数据值非常有效。

import numpy as np
import scipy.linalg as la

class KalmanFilter:
    def __init__(self, A, B, H, Q, R):
        self.A = A
        self.B = B
        self.H = H
        self.Q = Q
        self.R = R
        self.x = np.zeros((A.shape[0], 1))
        self.P = np.eye(A.shape[0])

    def predict(self, u):
        self.x = self.A @ self.x + self.B @ u
        self.P = self.A @ self.P @ self.A.T + self.Q

    def update(self, z):
        y = z - self.H @ self.x
        S = self.H @ self.P @ self.H.T + self.R
        K = self.P @ self.H.T @ la.inv(S)
        self.x = self.x + K @ y
        self.P = (np.eye(self.P.shape[0]) - K @ self.H) @ self.P

5. 洛埃斯平滑

洛埃斯平滑是一种非参数平滑方法，它使用局部加权回归来估计数据的平滑曲线。洛埃斯平滑不需要对数据进行任何假设，并且可以处理非线性的数据。

from sklearn.neighbors import KernelDensity

def loess(data, window_size, alpha):
    kernel = KernelDensity(kernel='gaussian', bandwidth=window_size)
    kernel.fit(data.reshape(-1, 1))
    smoothed_data = []
    for i in range(len(data)):
        smoothed_data.append(kernel.score_samples([[data[i]]])[0])
    return smoothed_data

6. 多项式回归平滑

多项式回归平滑是一种参数平滑方法，它使用多项式函数来拟合数据。多项式回归平滑可以产生非常光滑的曲线，但它可能会过度拟合数据。

from sklearn.linear_model import LinearRegression

def polynomial_regression(data, degree):
    model = LinearRegression()
    model.fit(np.arange(len(data)).reshape(-1, 1), data)
    smoothed_data = model.predict(np.arange(len(data)).reshape(-1, 1))
    return smoothed_data

7. 样条平滑

样条平滑是一种分段平滑方法，它使用分段多项式函数来拟合数据。样条平滑可以产生非常光滑的曲线，并且不会过度拟合数据。

from scipy.interpolate import UnivariateSpline

def spline(data, window_size):
    spline = UnivariateSpline(np.arange(len(data)), data, k=window_size)
    smoothed_data = spline(np.arange(len(data)))
    return smoothed_data

8. 高斯滤波

高斯滤波是一种线性平滑方法，它使用高斯核函数来平滑数据。高斯滤波可以产生非常光滑的曲线，并且不会过度拟合数据。

from scipy.ndimage import gaussian_filter1d

def gaussian_filter(data, sigma):
    smoothed_data = gaussian_filter1d(data, sigma)
    return smoothed_data

9. 小波变换平滑

小波变换平滑是一种非线性平滑方法，它使用小波函数来平滑数据。小波变换平滑可以很好地处理非线性的数据。

import pywt

def wavelet_transform(data, wavelet_name, level):
    coefficients = pywt.wavedec(data, wavelet_name, level=level)
    smoothed_coefficients = pywt.threshold(coefficients, np.std(coefficients) * 0.5, mode='soft')
    smoothed_data = pywt.waverec(smoothed_coefficients, wavelet_name)
    return smoothed_data