单细胞细胞比例分析方法大盘点，告别知其然而不知其所以然的懵圈状态

2023-09-15 19:20:44

单细胞比例分析：洞悉细胞多样性的指南

探索细胞的细微差异

随着单细胞测序技术的蓬勃发展，我们对细胞异质性的理解正以前所未有的速度增长。然而，准确估计细胞比例对于深入解析单细胞数据至关重要。让我们深入探讨单细胞细胞比例分析的常用方法，赋能您的研究之旅。

1. 箱线图法：直观的可视化

想象一幅箱线图，不同颜色的箱子代表不同类型的细胞。箱子内部展示了细胞数量的分布范围。通过比较箱线图，我们能粗略了解细胞比例的差异。

import matplotlib.pyplot as plt

# 创建箱线图数据
data = [
    [10, 20, 30, 40, 50],
    [20, 30, 40, 50, 60]
]

# 绘制箱线图
plt.boxplot(data)
plt.show()

2. R o/e 比值法：统计显著性的保证

R o/e 比值法将卡方检验的力量注入细胞比例分析中。它计算了目标细胞的观察值和期望值之比，提供了一个方便的统计量来判断两组样本之间的细胞比例差异。

from scipy.stats import chi2_contingency

# 创建分类型数据
data = [[100, 200],
       [50, 100]]

# 计算 R o/e 比值
chi2, p, dof, expected = chi2_contingency(data)

3. t 检验法：正态分布的假设

当数据符合正态分布时，t 检验法便大显身手。它计算了样本均值之间的差异与标准差的比值，提供了一个 t 值来检验细胞比例的差异。

from scipy.stats import ttest_ind

# 创建正态分布数据
data1 = np.random.normal(50, 10, 100)
data2 = np.random.normal(60, 10, 100)

# 进行 t 检验
t, p = ttest_ind(data1, data2)

4. 非参数检验法：适用于小样本

对于小样本或分布不符合正态分布的数据，非参数检验法提供了另一种选择。秩和检验和 Kruskal-Wallis 检验等方法无需假设分布，确保了统计分析的稳健性。

from scipy.stats import mannwhitneyu, kruskal

# 创建非正态分布数据
data1 = [10, 20, 30, 40, 50]
data2 = [20, 30, 40, 50, 60, 70]

# 进行秩和检验
u, p = mannwhitneyu(data1, data2)

# 进行 Kruskal-Wallis 检验
h, p = kruskal(data1, data2)

5. 模型拟合法：精确的估计

模型拟合法将统计建模的力量与细胞比例分析相结合。它假设细胞比例服从特定的概率分布，并根据数据拟合模型参数来提供准确的比例估计。

from statsmodels.distributions.empirical_distribution import ECDF

# 创建经验分布函数
ecdf = ECDF(data)

# 拟合模型
model = ECDF(data)

# 估计细胞比例
proportion = model.cdf(x)

6. 机器学习法：复杂数据集的利器

机器学习算法可以学习数据中的复杂模式，从而预测细胞比例。它们能够处理大规模数据集，并考虑多种影响因素。

from sklearn.svm import SVC

# 创建训练数据
X = [[10, 20], [30, 40], [50, 60], [70, 80]]
y = [0, 1, 0, 1]

# 训练 SVM 分类器
model = SVC()
model.fit(X, y)

# 预测细胞比例
proportion = model.predict([[x1, x2]])