使用Apriori算法发现关键词之间的隐含联系

2024-01-26 20:19:48

Apriori算法是一种经典的数据挖掘算法，常用于发现频繁项集和关联规则。它广泛应用于市场分析、推荐系统和文本挖掘等领域。本文将以用户搜索记录为例，通过pandas库处理数据，再利用mlxtend库中的Apriori算法挖掘频繁项集和关联规则，帮助我们了解用户搜索行为背后的潜在模式和关联。

数据准备：

import pandas as pd

# 读取用户搜索记录数据
df = pd.read_csv('search_records.csv')

# 提取关键词列
keywords = df['keywords']

数据处理：

# 将关键词按空格分隔
keywords = keywords.str.split(' ')

# 展开关键词列表
keywords = keywords.explode()

# 统计关键词频率
keyword_counts = keywords.value_counts()

Apriori算法挖掘：

from mlxtend.frequent_patterns import apriori, association_rules

# 最小支持度（support）为0.05
# 最小置信度（confidence）为0.7
min_support = 0.05
min_confidence = 0.7

# 挖掘频繁项集
frequent_itemsets = apriori(keyword_counts, min_support=min_support)

# 挖掘关联规则
association_rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=min_confidence)

# 打印关联规则
print(association_rules)