个性化推荐再进化：数据增强 x LLMs，解锁全新推荐体验！

人工智能

2023-03-19 17:53:07

解锁个性化推荐的未来：利用大语言模型和数据增强

在当今信息爆炸的时代，个性化推荐已经成为我们获取信息和服务的基石。从社交媒体提要到购物网站建议，推荐系统无处不在，塑造着我们与数字世界的互动。然而，传统推荐模型往往受到数据稀疏性的困扰，导致推荐不准确、缺乏个性化。

大语言模型（LLM）的崛起

大语言模型（LLM）为个性化推荐领域带来了革命性的转变。LLM 是一种人工智能模型，可以理解、生成和翻译人类语言。它们以海量的文本数据进行训练，可以轻松生成流畅、连贯且语义上正确的文本。

LLMs-Rec 框架：LLM 和推荐的联姻

研究人员开发了 LLMs-Rec 框架，将 LLM 的强大功能与推荐模型相结合。该框架通过利用 LLM 对文本进行增强，丰富了推荐模型的输入数据。

数据增强方法

LLMs-Rec 框架采用了两种数据增强方法：

遮蔽语言建模 (MLM)： LLM 随机遮蔽输入文本中的某些单词，然后试图预测这些单词。这有助于 LLM 学习文本的上下文和语义。
释义： LLM 将文本改写成语义等价但表达不同的新文本。这使 LLM 能够理解文本的多种表述。

代码示例

使用 MLM 进行数据增强：

from transformers import AutoTokenizer, AutoModelForMaskedLM

# 初始化 tokenizer 和 LLM
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModelForMaskedLM.from_pretrained("bert-base-uncased")

# 输入文本
text = "今天的天气非常好。"

# 遮蔽文本中的单词
masked_text = tokenizer(text, return_tensors="pt").input_ids
masked_text[0, 5] = tokenizer.mask_token_id  # 遮蔽 "非常"

# 使用 LLM 预测缺失的单词
outputs = model(masked_text)
predictions = tokenizer.decode(outputs.logits[0, 5])  # 预测缺失的单词

# 新的增强文本
enhanced_text = text.replace("非常", predictions)