广告召回论文阅读笔记（2）-从TDM到二向箔

人工智能

2023-03-25 16:09:57

广告召回技术：探索数据海洋，挖掘商业宝藏

大数据时代下的机遇与挑战

我们生活在一个数据爆炸的时代，每天都有海量数据产生。这些数据蕴藏着巨大的商业价值，等待着我们去发掘。然而，面对如此庞杂的数据海洋，如何有效地从中提取有价值的信息成为一大难题。

广告召回技术的诞生

传统的数据检索方法在面对海量数据时力不从心，难以准确地识别相关文档。于是，广告召回技术应运而生，为我们提供了一把探索数据价值、挖掘商业奥秘的钥匙。

TDM模型：开启语义理解的新篇章

TDM模型（Term Dependency Model）是广告召回领域的一大突破。它通过捕捉词与词之间的依赖关系，更好地刻画文档的语义，从而提升召回质量。

# 使用TDM模型构建召回系统
import tensorflow as tf
import numpy as np

# 词汇表
vocabulary = {"hello": 0, "world": 1}

# 文档
documents = ["hello world", "world hello"]

# 查询
query = "hello"

# 使用TDM模型构建模型
model = tf.keras.models.Sequential([
  tf.keras.layers.Embedding(len(vocabulary), 100),
  tf.keras.layers.LSTM(100),
  tf.keras.layers.Dense(1)
])

# 训练模型
model.compile(optimizer="adam", loss="binary_crossentropy")
model.fit(np.array(documents), np.array([1, 0]), epochs=10)

# 使用模型进行召回
scores = model.predict(np.array(query))

二向箔模型：长距离语义捕捉的利器

然而，TDM模型在处理长文本时存在局限性。二向箔模型横空出世，以其强大的编码能力和长距离语义捕捉能力惊艳了整个行业。

# 使用二向箔模型构建召回系统
import torch
from transformers import BertTokenizer, BertModel

# 查询
query = "hello world"

# 使用BERT模型进行编码
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
query_ids = tokenizer.encode(query, return_tensors="pt")

model = BertModel.from_pretrained("bert-base-uncased")
outputs = model(query_ids)
query_embedding = outputs[0][:, 0, :]

# 使用图神经网络构建模型
gnn = torch.nn.Sequential(
  torch.nn.Linear(768, 128),
  torch.nn.ReLU(),
  torch.nn.Linear(128, 1)
)

# 训练模型
optimizer = torch.optim.Adam(gnn.parameters())
loss_fn = torch.nn.BCEWithLogitsLoss()

for epoch in range(10):
  loss = 0.0
  for document in documents:
    document_ids = tokenizer.encode(document, return_tensors="pt")
    document_embeddings = model(document_ids)[0][:, 0, :]
    
    scores = gnn(torch.cat([query_embedding, document_embeddings], dim=1))
    loss += loss_fn(scores, torch.tensor([1.0]))
  
  loss.backward()
  optimizer.step()

# 使用模型进行召回
scores = gnn(torch.cat([query_embedding, document_embeddings], dim=1))