返回

广告召回论文阅读笔记(2)-从TDM到二向箔

人工智能

广告召回技术:探索数据海洋,挖掘商业宝藏

大数据时代下的机遇与挑战

我们生活在一个数据爆炸的时代,每天都有海量数据产生。这些数据蕴藏着巨大的商业价值,等待着我们去发掘。然而,面对如此庞杂的数据海洋,如何有效地从中提取有价值的信息成为一大难题。

广告召回技术的诞生

传统的数据检索方法在面对海量数据时力不从心,难以准确地识别相关文档。于是,广告召回技术应运而生,为我们提供了一把探索数据价值、挖掘商业奥秘的钥匙。

TDM模型:开启语义理解的新篇章

TDM模型(Term Dependency Model)是广告召回领域的一大突破。它通过捕捉词与词之间的依赖关系,更好地刻画文档的语义,从而提升召回质量。

# 使用TDM模型构建召回系统
import tensorflow as tf
import numpy as np

# 词汇表
vocabulary = {"hello": 0, "world": 1}

# 文档
documents = ["hello world", "world hello"]

# 查询
query = "hello"

# 使用TDM模型构建模型
model = tf.keras.models.Sequential([
  tf.keras.layers.Embedding(len(vocabulary), 100),
  tf.keras.layers.LSTM(100),
  tf.keras.layers.Dense(1)
])

# 训练模型
model.compile(optimizer="adam", loss="binary_crossentropy")
model.fit(np.array(documents), np.array([1, 0]), epochs=10)

# 使用模型进行召回
scores = model.predict(np.array(query))

二向箔模型:长距离语义捕捉的利器

然而,TDM模型在处理长文本时存在局限性。二向箔模型横空出世,以其强大的编码能力和长距离语义捕捉能力惊艳了整个行业。

# 使用二向箔模型构建召回系统
import torch
from transformers import BertTokenizer, BertModel

# 查询
query = "hello world"

# 使用BERT模型进行编码
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
query_ids = tokenizer.encode(query, return_tensors="pt")

model = BertModel.from_pretrained("bert-base-uncased")
outputs = model(query_ids)
query_embedding = outputs[0][:, 0, :]

# 使用图神经网络构建模型
gnn = torch.nn.Sequential(
  torch.nn.Linear(768, 128),
  torch.nn.ReLU(),
  torch.nn.Linear(128, 1)
)

# 训练模型
optimizer = torch.optim.Adam(gnn.parameters())
loss_fn = torch.nn.BCEWithLogitsLoss()

for epoch in range(10):
  loss = 0.0
  for document in documents:
    document_ids = tokenizer.encode(document, return_tensors="pt")
    document_embeddings = model(document_ids)[0][:, 0, :]
    
    scores = gnn(torch.cat([query_embedding, document_embeddings], dim=1))
    loss += loss_fn(scores, torch.tensor([1.0]))
  
  loss.backward()
  optimizer.step()

# 使用模型进行召回
scores = gnn(torch.cat([query_embedding, document_embeddings], dim=1))

百花齐放的召回技术

除了TDM和二向箔模型,还有许多其他的优秀召回技术百花齐放,各有千秋:

  • ESIM模型: 通过双向LSTM和注意力机制捕捉查询和文档之间的语义匹配度。

  • MatchPyramid模型: 采用深度神经网络将查询和文档转化为向量,通过余弦相似度计算相似度。

  • DSSM模型: 通过卷积神经网络和深度神经网络学习查询和文档之间的语义特征。

展望未来:无限可能

广告召回技术正在不断地发展和完善,未来还有无限的可能性等待我们去探索。随着算法不断优化,召回质量将不断提升,为广告投放带来更加精准高效的结果。

常见问题解答

1. 什么是广告召回技术?

广告召回技术是一种从海量数据中提取相关文档的技术,帮助广告主精准投放广告。

2. TDM模型和二向箔模型有什么区别?

TDM模型捕捉词与词之间的依赖关系,而二向箔模型捕捉长距离语义信息。

3. 召回质量是如何衡量的?

召回质量通常使用查准率和查全率等指标来衡量。

4. 广告召回技术在哪些行业应用广泛?

广告召回技术广泛应用于电商、搜索引擎和社交媒体等行业。

5. 未来广告召回技术的发展趋势是什么?

未来广告召回技术将朝着更多个性化、更智能化的方向发展,同时结合多模态数据,实现更准确的召回。