广告召回论文阅读笔记(2)-从TDM到二向箔
2023-03-25 16:09:57
广告召回技术:探索数据海洋,挖掘商业宝藏
大数据时代下的机遇与挑战
我们生活在一个数据爆炸的时代,每天都有海量数据产生。这些数据蕴藏着巨大的商业价值,等待着我们去发掘。然而,面对如此庞杂的数据海洋,如何有效地从中提取有价值的信息成为一大难题。
广告召回技术的诞生
传统的数据检索方法在面对海量数据时力不从心,难以准确地识别相关文档。于是,广告召回技术应运而生,为我们提供了一把探索数据价值、挖掘商业奥秘的钥匙。
TDM模型:开启语义理解的新篇章
TDM模型(Term Dependency Model)是广告召回领域的一大突破。它通过捕捉词与词之间的依赖关系,更好地刻画文档的语义,从而提升召回质量。
# 使用TDM模型构建召回系统
import tensorflow as tf
import numpy as np
# 词汇表
vocabulary = {"hello": 0, "world": 1}
# 文档
documents = ["hello world", "world hello"]
# 查询
query = "hello"
# 使用TDM模型构建模型
model = tf.keras.models.Sequential([
tf.keras.layers.Embedding(len(vocabulary), 100),
tf.keras.layers.LSTM(100),
tf.keras.layers.Dense(1)
])
# 训练模型
model.compile(optimizer="adam", loss="binary_crossentropy")
model.fit(np.array(documents), np.array([1, 0]), epochs=10)
# 使用模型进行召回
scores = model.predict(np.array(query))
二向箔模型:长距离语义捕捉的利器
然而,TDM模型在处理长文本时存在局限性。二向箔模型横空出世,以其强大的编码能力和长距离语义捕捉能力惊艳了整个行业。
# 使用二向箔模型构建召回系统
import torch
from transformers import BertTokenizer, BertModel
# 查询
query = "hello world"
# 使用BERT模型进行编码
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
query_ids = tokenizer.encode(query, return_tensors="pt")
model = BertModel.from_pretrained("bert-base-uncased")
outputs = model(query_ids)
query_embedding = outputs[0][:, 0, :]
# 使用图神经网络构建模型
gnn = torch.nn.Sequential(
torch.nn.Linear(768, 128),
torch.nn.ReLU(),
torch.nn.Linear(128, 1)
)
# 训练模型
optimizer = torch.optim.Adam(gnn.parameters())
loss_fn = torch.nn.BCEWithLogitsLoss()
for epoch in range(10):
loss = 0.0
for document in documents:
document_ids = tokenizer.encode(document, return_tensors="pt")
document_embeddings = model(document_ids)[0][:, 0, :]
scores = gnn(torch.cat([query_embedding, document_embeddings], dim=1))
loss += loss_fn(scores, torch.tensor([1.0]))
loss.backward()
optimizer.step()
# 使用模型进行召回
scores = gnn(torch.cat([query_embedding, document_embeddings], dim=1))
百花齐放的召回技术
除了TDM和二向箔模型,还有许多其他的优秀召回技术百花齐放,各有千秋:
-
ESIM模型: 通过双向LSTM和注意力机制捕捉查询和文档之间的语义匹配度。
-
MatchPyramid模型: 采用深度神经网络将查询和文档转化为向量,通过余弦相似度计算相似度。
-
DSSM模型: 通过卷积神经网络和深度神经网络学习查询和文档之间的语义特征。
展望未来:无限可能
广告召回技术正在不断地发展和完善,未来还有无限的可能性等待我们去探索。随着算法不断优化,召回质量将不断提升,为广告投放带来更加精准高效的结果。
常见问题解答
1. 什么是广告召回技术?
广告召回技术是一种从海量数据中提取相关文档的技术,帮助广告主精准投放广告。
2. TDM模型和二向箔模型有什么区别?
TDM模型捕捉词与词之间的依赖关系,而二向箔模型捕捉长距离语义信息。
3. 召回质量是如何衡量的?
召回质量通常使用查准率和查全率等指标来衡量。
4. 广告召回技术在哪些行业应用广泛?
广告召回技术广泛应用于电商、搜索引擎和社交媒体等行业。
5. 未来广告召回技术的发展趋势是什么?
未来广告召回技术将朝着更多个性化、更智能化的方向发展,同时结合多模态数据,实现更准确的召回。