如何让多值类别特征加入CTR预估模型？

2023-12-03 21:43:52

多值类别特征加入CTR预估模型的方法

在上一篇《不为人知的稠密特征加入CTR预估模型的方法》中又总结了稠密特征加入到CTR预估模型中的方法。而在现实实际问题中，往往还会出现多值类别特征，比如我接触到的2019腾讯广告算法大赛中用户的行为兴趣特征就是多值类别特征，也就是一个用户可以有多个行为兴趣特征。多值类别特征在CTR预估模型中的处理方法与单值类别特征有很大不同，本文就来介绍一下常见的处理方法。

独热编码

独热编码是最简单的一种处理多值类别特征的方法，即将每个类别编码成一个二值特征。例如，如果有一个多值类别特征“行为兴趣”，其取值可以是“购物”、“游戏”、“旅游”等，那么我们可以将这个特征编码成三个二值特征：“行为兴趣_购物”、“行为兴趣_游戏”、“行为兴趣_旅游”。

独热编码虽然简单易懂，但也有缺点：

特征数量会急剧增加。如果一个多值类别特征有10个可能的取值，那么独热编码后就会产生10个二值特征。这会导致模型的复杂度增加，训练时间延长。
特征稀疏。独热编码后的二值特征往往非常稀疏，即大多数样本在这些特征上的取值都是0。这会导致模型难以学习到这些特征的有效信息。

交叉编码

交叉编码是另一种处理多值类别特征的方法，即将两个或多个类别特征组合成一个新的特征。例如，我们可以将“行为兴趣_购物”和“行为兴趣_游戏”组合成一个新的特征“行为兴趣_购物_游戏”。

交叉编码可以减少特征数量，同时也可以提高特征的稀疏性。但是，交叉编码也存在一些缺点：

特征数量仍然会比较多。如果一个多值类别特征有10个可能的取值，那么与其他所有类别特征交叉后，就会产生100个新的特征。
特征解释性较差。交叉编码后的特征往往难以解释其含义，这给模型的可解释性带来挑战。

embedding编码

embedding编码是目前处理多值类别特征最流行的方法。embedding编码的思想是将每个类别编码成一个低维稠密向量，然后将这些向量输入到模型中。例如，我们可以将“行为兴趣_购物”编码成一个3维向量，将“行为兴趣_游戏”编码成一个4维向量，以此类推。

embedding编码可以有效减少特征数量，同时也可以提高特征的稀疏性。更重要的是，embedding编码后的向量可以被模型直接学习，这可以提高模型的性能。

embedding编码的缺点是需要额外的训练步骤来学习embedding向量。但是，由于embedding编码的优点很明显，所以它仍然是处理多值类别特征的最佳方法。

总结

本文介绍了三种常见的多值类别特征加入CTR预估模型的方法：独热编码、交叉编码和embedding编码。每种方法都有自己的优缺点，在实际应用中需要根据具体情况选择合适的方法。

一般来说，如果多值类别特征的取值较少，则可以使用独热编码或交叉编码。如果多值类别特征的取值较多，则可以使用embedding编码。

Kyle

探索Web开发资源和人工智能教程的代码社区

扫码关注微信公众号

用Keras冻结网络层的3个技巧

用Keras冻结网络层的3个技巧

AIOT智能人脸识别技术的应用，你必须要知道

AIOT智能人脸识别技术的应用，你必须要知道

图像对齐与图像拼接（三）深度揭秘图像特征描述子的匹配度量（距离比）

图像对齐与图像拼接（三）深度揭秘图像特征描述子的匹配度量（距离比）

熵：信息的不确定性

流水线并行中的前向计算顺序保障：PyTorch 实现

流水线并行中的前向计算顺序保障：PyTorch 实现