返回

卷积神经网络VGG16的视频版权检测方法剖析

后端

1.引言

随着数字技术和互联网的飞速发展,视频内容已成为信息传播的重要载体。然而,随之而来的侵权行为也日益猖獗,严重损害了版权方的合法权益。为应对这一问题,爱奇艺与 CCF 联合举办了“2019 CCF 大数据与计算智能大赛——视频版权检测”赛道。恒扬数据团队凭借其卓越的算法能力和丰富的实践经验,在该赛道中脱颖而出,斩获 TOP1 佳绩。本文将深入解析恒扬数据团队的解决方案,为大家揭秘其在视频版权检测领域取得成功的奥秘。

2.方案概述

恒扬数据团队的解决方案主要分为三个步骤:

  1. 深度卷积神经网络 VGG16 特征向量提取。
  2. 近似最近邻搜索获取相似图像帧。
  3. 图像帧时间序列匹配计算。

3. VGG16 特征向量提取

VGG16 是一种深度卷积神经网络,由牛津大学计算机视觉实验室的 VGGNet 团队在 2014 年提出。该网络以其卓越的分类性能而著称,并在多个图像识别任务中取得了骄人成绩。在视频版权检测中,VGG16 主要用于提取图像的特征向量,为后续的相似性搜索提供基础。

VGG16 网络的结构主要分为五层卷积层和三层全连接层。在卷积层部分,前两层卷积层的卷积核大小均为 3 × 3,步长为 1,填充方式为 SAME。第三、四、五层卷积层的卷积核大小均为 3 × 3,步长为 1,填充方式为 VALID。在全连接层部分,前两层全连接层的节点数均为 4096,第三层全连接层的节点数为 1000。

在视频版权检测中,恒扬数据团队利用 VGG16 网络提取图像的特征向量。具体而言,他们首先将视频帧转换为 RGB 图像,然后将图像输入到 VGG16 网络中进行特征提取。在提取特征向量时,他们选取了 VGG16 网络的最后一层卷积层的输出作为特征向量。该特征向量包含了图像的丰富信息,为后续的相似性搜索提供了良好的基础。

4. 近似最近邻搜索获取相似图像帧

在提取了图像的特征向量后,恒扬数据团队利用近似最近邻搜索算法来查找相似图像帧。近似最近邻搜索算法是一种在高维空间中查找与给定查询向量最相似的向量的方法。在视频版权检测中,恒扬数据团队将查询向量设置为目标图像的特征向量,并将数据库中的所有图像帧的特征向量作为候选向量。然后,他们利用近似最近邻搜索算法查找与查询向量最相似的候选向量。这些最相似的候选向量对应的图像帧即为与目标图像相似的图像帧。

在近似最近邻搜索算法的选择上,恒扬数据团队采用了 Locality-Sensitive Hashing (LSH) 算法。LSH 算法是一种快速近似最近邻搜索算法,具有较高的搜索效率。LSH 算法的基本思想是将高维空间划分为多个桶,并将每个图像帧的特征向量哈希到相应的桶中。在搜索时,只需要搜索目标图像特征向量所在的桶及其相邻桶中的图像帧特征向量,即可找到与目标图像特征向量最相似的图像帧特征向量。

5. 图像帧时间序列匹配计算

在获得了相似图像帧后,恒扬数据团队利用图像帧的时间序列进行匹配计算,以确定视频中版权内容的起始时间和结束时间。具体而言,他们首先将相似图像帧按照时间顺序排列,然后计算相邻图像帧之间的相似度。如果相邻图像帧之间的相似度超过某个阈值,则认为这两帧图像属于同一个版权内容。通过这种方式,他们可以将视频中的版权内容分割成多个片段。

在计算图像帧之间的相似度时,恒扬数据团队采用了余弦相似度。余弦相似度是一种衡量两个向量相似程度的度量方法。余弦相似度的值在 0 和 1 之间,值越大,则两个向量越相似。在计算图像帧之间的余弦相似度时,他们首先将图像帧的特征向量归一化,然后计算两个归一化特征向量之间的点积。点积越大,则两个图像帧之间的相似度越高。

通过以上步骤,恒扬数据团队成功地实现了视频版权检测。他们的解决方案不仅具有较高的准确率,而且具有较高的效率。该解决方案在“2019 CCF 大数据与计算智能大赛——视频版权检测”赛道中脱颖而出,斩获 TOP1 佳绩,充分证明了其在视频版权检测领域的卓越性能。