返回

TPLinker:Token Pair Linking方法下的实体关系联合提取

人工智能

TPLinker:基于Token Pair Linking的实体和关系的联合提取

实体识别和关系提取是自然语言处理(NLP)的两项基本任务。实体识别旨在识别文本中的命名实体(如人名、地名、组织名等),而关系提取旨在识别文本中实体之间的关系(如“作者-作品”、“父子关系”等)。近年来,随着深度学习技术的发展,实体识别和关系提取任务取得了很大进展。然而,现有的大多数方法都是将实体识别和关系提取作为两个独立的任务来完成的,这会导致实体识别和关系提取之间存在信息丢失和误差累积的问题。

为了解决上述问题,本文提出了一种端到端的方法TPLinker,该方法可以将实体识别和关系提取任务联合起来完成。TPLinker通过将实体和关系视为token对并将其链接在一起来执行联合提取,从而可以在一个阶段内完成实体识别和关系提取任务,无需任何中间监督。

TPLinker模型的整体结构如下图所示。

[图片]

如上图所示,TPLinker模型主要由三个部分组成:

  • Token Pair Embeddings: 该层将输入文本中的每个token对转换为一个向量。
  • Pair Linking: 该层将token pair embeddings输入到一个神经网络中,该神经网络将学习如何将token pair链接在一起形成实体和关系。
  • Classification: 该层将pair linking的结果输入到一个分类器中,该分类器将预测每个token pair的实体类型和关系类型。

TPLinker模型的训练过程如下:

  1. 将输入文本中的每个token对转换为一个向量。
  2. 将token pair embeddings输入到pair linking网络中,该网络将学习如何将token pair链接在一起形成实体和关系。
  3. 将pair linking的结果输入到分类器中,该分类器将预测每个token pair的实体类型和关系类型。
  4. 计算模型的损失函数,并使用反向传播算法更新模型的参数。

TPLinker模型的预测过程如下:

  1. 将输入文本中的每个token对转换为一个向量。
  2. 将token pair embeddings输入到pair linking网络中,该网络将学习如何将token pair链接在一起形成实体和关系。
  3. 将pair linking的结果输入到分类器中,该分类器将预测每个token pair的实体类型和关系类型。
  4. 将预测结果输出。

TPLinker模型在多个公开数据集上的实验结果表明,该方法在准确性和效率方面都优于现有技术。例如,在ACE2005数据集上,TPLinker的F1值达到90.8%,优于现有最好的方法89.1%。在NYT数据集上,TPLinker的F1值达到84.9%,优于现有最好的方法82.3%。

TPLinker模型的代码和数据可以在以下链接下载:

项目主页

论文链接