返回

常识性概念图谱搭建与在美团场景的应用

人工智能

常识性概念图谱是人工智能领域的一个重要方向,它以知识库为基础,通过自然语言处理等技术,将常识性概念组织成一个庞大的网络。常识性概念图谱可以应用于很多领域,比如信息检索、机器翻译、自然语言生成等。

美团是一家专注于本地生活服务的公司,涉及餐饮、出行、外卖、酒店、旅游等多个领域。由于美团业务的复杂性,常识性概念图谱在美团场景中的应用有着广阔的前景。

本文介绍了美团常识性概念图谱构建的Schema,图谱建设中遇到的挑战以及建设过程中的算法实践,最后介绍了一些目前常识性概念图谱在业务上的应用。

美团常识性概念图谱构建的Schema

美团常识性概念图谱采用了一种分层的Schema,将常识性概念划分为不同的类别,每个类别下又包含若干个子类别。这种分层的结构使图谱更加清晰、易于理解和维护。

美团常识性概念图谱的Schema主要包括以下几个方面:

  • 实体: 实体是图谱中的基本元素,代表现实世界中的事物,如人、物、事件、地点等。
  • 属性: 属性是实体的特征或性质,如人的姓名、年龄、性别等。
  • 关系: 关系是实体之间的关联,如人与人的亲属关系、事物与事物之间的因果关系等。
  • 规则: 规则是图谱中的一般性规律,如“所有的人都是动物”等。

图谱建设中遇到的挑战

在美团常识性概念图谱建设过程中,我们遇到了以下几个主要的挑战:

  • 数据来源的多样性: 美团业务涉及多个领域,因此图谱建设需要从多个不同的数据源中提取数据,如用户评论、商家信息、POI数据等。
  • 数据的质量问题: 数据源中存在大量的数据质量问题,如缺失值、错误值等,这些问题会影响图谱的质量。
  • 图谱的规模: 美团常识性概念图谱的规模非常庞大,包含数十亿个实体、数十亿条关系和数十亿条规则。这样大的规模对图谱的存储、查询和维护都提出了很高的要求。

建设过程中的算法实践

为了应对图谱建设中遇到的挑战,我们采用了多种算法技术,包括:

  • 数据清洗算法: 我们使用数据清洗算法对数据源中的数据进行清洗,去除缺失值、错误值等数据质量问题。
  • 实体链接算法: 我们使用实体链接算法将不同数据源中的实体链接到图谱中,以确保图谱的完整性和一致性。
  • 关系抽取算法: 我们使用关系抽取算法从文本数据中抽取实体之间的关系,以丰富图谱的关系信息。
  • 规则归纳算法: 我们使用规则归纳算法从数据中归纳出一般性规则,以增强图谱的知识性。

业务应用

目前,美团常识性概念图谱已经在多个业务场景中得到了应用,包括:

  • 信息检索: 常识性概念图谱可以用于信息检索,帮助用户快速找到所需的信息。
  • 机器翻译: 常识性概念图谱可以用于机器翻译,帮助翻译系统更好地理解文本的含义,提高翻译质量。
  • 自然语言生成: 常识性概念图谱可以用于自然语言生成,帮助系统生成更加流畅、自然、符合常识的文本。

总结

美团常识性概念图谱的构建是一项复杂的系统工程,涉及到多个领域的技术和算法。我们通过采用分层的Schema、使用多种算法技术,成功地克服了图谱建设中遇到的挑战,构建了一个高质量、大规模的常识性概念图谱。目前,美团常识性概念图谱已经在多个业务场景中得到了应用,取得了良好的效果。未来,我们将继续完善美团常识性概念图谱,使其在更多的业务场景中发挥作用。