A Survey on Knowledge Graphs- Representation, Acquisition and Applications
Abstract
本文对知识图谱进行了全面的综述,主要涵盖了四个方面:知识图谱表示学习(knowledge graph representation learning)、知识获取与补全(knowledge acquisition and completion)、时序知识图谱(temporal knowledge graph)、知识感知应用(knowledge-aware applications)。知识图谱嵌入从表示空间(representation space)、得分函数(scoring function)、编码模型(encoding models)和辅助信息(auxiliary information)四个方面进行组织。另外整理了一些筛选后的数据集和开源库。
1. Introduction
知识图谱是事实的结构化表示,由实体、关系和语义描述组成。实体可以是现实世界的对象和抽象概念,关系表示实体之间的关联,实体及其关系的语义描述包含定义良好的类型和属性。属性图或性质图被广泛使用,其中节点和关系具有属性或性质。
知识图谱与知识库是同义的,只是略有不同。当考虑知识图谱的图结构时,知识图谱可以看作是一个图。当它涉及到形式语义时,它可以作为解释和推断事实的知识库。知识库实例和知识图谱如图1所示。知识可以用事实的三元组形式来表达(头实体,关系,尾实体)或者(主语,谓语,宾语)(head, relation,tail)或 (subject, predicate,object) 。
基于知识图谱的研究主要集中在知识表示学习(KRL)和知识图谱嵌入(KGE)两个方面。具体的知识获取任务包括知识图谱补全(KGC)、三元组分类、实体识别和关系提取。
2. Overview
2.1 A Brief History of Knowledge Bases
2.2 Definitions and Notations
- 定义1: 知识图谱获取信息并将其集成到本体中,应用推理引擎获得新知识。
- 定义2:知识图谱是由实体和关系构成的多关系图,实体和关系分别被视为节点和不同类型的边。
2.3 Categorization of Research on Knowledge Graph
- 知识表示学习(Knowledge Representation Learning,KRL)
将KRL分为表示空间、评分函数、编码模型和辅助信息四个方面,为开发KRL模型提供了清晰的工作流程。具体的内容包括:
- 关系和实体所表示的表示空间;
- 度量事实三元组似然性的评分函数;
- 用于表示和学习关系交互的编码模型;
- 嵌入方法所集成的辅助信息。
表示学习包括点向空间、流形、复向量空间、高斯分布和离散空间。评分指标一般分为基于距离的评分函数和基于相似度匹配的评分函数。目前的研究集中在编码模型,包括线性/双线性模型,因式分解和神经网络。辅助信息包括文本信息、视觉信息和类型信息。
- 知识获取任务分为三类
关系提取和实体发现。第一个用于扩展现有的知识图谱,而其他两个用于从文本中发现新知识(即关系和实体)。KGC分为以下几类: 基于嵌入的排序、关系路径推理、基于规则的推理和元关系学习。实体发现包括识别、消歧、类型化和对齐。关系提取模型利用了注意力机制、图卷积网络、对抗性训练、强化学习、深度残差学习和迁移学习。
- 时序知识图谱
包含了表示学习的时态信息。对时间嵌入、实体动态、时序关系依赖、时序逻辑推理四个领域进行分类。
- 知识感知应用
包括自然语言理解(NLU)、问题回答、推荐系统和各种真实世界的任务,这些应用注入知识以改进表示学习。
3. Knowledge Representation Learning
KRL在文献中也被称为KGE、多关系学习和统计关系学习。(原文:KRL is also known as KGE, multi-relation learning, and statistical relational learning in the literature.)
3.1 Representation Space
表示学习的关键是学习低维分布式嵌入的实体和关系。
- Point-Wise Space:Point-wise Euclidean space用于表示实体和关系,嵌入到向量或矩阵空间中,或捕获其交互关系。
- Complex Vector Space:复向量空间能够捕获对称和不对称关系。
- Gaussian Distribution:将实体和关系嵌入到多维高斯分布中。
- Manifold and Group:流形是一个拓扑空间,它可以用集合理论定义为具有邻域的一组点,而群是抽象代数中定义的代数结构。
3.2 Scoring Function
评分函数用于度量事实的可信度,在基于能量的学习框架中也称为能量函数。能量学习的目的是学习能量函数。基于能量的学习目标学习能量函数Eθ(x)参数化θ采取x作为输入,以确保正样本分数高于负样本。
评分函数主要有两种:基于距离的(图4(a))和基于相似性的(图4(b))函数,用于度量事实的合理性。基于距离的评分函数通过计算实体之间的距离来衡量事实的合理度,其中使用较多的是关系为h+r≈t的翻译函数。基于语义相似度的评分方法是通过语义匹配来衡量事实的合理性,通常采用乘法公式,即 $h^T M_r ≈ t^T$ ,转换头尾部附近的实体表示空间。
3.3 Encoding Models
对实体和关系的交互进行编码的模型:
- 线性模型通过将头部实体投射到接近尾部实体的表示空间中,将关系表示为线性/双线性映射。
- 因子分解的目的是将关系数据分解为低秩矩阵进行表示学习。
- 神经网络用非线性神经激活和更复杂的网络结构来编码关系数据。
3.4 Embedding with Auxiliary Information
为了促进更有效的知识表示,多模态嵌入将诸如文本描述、类型约束、关系路径和视觉信息等外部信息与知识图谱本身结合起来。
3.5 Summary
开发一个新的KRL模型主要需要解决以下四个问题:
- 选择哪个表示空间;
- 如何测量特定空间中三元组的合理度;
- 采用何种编码模型对关系交互进行建模;
- 是否利用辅助信息。
4. Knowledge Acquisition
知识获取的目的是从非结构化文本中构造知识图谱,补全已有的知识图,发现和识别实体和关系。
4.1 Knowledge Graph Completion
基于知识图谱不完备性的特点,提出了一种新的知识图谱三元组生成方法。典型的子任务包括链路预测、实体预测和关系预测。
对KGC的初步研究主要集中在学习低维嵌入进行三元组预测。综述中将这些方法称为基于嵌入的方法。然而,它们大多数都没有捕捉到多步关系。因此,最近的工作转向探索多步骤的关系路径和合并逻辑规则,分别称为关系路径推理和基于规则的推理。三元组分类是KGC的一个相关任务,它评估了一个事实三元组分类的正确性。
4.2 Entity Discovery
将基于实体的知识获取分为几个细分的任务,即实体识别、实体消歧、实体类型和实体对齐。
- Entity Recognition:Entity recognition或者named entity recognition (NER)用于识别文本中的实体。
- Entity Typing:实体类型包括粗糙和精细类型,后者使用树结构化类型目录,作为多类别和多标签分类。
- Entity Disambiguation:Entity disambiguation或者entity linking,是将实体名称连接到知识图谱中特定的实体节点。
- Entity Alignment:实体对齐是融合多个异构知识图谱。
4.3 Relation Extraction
关系抽取是从纯文本中抽取未知关系事实并将其加入到知识图谱中,是自动构建大规模知识图谱的关键。
4.4 Summary
知识图谱补全:
完成了现有实体之间缺失的链接,或者推断出给定实体和关系查询的实体。基于嵌入的KGC方法通常依赖于三元组表示学习来捕获语义,并对完成的候选排序。基于嵌入的推理仍然停留在个体关系层面,由于忽略了知识图谱的符号性,缺乏可解释性,使得复杂推理能力较差。符号学与嵌入相结合的混合方法结合了基于规则的推理,克服了知识图谱的稀疏性,提高了嵌入的质量,促使有效的规则注入,并引入了可解释的规则。
实体发现:
从文本中获取面向实体的知识,将知识融合到知识图谱中。
关系抽取:
在距离监督的假设下存在噪声模式,尤其是在不同领域的文本语料库中。因此,弱监督关系提取对于减轻噪声标记的影响是很重要的。
5. Temporal Knowledge Graph
当前知识图谱研究多集中在静态知识图上,事实不随时间变化,对知识图谱的时间动态研究较少。然而时间信息是非常重要的,因为结构化的知识只在一个特定的时期内存在,而事实的演变遵循一个时间序列。最近的研究开始将时间信息引入到KRL和KGC中,与之前的静态知识图相比,这被称为时序知识图。同时对时间嵌入和关系嵌入进行了研究。
Temporal Information Embedding
Entity Dynamics
Temporal Relational Dependency
Temporal Logical Reasoning
6. Knowledge-aware Application
Natural Language Understanding:知识感知NLU将结构化的知识注入到统一的语义空间中,增强语言表示能力。
Question Answering:
- Single-fact QA
- Multi-hop Reasoning
Recommender Systems
7. F UTURE D IRECTIONS
- Complex Reasoning 复杂推理
- Unified Framework 统一框架
- Interpretability 可解释性
- Scalability 可扩展性
- Knowledge Aggregation 知识聚合
- Automatic Construction and Dynamics 自动构建和动态知识图谱
8. Resources
参考文献
- 本文作者: 鱼咸滚酱
- 本文链接: https://github.com/WangMeng2018/WangMeng2018.github.io/tree/master/2020/02/21/Report-A-Survey-on-Knowledge-Graphs-Representation-Acquisition-and-Applications/
- 版权声明: 本博客所有文章除特别声明外,均采用 Apache License 2.0 许可协议。转载请注明出处!