2020-11-23

知识图谱融合

将知识图谱进行总结：
概念图谱、实体概念混合图谱、素材文档图谱+工作文档图谱

构造		|概念<-混合	|混合<-素材+工作文档
--------------------------------------------------------
节点		|人工补全(略)	|自动去重（2）
		|冲突检测	|自动合并（2）
		|		|冲突检测
		|		|自动挂接（2）				
--------------------------------------------------------
条目		|生成编辑	|自动合并（2）
		|		|编辑合并
--------------------------------------------------------
概念(概念图谱)	|归纳聚类（1）	|X
--------------------------------------------------------
领域(混合图谱)	|X		|领域相似性检测
--------------------------------------------------------
子图(混合图谱)	|X		|子图分类（1）

冲突检测：
获取知识图谱的领域树；获取知识图谱中的当前实体；获得当前实体在领域树中所属的第一领域及第二领域；分别确定第一领域及第二领域在领域树中的位置；根据第一领域及第二领域在领域树中的位置，确定当前实体的第一领域及第二领域的关系；确定第一领域及第二领域在领域树中不存在公共子领域，或者，确定第一领域及第二领域在领域树中存在公共父领域且公共父领域为通用领域，将第一领域及第二领域确定为可疑冲突领域对；根据可疑冲突领域对，获得知识图谱的冲突领域对。该方法可以得到知识图谱中存在的冲突领域对，覆盖率很高。

冲突检测和冲突消解：
将节点之间的冲突分为:
术语冲突：实体冲突
谓词冲突：表达相同知识采用不同形式的谓词
语义冲突：多个知识在逻辑上产生的不一致

提出了
逻辑树融合法:术语冲突
频率融合法:术语冲突、谓词冲突
句法融合法:术语冲突、谓词冲突和语义冲突

参考：
知识图谱实体领域冲突检测方法,装置及相关设备？？
申请(专利权)人：腾讯科技（深圳）有限公司

1.分类/聚类问题：

子图分类:
介绍：
找到同构子图
算法：GNN/GCN
简介：
训练一个GCN网络，将多个KG的实体和关系都映射到同一个空间，相同实体对和关系对有相同的向量表示，然后根据空间中向量的相似性来寻找对齐的实体。

参考：
基于图神经网络的知识图谱研究进展
融合多个知识图谱形成一个更完整的知识图谱。由于图神经网络具有识别同构子图的能力，而可对齐的实体对周围通常有相似的邻居，即具有一定的同构特征，因此目前有许多研究者尝试将图神经网络用于实体对齐。
Multi-Channel Graph Neural Network for Entity Alignment
https://arxiv.org/pdf/1908.09898v1.pdf
该方法的缺点：
1.结构异质性：不同KG会有不同的结构，从而根本就无法对齐。
2.有限的种子对

概念归纳聚类:
介绍：
谱聚类，图中不同点进行聚类，将图进行分割。
算法：RatioCut/Ncut切图+k-means聚类
简介：
选一个cut(a1,a2,..,an).然后k-means.

参考:
https://www.cnblogs.com/pinard/p/6221564.html

自动去重/合并：
比较实体的语义和结构特征，找同义词
算法：
对非结构化数据做语义分析，找到同义词对
1）选取一些特定分词结果做同义词挖掘。如果需要考虑语料中可能出现的新词或者不同语言表述，则需要配合Pattern挖掘、NER或名词短语抽取等方式获取候选词。
2）准备好已有的同义词表作为种子数据
3）获取所有种子词和候选词的特征，通常该任务的特征会从两个角度考虑，分别是local context和global context，通俗的讲就是局部特征和全局特征，前者着重于词本身，常见字级别特征、词级别特征等；后者则是考虑目标词在数据集中的分布特征或者词所在句子、段落的语义特征

参考：
https://blog.csdn.net/jxsdq/article/details/106002991
https://zhuanlan.zhihu.com/p/105203565