本技术实施例涉及数据分析,尤其涉及一种实体对齐方法和装置。
背景技术:
1、知识图谱在应用领域的重要性体现在多个方面,它不仅改变了数据的组织和检索方式,还为各种智能应用提供了强大的支持。
2、知识图谱通过整合和分析来自不同来源的数据,为决策者提供有价值的洞察和支持。在金融、医疗、政府等行业中,知识图谱在风险评估、市场分析等方面发挥着重要作用。通过知识图谱可以在多个数据源和系统中,以知识图谱作为中介,帮助实现数据的集成和交互操作的可能性。它通过统一设计的本体来整合异构数据,提高了数据的可用性和一致性。
3、金融业务通常会涉及企业关联图谱,企业关联图谱中经常会发生数据冗余和实体冗余的情况,由于数据来源多样,可能存在多个来源或多次出现相同的数据,或者由于命名差异、同义词等原因,同一实体可能被错误地表示为多个不同的实体。目前,业务人员主要依靠手动对企业关联图谱的数据进行分析,得到需要的对齐实体对用来业务决策和交易判断,并对金融业务服务提供数据支持,对知识图谱进行实体对齐的效率不高。
技术实现思路
1、为解决现有存在的技术问题,本技术实施例提供了一种实体对齐方法和装置,实现对知识图谱高效的实体对齐处理,提高实体对齐的效率。
2、为达到上述目的,本技术实施例的技术方案是这样实现的:
3、第一方面,本技术实施例提供一种实体对齐方法,所述方法包括:
4、从第一知识图谱和第二知识图谱分别获取第一图谱实体信息和第二图谱实体信息;
5、基于所述第一图谱实体信息和所述第二图谱实体信息,生成待处理实体信息对;
6、将所述待处理实体信息对输入到已训练的图谱信息对齐模型,得到所述待处理实体信息对的实体信息对齐结果;
7、其中,所述实体信息对齐结果表征所述待处理实体信息对包括的第一图谱实体信息和第二图谱实体信息是否为对齐实体对;所述图谱信息对齐模型是采用训练样本数据对基础对齐模型进行训练得到的;所述训练样本数据包括带有对齐分类标签的样本实体信息对;所述样本实体信息对包括头部实体信息和尾部实体信息;所述对齐分类标签表征样本实体信息对包括的头部实体信息和尾部实体信息是否为对齐实体;所述基础对齐模型用于获取输入的样本实体信息对的特征向量,并基于所述特征向量确定所述输入的样本实体信息对的对齐结果。
8、本技术实施例提供的实体对齐方法,通过自动获取第一图谱实体信息和第二图谱实体信息,基于所述第一图谱实体信息和所述第二图谱实体信息,生成待处理实体信息对并输入到已训练的图谱信息对齐模型,得到所述待处理实体信息对的实体信息对齐结果,实现对知识图谱高效的实体对齐处理,能够提高实体对齐的效率。
9、在一种可选的实施例中,所述从第一知识图谱和第二知识图谱分别获取第一图谱实体信息和第二图谱实体信息,包括:
10、从第一知识图谱逐一选取第一图谱实体信息,以及从第二知识图谱逐一选取第二图谱实体信息;
11、所述基于所述第一图谱实体信息和所述第二图谱实体信息,生成待处理实体信息对,包括:
12、每选取出一个第一图谱实体信息和一个第二图谱实体信息,基于选取出的所述一个第一图谱实体信息和所述一个第二图谱实体信息,生成待处理实体信息对。
13、上述实施例的方法,从第一知识图谱逐一选取第一图谱实体信息,以及从第二知识图谱逐一选取第二图谱实体信息,每选取出一个第一图谱实体信息和一个第二图谱实体信息,基于选取出的所述一个第一图谱实体信息和所述一个第二图谱实体信息,生成待处理实体信息对,自动实施对图谱实体信息高效的逐一选取,减少实体对齐的耗时,进一步地为待处理实体信息对的构建提供便捷,能够提高实体对齐的效率。
14、在一种可选的实施例中,所述特征向量包括与所述头部实体信息对应的头部特征向量和与所述尾部实体信息对应的尾部特征向量;所述输入的样本实体信息对的对齐结果,通过如下步骤进行确定:
15、将所述头部特征向量和所述尾部特征向量进行相似度计算,得到特征向量相似度;
16、基于所述特征向量相似度和预设的对齐判断规则,确定所述输入实体信息对的对齐结果;所述对齐判断规则包括基于所述特征向量相似度和相似度阈值的数值关系,判断头部实体信息与尾部实体信息是否为对齐实体对,以生成对齐结果。
17、上述实施例的方法,通过将所述头部特征向量和所述尾部特征向量进行相似度计算,得到特征向量相似度;基于所述特征向量相似度和预设的对齐判断规则,确定所述输入实体信息对的对齐结果;所述对齐判断规则包括基于所述特征向量相似度和相似度阈值的数值关系,判断头部实体信息与尾部实体信息是否为对齐实体对,以生成对齐结果。该方法可以将所述头部特征向量和所述尾部特征向量进行相似度计算,得到特征向量相似度,并基于所述特征向量相似度和预设的对齐判断规则,确定所述输入实体信息对的对齐结果,减少判断是否为对齐实体对的过程中的人为干预,进一步地为样本实体信息对的对齐结果的确定提供便捷,提高实体对齐的效率。
18、在一种可选的实施例中,所述基础对齐模型的输出包括实体类别特征、实体属性特征和实体关系特征;所述特征向量为通过将所述实体类别特征、所述实体属性特征和所述实体关系特征进行融合而得到的。
19、上述实施例的方法,可以根据基础对齐模型输出的实体类别特征、所述实体属性特征和所述实体关系特征,得到特征向量,提升了实体对齐的精细度,可以提升实体对齐的信息精准性,进一步地为图谱实体信息的分析挖掘提供便捷,提高实体对齐的效率。
20、在一种可选的实施例中,通过下列方式得到所述图谱信息对齐模型:
21、获得训练样本数据;所述训练样本数据包括带有对齐分类标签的样本实体信息对;所述样本实体信息对包括头部实体信息和尾部实体信息;所述对齐分类标签表征样本实体信息对包括的头部实体信息和尾部实体信息是否为对齐实体;
22、基于所述训练样本数据,选取批次训练图谱信息料;所述批次训练图谱信息料包括所述样本实体信息对;
23、将批次训练图谱信息料输入待训练的基础对齐模型进行训练,并确定所述待训练的基础对齐模型的识别损失值;
24、确定所述识别损失值是否收敛至预设的目标值,如果是,则结束训练得到已训练的图谱信息对齐模型,否则根据确定的识别损失值对待训练的基础对齐模型的参数进行调整并进行再次训练。
25、上述实施例的方法,可以根据获得的训练样本数据进行训练得到已训练的图谱信息对齐模型;所述训练样本数据包括带有对齐分类标签的样本实体信息对;所述样本实体信息对包括头部实体信息和尾部实体信息;所述对齐分类标签表征样本实体信息对包括的头部实体信息和尾部实体信息是否为对齐实体,提供一种图谱信息对齐模型的训练机制,通过已训练的图谱信息对齐模型自动生成待处理实体信息对的实体信息对齐结果,可以缩短实体对齐的时间,显著提高实体对齐的效率。
26、在一种可选的实施例中,任意一个所述样本实体信息对包括的头部实体信息和尾部实体信息,为通过第三知识图谱中选取图谱实体信息得到的;所述第一知识图谱、所述第二知识图谱及所述第三知识图谱具有相同或相关联的知识领域的图谱数据。
27、上述实施例的方法,任意一个所述样本实体信息对包括的头部实体信息和尾部实体信息,为通过第三知识图谱中选取图谱实体信息得到的;所述第一知识图谱、所述第二知识图谱及所述第三知识图谱具有相同或相关联的知识领域的图谱数据,通过设置相同或相关联的知识领域的图谱数据,可以提升已训练的图谱信息对齐模型的实体对齐识别的精准性,增强实体对齐的信息精准性,进一步地为图谱实体信息的分析挖掘提供便捷,提高实体对齐的效率。
28、在一种可选的实施例中,所述第一知识图谱和所述第二知识图谱均包括以下实体类型中的部分或全部:企业实体、自然人实体、客户实体、账户实体、金融产品实体;所述方法还包括:
29、响应接收到的图谱融合指令,基于所述待处理实体信息对的实体信息对齐结果,将所述第一知识图谱和所述第二知识图谱进行知识融合,得到融合知识图谱;所述知识融合包括将分别在所述第一知识图谱和所述第二知识图谱中的构成对齐实体对的图谱实体信息进行图谱数据的去重及合并。
30、上述实施例的方法,可以响应接收到的图谱融合指令,基于所述待处理实体信息对的实体信息对齐结果,将所述第一知识图谱和所述第二知识图谱进行知识融合,得到融合知识图谱,提高实体对齐的效率。
31、第二方面,本技术实施例还提供一种实体对齐装置,所述装置包括:
32、实体信息获取单元,用于从第一知识图谱和第二知识图谱分别获取第一图谱实体信息和第二图谱实体信息;
33、信息对构建单元,用于基于所述第一图谱实体信息和所述第二图谱实体信息,生成待处理实体信息对;
34、对齐结果生成单元,用于将所述待处理实体信息对输入到已训练的图谱信息对齐模型,得到所述待处理实体信息对的实体信息对齐结果;
35、其中,所述实体信息对齐结果表征所述待处理实体信息对包括的第一图谱实体信息和第二图谱实体信息是否为对齐实体对;所述图谱信息对齐模型是采用训练样本数据对基础对齐模型进行训练得到的;所述训练样本数据包括带有对齐分类标签的样本实体信息对;所述样本实体信息对包括头部实体信息和尾部实体信息;所述对齐分类标签表征样本实体信息对包括的头部实体信息和尾部实体信息是否为对齐实体;所述基础对齐模型用于获取输入的样本实体信息对的特征向量,并基于所述特征向量确定所述输入的样本实体信息对的对齐结果。
36、在一种可选的实施例中,所述实体信息获取单元,具体用于从第一知识图谱逐一选取第一图谱实体信息,以及从第二知识图谱逐一选取第二图谱实体信息;
37、所述信息对构建单元,具体用于每选取出一个第一图谱实体信息和一个第二图谱实体信息,基于选取出的所述一个第一图谱实体信息和所述一个第二图谱实体信息,生成待处理实体信息对。
38、在一种可选的实施例中,所述特征向量包括与所述头部实体信息对应的头部特征向量和与所述尾部实体信息对应的尾部特征向量;所述基础对齐模型具体用于通过如下步骤确定所述输入的样本实体信息对的对齐结果:
39、将所述头部特征向量和所述尾部特征向量进行相似度计算,得到特征向量相似度;
40、基于所述特征向量相似度和预设的对齐判断规则,确定所述输入实体信息对的对齐结果;所述对齐判断规则包括基于所述特征向量相似度和相似度阈值的数值关系,判断头部实体信息与尾部实体信息是否为对齐实体对,以生成对齐结果。
41、在一种可选的实施例中,所述基础对齐模型的输出包括实体类别特征、实体属性特征和实体关系特征;所述特征向量为通过将所述实体类别特征、所述实体属性特征和所述实体关系特征进行融合而得到的。
42、在一种可选的实施例中,所述装置还包括模型训练单元;所述模型训练单元,用于通过下列方式得到所述图谱信息对齐模型:
43、获得训练样本数据;所述训练样本数据包括带有对齐分类标签的样本实体信息对;所述样本实体信息对包括头部实体信息和尾部实体信息;所述对齐分类标签表征样本实体信息对包括的头部实体信息和尾部实体信息是否为对齐实体;
44、基于所述训练样本数据,选取批次训练图谱信息料;所述批次训练图谱信息料包括所述样本实体信息对;
45、将批次训练图谱信息料输入待训练的基础对齐模型进行训练,并确定所述待训练的基础对齐模型的识别损失值;
46、确定所述识别损失值是否收敛至预设的目标值,如果是,则结束训练得到已训练的图谱信息对齐模型,否则根据确定的识别损失值对待训练的基础对齐模型的参数进行调整并进行再次训练。
47、在一种可选的实施例中,任意一个所述样本实体信息对包括的头部实体信息和尾部实体信息,为通过第三知识图谱中选取图谱实体信息得到的;所述第一知识图谱、所述第二知识图谱及所述第三知识图谱具有相同或相关联的知识领域的图谱数据。
48、在一种可选的实施例中,所述第一知识图谱和所述第二知识图谱均包括以下实体类型中的部分或全部:企业实体、自然人实体、客户实体、账户实体、金融产品实体;所述装置还包括图谱信息整合单元;所述图谱信息整合单元,用于:
49、响应接收到的图谱融合指令,基于所述待处理实体信息对的实体信息对齐结果,将所述第一知识图谱和所述第二知识图谱进行知识融合,得到融合知识图谱;所述知识融合包括将分别在所述第一知识图谱和所述第二知识图谱中的构成对齐实体对的图谱实体信息进行图谱数据的去重及合并。
50、第三方面,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面的实体对齐方法。
51、第四方面,本技术实施例还提供了一种电子设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现第一方面的实体对齐方法。
52、第五方面,本技术实施例一种计算机程序产品,其包括计算机指令,所述计算机指令存储在计算机可读存储介质中;当计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令时,所述处理器执行该计算机指令,使得所述计算机设备执行上述任一种实体对齐方法的步骤。
53、第二至五方面中任意一种实现方式所带来的技术效果可参见第一方面的实现方式所带来的技术效果,此处不再赘述。
1.一种实体对齐方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述从第一知识图谱和第二知识图谱分别获取第一图谱实体信息和第二图谱实体信息,包括:
3.根据权利要求1所述的方法,其特征在于,所述特征向量包括与所述头部实体信息对应的头部特征向量和与所述尾部实体信息对应的尾部特征向量;所述输入的样本实体信息对的对齐结果,通过如下步骤进行确定:
4.根据权利要求3所述的方法,其特征在于,所述基础对齐模型的输出包括实体类别特征、实体属性特征和实体关系特征;所述特征向量为通过将所述实体类别特征、所述实体属性特征和所述实体关系特征进行融合而得到的。
5.根据权利要求1所述的方法,其特征在于,通过下列方式得到所述图谱信息对齐模型:
6.根据权利要求1~5任一所述的方法,其特征在于,任意一个所述样本实体信息对包括的头部实体信息和尾部实体信息,为通过第三知识图谱中选取图谱实体信息得到的;所述第一知识图谱、所述第二知识图谱及所述第三知识图谱具有相同或相关联的知识领域的图谱数据。
7.根据权利要求1所述的方法,其特征在于,所述第一知识图谱和所述第二知识图谱均包括以下实体类型中的部分或全部:企业实体、自然人实体、客户实体、账户实体、金融产品实体;所述方法还包括:
8.一种实体对齐装置,其特征在于,所述装置包括:
9.根据权利要求8所述的装置,其特征在于,所述实体信息获取单元,具体用于从第一知识图谱逐一选取第一图谱实体信息,以及从第二知识图谱逐一选取第二图谱实体信息;
10.根据权利要求8所述的装置,其特征在于,所述特征向量包括与所述头部实体信息对应的头部特征向量和与所述尾部实体信息对应的尾部特征向量;所述基础对齐模型具体用于通过如下步骤确定所述输入的样本实体信息对的对齐结果:
11.根据权利要求8所述的装置,其特征在于,所述装置还包括模型训练单元;所述模型训练单元,用于通过下列方式得到所述图谱信息对齐模型:
12.根据权利要求8所述的装置,其特征在于,所述第一知识图谱和所述第二知识图谱均包括以下实体类型中的部分或全部:企业实体、自然人实体、客户实体、账户实体、金融产品实体;所述装置还包括图谱信息整合单元;所述图谱信息整合单元,用于:
13.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,其特征在于:所述计算机程序被处理器执行时,实现权利要求1~7中任一项所述的方法。
14.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,实现权利要求1~7中任一项所述的方法。
15.一种计算机程序产品,其特征在于,其包括计算机指令,所述计算机指令存储在计算机可读存储介质中;当计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令时,所述处理器执行该计算机指令,使得所述计算机设备执行权利要求1~7中任一方法的步骤。