本披露涉及用于知识图谱之间的实体对齐的数据处理的模块及其方法,并且具体地涉及应用到跨平台产品匹配的问题的数据处理的模块及其方法。
背景技术:
1、产品匹配旨在识别在不同平台上出售的相同或相似的产品,这对零售商调整投资策略和顾客比较产品而言至关重要。通过构建知识图谱,产品匹配问题可以转换为旨在发现不同知识图谱中的等价实体的实体对齐问题。
2、电子商务平台经常用其自身积累的数据构建知识图谱。由于每个电子商务平台都有不同的分类系统、产品描述规则和语言等,因此产品匹配任务可以转化为跨语言异质知识图谱之间的实体对齐任务。
3、现有的实体对齐方法没有充分同时利用实体属性和不同实体之间的关系(特别是不同实体之间的相互作用)二者。因此,尽管一些基于知识图谱的产品匹配方法考虑到了属性、关系和知识图谱结构,但难以充分地利用这些各种各样的信息进行产品匹配。
4、除了产品匹配,实体对齐在结合其他背景下使用的知识图谱(例如,结合不同语言的问答知识图谱)时也很有用。这样的任务也因为没有充分同时利用实体属性和不同实体之间的关系而受到限制。
5、本披露的目的是解决或至少部分改善当前方法的上述问题中的一些。
技术实现思路
1、本披露内容的特征和优点将在下面的描述中被阐述,并且部分将从所述描述中显而易见,或者可以通过实施本文中披露的原理而习得。本披露内容的特征和优点可以通过在所附权利要求中特别指出的手段和组合来实现和获得。
2、根据本披露的第一方面,提供了一种用于在第一知识图谱(kg1)与第二知识图谱(kg2)之间对齐实体的数据处理模块,该数据处理模块包括:编码器,该编码器被配置为嵌入kg1和kg2的每个实体节点,以生成每个知识图谱的基础实体表示;聚合器,该聚合器被配置为:使用第一图注意力机制生成每个知识图谱的关系表示,使用第二图注意力机制生成包括该关系表示的实体嵌入,将包括该关系表示的实体嵌入与基础实体表示级联,以生成每个知识图谱的关系感知实体表示,以及使用第三图注意力机制生成包括每个嵌入实体节点的单一向量的每个知识图谱的增强实体表示;以及比较器,该比较器被配置为将kg1的增强实体表示的每个节点与kg2的增强实体表示的每个节点进行比较,以生成kg1与kg2之间的相似度矩阵。
3、该编码器可以基于实体名称和一个或多个相邻节点来嵌入每个特定的实体节点。
4、这些相邻节点可以包括特定节点的相邻实体、类别和属性。
5、该编码器可以将每个知识图谱划分为多个通道。
6、该聚合器可以通过在该知识图谱的每个通道中生成基础实体表示来为每个知识图谱生成基础实体表示。
7、该比较器可以通过以下方式生成相似度矩阵:通过将kg1的相应通道中的增强实体表示与kg2的相应通道中的增强实体表示进行比较,为每个通道生成通道相似度矩阵;以及将多个通道相似度矩阵组合,以生成相似度矩阵。
8、每个知识图谱可以被划分为:只包括每个实体节点的名称的名称通道;只包括每个实体节点的相邻实体节点和类别节点的结构通道;只包括每个实体节点的文字属性的文字通道,其中,文字属性具有相关的文本值;以及只包括每个实体节点的数字属性的数字通道,其中,数字属性具有相关的数值。
9、该比较器可以通过平均池化、svm或加权组合来组合这些通道。
10、该数据处理模块可以在第一平台与第二平台之间匹配产品,其中,第一平台的产品由kg1表示,并且第二平台的产品由kg2表示。
11、该比较器可以基于相似度矩阵为第一平台的至少一个产品输出来自第二平台的多个排名靠前的相似产品。
12、该数据处理模块可以包括数据抽取器,该数据抽取器使用来自第一平台的结构化产品数据构建kg1,并使用来自第二平台的结构化产品数据构建kg2。
13、该数据抽取器可以通过解析来自第一平台的非结构化产品数据构建kg1,并通过解析来自第二平台的非结构化产品数据构建kg2。
14、该数据处理模块可以包括粗略过滤器,该粗略过滤器用于通过基于规则的产品名称和类别的匹配来过滤kg1和kg2。
15、根据本披露的第二方面,提供了一种在第一知识图谱(kg1)与第二知识图谱(kg2)之间对齐实体的计算机实施的方法,该方法包括:嵌入kg1和kg2的每个实体节点,以生成每个知识图谱的基础实体表示;使用第一图注意力机制来生成每个知识图谱的关系表示;使用第二图注意力机制来生成包括该关系表示的实体嵌入;将包括该关系表示的实体嵌入与基础实体表示级联,以生成每个知识图谱的关系感知实体表示;使用第三图注意力机制来生成包括每个嵌入实体节点的单一向量的每个知识图谱的增强实体表示;以及将kg1的增强实体表示的每个节点与kg2的增强实体表示的每个节点进行比较,以生成kg1与kg2之间的相似度矩阵。
16、嵌入特定实体节点可以基于实体名称和一个或多个相邻节点。
17、这些相邻节点可以包括特定节点的相邻实体、类别和属性。
18、该方法可以包括将每个知识图谱划分为多个通道。
19、为每个知识图谱生成基础实体表示可以包括在该知识图谱的每个通道中生成基础实体表示。
20、生成该相似度矩阵可以包括:通过将kg1的相应通道中的增强实体表示与kg2的相应通道中的增强实体表示进行比较,为每个通道生成通道相似度矩阵;以及将多个通道相似度矩阵进行组合,以生成相似度矩阵。
21、每个知识图谱可以被划分为:只包括每个实体节点的名称的名称通道;只包括每个实体节点的相邻实体节点和类别节点的结构通道;只包括每个实体节点的文字属性的文字通道,其中,文字属性具有相关的文本值;以及只包括每个实体节点的数字属性的数字通道,其中,数字属性具有相关的数值。
22、这些通道是通过平均池化、svm或加权组合来组合的。
23、根据本披露的第三方面,提供了一种在第一平台与第二平台之间匹配产品的计算机实施的方法,该方法使用第二方面所述的实体对齐方法,其中,该第一平台的产品由第一知识图谱(kg1)表示,并且该第二平台的产品由第二知识图谱(kg2)表示;
24、该方法可以包括基于相似度矩阵为第一平台的至少一个产品输出来自第二平台的多个排名靠前的相似产品。
25、该方法可以包括使用来自第一平台的结构化产品数据构建kg1,并使用来自第二平台的结构化产品数据构建kg2。
26、该方法可以包括通过解析来自第一平台的非结构化产品数据构建kg1,并通过解析来自第二平台的非结构化产品数据构建kg2。
27、该方法可以包括通过基于规则的产品名称和类别的匹配来过滤kg1和kg2的粗略过滤阶段。
28、根据本披露的第四方面,提供了一种计算机可读介质,该计算机可读介质被配置为存储指令,这些指令在被处理器执行时,使该处理器执行第二方面或第三方面所述的方法。
1.一种用于在第一知识图谱kg1与第二知识图谱kg2之间对齐实体的数据处理模块,所述数据处理模块包括:
2.如权利要求1所述的数据处理模块,其中,所述编码器被配置为基于实体名称和一个或多个相邻节点来嵌入每个特定的实体节点。
3.如权利要求2所述的数据处理模块,其中,所述相邻节点包括所述特定节点的相邻实体、类别和属性。
4.如任一前述权利要求所述的数据处理模块,
5.如权利要求4所述的数据处理模块,其中,每个知识图谱都被划分为:
6.如权利要求4或权利要求5所述的数据处理模块,其中,所述比较器被配置为通过平均池化、svm或加权组合来组合所述通道。
7.如任一前述权利要求所述的数据处理模块,所述数据处理模块被配置为在第一平台与第二平台之间匹配产品,其中,所述第一平台的产品由所述第一知识图谱kg1表示,并且所述第二平台的产品由所述第二知识图谱kg2表示;
8.如权利要求7所述的数据处理模块,进一步包括数据抽取器,所述数据抽取器被配置为使用来自所述第一平台的结构化产品数据构建kg1,并使用来自所述第二平台的结构化产品数据构建kg2。
9.如权利要求7所述的数据处理模块,进一步包括数据抽取器,所述数据抽取器被配置为通过解析来自所述第一平台的非结构化产品数据构建kg1,并通过解析来自所述第二平台的非结构化产品数据构建kg2。
10.如权利要求7至9中任一项的数据处理模块,进一步包括粗略过滤器,所述粗略过滤器被配置为通过基于规则的产品名称和类别的匹配来过滤kg1和kg2。
11.一种在第一知识图谱kg1与第二知识图谱kg2之间对齐实体的计算机实施的方法,所述方法包括:
12.如权利要求11所述的计算机实施的方法,其中,特定实体节点的所述嵌入基于实体名称和一个或多个相邻节点。
13.如权利要求12所述的计算机实施的方法,其中,所述相邻节点包括所述特定节点的相邻实体、类别和属性。
14.如权利要求11至13中任一项所述的计算机实施的方法,进一步包括将每个知识图谱划分为多个通道,
15.如权利要求14所述的计算机实施的方法,其中,每个知识图谱都被划分为:
16.如权利要求14或权利要求15所述的计算机实施的方法,其中,所述通道是通过平均池化、svm或加权组合来组合的。
17.一种在第一平台与第二平台之间匹配产品的计算机实施的方法,所述方法使用如任一前述权利要求所述的实体对齐方法,其中,所述第一平台的产品由第一知识图谱kg1表示,并且所述第二平台的产品由第二知识图谱kg2表示;
18.如权利要求17所述的计算机实施的方法,进一步包括使用来自所述第一平台的结构化产品数据构建kg1,并使用来自所述第二平台的结构化产品数据构建kg2。
19.如权利要求17或权利要求18所述的计算机实施的方法,进一步包括通过解析来自所述第一平台的非结构化产品数据构建kg1,并通过解析来自所述第二平台的非结构化产品数据构建kg2。
20.如权利要求17至19中任一项所述的计算机实施的方法,进一步包括通过基于规则的产品名称和类别的匹配来过滤kg1和kg2的粗略过滤阶段。
21.一种计算机可读介质,所述计算机可读介质被配置为存储指令,所述指令在被处理器执行时,使所述处理器执行如权利要求11至20中任一项所述的方法。
