融合领域知识图谱的跨境民族文本分类方法及装置

专利检索2022-05-11  1



1.本发明涉及融合领域知识图谱的跨境民族文本分类方法及装置,属于自然语言处理技术领域。


背景技术:

2.跨境民族文本分类任务是跨境民族文化分析中的基础性工作,传统的机器学习文本分类方法通常采用不同类型的机器学习算法作为算法分类器,并结合特征工程进行分类,然而存在难以捕获跨境民族文本深层含义和依赖人工提取跨境民族特征等问题。基于深度学习的分类方法是当今的主流方法,但大部分基于通用领域的相关研究,跨境民族文本分类任务属于特定领域分类问题,目前基于此领域的研究相对较少,针对跨境民族文本数据中存在的语义环境复杂,类别相互交叉的问题,本发明考虑融入跨境民族知识图谱辅助分类,以取得更好的文本分类效果。
3.本发明主要考虑融合领域知识图谱的跨境民族文本分类方法,在yang等人提出的分层注意力文本分类方法上进行了改进,并借鉴shen等人、bordes等人的思想将外部知识信息与文本有效的结合起来辅助正文分类。


技术实现要素:

4.本发明提供了一种融合领域知识图谱的跨境民族文本分类方法,以用于解决跨境民族文本数据中存在的语义环境复杂,类别相互交叉的问题,本发明考虑融入跨境民族知识图谱辅助分类,以取得更好的文本分类效果。
5.本发明的技术方案是:第一方面,提供一种基于融合领域知识图谱的跨境民族文本分类方法,所述方法的具体步骤如下:
6.step1、跨境民族文化知识图谱构建:通过爬取各大民族网站获取跨境民族文化数据,分析跨境民族文本数据并进行文化类别的划分,根据跨境民族类别信息分别定义实体属性以及实体之间的关系,利用跨境民族实体属性丰富跨境民族文化三元组知识,构建包含实体、实体属性、关系的跨境民族文化知识图谱。
7.step2、跨境民族文本数据预处理:采用预训练模型训练跨境民族文本数据获得跨境民族文本词向量表示;将实体属性中的实体别称和实体类别标签组成实体标签,采用知识表示模型对跨境民族文化知识图谱中的实体、关系和实体标签进行向量化表示。
8.step3、融合领域知识图谱的跨境民族文本分类模型训练:对正文中的跨境民族文化实体进行实体语义的扩展,利用实体的类别语义特征增强正文类别特征;利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,采用门控机制融合标题和正文的词级和句子级特征信息,缓解了跨境民族文化类别交叉的问题;进行跨境民族文本分类模型训练,获得跨境民族文本分类模型。
9.step4、跨境民族文化类别预测:通过训练跨境民族文本分类模型对输入的跨境民族文本数据进行跨境民族文化类别预测。
10.作为本发明的进一步方案,所述step1的具体步骤为:
11.step1.1、跨境民族文化知识图谱类别体系构建。通过对跨境民族文化文本数据的文化概念(文化概念如:饮食、建筑、服饰等)具体分析,将跨境民族文化文本数据主要分为六个大类,主要包括跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化,其中跨境民族包括:傣族、泰族、彝族、倮倮族。如文本:“泼水节实为傣族的新年,是西双版纳最隆重的传统节日之一。”属于傣族习俗文化。
12.step1.2、跨境民族实体属性定义。跨境民族文化实体的属性主要包括:跨境民族实体名称、跨境民族实体别称、跨境民族实体描述内容以及跨境民族实体类别标签。针对跨境民族文化文本数据中一词多种表述的现象,在实体属性中利用跨境民族实体别称进行标注。实体属性中的类别信息为实体提供了类别信息,为后续跨境民族文化实体语义特征的扩展奠定了基础。例如有实体:“糯米酒”,则实体的别称为:“劳毫糯”,实体的描述内容为“傣族酒,傣族特制饮品”,实体类别标签为“傣族饮食文化”。
13.step1.3、跨境民族关系属性定义。跨境民族关系是对跨境民族文化知识图谱中跨境民族知识的关联整合。主要将跨境民族文化中的实体关系定义为以下几种:包含关系:如“跨境民族习俗文化”包含“跨境民族婚姻文化”以及“跨境民族丧葬文化”;属性关系:如“丢包”为“泼水节”的一个节日活动,二者之间存在属性关系;位置关系:如“泰国”和“泰族”存在位置关系。
14.作为本发明的进一步方案,所述step2的具体步骤为:
15.step2.1、通过爬取各大网站(如:维基百科、百度百科等)获取跨境民族文化文本数据,经过筛选、过滤、去重、去停用词等操作后获得4个跨境民族(傣族、泰族、彝族、倮倮族)文本数据,共选取39450条数据,其中包括:类别数为28,每个类别的数据的数量为1000~1500条,标题的长度大多集中在10到20个字符,正文的长度在100到250个字符之间,正文中的句子为5到10句。
16.step2.2、首先,将跨境民族文化文本数据进行分句处理,然后,对每个句子采用跨境民族文化词库辅助分词。最后,对跨境民族文本数据采用预训练模型得到跨境民族文化词向量表示,训练得到的跨境民族文化词库包含34117个词,文化类别包括:跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化。
17.step2.3、跨境民族文化实体语义扩展方法:利用跨境民族文化知识图谱实体的类别标签实现对跨境民族文化实体的语义扩展。例如,有跨境民族知识三元组(傣族,傣族节日,关门节)。实体的标签由实体的别称和实体的类别标签构成,故实体“傣族”的标签为“掸族,跨境民族”,实体“关门节”的标签为“进洼,傣族节日文化”,利用知识表示模型将实体、关系、以及实体的标签进行向量化表示得到实体的向量表示[e
傣族
,e
关门节
],关系向量表示[r
傣族节日
]以及标签向量表示[l
泰族
,l
跨境民族
,l
进洼
,l
傣族节日文化
],最后把相应的实体向量和关系向量进行对位相加得到实体语义向量为:
[0018]e傣族
=e
关门节
r
傣族节日
l
泰族
l
跨境民族
,e
关门节
=e
傣族
r
傣族节日
l
进洼
l
傣族节日文化

[0019]
最后将所有实体的实体语义向量进行存储得到跨境民族实体语义向量表。
[0020]
作为本发明的进一步方案,所述step3的具体步骤为:
[0021]
step3.1、实现对标题的词级语义特征的提取。故本发明提出采用人工构建的跨境民族文化词库辅助分词缓解普通的分词工具分词效果不佳的问题。使用跨境民族文化词向量获得标题中每个词的向量表征,为了获得跨境民族文本标题的隐藏向量表示,利用双向循环神经网络编码上下文信息的特性,进行跨境民族标题信息的编码。
[0022]hi
=bigru(xi),i∈[1,n]
[0023]
其中hi表示标题中第i个单词的前向和后向隐状态信息的结合
[0024]
将得到的跨境民族文化文本隐状态信息hi输入到掩码自注意力机制网络中,利用掩码自注意力机制捕获上下文特征的特点,提取跨境民族标题中的关键信息,并忽略不重要的信息。
[0025]
f(hi,hj)=c
·
tanh([w
(1)hi
w
(2)hj
b]/c) m
ij1[0026][0027][0028]
其中,表示权重矩阵;tanh(.)表示激活函数;c表示为标量,实验中通常设置c=5;m
ij
1中1代表全是1的向量,m
ij
代表编码时序信息的掩码矩阵;表示标题中第j个序列hj的输出。
[0029]
step3.2、实现对正文数据实体语义向量的扩充和词级语义特征的提取。由于正文由多个句子构成,首先将正文进行分句,并对每个句子进行分词处理得到词向量w
jk
,k∈[1,n],例如文本:“泼水节是傣族最隆重的节日。”首先得到正文的向量表示为[w
泼水节
,w

,w
傣族
,w

,w
降重
,w

,w
节日
],提取两个字以上的词语并通过跨境民族实体语义向量表查找相应的实体语义向量可得到[e
傣族
,e
泼水节
]。之后,通过实体在文本中的位置可以将这两种向量对位相加得到文本的词向量,融合方式为:ai=w
jk
ei,即:[w
泼水节
e
泼水节
,w

,w
傣族
e
傣族
,w

,w
隆重
,w

,w
节日
]。然后,对正文采用同标题一样的编码和词级特征提取方式得到正文词级特征向量表示为:c=[c1,c2,c3,...,c
l
],j∈[1,m],最后,将正文和标题的特征向量进行融合。
[0030]
v=[t,c]
[0031]
其中为融合后的特征向量,表示标题特征向量,表示正文特征向量。
[0032]
step3.3、融合标题和正文中的信息并进行特征的提取。将标题和正文词级信息进行融合并捕获融合后的信息的全局特征信息,探索融合后提取的词向量信息与整个文档的上下文依赖关系,具体表示如下:
[0033]
f(xi)=w
t
σ(w1sei b1) b
[0034]
其中,w
t
,w1,b1,σ(.)表示激活函数。为了获得融合了标题和正文的文档全局信息采用门控机制将标题和正文的词级和句子级信息进行联合,具体如下所示:
[0035]
f=sig mod(w
(f1)
o w
(f2)
v bf)
[0036]
r=f
·
v (1-f)o
[0037]
其中o表示融合标题和正文的句子级特征信息,v表示标题和正文的词级特征信息。
[0038]
step3.4、提取文档上下文特征信息。采用双向循环神经网络编码全局信息,获得全局信息的上下文编码矩阵。利用注意力机制能够提取重要特征的特性,捕获全局信息的重要特征信息,根据文本中词语的重要性程度分配不同的权重,权重越大说明词越重要,更好的关注于标题和正文之间的交互。
[0039]
step3.5、从网络层输出的跨境民族文本特征中提取最显著特征y来判断跨境民族文化数据类别。
[0040]
y=softmax(wiui)
[0041]
最终得到的y表示跨境民族文化类别的概率分布,wi∈r
4de
×
l
表示可训练的权重向量,其中l表示划分的跨境民族文化类别数。
[0042]
第二方面,本发明实施例还提供了一种融合领域知识图谱的跨境民族文本分类装置,该装置包括用于执行上述第一方面方法的模块。
[0043]
本发明的有益效果是:
[0044]
1、利用跨境民族文化知识图谱对文本中的跨境民族实体进行语义扩展,通过实体在知识图谱中的类别特征来增强文本的类别语义特征。
[0045]
2、有效利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,并把提取到的不同层次的特征信息结合到一起辅助分类,缓解了跨境民族文化类别交叉的问题,本发明取得更好的文本分类效果。
附图说明
[0046]
图1为融合领域知识图谱的跨境民族文本分类网络架构图;
[0047]
图2为融合领域知识图谱的跨境民族文本分类装置示意图;
[0048]
图3为通过设置不同的dropout_rate参数进行实验以找到最适合本发明模型的数的示意图。
具体实施方式
[0049]
实施例1:如图1-图3所示,第一方面,提供融合领域知识图谱的跨境民族文本分类方法,所述融合领域知识图谱的跨境民族文本分类方法的具体步骤如下:
[0050]
step1、跨境民族文化知识图谱构建:通过爬取各大民族网站获取跨境民族文化数据,分析跨境民族文本数据并进行文化类别的划分,根据跨境民族类别信息分别定义实体属性以及实体之间的关系,利用跨境民族实体属性丰富跨境民族文化三元组知识,构建包含实体、实体属性、关系的跨境民族文化知识图谱。
[0051]
step2、跨境民族文本数据预处理:采用预训练模型训练跨境民族文本数据获得跨境民族文本词向量表示;将实体属性中的实体别称和实体类别标签组成实体标签,采用知识表示模型对跨境民族文化知识图谱中的实体、关系和实体标签进行向量化表示。
[0052]
step3、融合领域知识图谱的跨境民族文本分类模型训练:对正文中的跨境民族文化实体进行实体语义的扩展,利用实体的类别语义特征增强正文类别特征;利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,采用门控机制融合标题和正文的词级和句子级特征信息,缓解了跨境民族文化类别交叉的问题;进行跨境民族文本分类模型训练,获得跨境民族文本分类模型。
[0053]
step4、跨境民族文化类别预测:通过训练跨境民族文本分类模型对输入的跨境民族文本数据进行跨境民族文化类别预测。
[0054]
作为本发明的优选方案,所述step1的具体步骤为:
[0055]
step1.1、跨境民族文化知识图谱类别体系构建。通过对跨境民族文化文本数据的文化概念(文化概念包括:饮食、建筑、服饰、习俗、艺术、宗教)具体分析,将跨境民族文化文本数据主要分为六个大类,主要包括跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化,其中跨境民族包括:傣族、泰族、彝族、倮倮族。如文本:“泼水节实为傣族的新年,是西双版纳最隆重的传统节日之一。”属于傣族习俗文化,文本“家神崇拜及其祭祀仪式家神,傣语称作“披很”。”属于傣族宗教文化,具体如表1所示:
[0056]
表1跨境民族文化类别划分
[0057][0058][0059]
step1.2、跨境民族实体属性定义。跨境民族文化实体的属性主要包括:跨境民族实体名称、跨境民族实体别称、跨境民族实体描述内容以及跨境民族实体类别标签。针对跨境民族文化文本数据中一词多种表述的现象,在实体属性中利用跨境民族实体别称进行标注。实体属性中的类别信息为实体提供了类别信息,为后续跨境民族文化实体语义特征的扩展奠定了基础。例如有实体:“糯米酒”,则实体的别称为:“劳毫糯”,实体的描述内容为“傣族酒,傣族特制饮品”,实体类别标签为“傣族饮食文化,傣族饮品文化”,具体如表2所示。
[0060]
表2跨境民族实体属性定义
[0061][0062]
step1.3、跨境民族关系属性定义。跨境民族关系是对跨境民族文化知识图谱中跨境民族知识的关联整合。主要将跨境民族文化中的实体关系定义为以下几种:包含关系:如“跨境民族习俗文化”包含“跨境民族婚姻文化”以及“跨境民族丧葬文化”;属性关系:如“丢包”为“泼水节”的一个节日活动,二者之间存在属性关系;位置关系:如“泰国”和“泰族”存在位置关系。跨境民族实体关系的建立使得跨境民族文化知识图谱可视化性能、查询性能得到有效加强。具体如表4所示。
[0063]
表3跨境民族实体关系举例
[0064][0065]
作为本发明的优选方案,所述step2的具体步骤为:
[0066]
step2.1、通过爬取各大网站(如:维基百科、百度百科等)获取跨境民族文化文本数据,经过筛选、过滤、去重、去停用词等操作后获得4个跨境民族(傣族、泰族、彝族、倮倮族)文本数据,共选取39450条数据,其中包括:类别数为28,每个类别的数据的数量为1000~1500条,标题的长度大多集中在10到20个字符,正文的长度在100到250个字符之间,正文中的句子为5到10句,其中跨境民族文本数据的标注如表4所示:
[0067]
表4跨境民族文化文本数据样例
[0068][0069]
step2.2、首先,将跨境民族文化文本数据进行分句处理,之后对每个句子进行分词,采用跨境民族文化词库辅助分词。然后,对跨境民族文本数据采用预训练模型得到跨境民族文化词向量表示,训练得到的跨境民族文化词库包含34117个词,包含四个跨境民族(傣族、泰族、彝族、倮倮族),文化类别包括:跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化。
[0070]
step2.3、跨境民族文化识图谱的特征表示为:利用知识图谱表示学习方法将跨境民族文化知识图谱中三元组的实体和关系表示在同一个向量空间中。例如,有跨境民族知识三元组(傣族,傣族节日,关门节)。首先,分别对头实体、尾实体、关系进行标记处理。头实体的标记为(傣族,0),尾实体的标记为(关门节,1)和关系的标记为(傣族节日,0)。实体的标签由实体的别称和实体的类别标签构成,故实体“傣族”的标签记为(掸族,0_0)和(跨境民族,0_1);实体“关门节”的标签记为(进洼,1_0)和(傣族节日文化,1_1)。之后,将实体向量、关系向量、标签向量以及训练数据随机初始化后输入到transe模型中进行训练,最终得到实体的向量表示[e
傣族
,e
关门节
],关系向量表示[r
傣族节日
]以及标签向量(包含别称和类别标签)为[l
泰族
,l
跨境民族
,l
进洼
,l
傣族节日文化
],再把相应的实体向量和关系向量进行对位相加得到实体语义向量为:e
傣族
=e
关门节
r
傣族节日
l
泰族
l
跨境民族
,e
关门节
=e
傣族
r
傣族节日
l
进洼
l
傣族节日文化
。最后将所有实体的实体语义向量进行存储得到跨境民族实体语义向量表。
[0071]
知识图谱表示学习方法定义的损失函数具体如下:
[0072]
l=∑
(h,r,t)∈s(h

,r,t

)∈s

(h,r,t)
∑[γ ((h lh) γ-(t l
t
))
2-((h

lh′
) γ-(t

l
t

))2]

[0073]
其中s表示正确的跨境民族文化知识三元组;s

表示随机构造的负样例,构造方法为随机将正确的跨境民族文化知识三元组中的实体和关系替换为其他的元素;lh′
和l
t

表示随机构造的头实体和尾实体标签;γ是大于0的间隔距离参数;[.]

表示正值函数,当[.]>0时,[.]

=[.],当[.]<0时[.]

=0。
[0074]
作为本发明的优选方案,所述step3的具体步骤为:
[0075]
step3.1、对标题信息的编码,是通过人工构建的跨境民族文化词库来辅助分词,使用预训练模型对现有的跨境民族文化数据训练得到词向量,并利用跨境民族词向量获得标题中每个词wi,i∈[1,n]的嵌入表征xi∈r
100
。其中n代表标题中词的个数,100表示词向量维度。
[0076]
采用双向循环神经网络获得标题的词级表示。采用双向循环神经网络包含从前向gru获得标题中x1到xn的隐藏向量表示和后向gru获得xn到x1的隐藏向量表示。具体操作如下:
[0077]hi
=bigru(xi),i∈[1,n]
[0078]
其中hi表示标题中第i个单词的前向和后向隐状态信息的结合
[0079]
对标题的特征信息提取,是通过掩码自注意力机制来获得。首先,为标题中的每个词计算对齐分数。接着进行归一化计算概率分布,值较大说明标题中的某个词贡献了重要的信息。具体如下所示:
[0080]
f(hi,hj)
bw
=c
·
tanh([w
(1)hi
w
(2)hj
b]/c) m
ijbw1[0081][0082]
其中是与输入h维度相同的向量。表示权重矩阵;tanh(.)表示激活函数;c表示为标量,实验中通常设置c=5,用来减少参数的数量。m
ij
1中1代表全是1的向量,m
ij
代表编码时序信息的掩码矩阵。为了获得双向的注意力分数,分别采用前向的掩码矩阵和反向的掩码矩阵掩码矩阵的具体表示如下:
[0083][0084][0085]
其次,该注意力机制的输出表示标题中所有词嵌入的加权和,其中权重由给出,可以将输出写为根据词的重要性采样的令牌期望,即:
[0086][0087]
其中表示标题中第j个序列hj的输出。为了简便,以下的公式中都忽略了下标k,公式(6)可写为
[0088]
最后,标题的输出(前向输出t
fw
和后向输出t
bw
的计算方式一致)由注意力
机制的输出s
bw
以及标题的输入h通过融合门机制得到,这将为标题中的每个元素生成一个上下文感知以及时序编码的向量表示。具体如下:
[0089]fbw
=sig mod(w(
f1)sbw
w
(f2)
h bf)
[0090]
t
bw
=f
bw
·
h (1-f
bw
)s
bw
[0091]
t=[t
bw
||t
fw
]∈r
2de
[0092]
其中w
(f1)
、是融合门机制中可学习参数,“||”表示连接操作,t=[t1,t2,t3,...,tn]。
[0093]
step3.2、对正文信息的向量表示为:首先将正文按句号分为多个句子jj,j∈[1,m],其中m代表句子的个数。采用分词处理得到词向量w
jk
,k∈[1,n],其中n代表句子的长度。通过实体在文本中的位置可以将这两种向量对位相加得到文本的词向量,融合过程如下所示:
[0094]ai
=w
jk
ei[0095]
其中ei的维度和w
jk
一致,ei表示通过知识图谱表示表征过的实体语义特征信息。例如文本:“泼水节是傣族最隆重的节日”。首先提取两个字以上的词语并通过跨境民族实体语义向量表查找相应的实体语义向量可得到[e
傣族
,e
泼水节
]。之后根据跨境民族词向量得到正文的向量表示[w
泼水节
,w

,w
傣族
,w

,w
隆重
,w

,w
节日
],最后将文本向量与查找得到的实体语义向量进行融合可得到
[0096]
[w
泼水节
e
泼水节
,w

,w
傣族
e
傣族
,w

,w
隆重
,w

,w
节日
]。
[0097]
使用双向门控循环单元进行编码得到正文隐向量hi,采用掩码自注意力网络进行正文句子特征提取,得到正文词级特征向量表示为:c=[c1,c2,c3,...,c
l
],j∈[1,m],之后将正文和标题的特征向量进行融合。
[0098]
v=[t,c]
[0099]
其中为融合后的特征向量,表示标题特征向量,表示正文特征向量。
[0100]
step3.3、融合标题和正文中的信息并进行特征的提取,通过将融合了标题和正文的文本特征矩阵输入到掩码自注意力机制获得前向的特征矩阵和后向的特征矩阵通过融合得到特征矩阵其中“||”表示连接操作。之后将sei作为输入采用sorce2token网络进行句子间特征的提取。与step3.1中注意力特征提取所不同的是,下列公式探索的是词向量sei与整个文档se的依赖关系,具体如下所示:
[0101]
f(xi)=w
t
σ(w1sei b1) b
[0102]
其中,w
t
,w1,b1,σ(.)表示激活函数。之后通过softmax函数进行归一化确定权重,概率矩阵被定义为输出计算方式为为了获得融合了标题和正文的文档全局信息采用门控机制将标题和正文的词级和句子级信息进行联合,具体如下所示:
[0103]
f=sig mod(w
(f1)
o w
(f2)
v bf)
[0104]
r=f
·
v (1-f)o
[0105]
其中o表示融合标题和正文的句子级
特征信息,v表示标题和正文的词级特征信息。
[0106]
step3.4、跨境民族文本全局特征的提取,是通过采用双向循环神经网络获得全局信息的上下文编码矩阵。与step4.1中词向量特征编码不同的是前者将标题和正文分别进行特征的提取,后者对标题和正文信息联合后的全局特征提取,后者对标题和正文之间的交互更加关注,具体如下所示:
[0107]hi
=bigru(ri)
[0108]
ui=tanh(w
uhi
bw)
[0109][0110]
ui=a
ihi
[0111]
其中由上诉公式可知,首先通过双向循环单元获得隐藏向量表示hi,然后通过多层感知机计算注意力分数,之后采用softmax进行归一化确定权重ai,最终得到文档集的特征编码向量ui。
[0112]
step3.5、从网络层输出的跨境民族文本特征中提取最显著特征y来判断跨境民族文化数据类别。
[0113]
y=softmax(wiui)
[0114]
最终得到的y表示跨境民族文化类别的概率分布,wi∈r
4de
×
l
表示可训练的权重向量,其中l表示划分的跨境民族文化类别数。
[0115]
模型训练数据集主要包括4个跨境民族(傣族、泰族(泰国)、彝族、倮倮族(越南)),共选取39450条数据作为训练集,2144条数据作为测试集。其中每个类别的数据的数量为1000~1500条。其中标题的长度大多集中在10到20个字符,正文的长度在100到250个字符之间,正文中的句子为5到10句,跨境民族文化数据选取的类别如表5所示,其中na表示文本不属于任何一个类型:
[0116]
表5数据集类别设置
[0117][0118][0119]
采用gensim工具包的word2vec模型训练词向量,词向量的维度为100维。采用adam
算法作为加快模型训练速度的优化器;学习率设为0.02;模型中为防止过拟合,在特征提取层中将丢失率(dropout)设置为0.5。本发明的评价指标主要采用准确率(acc.)、精确率(p)、召回(r)和f1值。
[0120]
本发明采用6个基线模型和本发明模型在仅正文,标题联合正文两种情况下进行训练。具体如表6所示:
[0121]
(1)dpcnn:johnson等人提出的一种新型的cnn结构,具有提取远程关系特征及复杂度不高的特点。
[0122]
(2)fasttext:快速文本,使用nce损失来提升softmax计算,提高了训练速度。
[0123]
(3)textcnn:kim等人提出的面向文本分类的卷积神经网络,具有更好捕捉局部特征的特点。
[0124]
(4)textrcnn:lai等人提出的使用一个双向递归网络层和一个池化层来提取文本特征信息,再通过一个全连接层进行分类。具有减少噪声,捕获关键单词信息的特点。
[0125]
(5)bert:google发布的语言表示模型,采用12层的transformer,相对rnn更加高效、能捕捉更长距离的依赖,相比于其他的预训练模型,它捕捉到的是真正意义上的bidirectional context信息。
[0126]
(6)han:yang等人提出的用于文档集分类的分层注意力网络,在英文文本分类中取得了不错的效果。
[0127]
表6本发明方法与基线模型方法的对比
[0128][0129]
值得注意的是,基线模型和本发明模型在标题联合正文的实验结果均高于仅正文输入的实验结果。此外,在仅正文的情况下,本发明方法的acc值为81.2%,f1值为72.6%,仅超过基线模型han,本发明方法在标题联合正文的情况下acc.、p、r、f1值都相对较高,平均增加了11.87%,该实验结果证明了本发明方法提出的融合领域知识图谱的跨境民族文本分类方法的有效性。
[0130]
表7为各部分特征有效性的实验结果对比。
[0131]
表7消融实验
[0132][0133]
由表7可知,在删掉模型中的某一层时,本发明方法的acc.、p、r和f1值均有所下降。分别在“(-)融合标题和正文的特征提取层”和“(-)上下文特征融合层”两种情况下,实验结果的acc.、p、r和f1值略微下降,由此证明了“融合标题和正文的特征提取层”在文本中捕捉句间关系的能力以及“上下文特征融合层”整合上下文特征信息的优势,在模型中起到了关键的作用。特别的,“(-)masked-self-attention(词级)”中acc.、p、r、f1值下降最为明显,分别下降了17.1%、14.7%、18.9%和18.7%。这种现象的出现表明了针对跨境民族文化的语义环境复杂问题,采用简单的注意力机制无法关注到上下文特征。
[0134]
此外,在“(-)transe”情况下,实验删去了对正文内容进行跨境民族实体语义的增强,实验结果显示acc.、p、r、f1值均有所下降,但相比于基线模型,本发明提出的模型在不使用实体语义增强的情况下仍然具有较好的性能,此现象有效的证明了本发明提出的方法在特征提取方面的优势以及跨境民族文化知识图谱的融入能够增强实体语义这一论证。
[0135]
表8为领域分词对模型的性能影响实验结果对比。
[0136]
表8领域分词对实验结果的影响
[0137][0138]
通过表8可以得到在跨境民族文化文本分类任务中采用领域分词具有明显的效果。相对于直接使用jieba分词的分类效果较为逊色,这是因为,跨境民族文本数据中存在大量的专业名词,单纯的采用jieba分词往往达不到理想的效果。
[0139]
图3通过设置不同的dropout_rate参数进行实验以找到最适合本发明模型的数。
[0140]
由图3中可以看出,当dropout_rate=0.7时模型性能最低,原因是dropout_rate设置的过高时,模型学习到的特征信息较少,使得模型性能明显降低。当dropout_rate=0.1时,模型学习到的信息量较大,导致模型出现过拟合现象。综上,将dropout_rate设置为0.5。
[0141]
第二方面,本发明实施例还提供了一种融合领域知识图谱的跨境民族文本分类装置,该装置包括用于执行上述第一方面方法的模块。
[0142]
具体可以包括如下模块:
[0143]
跨境民族文化知识图谱构建模块:用于通过爬取各大民族网站获取跨境民族文化数据,进行文化类别的划分,根据跨境民族类别信息分别定义实体属性以及实体之间的关系,利用跨境民族实体属性丰富跨境民族文化三元组知识,构建包含实体、实体属性、关系的跨境民族文化知识图谱;
[0144]
跨境民族文本数据预处理模块:用于采用预训练模型训练跨境民族文本数据获得跨境民族文本词向量表示;将实体属性中的实体别称和实体类别标签组成实体标签,采用
知识表示模型对跨境民族文化知识图谱中的实体、关系和实体标签进行向量化表示;
[0145]
融合领域知识图谱的跨境民族文本分类模型训练模块:用于对正文中的跨境民族文化实体进行实体语义的扩展,利用实体的类别语义特征增强正文类别特征;利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,采用门控机制融合标题和正文的词级和句子级特征信息,缓解了跨境民族文化类别交叉的问题;进行跨境民族文本分类模型训练,获得跨境民族文本分类模型;
[0146]
跨境民族文化类别预测模块:用于通过训练跨境民族文本分类模型对输入的跨境民族文本数据进行跨境民族文化类别预测。
[0147]
在一种可行的实施方式中,所述跨境民族文化知识图谱构建模块,具体用于:
[0148]
跨境民族文化知识图谱类别体系构建:
[0149]
将跨境民族文化文本数据分为六个大类,包括跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化,其中跨境民族包括:傣族、泰族、彝族、倮倮族;
[0150]
跨境民族实体属性定义:
[0151]
跨境民族文化实体的属性包括:跨境民族实体名称、跨境民族实体别称、跨境民族实体描述内容以及跨境民族实体类别标签;针对跨境民族文化文本数据中一词多种表述的现象,在实体属性中利用跨境民族实体别称进行标注;
[0152]
跨境民族关系属性定义:
[0153]
将跨境民族文化中的实体关系定义为以下几种:包含关系、属性关系、位置关系。
[0154]
在一种可行的实施方式中,所述跨境民族文本数据预处理模块,具体用于:
[0155]
通过爬取各大网站获取跨境民族文化文本数据,经过筛选、过滤、去重、去停用词操作后获得跨境民族文本数据,共选取39450条数据,其中包括:类别数为28,每个类别的数据的数量为1000~1500条,标题的长度集中在10到20个字符,正文的长度在100到250个字符之间,正文句子为5到10句;
[0156]
首先,将跨境民族文化文本数据进行分句处理,然后,对每个句子采用跨境民族文化词库辅助分词;最后,对跨境民族文本数据采用预训练模型得到跨境民族文化词向量表示,训练得到的跨境民族文化词库包含34117个词,文化类别包括:跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化;
[0157]
跨境民族文化实体语义扩展:利用跨境民族文化知识图谱实体的类别标签实现对跨境民族文化实体的语义扩展;实体的标签由实体的别称和实体的类别标签构成,利用知识表示模型将实体、关系、以及实体的标签进行向量化表示得到实体的向量表示、关系向量表示以及标签向量表示,最后把相应的实体向量和关系向量进行对位相加得到实体语义向量;最后将所有实体的实体语义向量进行存储得到跨境民族实体语义向量表。
[0158]
第三方面,本发明实施例还提供了一种融合领域知识图谱的跨境民族文本分类装置,该装置包括如下模块:
[0159]
跨境民族文本数据预处理模块:用于将文本数据进行过滤、筛选、去除停用词、特殊符号等操作后输入模型。
[0160]
融合领域知识图谱的跨境民族文本分类模型模块:用于将文本中的正文进行实体
语义的扩展后同标题信息进行联合,把提取到的词级和句子级特征信息结合到一起,进行跨境民族文本分类模型训练,获得跨境民族文本分类模型。
[0161]
跨境民族文化类别预测模块:用于通过训练跨境民族文本分类模型对输入的跨境民族文本数据进行跨境民族文化类别预测。
[0162]
跨境民族文化类别预测部署模块:具体用于:将融合领域知识图谱的跨境民族文本分类模型进行保存,利用flask技术将模型加载于内存中,避免请求结果带来频繁的模型加载过程,提高识别模型的运行速率;然后,通过flask技术将模型部署为一个api接口,进而实现web端口多并发请求的功能;最后,在web端通调用部署到服务器端的文本分类模型,通过输入一段文本来预测跨境民族文化类别,将得到的预测结果展示到前端界面。
[0163]
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
转载请注明原文地址:https://win.8miu.com/read-950405.html

最新回复(0)