文本分类方法、文本分类网络的训练方法及装置与流程

专利检索2022-05-10  5



1.本公开涉及自然语言处理技术领域,具体涉及一种文本分类方法、文本分类网络的训练方法及装置。


背景技术:

2.文本分类是自然语言处理中最为重要的研究方向之一,文本分类在目前许多场景下均有着广泛的应用,例如舆情分析、垃圾信息和邮件过滤、搜索引擎对网页相关性排序、信息检索、数据挖掘等。
3.相关技术中,可以利用文本分类网络对文本类别进行预测输出,但是相关技术中的分类网络训练参数过多,训练时间长,并且分类网络对词向量过度优化导致网络过拟合,因此分类网络的训练速度和泛化能力较差。


技术实现要素:

4.为提高文本分类网络的训练速度和泛化能力,本公开实施方式提供了一种文本分类方法、文本分类网络的训练方法及装置、电子设备、存储介质。
5.第一方面,本公开实施方式提供了一种文本分类方法,包括:
6.将待分类的文本数据输入训练后的文本分类网络,得到所述文本分类网络预测输出的分类结果;
7.其中,所述文本分类网络包括文本表示网络和主干网络,所述文本分类网络的训练过程包括:
8.获取样本文本数据集,所述样本文本数据集中的每个样本文本数据包括对应的分类标签信息;
9.利用所述样本文本数据集,对未训练的所述文本分类网络进行多轮迭代训练;所述多轮迭代训练包括第一部分轮次训练,以及除所述第一部分轮次训练之外的第二部分轮次训练;
10.其中,在所述第一部分轮次训练中,基于所述文本分类网络的输出结果和所述分类标签信息,获取所述输出结果和所述分类标签信息之间的差异,并基于所述差异调整所述文本表示网络和所述主干网络的网络参数;
11.在所述第二部分轮次训练中,基于所述文本分类网络的输出结果和所述分类标签信息,获取所述输出结果和所述分类标签信息之间的差异,并基于所述差异调整所述主干网络的网络参数,直至所述差异满足收敛条件,得到训练后的文本分类网络。
12.在一些实施方式中,所述文本分类网络还包括词向量调整网络,所述将待分类的文本数据输入训练后的文本分类网络,得到所述文本分类网络预测输出的分类结果,包括:
13.将待分类的文本数据输入所述文本表示网络,得到所述文本表示网络输出的第一词向量;
14.将所述第一词向量输入词向量调整网络,得到所述词向量调整网络输出的第二词
向量;
15.将所述第二词向量输入所述主干网络,得到所述输出结果。
16.在一些实施方式中,所述文本分类网络的训练过程还包括:
17.在所述第二部分轮次训练中,基于所述文本分类网络的输出结果和所述分类标签信息,获取所述输出结果和所述分类标签信息之间的差异;并基于所述差异调整所述词向量调整网络和所述主干网络的网络参数,直至所述差异满足收敛条件,得到训练后的文本分类网络。
18.在一些实施方式中,所述文本分类网络的训练过程还包括:
19.在所述第一部分轮次训练完成后,得到第一文本分类网络;
20.根据所述第一文本分类网络的网络结构和网络参数,建立第二文本分类网络;所述第二文本分类网络包括所述词向量调整网络;
21.在所述第二部分轮次训练中,基于所述第二文本分类网络的输出结果和所述分类标签信息,获取所述输出结果和所述分类标签信息之间的差异,并基于所述差异调整所述第二文本分类网络的所述词向量调整网络和所述主干网络的网络参数,直至所述差异满足收敛条件,得到训练后的文本分类网络。
22.在一些实施方式中,在所述待分类的文本数据为中文文本时,在将待分类的文本数据输入文本分类网络之前,所述方法还包括:
23.对所述待分类的文本数据进行分词处理,得到处理后的文本数据。
24.在一些实施方式中,所述文本表示网络包括词嵌入网络;
25.所述主干网络包括以下中至少之一:
26.长短时间记忆网络、循环神经网络、卷积神经网络以及注意力网络。
27.在一些实施方式中,所述词向量调整网络包括全连接网络。
28.第二方面,本公开实施方式提供了一种文本分类网络的训练方法,所述文本分类网络包括文本表示网络和主干网络,所述方法包括:
29.获取样本文本数据集,所述样本文本数据集中的每个样本文本数据包括对应的分类标签信息;
30.利用所述样本文本数据集,对未训练的所述文本分类网络进行多轮迭代训练;所述多轮迭代训练包括第一部分轮次训练,以及除所述第一部分轮次训练之外的第二部分轮次训练;
31.其中,在所述第一部分轮次训练中,基于所述文本分类网络的输出结果和所述分类标签信息,获取所述输出结果和所述分类标签信息之间的差异,并基于所述差异调整所述文本表示网络和所述主干网络的网络参数;
32.在所述第二部分轮次训练中,基于所述文本分类网络的输出结果和所述分类标签信息,获取所述输出结果和所述分类标签信息之间的差异,并基于所述差异调整所述主干网络的网络参数,直至所述差异满足收敛条件,得到训练后的文本分类网络。
33.第三方面,本公开实施方式提供了一种文本分类装置,包括:
34.输入模块,被配置为将待分类的文本数据输入训练后的文本分类网络,得到所述文本分类网络预测输出的分类结果;
35.其中,所述文本分类网络包括文本表示网络和主干网络,所述文本分类网络的训
练过程包括:
36.获取样本文本数据集,所述样本文本数据集中的每个样本文本数据包括对应的分类标签信息;
37.利用所述样本文本数据集,对未训练的所述文本分类网络进行多轮迭代训练;所述多轮迭代训练包括第一部分轮次训练,以及除所述第一部分轮次训练之外的第二部分轮次训练;
38.其中,在所述第一部分轮次训练中,基于所述文本分类网络的输出结果和所述分类标签信息,获取所述输出结果和所述分类标签信息之间的差异,并基于所述差异调整所述文本表示网络和所述主干网络的网络参数;
39.在所述第二部分轮次训练中,基于所述文本分类网络的输出结果和所述分类标签信息,获取所述输出结果和所述分类标签信息之间的差异,并基于所述差异调整所述主干网络的网络参数,直至所述差异满足收敛条件,得到训练后的文本分类网络。
40.在一些实施方式中,所述文本分类网络还包括词向量调整网络,所述输入模块具体被配置为:
41.将待分类的文本数据输入所述文本表示网络,得到所述文本表示网络输出的第一词向量;
42.将所述第一词向量输入词向量调整网络,得到所述词向量调整网络输出的第二词向量;
43.将所述第二词向量输入所述主干网络,得到所述输出结果。
44.在一些实施方式中,所述文本分类网络的训练过程还包括:
45.在所述第二部分轮次训练中,基于所述文本分类网络的输出结果和所述分类标签信息,获取所述输出结果和所述分类标签信息之间的差异;并基于所述差异调整所述词向量调整网络和所述主干网络的网络参数,直至所述差异满足收敛条件,得到训练后的文本分类网络。
46.在一些实施方式中,所述文本分类网络的训练过程还包括:
47.在所述第一部分轮次训练完成后,得到第一文本分类网络;
48.根据所述第一文本分类网络的网络结构和网络参数,建立第二文本分类网络;所述第二文本分类网络包括所述词向量调整网络;
49.在所述第二部分轮次训练中,基于所述第二文本分类网络的输出结果和所述分类标签信息,获取所述输出结果和所述分类标签信息之间的差异,并基于所述差异调整所述第二文本分类网络的所述词向量调整网络和所述主干网络的网络参数,直至所述差异满足收敛条件,得到训练后的文本分类网络。
50.在一些实施方式中,在所述待分类的文本数据为中文文本时,所述装置还包括:
51.分词处理模块,被配置为对所述待分类的文本数据进行分词处理,得到处理后的文本数据。
52.在一些实施方式中,所述文本表示网络包括词嵌入网络。
53.在一些实施方式中,所述主干网络包括以下中至少之一:
54.长短时间记忆网络、循环神经网络、卷积神经网络以及注意力网络。
55.在一些实施方式中,所述词向量调整网络包括全连接网络。
56.第四方面,本公开实施方式提供了一种文本分类网络的训练装置,所述文本分类网络包括文本表示网络和主干网络,所述装置包括:
57.获取模块,被配置为获取样本文本数据集,所述样本文本数据集中的每个样本文本数据包括对应的分类标签信息;
58.多轮迭代训练模块,被配置为利用所述样本文本数据集,对未训练的所述文本分类网络进行多轮迭代训练;所述多轮迭代训练包括第一部分轮次训练,以及除所述第一部分轮次训练之外的第二部分轮次训练;
59.其中,在所述第一部分轮次训练中,基于所述文本分类网络的输出结果和所述分类标签信息,获取所述输出结果和所述分类标签信息之间的差异,并基于所述差异调整所述文本表示网络和所述主干网络的网络参数;
60.在所述第二部分轮次训练中,基于所述文本分类网络的输出结果和所述分类标签信息,获取所述输出结果和所述分类标签信息之间的差异,并基于所述差异调整所述主干网络的网络参数,直至所述差异满足收敛条件,得到训练后的文本分类网络。
61.第五方面,本公开实施方式提供了一种电子设备,包括:
62.处理器;和
63.存储器,存储有能够被所述处理器读取的计算机指令,当所述计算机指令被读取时,所述处理器执行根据第一方面或第二方面中任一实施方式所述的方法。
64.第六方面,本公开实施方式提供了一种存储介质,用于存储计算机可读指令,所述计算机可读指令用于使计算机执行根据第一方面或第二方面中任一实施方式所述的方法。
65.本公开实施方式的文本分类方法,在对文本分类网络训练时,包括利用样本文本数据集,对未训练的所述文本分类网络进行多轮迭代训练,其中,在第一部分轮次训练中,基于文本分类网络输出结果和样本文本数据的分类标签信息的差异对文本表示网络和主干网络的网络参数进行训练,在第二部分轮次训练中,则基于差异对主干网络进行训练,得到训练后的文本分类网络。由于文本表示网络参数庞大,因此仅在第一部分轮次训练中进行训练,而在第二部分轮次中对文本表示网络进行冻结训练,大幅减少了网络训练时间,而且避免训练过程中文本表示网络对词向量过度优化导致网络过拟合,提高分类网络的训练速度和网络泛化能力。
附图说明
66.为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
67.图1是根据本公开一些实施方式中文本分类方法的流程图。
68.图2是根据本公开一些实施方式中文本分类网络的结构示意图。
69.图3是根据本公开一些实施方式中文本分类方法中网络训练的流程图。
70.图4是根据本公开一些实施方式中文本分类网络的结构示意图。
71.图5是根据本公开一些实施方式中文本分类方法的流程图。
72.图6是根据本公开一些实施方式中文本分类方法中网络训练的流程图。
73.图7是根据本公开一些实施方式中文本分类方法中网络训练的流程图。
74.图8是根据本公开一些实施方式中文本分类方法中网络训练的原理图。
75.图9是根据本公开一些实施方式中文本分类网络的训练方法的流程图。
76.图10是根据本公开一些实施方式中文本分类网络的训练装置的结构框图。
77.图11是适于实现本公开实施方式中方法的电子设备的结构框图。
具体实施方式
78.下面将结合附图对本公开的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本公开一部分实施方式,而不是全部的实施方式。基于本公开中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本公开保护的范围。此外,下面所描述的本公开不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
79.文本分类是指在给定的分类体系下,对未知类别标号的文本,根据其内容进行归类,信息处理中很多任务都可以归结为文本分类问题。例如搜索引擎对网页的相关性排序、垃圾短信和邮件的过滤、文档的组织、信息检索及挖掘等,文本分类是自然语言处理领域最为重要的研究方向之一。
80.相关技术中,文本分类网络大致可以包括两个部分:文本表示和文本分类。文本表示是指将文本数据表示成反映文本语言学特征的空间向量,词嵌入网络是一种较好的文本表示方式。在神经网络中,词嵌入层通常是训练好的转换矩阵,其目的是将输入的文本数据转化为其对应的词向量,这个转化矩阵即为词嵌入层的网络参数。在得到词向量之后,可进一步通过核心主干网络层预测输出分类结果。
81.词嵌入层中包含非常多的网络参数,例如,文本分类网络包括30000的词表,128维的词向量,则词嵌入层参数量为128*30000。一方面,如此多的参数导致分类网络的训练耗时很长,大大影响网络的部署和调优效率;另一方面,对词嵌入层的过度优化也会导致网络的过拟合,使得网络泛化能力较差。
82.正是基于上述相关技术中的缺陷,本公开实施方式提供了一种文本分类方法、文本分类网络的训练方法及装置、电子设备、存储介质,从而提高文本分类网络的训练速度和网络泛化能力。
83.第一方面,本公开实施方式提供了一种文本分类方法。在一些实施方式中,本公开示例基于训练后的文本分类网络对待分类的文本数据进行分类,得到分类结果。
84.如图1所示,在一些实施方式中,本公开示例的文本分类方法包括:
85.s110、获取待分类的文本数据。
86.s120、将待分类的文本数据输入训练后的文本分类网络,得到文本分类网络预测输出的分类结果。
87.具体而言,待分类的文本数据表示需要通过文本分类网络进行分类的数据。本公开实施方式中,可预先对文本分类网络进行训练,得到训练后的文本分类网络,然后将待分类的文本数据输入训练后的文本分类网络,从而得到文本分类网络输出的分类结果。
88.在一些实施方式中,本公开示例的文本分类网络包括文本表示网络和主干网络。文本表示网络用于将输入的文本数据转换为空间向量,从而主干网络可根据空间向量提取
得到更高层的文本特征,经由输出层归纳分类之后输出对应的分类结果。
89.基于上述文本分类网络结构,在一些实施方式中,本公开示例的文本分类方法中对文本分类网络的训练过程包括:获取样本文本数据集,利用样本文本数据集,对未训练的文本分类网络进行多轮迭代训练。
90.具体而言,样本文本数据集中包括多个样本文本数据,每个样本文本数据包括对应的分类标签信息,分类标签信息即为样本文本数据的真实值。
91.在本公开实施方式中,对于文本分类网络的训练包括多个轮次,也即利用样本文本数据集对文本分类网络进行多轮的迭代训练。在本公开实施方式中,定义多轮迭代训练的前部分轮次为“第一部分轮次”,其余部分训练轮次为“第二部分轮次”。
92.在第一部分轮次训练中,基于文本分类网络的输出结果和分类标签信息,获取输出结果和分类标签信息之间的差异,并基于差异调整文本表示网络和主干网络的网络参数;
93.而在第二部分轮次训练中,基于文本分类网络的输出结果和分类标签信息,获取输出结果和分类标签信息之间的差异,并基于差异调整主干网络的网络参数,直至差异满足收敛条件,得到训练后的文本分类网络。
94.也即,在本公开实施方式中,将文本分类网络的训练过程分为两个阶段。在第一部分轮次的训练中,同时调整文本表示网络和主干网络的网络参数;而在第二部分轮次的训练中,仅调整主干网络的网络参数。对于文本分类网络的结构以及具体训练过程,本公开下述实施方式进行说明,在此暂不详述。
95.通过上述可知,在本公开实施方式中,由于文本表示网络参数庞大,因此仅在第一部分轮次训练中进行参数调整,而在第二部分轮次中对文本表示网络进行冻结,仅调整主干网络的网络参数,从而大幅减少了网络训练时间,而且避免训练过程中文本表示网络对词向量过度优化导致网络过拟合,提高分类网络的训练速度和网络泛化能力。
96.图2中示出了本公开一些实施方式中文本分类网络的网络结构,下面结合图2对本公开文本分类网络的训练过程进行说明。
97.如图2所示,在一些实施方式中,文本分类网络包括文本表示网络100、主干网络200以及输出层300。文本表示网络100用于将文本数据转换为空间向量,在一个示例中,文本表示网络100以词嵌入网络为例,文本数据在输入词嵌入网络之前,可首先对文本数据进行预处理,将每一个词转化为数字标号,然后将预处理后的文本数据输入词嵌入网络,词嵌入网络将每个词映射为一个空间向量,也即词向量。
98.主干网络200可包括多个隐层,这些隐层即为文本分类网络的主体,用于根据文本表示网络100输出的词向量得到更高层的文本特征,每个隐层都可以认为对应着不同抽象层次的特征。主干网络200可以包括例如textcnn(文本卷积网络)、textrnn(文本循环卷积网络)、attention(注意力网络)、lstm(长短时间记忆网络)中的一种或多种组合,本公开对此不作限制。
99.通过文本表示网络100表示文本、主干网络200提取高级特征,输出层300即可归纳分类结果,最终输出得到分类结果。在一个示例中,输出层300可包括分类器网络。
100.基于上述图2示例中文本分类网络的结构,如图3所示,本公开示例的文本分类方法中文本分类网络的训练过程包括:
101.s310、获取样本文本数据集。
102.s320、利用样本文本数据集,对未训练的文本分类网络进行多轮迭代训练。
103.首先,获取样本文本数据集,数据集中包括多个样本文本数据,每个样本文本数据包括对应的分类标签信息,分类标签信息即为样本文本数据的真实值。在一个示例中,可通过人工标注的方式得到每个样本文本数据的分类标签信息。在另一个示例中,可通过神经网络标注的方式得到每个样本文本数据的分类标签信息。本公开对此不作限制。
104.其次,对文本分类网络的训练包括多轮迭代训练,本公开对“每一轮”的定义不作限制,本领域技术人员可以根据不同场景定义何为“一轮”。例如,“一轮训练”可以表示样本文本数据集中的所有数据全部输入文本分类网络一遍;又例如,“一轮训练”也可以表示样本文本数据集中的所有数据全部输入文本分类网络两遍甚至多遍;再例如,“一轮训练”还可以表示样本文本数据集中的预设数量的数据输入文本分类网络;等。本公开对此不作限制。
105.在本公开实施方式中,定义多轮迭代训练的前部分轮次为“第一部分轮次”,其余部分训练轮次为“第二部分轮次”。例如,可定义首轮训练为第一部分轮次,后续训练为第二部分轮次;又例如,可定义前若干次训练为第一部分轮次,后续训练为第二部分轮次;等。本领域技术人员对此可以理解,本公开对此不再赘述。
106.在第一部分轮次训练中,将样本文本数据集输入文本表示网络100,得到文本表示网络100输出的第一词向量。
107.在一个示例中,文本表示网络100为词嵌入网络,在输入样本文本数据之前,可首先对样本文本数据进行预处理,将每一个词转化为数字标号,然后将预处理后的文本数据输入词嵌入网络,词嵌入网络将每个词映射为空间向量,得到词向量。
108.在一个示例中,当文本数据为中文文本时,在输入样本文本数据之前,还可对样本文本数据进行分词处理,得到包括至少一个词语的文本数据。在下述中对分词处理进行详细说明,在此暂不详述。
109.在得到第一词向量之后,主干网络200进一步提取更高层的信息,例如语义信息、上下文信息等,输出层300根据主干网络200输出的特征进行分类,输出得到分类结果。
110.在一个示例中,主干网络200包括lstm(long short term memory,长短时记忆)网络,lstm网络不仅可以融合上下文信息,而且可以保留较早时间的信息,避免文本分类中的长期依赖问题。基于lstm网络得到文本数据的特征序列,输出层300可以利用全连接网络作为分类器,从而根据特征序列得到每个特征序列对应的分类概率,选择最大概率即可得到最终的输出结果。
111.在得到每个样本文本数据的输出结果后,可根据输出结果以及样本文本数据自身对应的分类标签信息得到两者之间的差异,也即损失,然后通过反向传播算法即可根据该差异对文本表示网络100和主干网络200的网络参数进行调优,直至完成第一部分轮次的网络训练。
112.通过上述可知,在第一部分轮次的训练中,需要对文本表示网络100和主干网络200同时进行参数优化。在第一部分轮次训练完成之后,即可进行第二部分轮次的网络训练。
113.在第二部分轮次训练中,将样本文本数据输入文本表示网络100,得到文本表示网
络100输出的第一词向量。在得到第一词向量之后,主干网络200进一步提取更高层的信息,例如语义信息、上下文信息等,输出层300根据主干网络200输出的特征进行分类,输出得到分类结果。此过程与第一部分轮次训练相同,参照前述即可,对此不再赘述。
114.在得到每个样本文本数据的输出结果后,可根据输出结果以及样本文本数据自身对应的分类标签信息得到两者之间的差异,也即损失,然后通过反向传播算法即可根据该差异,仅对主干网络200的网络参数进行调优,直至满足收敛条件,即可得到训练完成的文本分类网络。
115.通过上述可知,在第二轮次的训练中,仅针对主干网络200进行参数优化,而冻结文本表示网络100的优化,直至满足收敛条件,文本分类网络即训练完成。例如,当文本分类网络的输出结果与分类标签信息之间的差异满足预设阈值条件时,确定满足收敛条件;又例如,当训练次数满足预设次数阈值时,确定满足收敛条件;等。本公开对此不作限制。
116.通过上述可知,在本公开实施方式中,由于文本表示网络参数庞大,因此仅在第一部分轮次训练中进行训练,而在第二部分轮次中对文本表示网络进行冻结训练,大幅减少了网络训练时间,而且避免训练过程中文本表示网络对词向量过度优化导致网络过拟合,提高分类网络的训练速度和网络泛化能力。
117.在一些实施方式中,考虑到在第二部分轮次中,文本表示网络100冻结训练,文本表示网络100输出的词向量无法进行调整,相应降低了网络的文本表示能力,而且当样本数据分布变化时,网络的泛化能力变差。
118.基于此,在一些实施方式中,如图4所示,本公开文本分类网络还包括词向量调整网络400,词向量调整网络400位于文本表示网络100与主干网络200之间。
119.词向量调整网络400的作用是对文本表示网络100转换后的词向量结果进行调整,从而提高文本表示能力。但是可以理解,词向量调整网络400的参数远远小于文本表示网络100。例如一个示例中,词向量调整网络400可使用全连接网络实现。在本示例中,文本分类网络包括30000的词表,128维的词向量,句子空间长度为40。文本表示网络100的参数量为128*30000,而词向量调整网络400的参数量为128*40。可以看到,相对于文本表示网络100,词向量调整网络400的网络参数数量大幅减少。
120.基于图4所示文本分类网络结构,图5示出了本公开文本分类方法的一些实施方式,下面结合图4和图5进行具体说明。
121.如图5所示,在一些实施方式中,本公开示例的文本分类方法包括:
122.s510、将待分类的文本数据输入文本表示网络,得到文本表示网络输出的第一词向量。
123.具体而言,如图4所示网络结构,将待分类的文本数据输入文本表示网络100,文本表示网络100将文本数据转换为空间向量,也即第一词向量。
124.s520、将第一词向量输入词向量调整网络,得到词向量调整网络输出的第二词向量。
125.可以理解,基于前述可知,在网络训练阶段,在第二轮次训练中文本表示网络100冻结训练,因此网络的文本表示能力可能降低。在本公开一些实施方式中,将文本表示网络100输出的第一词向量输入词向量调整网络400,利用词向量调整网络400对第一词向量进一步进行调整,得到具有更好的文本表示效果的第二词向量。
126.s530、将第二词向量输入主干网络,得到输出结果。
127.具体而言,将第二词向量输入主干网络200,主干网络200进一步提取更高层的信息,例如语义信息、上下文信息等,输出层300根据主干网络200输出的特征进行分类,输出得到分类结果。
128.通过上述可知,本公开实施方式中,利用词向量调整网络400提高网络的文本表示能力,并且词向量调整网络的网络参数相较于文本表示网络数量更少,因此本公开文本分类方法在保证网络精度的情况下可降低网络训练时间,提高网络训练效率。
129.基于图4所示文本分类网络结构,图6示出了本公开文本分类方法中文本分类网络的训练过程,下面结合图4和图6进行具体说明。
130.如图6所示,在一些实施方式中,本公开示例的文本分类方法中文本分类网络的训练过程包括:
131.s610、在第二部分轮次训练中,基于文本分类网络的输出结果和分类标签信息,获取输出结果和所述分类标签信息之间的差异。
132.s620、基于差异调整词向量调整网络和主干网络的网络参数,直至差异满足收敛条件,得到训练后的文本分类网络。
133.具体而言,在网络训练阶段,对于第一部分轮次训练,可暂不设置词向量调整网络400,而是采用例如图2所示的文本表示网络结构,其训练过程也与前述相同,在此不再赘述。
134.而在第二部分轮次训练中,可在文本表示网络100与主干网络200之间设置词向量调整网络400,也即文本分类网络的网络结构如图4所示。
135.在第二部分轮次训练中,将样本文本数据输入文本表示网络100,得到文本表示网络100输出的第一词向量。然后将第一词向量输入词向量调整网络400,得到词向量调整网络输出的第二词向量。之后将第二词向量输入主干网络200和输出层300,得到输出层300的输出结果。在得到每个样本文本数据的输出结果后,可根据输出结果以及样本文本数据自身对应的分类标签信息得到两者之间的差异,然后通过反向传播算法即可根据该差异,对主干网络200和词向量调整网络400的网络参数进行调优,直至满足收敛条件,即可得到训练完成的文本分类网络。
136.可以理解的是,本公开实施方式中,在第二部分轮次训练中对文本表示网络100冻结训练,但是通过对词向量调整网络400的参数调优,仍旧可以使得文本分类网络具有较好的文本表示能力,进而保证网络精度。同时,词向量调整网络400的参数远远小于文本表示网络100,因此本公开文本分类方法在保证网络精度的情况下可降低网络训练时间,提高网络训练效率。
137.图7示出了本公开文本分类方法的一些实施方式中对文本分类网络的训练过程,图8示出了训练过程的原理图,下面结合图7和图8进一步说明。
138.如图7所示,在一些实施方式中,本公开示例的文本分类方法中对文本分类网络的训练过程包括:
139.s710、在第一部分轮次训练完成后,得到第一文本分类网络。
140.具体而言,如图8所示,在第一部分轮次训练中,文本分类网络的训练过程具体为:将样本文本数据集输入文本表示网络100,得到文本表示网络100输出的第一词向量。在得
到第一词向量之后,主干网络200进一步提取更高层的信息,例如语义信息、上下文信息等,输出层300根据主干网络200输出的特征进行分类,输出得到分类结果。在得到每个样本文本数据的输出结果后,可根据输出结果以及样本文本数据自身对应的分类标签信息得到两者之间的差异,通过反向传播算法即可根据该差异对文本表示网络100和主干网络200的网络参数进行调优,直至完成第一部分轮次的网络训练。第一部分轮次的训练过程与上述相同,本领域技术人员参照前述即可,在此不再赘述。
141.在第一部分轮次对文本表示网络100和主干网络200训练之后,得到第一文本分类网络。
142.s720、根据第一文本分类网络的网络结构和网络参数,建立第二文本分类网络,第二文本分类网络包括词向量调整网络。
143.具体来说,在第一部分轮次训练完成之后,可首先建立镜像的文本分类网络,也即包括相同文本表示网络100、主干网络200以及输出层300的网络,同时将第一部分轮次训练完成的网络参数迁移至建立的网络中。如图8所示,在建立网络的过程中,在文本表示网络100和主干网络200之间增加词向量调整网络400,从而得到第二文本分类网络。
144.s730、在第二部分轮次训练中,基于第二文本分类网络的输出结果和分类标签信息,获取输出结果和所述分类标签信息之间的差异。
145.s740、基于差异调整第二文本分类网络的词向量调整网络和主干网络的网络参数,直至差异满足收敛条件,得到训练后的文本分类网络。
146.词向量调整网络400的作用是在第二部分轮次训练中,文本表示网络100冻结训练的情况下,通过词向量调整网络400对中间词向量结果进行调整。同时,词向量调整网络400的网络参数相对于文本表示网络100大幅减少,训练时间较少。
147.对于词向量调整网络400,其输入是128*40的特征向量表示的文本数据,经过相同大小128*40的矩阵的对应位置元素相乘,输出相同大小,也即128*40的特征向量。在对词向量调整网络400优化的过程中,相当于通过词向量调整网络400放大或缩小词向量的维度,从而减小误差。
148.在第二部分轮次的训练中,将样本文本数据输入文本表示网络100,得到文本表示网络100输出的第一词向量。词向量调整网络400根据文本表示网络100输出的第一词向量,通过上述处理得到第二词向量。在得到第二词向量之后,主干网络200进一步提取更高层的信息,例如语义信息、上下文信息等,输出层300根据主干网络200输出的特征进行分类,输出得到分类结果。
149.在得到每个样本文本数据的输出结果后,可根据输出结果以及样本文本数据自身对应的分类标签信息得到两者之间的差异,也即损失,然后通过反向传播算法即可根据该差异,对主干网络200和词向量微调层400的网络参数进行调优,直至满足收敛条件,即可得到训练完成的文本分类网络。
150.通过上述可知,本公开实施方式中,在第二部分轮次训练中对文本表示网络100冻结训练,但是通过对词向量调整网络400的参数调优,仍旧可以使得文本分类网络具有较好的文本表示能力,进而保证网络精度。同时,词向量调整网络400的参数远远小于文本表示网络100,因此本公开文本分类方法在保证网络精度的情况下可降低网络训练时间,提高网络训练效率。
151.在一些实施方式中,当文本数据为中文文本时,在输入样本文本数据之前,还可对样本文本数据进行分词处理,得到包括至少一个词语的文本数据,在基于处理后的数据对分类网络进行训练。
152.具体来说,可以基于设定的分词算法对文本数据进行分词处理,例如基于字符串匹配的分词算法、基于理解的分词算法、基于统计的分词算法等。本公开对此不作限制。
153.通过上述可知,在本公开实施方式中,在第二部分轮次训练中,虽然文本表示网络冻结训练,但是通过加入词向量调整网络补充参数,一方面相对于文本表示网络的训练大大减少了调整参数的数量,降低网络训练时间,另一方面可通过词向量调整网络对中间结果进行调整,提高文本表示能力,而且在样本分布发生变化时,通过词向量调整网络的参数调整,可适应不同数据分布,进一步提高网络泛化能力。
154.第二方面,本公开提供了一种文本分类网络的训练方法。如图9所示,在一些实施方式中,本公开示例的文本分类网络的训练方法包括:
155.s910、获取样本文本数据集。
156.s920、利用样本文本数据集,对未训练的文本分类网络进行多轮迭代训练。
157.本公开实施方式中,对于文本分类网络的训练包括多个轮次,也即利用样本文本数据集对文本分类网络进行多轮的迭代训练。具体来说,本公开示例的文本分类网络的网络结构可以参照前述第一方面任一实施方式进行实施,同时对于文本分类网络的训练过程可对应参照前述训练过程实施,本公开对此不再赘述。
158.通过上述可知,本公开实施方式的文本分类方法和文本分类网络的训练方法,在网络训练的第二部分轮次训练中,通过对文本表示网络冻结训练,大幅减少了网络训练时间,而且避免训练过程中文本表示网络对词向量过度优化导致网络过拟合,提高分类网络的训练速度和网络泛化能力。并且通过词向量调整网络对中间结果进行调整,提高文本表示能力,而且在样本分布发生变化时,通过词向量调整网络的参数调整,可适应不同数据分布,进一步提高网络泛化能力。
159.第三方面,本公开实施方式提供了一种文本分类装置。在一些实施方式中,本公开示例的文本分类装置包括:
160.输入模块,被配置为将待分类的文本数据输入训练后的文本分类网络,得到文本分类网络预测输出的分类结果。
161.其中,文本分类网络包括文本表示网络和主干网络,文本分类网络的训练过程包括:
162.获取样本文本数据集,样本文本数据集中的每个样本文本数据包括对应的分类标签信息;
163.利用样本文本数据集,对未训练的文本分类网络进行多轮迭代训练;多轮迭代训练包括第一部分轮次训练,以及除第一部分轮次训练之外的第二部分轮次训练;
164.其中,在第一部分轮次训练中,基于文本分类网络的输出结果和分类标签信息,获取输出结果和分类标签信息之间的差异,并基于差异调整文本表示网络和主干网络的网络参数;
165.在第二部分轮次训练中,基于文本分类网络的输出结果和分类标签信息,获取输出结果和分类标签信息之间的差异,并基于差异调整主干网络的网络参数,直至差异满足
收敛条件,得到训练后的文本分类网络。
166.通过上述可知,在本公开实施方式中,由于文本表示网络参数庞大,因此仅在第一部分轮次训练中进行参数调整,而在第二部分轮次中对文本表示网络进行冻结,仅调整主干网络的网络参数,从而大幅减少了网络训练时间,而且避免训练过程中文本表示网络对词向量过度优化导致网络过拟合,提高分类网络的训练速度和网络泛化能力。
167.在一些实施方式中,文本分类网络还包括词向量调整网络,输入模块具体被配置为:
168.将待分类的文本数据输入文本表示网络,得到文本表示网络输出的第一词向量;
169.将第一词向量输入词向量调整网络,得到词向量调整网络输出的第二词向量;
170.将第二词向量输入所述主干网络,得到输出结果。
171.在一些实施方式中,在待分类的文本数据为中文文本时,所述装置还包括:
172.分词处理模块,被配置为对待分类的文本数据进行分词处理,得到处理后的文本数据。
173.在一些实施方式中,所述文本表示网络包括词嵌入网络。
174.在一些实施方式中,所述主干网络包括以下中至少之一:
175.长短时间记忆网络、循环神经网络、卷积神经网络以及注意力网络。
176.在一些实施方式中,所述词向量调整网络包括全连接网络。
177.第四方面,本公开实施方式提供了一种文本分类网络的训练装置。如图10所示,在一些实施方式中,本公开示例的文本分类网络的训练装置:
178.获取模块1010,被配置为获取样本文本数据集,样本文本数据集中的每个样本文本数据包括对应的分类标签信息。
179.多轮迭代训练模块1020,被配置为利用样本文本数据集,对未训练的文本分类网络进行多轮迭代训练;多轮迭代训练包括第一部分轮次训练,以及除第一部分轮次训练之外的第二部分轮次训练;其中,在第一部分轮次训练中,基于文本分类网络的输出结果和分类标签信息,获取输出结果和分类标签信息之间的差异,并基于差异调整文本表示网络和主干网络的网络参数;在第二部分轮次训练中,基于文本分类网络的输出结果和分类标签信息,获取输出结果和分类标签信息之间的差异,并基于差异调整主干网络的网络参数,直至满足收敛条件,得到训练后的文本分类网络。
180.通过上述可知,本公开实施方式中,在对文本分类网络训练时,在第二部分轮次训练中,通过对文本表示网络冻结训练,大幅减少了网络训练时间,而且避免训练过程中文本表示网络对词向量过度优化导致网络过拟合,提高分类网络的训练速度和网络泛化能力。并且通过词向量调整网络对中间结果进行调整,提高文本表示能力,而且在样本分布发生变化时,通过词向量调整网络的参数调整,可适应不同数据分布,进一步提高网络泛化能力。
181.第五方面,本公开提供了一种电子设备,包括:
182.处理器;和
183.存储器,存储有能够被处理器读取的计算机指令,当计算机指令被读取时,处理器执行根据第一方面或者第二方面任一实施方式的方法。
184.第六方面,本公开实施方式提供了一种存储介质,用于存储计算机可读指令,计算
机可读指令用于使计算机执行根据第一方面或者第二方面任一实施方式的方法。
185.具体而言,图11示出了适于用来实现本公开方法的计算机系统600的结构示意图,通过图11所示系统,可实现上述处理器及存储介质相应功能。
186.如图11所示,计算机系统600包括处理器601和存储器602,处理器601可以根据存储在存储器602中的程序或者从存储部分608加载到存储器602中的程序而执行各种适当的动作和处理。在存储器602中,还存储有系统600操作所需的各种程序和数据。处理器601、存储器602通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
187.以下部件连接至i/o接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
188.特别地,根据本公开的实施方式,上文方法过程可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行上述方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
189.附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
190.显然,上述实施方式仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本公开创造的保护范围之中。
转载请注明原文地址:https://win.8miu.com/read-150344.html

最新回复(0)