本技术涉及计算机领域,具体而言,涉及一种文本数据的处理方法和装置、存储介质及电子设备。
背景技术:
1、目前,在相关技术中,主要采用文本情绪预测模型实现文本数据的多标签分类学习,具体来说,在文本情绪预测模型中输入文本数据,以将文本数据映射到预训练的词典,得到组合词向量,通过组合词向量生成句向量进行标签识别,以生成文本数据对应的情绪类别标签,从而,实现对文本数据进行多标签分类的目的,由于相关技术中仅仅只是使用文本情绪预测模型直接进行分类,而该模型训练过程中使用的训练样本不够均衡,不同情绪类别的样本数量差异较大,导致在进行多标签分类任务时,存在情绪类别标签的识别准确性较低,情绪预测模型的预测准确率较差的技术问题。
2、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本技术实施例提供了一种文本数据的处理方法和装置、存储介质及电子设备,以至少解决由于训练样本中不同情绪类别标签对应的样本数量差异较大,导致情绪预测模型的预测准确率较差的技术问题。
2、根据本技术实施例的一个方面,提供了一种文本数据的处理方法,包括:获取初始文本数据;将所述初始文本数据输入预训练的大语言模型,得到第一组情绪类别标签,并将所述初始文本数据输入预训练的初始情绪预测模型,得到第二组情绪类别标签,其中,所述初始情绪预测模型表示预先使用初始训练样本训练得到的模型,所述大语言模型表示预先使用语料库训练得到的模型;根据所述第一组情绪类别标签和所述第二组情绪类别标签生成第一级样本、第二级样本以及第三级样本,其中,所述第一级样本具有的第一情绪类别标签既属于所述第一组情绪类别标签,也属于所述第二组情绪类别标签,所述第二级样本具有的第二情绪类别标签属于所述第一组情绪类别标签,且不属于所述第二组情绪类别标签,所述第三级样本具有的第三情绪类别标签属于所述第二组情绪类别标签,且不属于所述第一组情绪类别标签;使用所述初始训练样本、所述第一级样本、所述第二级样本以及所述第三级样本对所述初始情绪预测模型进行训练,得到目标情绪预测模型。
3、根据本技术实施例的另一方面,还提供了一种文本数据的处理装置,包括:获取模块,用于获取未标注的初始文本数据;预测模块,用于将所述初始文本数据输入预训练的大语言模型,得到第一组情绪类别标签,并将所述初始文本数据输入预训练的初始情绪预测模型,得到第二组情绪类别标签,其中,所述初始情绪预测模型表示预先使用初始训练样本训练得到的模型,所述大语言模型表示预先使用语料库训练得到的模型;生成模块,用于根据所述第一组情绪类别标签和所述第二组情绪类别标签生成第一级样本、第二级样本以及第三级样本,其中,所述第一级样本具有的第一情绪类别标签既属于所述第一组情绪类别标签,也属于所述第二组情绪类别标签,所述第二级样本具有的第二情绪类别标签属于所述第一组情绪类别标签,且不属于所述第二组情绪类别标签,所述第三级样本具有的第三情绪类别标签属于所述第二组情绪类别标签,且不属于所述第一组情绪类别标签;训练模块,用于使用所述初始训练样本、所述第一级样本、所述第二级样本以及所述第三级样本对所述初始情绪预测模型进行训练,得到目标情绪预测模型。
4、可选地,所述装置用于通过如下方式根据所述第一组情绪类别标签和所述第二组情绪类别标签生成第一级样本、第二级样本以及第三级样本:根据所述第一组情绪类别标签和所述第二组情绪类别标签确定所述第一情绪类别标签、所述第二情绪类别标签以及所述第三情绪类别标签;将所述第一情绪类别标签的置信度设置为第一预设值,生成所述第一级样本,其中,所述第一级样本表示所述初始文本数据具有所述第一情绪类别标签的置信度为所述第一预设值;将所述第二情绪类别标签的置信度设置为第一预测概率,生成所述第二级样本,其中,所述第一预测概率表示所述初始情绪预测模型预测所述初始文本数据是否具有所述第二情绪类别标签的概率,所述第二级样本表示所述初始文本数据具有所述第二情绪类别标签的置信度为所述第一预测概率;将所述第三情绪类别标签的置信度设置为第二预测概率,生成所述第三级样本,其中,所述第二预测概率小于所述初始情绪预测模型预测所述初始文本数据是否具有所述第三情绪类别标签的概率,所述第三级样本表示所述初始文本数据具有所述第三情绪类别标签的置信度为所述第二预测概率。
5、可选地,所述装置用于通过如下方式将所述第三情绪类别标签的置信度设置为第二预测概率,生成所述第三级样本:获取所述初始情绪预测模型预测所述初始文本数据是否具有所述第三情绪类别标签的概率;将所述概率与第二预设值的乘积确定为所述第二预测概率,将所述第三情绪类别标签的置信度设置为所述第二预测概率,生成所述第三级样本,其中,所述第二预设值的取值区间为1/a,a为正整数。
6、可选地,所述装置用于通过如下方式使用所述初始训练样本、所述第一级样本、所述第二级样本以及所述第三级样本对所述初始情绪预测模型进行训练,得到目标情绪预测模型:使用所述初始训练样本、所述第一级样本、所述第二级样本以及所述第三级样本对所述初始情绪预测模型进行训练,得到中间情绪预测模型,其中,训练得到所述中间情绪预测模型所使用的学习率为第一学习率;使用所述初始训练样本、所述第一级样本对所述中间情绪预测模型进行精调,得到所述目标情绪预测模型,其中,训练得到所述目标情绪预测模型所使用的学习率为第二学习率,所述第二学习率小于所述第一学习率。
7、可选地,所述装置用于通过如下方式使用所述初始训练样本、所述第一级样本对所述中间情绪预测模型进行精调,得到所述目标情绪预测模型:在所述中间情绪预测模型包括基础文本理解模块和分类模块的情况下,为所述基础文本理解模块设置第二学习率,并为所述分类模块设置第三学习率,其中,所述第三学习率大于所述第一学习率;按照所述第二学习率和所述第三学习率对所述中间情绪预测模型进行精调,得到所述目标情绪预测模型。
8、可选地,所述装置用于通过如下方式使用所述初始训练样本、所述第一级样本、所述第二级样本以及所述第三级样本对所述初始情绪预测模型进行训练,得到目标情绪预测模型:根据所述初始训练样本、所述第一级样本、所述第二级样本以及所述第三级样本构造目标训练样本,其中,一个所述目标训练样本包括一条文本数据、一组情绪类别标签以及与所述一组目标情绪类别标签对应的一组置信度;将所述目标训练样本分批次输入所述初始情绪预测模型,对所述初始情绪预测模型进行迭代训练,得到所述目标情绪预测模型。
9、可选地,所述装置用于通过如下方式将所述目标训练样本分批次输入所述初始情绪预测模型,对所述初始情绪预测模型进行迭代训练,得到所述目标情绪预测模型:通过如下方式将所述目标训练样本分批次输入所述初始情绪预测模型,对所述初始情绪预测模型进行迭代训练,得到所述目标情绪预测模型,其中,当前一轮迭代中当前批次所使用的文本数据视为当前文本数据,每轮迭代使用全量所述目标训练样本进行训练,每个批次使用所述目标训练样本中的部分进行训练;将所述当前文本数据输入基础文本理解模块,得到目标表征向量,其中,所述目标表征向量的维度与所述初始情绪预测模型允许预测的情绪类别数量相同,所述目标表征向量的每一维度的取值用于表示对应情绪类别的置信度,所述初始情绪预测模型包括所述基础文本理解模块;将所述目标表征向量输入分类模块,得到当前情绪类别标签以及与所述当前情绪类别标签对应的当前置信度,其中,所述初始情绪预测模型包括所述分类模块,所述当前情绪类别标签表示所述初始情绪预测模型预测所述当前文本数据所具有的情绪类别标签;根据所述当前文本数据对应的所述一组情绪类别标签、所述一组置信度以及所述当前情绪类别标签和所述当前置信度计算目标损失值;基于所述目标损失值调整所述初始情绪预测模型的模型参数,直到所述目标损失值满足预设条件,得到所述目标情绪预测模型。
10、可选地,所述装置还用于:根据所述第一组情绪类别标签和所述第二组情绪类别标签生成第一级样本、第二级样本以及第三级样本之后,根据所述初始训练样本确定一组初始情绪类别标签中各个初始情绪类别标签对应的样本数量;将所述样本数量满足预设阈值的所述初始情绪类别标签确定为第一初始情绪类别标签,并将所述样本数量未满足所述预设阈值的所述初始情绪类别标签确定为第二初始情绪类别标签;删除具有所述第一初始情绪类别标签的所述第二级样本和所述第三级样本,保留具有所述第二初始情绪类别标签的所述第二级样本和所述第三级样本。
11、可选地,所述装置还用于:将所述初始文本数据输入预训练的初始情绪预测模型,得到第二组情绪类别标签之前,将所述初始训练样本中的样本文本数据输入所述初始情绪预测模型,得到目标预测概率,其中,所述目标预测概率表示所述初始情绪预测模型预测出所述样本文本数据是否具有样本情绪类别标签的概率,所述样本文本数据预先标注了是否具有所述样本情绪类别标签;获取一组判别阈值,其中,所述一组判别阈值中的一个判别阈值用于与所述目标预测概率共同确定目标预测结果,所述目标预测结果表示所述样本文本数据是否具有所述样本情绪类别标签;根据所述目标预测概率和所述一组判别阈值,确定出所述样本情绪类别标签的目标判别阈值,其中,所述目标判别阈值是所述一组判别阈值中平衡分数取值最高的阈值,所述平衡分数由所述目标预测结果和所述样本文本数据预先标注了是否具有所述样本情绪类别标签共同确定;将所述目标判别阈值设置为所述初始情绪预测模型的目标模型参数,其中,在所述初始情绪预测模型中所述目标判别阈值用于确定所述第二组情绪类别标签。
12、可选地,所述装置还用于:使用所述初始训练样本、所述第一级样本、所述第二级样本以及所述第三级样本对所述初始情绪预测模型进行训练,得到目标情绪预测模型之后,获取目标媒体资源,并对所述目标媒体资源进行文本提取操作,得到目标文本数据;将所述目标文本数据输入所述目标情绪预测模型,得到一组目标情绪类别标签以及与所述一组目标情绪类别标签对应的一组目标置信度;根据所述一组目标情绪类别标签和所述一组目标置信度为所述目标媒体资源设置目标情感标记,其中,所述目标情感标记用于指示所述目标媒体资源具有的情绪类别。
13、可选地,所述装置用于通过如下方式根据所述一组目标情绪类别标签和所述一组目标置信度为所述目标媒体资源设置目标情感标记:获取所述一组情绪类别标签中具有相反情绪含义的情绪类别标签组;根据所述情绪类别标签组的数量为所述目标媒体资源设置第一情感标记,其中,所述目标情感标记包括所述第一情感标记,所述第一情感标记用于指示所述目标媒体资源的剧情波折情况;获取所述目标媒体信息中具有相同情绪类别标签的目标片段;为所述目标片段设置第二情感标记,其中,所述目标情感标记包括所述第二情感标记,所述第二情感标记用于指示不同的所述目标片段均具有所述相同情绪类别标签。
14、根据本技术实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述文本数据的处理方法。
15、根据本技术实施例的又一方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上文本数据的处理方法。
16、根据本技术实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的文本数据的处理方法。
17、在本技术实施例中,采用获取初始文本数据;将初始文本数据输入预训练的大语言模型,得到第一组情绪类别标签,并将初始文本数据输入预训练的初始情绪预测模型,得到第二组情绪类别标签,其中,初始情绪预测模型表示预先使用初始训练样本训练得到的模型,大语言模型表示预先使用语料库训练得到的模型;根据第一组情绪类别标签和第二组情绪类别标签生成第一级样本、第二级样本以及第三级样本,其中,第一级样本具有的第一情绪类别标签既属于第一组情绪类别标签,也属于第二组情绪类别标签,第二级样本具有的第二情绪类别标签属于第一组情绪类别标签,且不属于第二组情绪类别标签,第三级样本具有的第三情绪类别标签属于第二组情绪类别标签,且不属于第一组情绪类别标签;使用初始训练样本、第一级样本、第二级样本以及第三级样本对初始情绪预测模型进行训练,得到目标情绪预测模型的方式,也即,将初始文本数据分别输入预训练的大语言模型与初始情绪预测模型,以确定第一组情绪类别标签和第二组情绪类别标签,进而,基于第一组情绪类别标签和第二组情绪类别标签生成第一级样本、第二级样本以及第三级样本,利用第一级样本、第二级样本以及第三级样本对初始情绪预测模型进行训练,以得到目标情绪预测模型,达到了均衡训练样本中各个样本类型的数据量的目的,从而,使得初始情绪预测模型在训练过程中能够更好地学习各种情绪类型的特征,提高目标情绪预测模型的泛化能力和预测准确性,进一步地,解决了由于训练样本中不同情绪类别标签对应的样本数量差异较大,导致情绪预测模型的预测准确率较差的技术问题。
18、另一方面,基于第一组情绪类别标签和第二组情绪类别标签生成的第一级样本、第二级样本以及第三级样本均可用于训练初始情绪预测模型,也即,在不需要人工标注投入下可以实现快速收集大量样本数据,在提高了初始情绪预测模型的训练效率的同时,保证了目标情绪预测模型对不同情绪类型的识别能力。
1.一种文本数据的处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一组情绪类别标签和所述第二组情绪类别标签生成第一级样本、第二级样本以及第三级样本,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述第三情绪类别标签的置信度设置为第二预测概率,生成所述第三级样本,包括:
4.根据权利要求1所述的方法,其特征在于,所述使用所述初始训练样本、所述第一级样本、所述第二级样本以及所述第三级样本对所述初始情绪预测模型进行训练,得到目标情绪预测模型,包括:
5.根据权利要求4所述的方法,其特征在于,所述使用所述初始训练样本、所述第一级样本对所述中间情绪预测模型进行精调,得到所述目标情绪预测模型,包括:
6.根据权利要求1所述的方法,其特征在于,所述使用所述初始训练样本、所述第一级样本、所述第二级样本以及所述第三级样本对所述初始情绪预测模型进行训练,得到目标情绪预测模型,包括:
7.根据权利要求6所述的方法,其特征在于,所述将所述目标训练样本分批次输入所述初始情绪预测模型,对所述初始情绪预测模型进行迭代训练,得到所述目标情绪预测模型,包括:
8.根据权利要求1所述的方法,其特征在于,所述根据所述第一组情绪类别标签和所述第二组情绪类别标签生成第一级样本、第二级样本以及第三级样本之后,所述方法还包括:
9.根据权利要求1所述的方法,其特征在于,所述将所述初始文本数据输入预训练的初始情绪预测模型,得到第二组情绪类别标签之前,所述方法还包括:
10.根据权利要求1所述的方法,其特征在于,所述使用所述初始训练样本、所述第一级样本、所述第二级样本以及所述第三级样本对所述初始情绪预测模型进行训练,得到目标情绪预测模型之后,所述方法还包括:
11.根据权利要求10所述的方法,其特征在于,所述根据所述一组目标情绪类别标签和所述一组目标置信度为所述目标媒体资源设置目标情感标记,包括:
12.一种文本数据的处理装置,其特征在于,包括:
13.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的计算机程序,其中,所述计算机程序可被电子设备运行时执行所述权利要求1至11任一项中所述的方法。
14.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至11任一项中所述方法的步骤。
15.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至11任一项中所述的方法。
