本申请涉及文本处理,具体涉及一种文本分类方法、装置、设备及存储介质。
背景技术:
1、文本中包括较为丰富的信息。以会议场景为例,会议文本包括会议所讨论的内容。在具有大量文本的情况下,用户直接阅读文本获取信息较为不便。目前,利用人工智能(artificial intelligence,ai)技术对文本进行处理,比如,提取文本包括的重要信息,以便用户直接获取文本包括的信息。
2、大量文本中可能包括关注程度较高的信息的文本。为了提高处理文本的效率,通常先对文本进行文本分类处理,以确定涉及关注程度较高的信息的特定类型的文本。再针对该类型的文本进行进一步处理,得到最终的文本处理结果。但是,当前对文本的分类的准确程度较低,导致文本处理结果的有效程度较低,难以满足文本处理需求。
技术实现思路
1、有鉴于此,本申请提供一种文本分类方法、装置、设备及存储介质,能够较为准确地确定文本的类型。
2、基于此,本申请提供的技术方案如下:
3、第一方面,本申请提供一种文本分类方法,所述方法包括:获取待分类文本;对所述待分类文本进行划分,得到单句文本;将所述单句文本与所述单句文本的上下文合并,得到多句文本;利用文本分类模型处理所述多句文本,得到所述多句文本的分类结果。
4、在一种可能的实现方式中,在所述利用文本分类模型处理所述多句文本之前,所述方法还包括:
5、确定所述多句文本包括关键词,所述关键词与所述文本分类模型识别的文本类型相关。
6、在一种可能的实现方式中,所述文本分类模型是利用训练数据训练得到的,所述训练数据包括多句文本样本以及所述多句文本样本的类型标签,所述多句文本样本是由单句文本样本以及所述单句文本样本的上下文组成的。
7、在一种可能的实现方式中,所述多句文本样本包括关键词,所述关键词与训练所述文本分类模型所要识别的文本类型相关。
8、在一种可能的实现方式中,所述关键词是采用以下方式生成的:对属于所述文本类型的文本样本进行分词,得到多个词汇;将出现频率大于频率阈值的词汇确定为关键词,所述出现频率为所述词汇的数量与分词得到的词汇的总数量的比值。
9、在一种可能的实现方式中,所述上下文为在所述待分类文本中位于所述单句文本的前面的第一预设数量的单句文本,以及位于所述单句文本的后面的第二预设数量的单句文本。
10、在一种可能的实现方式中,所述待分类文本为会议文本,所述多句文本的分类结果为待办事项文本类型或者非待办事项文本类型,所述文本分类模型的训练数据包括负样本,所述负样本为非待办事项文本类型标签标记的多句文本样本,所述负样本包括以下子类型的多句文本样本中的一种或者多种:会议前已经完成的事项、会议中已经完成的事项、假设事项、建议事项和会议前已经规划的事项。
11、第二方面,本申请提供一种文本分类装置,所述装置包括:获取单元,用于获取待分类文本;划分单元,用于对所述待分类文本进行划分,得到单句文本;合并单元,用于将所述单句文本与所述单句文本的上下文合并,得到多句文本;分类单元,用于利用文本分类模型处理所述多句文本,得到所述多句文本的分类结果。
12、在一种可能的实现方式中,所述装置还包括:
13、过滤单元,用于确定所述多句文本包括关键词,所述关键词与所述文本分类模型识别的文本类型相关。
14、在一种可能的实现方式中,所述文本分类模型是利用训练数据训练得到的,所述训练数据包括多句文本样本以及所述多句文本样本的类型标签,所述多句文本样本是由单句文本样本以及所述单句文本样本的上下文组成的。
15、在一种可能的实现方式中,所述多句文本样本包括关键词,所述关键词与训练所述文本分类模型所要识别的文本类型相关。
16、在一种可能的实现方式中,所述关键词是采用以下方式生成的:对属于所述文本类型的文本样本进行分词,得到多个词汇;将出现频率大于频率阈值的词汇确定为关键词,所述出现频率为所述词汇的数量与分词得到的词汇的总数量的比值。
17、在一种可能的实现方式中,所述上下文为在所述待分类文本中位于所述单句文本的前面的第一预设数量的单句文本,以及后面的第二预设数量的单句文本。
18、在一种可能的实现方式中,所述待分类文本为会议文本,所述多句文本的分类结果为待办事项文本类型或者非待办事项文本类型,所述文本分类模型的训练数据包括负样本,所述负样本为非待办事项文本类型标签标记的多句文本样本,所述负样本包括以下子类型的多句文本样本中的一种或者多种:会议前已经完成的事项、会议中已经完成的事项、假设事项、建议事项和会议前已经规划的事项。
19、第三方面,本申请提供一种电子设备,包括:
20、一个或多个处理器;
21、存储装置,其上存储有一个或多个程序,
22、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现第一方面以及第一方面中任一实施方式所述的方法。
23、第四方面,本申请提供一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现第一方面以及第一方面中任一实施方式所述的方法。
24、第五方面,本申请提供一种计算机程序产品,所述计算机程序产品在设备上运行时,使得所述设备执行第一方面以及第一方面中任一实施方式所述的方法。
25、由此可见,本申请具有如下有益效果:
26、本申请提供的一种文本分类方法、装置、设备及存储介质,先对待分类文本进行划分,得到待分类文本包括的多个单句文本,再将单句文本和该单句文本的上下文进行合并,得到多句文本。利用文本分类模型处理多句文本,得到多句文本的分类结果。多句文本相比于单句文本,能够包括更为丰富的信息量。如此,文本分类模型能够较为准确地确定多句文本的分类结果,尤其是提高需要结合上下文才能确定类型的文本的分类结果的准确程度。进而便于利用较为准确的分类结果对文本进行后续处理,得到有效的文本处理结果。
1.一种文本分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在所述利用文本分类模型处理所述多句文本之前,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述文本分类模型是利用训练数据训练得到的,所述训练数据包括多句文本样本以及所述多句文本样本的类型标签,所述多句文本样本是由单句文本样本以及所述单句文本样本的上下文组成的。
4.根据权利要求3所述的方法,其特征在于,所述多句文本样本包括关键词,所述关键词与训练所述文本分类模型所要识别的文本类型相关。
5.根据权利要求2或4所述的方法,其特征在于,所述关键词是采用以下方式生成的:
6.根据权利要求1-4任一项所述的方法,其特征在于,所述上下文为在所述待分类文本中位于所述单句文本前面的第一预设数量的单句文本,以及位于所述单句文本后面的第二预设数量的单句文本。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述待分类文本为会议文本,所述多句文本的分类结果为待办事项文本类型或者非待办事项文本类型,所述文本分类模型的训练数据包括负样本,所述负样本为非待办事项文本类型标签标记的多句文本样本,所述负样本包括以下子类型的多句文本样本中的一种或者多种:
8.一种文本分类装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读介质,其特征在于,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。