文本处理方法及装置与流程

专利检索2024-04-22  12


1.本技术涉及信息技术的人工智能领域,特别涉及一种文本处理方法,本技术同时涉及一种文本处理装置、计算设备和计算机可读存储介质。


背景技术:

2.人工智能(artificial intelligence;ai)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。人工智能领域关键技术的发展状况,包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。自然语言处理(natural language processing,nlp)是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工,nlp是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
3.文本生成任务是自然语言处理领域的一个重要研究方向,其中,机器翻译、摘要生成、文本风格迁移等是自然文本生成领域的重要任务。而口语文本-书面语文本改写作为自然文本生成领域的重要任务的其中一环,在日常工作及生活中具有重要应用。比如在录音文本分析、会议语音文本纪要、重要书面语材料文档转写等涉及口语文本的分析应用场景中,口语文本转写为书面语文本的转写质量至关重要。然而,由于口语文本的质量参差不齐,且文本生成任务生成结果文本具有较大的不确定性及不连续性等诸多因素影响,口语文本到书面语文本的转写任务一直是一个巨大的挑战。


技术实现要素:

4.有鉴于此,本技术实施例提供了一种文本处理方法,本技术同时涉及一种文本处理装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
5.根据本技术实施例的第一方面,提供了一种文本处理方法,包括:获取书面语文本;通过对所述书面语文本进行回译处理,获得所述书面语文本对应的回译书面语文本;对所述书面语文本和所述回译书面语文本分别进行语句组成单元的转换处理,获得口语文本;基于所述书面语文本和所述回译书面语文本与所述口语文本的对应关系,构建样本语料。
6.根据本技术实施例的第二方面,提供了一种文本处理装置,包括:获取模块,被配置为获取目标口语文本;分类模块,被配置为将所述目标口语文本进行分类处理,获得所述目标口语文本对应的文本类型;选择模块,被配置为在所述文本类型为标准文本类型的情况下,根据所述标准文
本类型选择对应的书面语改写模型;处理模块,被配置为将所述目标口语文本输入所述书面语改写模型进行处理,获得所述目标口语文本对应的目标书面语文本;其中,所述书面语改写模型,基于书面语文本以及对所述书面语文本进行回译和转换处理获得的口语文本训练得到。
7.根据本技术实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述文本处理方法的步骤。
8.根据本技术实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,所述计算机指令被处理器执行时实现所述文本处理方法的步骤。
9.根据本技术实施例的第五方面,提供了一种芯片,其存储有计算机指令,所述计算机指令被芯片执行时实现所述文本处理方法或所述口语生成方法的步骤。
10.本技术实施例中,通过获取目标口语文本;将所述目标口语文本进行分类处理,获得所述目标口语文本对应的文本类型;再在所述文本类型为标准文本类型的情况下,根据所述标准文本类型选择对应的书面语改写模型,实现了根据目标口语文本的文本类型选择适合目标口语文本的书面语改写模型;再将所述目标口语文本输入所述书面语改写模型进行处理,获得所述目标口语文本对应的目标书面语文本,使书面语改写更加具有针对性,并提高了书面语改写的准确性。其中,所述书面语改写模型,基于书面语文本以及对所述书面语文本进行回译和转换处理获得的口语文本训练得到,实现了基于回译以及转换处理对书面语文本进行预处理,从而为模型训练提供大量口语文本-书面语文本的样本语料,简化了模型的训练难度,也避免了人工耗时费力收集并处理大量的文本数据,节约了时间成本以及人力成本。
附图说明
11.图1是本技术一实施例提供的计算设备的结构框图;图2是本技术一实施例提供的文本处理方法的示意图;图3是本技术一实施例提供的文本处理方法的流程图;图4是本技术一实施例提供的文本处理方法中构建样本语料的示意图;图5是本技术一实施例提供的一种应用于实际场景的文本处理方法的处理流程图;图6是本技术一实施例提供的文本处理装置的结构示意图。
具体实施方式
12.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施的限制。
13.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本技术一个或多个实施例中使用的术语“和/或”是指包含一个或多个
相关联的列出项目的任何或所有可能组合。
14.应当理解,尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”。
15.首先,对本发明一个或多个实施例涉及的名词术语进行解释。
16.seq2seq(sequence to sequence,序列到序列)模型:用于自然语言处理的一系列机器学习方法,常用于机器翻译、图像描述、对话模型和文本摘要等应用领域。
17.transformer模型:一种深度学习模型,采用注意机制,对输入数据每个部分的重要性进行微分加权,广泛应用于各项自然语言处理任务。
18.文本分类:指在给定的分类体系中,将文本指定分到某个或某几个类别中。
19.natural language generation(nlg,自然语言生成):自然语言处理的一部分,从知识库或逻辑形式等机器表述系统去生成自然语言文本。
20.文本风格迁移:从一种风格形式的文本转写生成另一种风格形式的文本。
21.摘要生成:通过技术方案,实现将长文本进行压缩、归纳和总结,从而形成具有概括性含义的短文本的过程。
22.机器翻译:利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。
23.实体:指文本中具有特定意义的实体词汇或者短语描述。
24.词性标注:是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程,这也是自然语言处理(natural language processing,nlp)中一项非常重要的基础性工作。
25.句法分析:是自然语言处理(natural language processing,nlp)中的关键底层技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。
26.在本技术中,提供了一种文本处理方法,本技术同时涉及一种文本处理装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。
27.图1示出了根据本技术一实施例提供的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
28.计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic))中的一个或多个,诸如ieee802。11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口,等等。
29.在本技术的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本技术范围的限制。本领域技术人员可以根据需要,增添或替换其他部
件。
30.计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
31.实际应用中,由于口语文本-书面语文本改写在日常工作以及生活中具有重要应用,现有技术中,为了实现口语文本-书面语文本的改写,可以采用人工的方式,将口语化文本改写成书面语文本;也可以采用规则改写的方式,将部分可处理的口语化表述进行改写替换;此外,还可以直接采用文本翻译的方式,将口语化文本翻译成书面语文本。
32.其中,采用人工的方式进行改写,耗费大量人力,且文本转写的质量及结果不统一;采用规则的方式进行改写,只能处理限定的少量口语化表述词及固定的文本形式,且改写的逻辑规则处理复杂度较高;而采用文本翻译的方式进行改写,对文本语料的量级且文本数据质量具有较高的要求,该方法可以实现一定程度的转写效果,但是整体不适合口语到书面语的转写任务。
33.因此,为了实现口语文本-书面语文本的准确改写,可以采用预先训练好的改写模型对口语文本进行改写。然而由于口语文本的质量参差不齐,如果对这些口语文本采用统一的改写模型进行处理,可能达不到准确的改写效果。因此,亟需一种有效的方案以解决上述问题。
34.参见图2,图2示出了根据本技术一实施例提供的文本处理方法的示意图。在获取目标口语文本之后,将目标口语文本输入文本分类模型,该文本分类模型是通过预先采集的文本语料语义清晰度标注数据对初始文本分类模型进行训练获得的。进一步的,该文本分类模型通过对输入的目标口语文本进行文本分类输出该目标口语文本对应的预测文本类型。再根据该预测文本类型,确定该目标口语文本对应的改写模糊(即书面语改写模型或书面语转换模型;若预测文本类型为标准文本类型,则该改写模糊为书面语改写模型;若预测文本类型为模糊文本类型,则该改写模糊为书面语转换模型)。其中,改写模糊是通过口语文本-书面语文本对齐数据构建的样本语料进行模型训练获得的。进一步的,该改写模糊通过对输入的目标口语文本进行书面语改写,即可输出目标口语文本对应的书面语文本。
35.本技术实施例根据目标口语文本的质量对目标口语文本进行分类,从而选择适合该目标口语文本的改写模型对其进行改写处理,以此使书面语改写更加具有针对性,并提高了书面语改写的准确性。
36.图3示出了根据本技术一实施例提供的文本处理方法的流程图,具体包括如下步骤:步骤302:获取目标口语文本。
37.目标口语文本,是指待进行改写处理的口语文本。实际应用中,该目标口语文本可以是任意领域的口语文本,比如医学领域的口语文本、化学领域的口语文本、销售领域的口语文本、日常生活领域的口语文本、旅游领域的口语文本等。此外,该目标口语文本的文本数量可以是一个也可以是多个。
38.本实施例以获取的目标口语文本tst为例对文本处理方法进行说明,其他的目标
口语文本的处理过程均可参见本实施例相同或相近的描述,在此不做限制。
39.步骤304:将目标口语文本进行分类处理,获得目标口语文本对应的文本类型。
40.具体的,在上述获取目标口语文本的基础上,由于待进行书面语改写的目标口语文本可能质量参差不齐,这种情况下,直接对目标口语文本进行书面语改写,可能不能保障改写的质量,因此,为了保障书面语改写的效果,可以对目标口语文本进行文本分类,以至于对于不同类型的目标口语文本实行相应的改写措施。
41.进一步的,将目标口语文本进行分类处理,获得目标口语文本对应的文本类型,具体通过如下方式实现:将目标口语文本输入文本分类模型进行分类处理,获得目标口语文本对应的文本类型;其中,文本分类模型的训练,包括:获取样本口语文本以及样本口语文本对应的语义清晰度标签;基于样本口语文本以及语义清晰度标签构建训练样本对;通过训练样本对对初始文本分类模型进行模型训练,直至获得满足分类训练停止条件的文本分类模型。
42.文本分类模型,是指预先训练完成的对目标口语文本进行分类的模型,该文本分类模型可以是二分类模型,通过对目标口语文本进行文本语义清晰度识别,将目标口语文本分为标准文本类型或模糊文本类型。其中,标准文本类型,是指目标口语文本的文本语义表述较为清晰;模糊文本类型,是指目标口语文本的文本语义表述较为模糊。语义清晰度标签,是指根据样本口语文本的语义清晰度所标注的标签。
43.此外,考虑到目标口语文本还可能是不包含语义信息的文本,而对这类型的文本进行书面语改写是没有意义的。因此,可以采用三分类模型,对目标口语文本进行分类,将目标口语文本分为标准文本类型、模糊文本类型或无效文本类型。
44.实际应用中,如果该文本分类模型为二分类模型,则语义清晰度标签包括:标准文本类型以及模糊文本类型。如果该文本分类模型为三分类模型,则语义清晰度标签包括:标准文本类型、模糊文本类型以及无效文本类型。
45.需要说明的是,样本口语文本的语义清晰度标签需要预先进行标注,再将样本口语文本以及语义清晰度标签作为文本语料语义清晰度标注数据对初始文本类型模型进行模型训练。其中,初始文本分类模型,可以是预先通过cnn(卷积神经网络)、rnn(循环神经网络)、lstm(长短时记忆网络)、fasttext、textcnn、han模型等构建的待训练的文本分类模型。
46.具体实施时,训练过程中可以通过初始文本分类模型对样本口语文本进行分类处理输出预测文本类型,并计算预测文本类型和该样本口语文本对应的语义清晰度标签所记录的样本文本类型的损失值,实际应用中,计算模型损失值的损失函数在实际应用中可以为0-1损失函数、绝对值损失函数、平方损失函数、交叉熵损失函数等,在此,以0-1损失函数为例进行解释说明,参见下述公式1:公式1其中,l代表损失值,f(x)表示预测文本类型,y表示样本文本类型,在本技术中,对损失函数的选择不做限定,以实际应用为准。
47.在计算模型损失值之后,即可根据模型损失值反向调整初始文本分类模型的模型参数,并采样下一批次文本语料语义清晰度标注数据继续训练初始文本分类模型,直至到达分类训练停止条件,具体的,该分类训练停止条件,可以是模型损失值小于预设阈值或训练迭代次数达到预设迭代次数等,在此不做限制。
48.综上,通过预先训练完成的文本分类模型对目标口语文本进行语义清晰度分类,可以有效地识别目标口语文本的语义质量,以便对不同类型的目标口语文本进行合理性改写,保障了书面语改写的质量。
49.步骤306:在文本类型为标准文本类型的情况下,根据标准文本类型选择对应的书面语改写模型。
50.具体的,在上述确定目标口语文本对应的文本类型之后,考虑到在目标口语文本的语义表述比较清晰(即文本类型为标准文本类型)的情况下,对其进行书面语改写时,可以在保障语义的基础上采用比较复杂的改写方式。因此,对于标准文本类型的目标口语文本,可以选择进行较为复杂改写的书面语改写模型进行处理。
51.书面语改写模型,是指用以将口语文本改写为书面语文本的模块。具体的,该书面语改写模型,可以是基于seq2seq模型构建的,该seq2seq模型中的编码器以及解码器均可以采用transformer模型构建。
52.沿用上例,将该目标口语文本tst输入文本分类模型,获得该文本分类模型输出的目标口语文本tst对应的文本类型为标准文本类型,则将该目标口语文本tst输入书面语改写模型,获得该书面语改写模型输出的目标书面语文本tlt1。
53.步骤308:将目标口语文本输入书面语改写模型进行处理,获得目标口语文本对应的目标书面语文本。
54.其中,书面语改写模型,基于书面语文本以及对书面语文本进行回译和转换处理获得的口语文本训练得到。
55.具体的,在上述选择书面语改写模型的基础上,则可通过该书面语改写模型对目标口语文本进行书面语改写,从而获得改写之后生成的目标书面语文本。
56.具体实施时,为了保障书面语改写模型进行书面语改写的准确性,避免文本生成结果出现不可控的情况,可以在改写过程中采用字符级掩码操作。通过该字符级掩码操作,保障书面语改写的生成结果全部主要来自于输入文本,本技术实施例,该书面语改写模型包括编码层、解码层,通过该书面语改写模型对目标口语文本进行改写,具体采用如下方式实现:将目标口语文本进行分句处理,获得目标口语文本中包含的语句序列;将语句序列中的口语句单元依次输入书面语改写模型的编码层进行编码处理,获得口语句单元对应的语句特征向量和词表向量,其中,词表向量由口语句单元与词表进行映射获得;计算语句特征向量与词表向量之间的向量积,并将向量积输入书面语改写模型的解码层进行解码处理,获得目标口语文本对应的目标书面语文本。
57.其中,编码层是文本生成模型中一个层级结构,通过将信息转为另一种形式进行表达,用于在模型内部进行处理。相应地,语句特征向量具体是指对口语句单元进行编码处理后获得的向量表达。解码层具体是指书面语改写模型中用于将语句特征向量转化为解码
向量的层级结构,实际应用中,在解码器输出解码向量之后,将解码向量输入到输出层,获得输出层输出的目标书面语文本。
58.词表,是指词语列表。具体的,该词表可以是在对书面语改写模型进行训练过程中通过统计样本语料中出现的词语/字符的频率生成的(比如:将训样本语料中出现频率大于阈值的字符/词语加入词表),也可以是模型自身携带的,此外,还可以通过其他方式生成。语句序列,是指将目标口语文本中包含的口语语句按照在目标口语文本中的先后排序进行排列所组成的序列。相应地,口语句单元,是指语句序列中包含的口语语句。
59.具体实施时,口语句单元与词表进行映射,是指将口语语句中字符/词语与词表中的字符/词语进行匹配;如果口语语句中字符/词语命中词表中的任意字符/词语,则将词表中所命中的字符/词语对应的向量位设置为1,该词表中未命中的字符/词语对应的向量位设置为0,则可获得词表向量。比如词表中包括5000个字符,通过将口语语句1中的4个字符与该词表进行映射,其中,第1个字符映射该词表中第3个字符,第2个字符映射该词表中第6个字符,第3个字符映射该词表中第9个字符,第4个字符映射该词表中第5个字符,则获得的词表向量为00101100100
……
0。
60.进一步的,计算词表向量与语句特征向量之间的向量积,再基于向量积进行解码,实现了通过统计输入文本字符/词语对解码的输出的时候进行约束限制。上述通过词表实现的操作,也可以称之为字符级掩码操作。
61.综上,通过字符级掩码操作保证了书面语改写模型生成的文本字符主要都来自于输入文本源,极大地避免了书面语改写模型的改写结果出现语义偏差。
62.具体实施时,书面语改写模型的训练,具体通过如下步骤30802至步骤30810实现:步骤30802:获取书面语文本。
63.书面语文本,是指采用人们在书写和阅读文章时所使用的语言所形成的文本,文字为其主要组成部分。该书面语文本可以是任意领域的书面语文本,比如医学领域的书面语文本,化学领域的书面语文本、销售领域的书面语文本、日常生活领域的书面语文本,旅游领域的书面语文本等,此外,该书面语文本还可以根据采用的语体不同,分为文艺语体、公文语体、科技语体等。
64.比如:获取的书面语文本为文艺语体的书面语文本lt。
65.步骤30804:通过对书面语文本进行回译处理,获得书面语文本对应的回译书面语文本。
66.具体的,在上述获取书面语文本的基础上,考虑到单纯对书面语文本进行转换,生成对应的口语文本,可能对样本语料的扩充仍然有限,为了进一步扩充样本语料,可以先通过对书面语文本进行回译处理的方式扩充书面语文本,再对扩充后的书面语文本进行文本转换,转换为书面语文本对应的口语文本。
67.其中,回译处理是指将a语言的文本翻译为b语言,再将b语言的文本翻译回a语言的过程。实际应用中,由于经过回译处理生成的回译书面语文本可以生成和原书面语文本差异化的文本表述,因此,通过回译处理生成的回译书面语文本可以扩充书面语文本。
68.进一步的,考虑到回译处理后生成的回译书面语文本与原书面语文本,可能差异较大,并可能失去原书面语文本所要表达的含义,为了保障回译书面语文本和书面语文本中关键信息保持不变,可以对回译生成的回译书面语文本通过书面语文本中的关键词语进
行替换,本技术实施例,具体采用如下方式实现:将书面语文本翻译为预设语种对应的译文书面语文本;将译文书面语文本回译为书面语文本所属的目标语种,获得初始回译书面语文本;通过书面语文本中的关键词语对初始回译书面语文本中关键词语对应的目标关键词语进行替换,获得回译书面语文本。
69.预设语种可以是英语、法语、韩语、德语等任意一种或多种语种,在此不做限制。相应地,目标语种,是指书面语文本中文字所属的语种。
70.实际应用中,将书面语文本先翻译为其他语种的文本,即译文书面语文本。再将译文书面语文本翻译回书面语文本所属的语种,获得初始回译书面语文本。该初始回译书面语文本可能由于回译过程与书面语文本产生较大的差异,甚至偏离书面语文本的表达含义。为了使两个文本保持关键信息不变,可以通过书面语文本中的关键词语对初始回译书面语文本中与之对应的词语(即目标关键词语)进行替换,从而生成关键信息与书面语文本一致的回译书面语文本。
71.其中,关键词语,可以是预先在书面语文本中选取的认为对书面语文本较为重要的词语,实际应用中,可以根据预设选取规则对关键词语进行选取,该预设选取规则,可以是根据词性进行选取,也可以根据词语的实体类型进行选取。此外,也可以通过预先设立的关键词库对关键词语进行选取,将书面语文本中包含的关键词库中的词语作为关键词语等。
72.具体实施时,通过书面语文本中的关键词语对初始回译书面语文本中关键词语对应的目标关键词语进行替换,需要先确定关键词语对应的目标关键词语。具体的,该确定方式可以是多种多样的,比如,可以根据关键词语和目标关键词语在文本语句中的位置关联进行确定,也可以通过查找关键词语在初始回译书面语文本中对应的近义词,将该近义词作为目标关键词语,还可以通过关键词语在文本语句中所属的句子成分确定属于相同句子成分的词语作为目标关键词语(比如,可以将语句中的主语、谓语、宾语、定语、状语或补语等作为关键词语,并在初始回译书面语文本中选取相同成分的词作为目标关键词语)。实际应用中,可以根据实际场景选取合适的方式确定关键词语对应的目标关键词语。
73.在确定关键词语对应的目标关键词语之后,通过关键词语对初始回译书面语文本中对应的目标关键词语进行替换,即可获得回译书面语文本。
74.沿用上例,在确定书面语文本lt所属的语种为汉语,预设语种为德语的基础上,将汉语的书面语文本lt翻译为德语,获得德语的译文书面语文本lt1,再将该德语的译文书面语文本lt1翻译为:汉语,获得汉语的初始回译书面语文本lt2。假设书面语文本lt中包含书面语语句s1,该书面语语句s1具体为“我的故乡是山西,那里很美”。该书面语语句s1中的关键词语为地理位置实体“山西”,初始回译书面语文本lt2中与该书面语语句s1对应的书面语语句s11为“我的家乡是陕西,那里非常漂亮”的情况下,书面语语句s1对应的书面语语句s11中关键词语对应的目标关键词语为地理位置实体“陕西”,则通过“山西”对书面语语句s11中的“陕西”进行替换,获得回译书面语文本lt3,该回译书面语文本lt3中包括对书面语语句s11进行替换后的书面语语句s12“我的家乡是山西,那里非常漂亮”。
75.综上,在回译过程中,通过书面语文本中关键词语对回译书面语文本中对应的目
标关键词语进行替换,实现了在对书面语文本进行语料扩充的情况下,保障回译书面语文本和书面语文本中关键信息的一致性。提高了回译书面语文本的准确性。
76.具体实施时,考虑到准确确定关键词语对应的目标关键词语对于保持回译书面语文本和书面语文本中的文本含义的一致性至关重要,为了避免确定通过关键词语对错误的目标关键词语进行替换,可以通过对书面语文本中关键词语添加位置标记的方式,保障可以准确获得关键词语对应的目标关键词语并进行替换,本技术实施例,将书面语文本翻译为预设语种对应的译文书面语文本之前,还包括:通过对书面语文本进行词性分析,识别书面语文本中词性为预设词性的关键词语;在书面语文本中对关键词语所处的位置进行位置标记;相应地,通过书面语文本中的关键词语对初始回译书面语文本中关键词语对应的目标关键词语进行替换,获得回译书面语文本,包括:基于位置标记,通过关键词语对初始回译书面语文本中对应的目标关键词语进行替换,获得回译书面语文本。
77.具体的,对书面语文本进行词性分析,可以是通过对书面语文本中的词语进行词性标注的方式,确定书面语文本中的词语是什么词性的词。其中,词性标注可以采用基于规则的词性标注方法,也可以采用基于统计模型的词性标注方法,此外,还可以采用基于统计方法和规则方法相结合的词性标注方法。相应地,词性指以词的特点作为划分词类的根据,词性可以是名词词性、动词词性、形容词词性、数词词性等。实际应用中,由于书面语文本可能属于不同的领域,而不同领域认为重要词性的词语(即关键词语)可能是不同的,比如化学领域中认为数词词性的词语是关键词语,而日常生活领域认为名词词性的词语是关键词语。
78.具体实施时,对关键词语所处的位置进行位置标记,可以采用大括号“{}”,或星号“*”等符号进行标记。实际应用中,可以将该位置标记添加在关键词语前后的位置。比如,关键词语为:手机,通过大括号“{}”对该关键词语进行位置标记,标记后的关键词语为{手机}。
79.需要说明的是,在对书面语文本进行翻译前,对书面语文本中的关键词语进行位置标记。可以使对书面语文本回译后获得的初始回译书面语文本中,仍保留该位置标记,且在初始回译书面语文本中该位置标记所标记的词语即为目标关键词语。即通过位置标记的方式,可以准确定位关键词语对应的目标关键词语,以便对该目标关键词语进行准确替换。在一个书面语句中存在多个关键词语的情况下,可以根据位置标记所标记的词语与关键词语的相似度确定关键词语对应的目标关键词语,也可以根据位置标记所标记的词语在语句中的成分(比如主语、谓语、宾语等语句成分),确定相同语句成分的标记词语作为关键词语对应的目标关键词语。
80.此外,替换后为了便于对书面语文本以及替换后的文本进行后续的文本处理,可以将书面语文本以及替换后的文本中的位置标记进行删除,对替换后的文本中的位置标记进行删除,即可获得回译书面语文本。
81.以书面语文本lt中的书面语语句s1为例进行说明,对书面语语句s1进行词性分析,在该书面语语句s1中识别出预设词性为名词的关键词语包括:“故乡”以及“山西”,将名
词“故乡”以及“山西”通过位置标记{}进行位置标记,获得标记后的书面语语句s1,该标记后的书面语语句s1为“我的{故乡}是{山西},那里很美”。而初始回译书面语文本lt2中与该标记后的书面语语句s1对应的书面语语句s11为“我的{家乡}是{陕西},那里非常漂亮”,则通过“故乡”对书面语语句s11中位置标记“{}”对应的目标关键词语的“家乡”进行替换,并通过“山西”对书面语语句s11中位置标记“{}”对应的目标关键词语的“陕西”进行替换,获得替换后的书面语语句s11为“我的{故乡}是{山西},那里非常漂亮”,将替换后的书面语语句s11中的位置标记进行删除,删除后的书面语语句s12为“我的故乡是陕西,那里非常漂亮”。
82.综上,通过在翻译前对书面语文本中的关键词语进行位置标记之后,通过位置标记对目标关键词语进行确定并替换,提高了替换的准确率以及效率。
83.步骤30806:对书面语文本和回译书面语文本分别进行语句组成单元的转换处理,获得口语文本。
84.具体的,在通过对书面语文本进行回译处理,获得书面语文本对应的回译书面语文本的基础上,为了进一步扩充口语文本,可以对书面语文本以及回译书面语文本分别进行转换处理,从而获得对应的口语文本。
85.具体实施时,还可以通过对转换后获得的口语文本进行进一步筛选,从中获得语义表达相对准确的口语文本,进一步提高了对书面语文本的进行口语转换的准确性。
86.可选地,语句组成单元包括下述至少一项:子句单元、词语单元、字符单元以及符号单元。
87.实际应用中,由于书面语文本通常由书面语语句组成,而书面语语句通常由多种语句组成单元组成,这些语句组成单元包括:子句单元(子句)、词语单元(词语)、字符单元(文字)以及符号单元(标点符号)等。每种语句组成单元可能都存在书面语表达和口语表达的差异,因此,针对每种语句组成单元都可以对书面语语句进行转换处理,以使书面语语句在子句单元、词语单元、字符单元以及符号单元等都更加具有口语表达的特性。
88.其中,子句单元,是指书面语语句中的子句,比如,在书面语语句为“今天天气晴朗,万里无云,适合出门游玩”的情况下,该书面语语句包括3个子句,其中,子句1为:“今天天气晴朗”,子句2为:“万里无云”,子句3为:“适合出门游玩”,这3个子句在书面语语句中通过逗号进行分隔。相应地,词语单元,是指书面语语句中的词语。字符单元,是指书面语语句中的字符,该字符,可以理解为是英文中的单词,也可以理解为是中文中的单字,在此不做限制。符号单元,是指书面语语句中的标点符号,比如逗号、引号、破折号等,在此不做限制。具体实施时,可以通过对书面语文本中的书面语语句进行子句级别的调整或改写等处理,和/或,对书面语文本中的书面语语句进行词语级别的调整或改写等处理,和/或,对书面语文本中的书面语语句进行字符级别的调整或改写等处理,和/或,对书面语文本中的书面语语句进行符号级别的调整或改写等处理,可以使书面语文本的表达更具有口语的特点。
89.具体实施时,由于书面语文本和回译书面语文本是作为不同的书面语语料,用以构建样本语料,因此,需要对书面语文本和回译书面语文本分别进行语句组成单元的转换处理,获得对应的口语文本,本技术实施例,具体通过如下方式实现:对书面语文本进行语句组成单元的转换处理,获得书面语文本对应的第一口语文本;
对回译书面语文本进行语句组成单元的转换处理,获得回译书面语文本对应的第二口语文本;将第一口语文本以及第二口语文本作为口语文本。
90.第一口语文本是指对书面语文本进行转换处理,获得的口语文本。第二口语文本是指对回译书面语文本进行转换处理,获得的口语文本。
91.沿用上例,对书面语文本lt进行语句组成单元的转换处理,获得书面语文本lt对应的第一口语文本st1,并对回译书面语文本lt3进行语句组成单元的转换处理,获得回译书面语文本lt3对应的第二口语文本st2,将第一口语文本st1以及第二口语文本st2作为口语文本。
92.综上,通过对书面语文本和回译书面语文本分别进行语句组成单元的转换处理,获得对应的口语文本,并将获得的两个口语文本作为口语文本,即获得了两个口语文本,实现了对口语文本的扩充。
93.实际应用中,由于口语表达与书面语表达虽然可能存在很多差异,但是这些差异并非在每一个语句中都有体现,而是根据说话人的表达习惯存在一定的概率出现,为了使转换后的书面语文本更加符合口语特点,可以针对每种转换处理策略设置对应的转换处理概率,并根据转换处理概率确定是否执行转换处理策略,具体采用如下方式实现:确定待处理书面语文本的转换处理策略对应的转换处理概率;基于转换处理概率,在转换处理策略中确定待执行的目标转换处理策略;通过执行目标转换处理策略对书面语文本进行语句组成单元的转换处理,获得待处理书面语文本对应的口语文本。
94.转换处理策略,是指预先设置的针对待处理书面语文本进行转换处理的方法(策略)。具体的,该转换处理策略可以包括下述至少一项:子句转换处理策略(对书面语语句进行子句单元的处理策略),词语转换处理策略(对书面语语句进行词语单元的转换处理的策略),字符转换处理策略(对书面语语句进行字符单元的转换处理的策略),以及符号转换处理策略(对书面语语句进行符号单元的转换处理的策略)。
95.其中,子句转换处理策略可以是对子句的复制处理(即复制子句转换处理策略)、乱序处理、和/或倒装处理等。词语转换处理策略可以是对词语的添加处理、重复处理,和/或乱序处理等。字符转换处理策略可以是字符乱序处理等。符号转换处理策略可以是删除符号处理、添加符号处理,和/或修改符号处理等。
96.具体的,转换处理策略对应的转换处理概率,是指执行转换处理策略的概率。实际应用中,每种转换处理策略都可以存在对应的转换处理概率。进一步的,基于转换处理概率,在转换处理策略中确定待执行的目标转换处理策略。以转换处理策略a为例,该转换处理策略a对应的转换处理概率为10%。则可以设置一个数值范围,该数值范围为1-100(或1-10等),并在这个数值范围内设置一个取值概率与转换处理策略a对应的转换处理概率相同的取值区间,比如1-10(或90-100),再随机生成1-100这个数值范围内的任意一个数值。若生成的数值为9,该数值处于1-10之间,表示该数值满足10%的取值概率,也即满足执行该转换处理策略a对应的转换处理概率,则确定执行该转换处理策略a,并将该转换处理策略a作为目标转换处理策略;若该生成的数值为50,该数值处于11-100之间,表示该数值不满足10%的取值概率,也即不满足执行该转换处理策略a对应的转换处理概率,因此确定不执行
该转换处理策略。类似地,对于其他转换处理策略也可以通过上述方式进行相应的处理。
97.进一步的,由于确定的目标转换处理策略可以是一种,也可以是多种。在目标转换处理策略为多种的情况下,可以采用预设的执行顺序,顺次执行这些目标转换处理策略对待处理书面语文本进行转换处理。
98.需要说明的是,由于每种转换处理策略都存在对应的转换处理概率,并且每种转换处理策略本身也带有一定的随机性,因此对于同一个待处理书面语文本执行多次转换处理,最终生成的口语文本很可能是不同的。因此,为了进一步扩充语料,可以对至少一个待处理书面语文本多次进行语句组成单元的转换处理,从而获得该待处理书面语文本对应的多种口语文本。
99.此外,考虑到对转换处理策略设置较高的转换处理概率,会增加样本语料的复杂度。而样本语料的复杂度越高,通过该样本语料训练获得的改写模型所进行的书面语改写也越复杂。因此,在针对不同文本类型,存在多种改写模型的情况下,由于对于模糊文本类型的目标口语文本不宜进行复杂的改写。因此,在构建模糊文本类型的目标口语文本对应的改写模型的样本语料的情况下,则可以对转换处理策略设置较低的转换处理概率。
100.沿用上例,假设针对书面语文本存在4种转换处理策略的情况下,确定对书面语文本lt的每种转换处理策略对应的转换处理概率分别为:2%,6%,0.8%,8%。则针对每种转换处理策略,都可以为其对应的转换处理概率设置一个数值范围,并设置与该转换处理概率对应的取值范围,通过随机生成一个数,若该数在该取值范围内,则将该转换处理概率对应的转换处理策略确定为目标转换处理策略,并执行该目标转换处理策略对书面语文本lt进行语句组成单元的转换处理,获得书面语文本lt对应的口语文本。
101.综上,为每种转换策略设置对应的转换处理概率,即每种转换策略根据一定的执行概率予以执行,则无需刻意执行每种转换处理策略,以此保障了书面语转换的自然性以及合理性。
102.具体实施时,由于生成回译书面语文本是为了对书面语文本进行扩充,因此,需要对书面语文本以及回译书面语文本分别进行口语转换。也因此,将书面语文本和回译书面语文本中任意一个书面语文本都可以作为待处理书面语文本,并对待处理书面语文本进行语句组成单元的转换处理,在语句组成单元为子句单元的情况下,具体实现通过执行如下步骤30806-2至步骤30806-6:步骤30806-2,对待处理书面语文本进行语句识别,获得待处理书面语文本中包含的书面语语句。
103.对待处理书面语文本进行语句识别,可以理解为对待处理文本进行分句处理。实际应用中,可以通过对待处理书面语文本中包含的分句符号(比如句号、问号、分号等用于进行分句操作的标识符)进行识别,通过分句符号进行语句划分(识别),即可获得该待处理书面语文本中包含的至少一个书面语语句。
104.步骤30806-4,对书面语语句进行子句单元的转换处理,获得转换后的书面语语句。
105.进一步的,对识别出的每个书面语语句分别进行子句单元的转换,即可获得每个书面语语句对应的转换后的书面语语句。
106.具体的,由于对待处理书面语文本中包含的书面语语句进行子句单元的转换处理
的转换方式是多种多样的,本技术实施例,可以通过如下两种方式或如下两种方式组合的方式对书面语语句进行转换处理,包括:方法一:按照预设子句采样规则对书面语语句进行子句采样,获得书面语语句中的目标子句;在书面语语句中对目标子句进行转换处理,获得转换后的书面语语句。
107.实际应用中,由于一个书面语语句中可能包含多个子句,而这些子句不一定都具有书面语和口语的表达差异,因此,可以先在这些书面语语句中选取需要进行子句单元转换的子句,再对选取出的子句进行转换处理。
108.预设子句采样规则,是指预先设置的在书面语语句中采样子句的采样规则,该预设子句采样规则,可以是随机采样,也可以是根据位置进行采样,比如采样位置在书面语语句中排在第一位置的子句,此外,还可以根据字符数量进行采样,比如采样子句中字符数量小于5的子句等,在此不做限制。相应地,目标子句,是指通过预设子句采样规则对书面语语句进行采样获得的子句。
109.在获得目标子句的基础上,即可在书面语语句中对该目标子句进行转换处理,具体实施时,由于对选取出的目标子句进行转换处理的方式也是多种多样的,为了增加转换后的书面语语句的自然性以及丰富性,可以通过如下三种转换方式或如下三种转换方式进行任意组合的方式,对目标子句进行转换处理,包括:方式a:对目标子句进行复制获得复制目标子句,并将复制目标子句按照预设子句插入位置插入至书面语语句,获得转换后的书面语语句。
110.实际应用中,由于口语表达时,有时会出现一些书面语语句中没有的口语化的语句表达,比如:对对对、好好好等。为了使书面语更加符合口语特点,可以对书面语语句进行一些口语化子句的添加处理。
111.具体的,预设子句插入位置,是指预先设置的将目标子句插入书面语语句中的位置,该位置可以根据实际口语特点进行设置,比如该预设子句插入位置可以是书面语语句的句首或句尾,也可以是该书面语语句中目标子句所处位置之前或之后等。
112.沿用上例,假设将书面语文本lt作为待处理书面语文本,对该书面语文本lt进行语句识别,获得书面语文本lt中包含的n个书面语语句,这n个书面语语句分别为书面语语句s1、书面语语句s2
……
书面语语句sn。以书面语语句s1为例进行说明,随机对书面语语句s1“我的故乡是山西,那里很美”进行子句采样,获得书面语语句s1中的目标子句为“我的故乡是山西”。在书面语语句s1中对该目标子句进行复制,获得复制目标子句“我的故乡是山西”,在预设子句插入位置为目标子句所处位置之前的情况下,将复制目标子句“我的故乡是山西”插入书面语语句s1中,获得转换后的书面语语句s13为:“我的故乡是山西,我的故乡是山西,那里很美”。
113.方式b:在书面语语句中将删除目标子句;将目标子句按照预设子句插入规则插入删除后的书面语语句,获得转换后的书面语语句。
114.实际应用中,由于口语表达时,有时并不在意子句的表达顺序,因此口语语句中可能会出现子句的表达顺序与书面语语句的表达顺序不一致的情况。为了使转换后的书面语更加符合口语特点,可以对书面语语句的一些子句进行位置调整处理。
115.具体的,预设子句插入规则,是指预先设置的插入目标子句的规则,该规则可以根据实际经验进行设置,比如,预设子句插入规则可以是随机插入(即该预设子句随机插入书
面语语句中任意子句之前或之后),可以是在第一个子句之后插入,还可以是在句尾插入等。
116.需要说明的是,由于方法a的转换处理和方法b的转换处理可以有选择性地执行,因此,可以对方法a的获得的转换后的书面语语句执行方法b的转换处理,也可以直接对原书面语语句进行执行方法b的转换处理,还可以对方法b获得的转换后的书面语语句执行方法a的转换处理,此外,其他转换处理也是可以有选择性地执行,和/或顺次执行等。
117.沿用上例,还是以书面语语句s1为例进行说明,随机对书面语语句s1“我的故乡是山西,那里很美”进行子句采样,获得书面语语句s1中的目标子句为“我的故乡是山西”。在书面语语句s1中对该目标子句进行删除,并在预设子句插入规则为随机插入的情况下,将目标子句“我的故乡是山西”随机插入书面语语句s1的任意子句之后,获得转换后的书面语语句s13为:“我的故乡是山西,那里很美,我的故乡是山西”。
118.方式c:对目标子句进行句法分析,获得目标子句对应的句法结构;通过将目标子句按照句法结构对应的目标句法结构进行转换,获得转换后的书面语语句。
119.实际应用中,虽然子句的语法结构(句法结构)不一致,但表达的意思仍是相同的,因此口语语句中可能会出现子句中的语序与书面语语句中的语法结构不一致的情况。因此,为了使转换后的书面语更加符合口语特点,可以对书面语语句的一些子句进行语法结构的改变,比如:倒装处理。
120.具体的,对采样的目标子句进行句法分析,可以采用基于规则的句法分析方法或基于统计的句法分析方法,获得目标子句对应的句法结构,该句法结构可以为主谓宾结构或宾谓主的结构等,在此不做限制。相应地,目标句法结构,是指预先设置的与目标子句的句法结构对应的句法结构。具体实施时,句法结构和目标句法结构之间可以进行转换。比如,句法结构为主谓宾的主动句法结构,而其目标句法结构可以为宾谓主的被动句法结构。
121.沿用上例,还是随机对书面语语句s1“我的故乡是山西,那里很美”进行子句采样,获得书面语语句s1中的目标子句为“我的故乡是山西”为例进行说明。该目标子句的句法结构为主谓宾结构,而该句法结构对应的目标句法结构为宾谓主结构。则将目标子句转换为宾谓主结构,转换后的目标子句变为:“山西是我的故乡”。相应地,转换后的书面语语句s13为:“山西是我的故乡,那里很美”。
122.方法二:确定预设子句集合中包含的预设子句对应的子句位置概率分布;基于子句位置概率分布在预设子句中确定目标预设子句以及目标预设子句对应的子句添加位置;根据子句添加位置将目标预设子句添加至书面语语句中,获得转换后的书面语语句。
123.预设子句集合,是指预先设置的包含至少一个口语化子句的集合。相应地,预设子句是指预设子句集合中包含的子句。子句位置概率分布,是指预先通过对某一口语语料集中预设子句的出现位置(比如句首、句尾、或句中等位置)进行统计,获得的每个预设子句的位置概率分布。实际应用中,可以统计每个预设子句在每个位置出现的频次,再根据统计的频次计算位置概率分布。
124.假设,预设子句集合中包含了3个预设子句,这3个预设子句分别为预设子句1、预设子句2以及预设子句3。根据对销售领域的口语语料集进行统计,预设子句1在句首出现了60次,预设子句2在句尾出现了20次,预设子句3在句首出现了20次,则预设子句1添加至句首的概率为:60/(60+20+20)=60%,预设子句2添加至句尾的概率为20/(60+20+20)=20%,预
设子句3添加至句首的概率也为20/(60+20+20)=20%。以上3个概率即为预设子句对应的子句位置概率分布。
125.进一步的,基于子句位置概率分布,即可在预设子句中确定目标预设子句,以及目标预设子句对应的子句添加位置(在书面语语句中添加目标预设子句的位置)。具体实施时,也可以预设一个数值范围,该数值范围为1-100(或1-10等),并在这个数值范围内设置取值概率与子句位置概率分布相同的取值区间,比如1-60、61-80以及81-100,再随机生成1-100这个数值范围内的任意一个数值。若生成的数值为9,该数值处于1-60之间,表示该数值满足60%的取值概率,也即满足执行将预设子句1添加至句首的概率,则确定目标预设子句为预设子句1以及目标预设子句对应的子句添加位置为句首。
126.再进一步的,在目标预设子句为“对对对”的情况下,将该目标预设子句“对对对”添加至书面语语句s1的句首,获得转换后的书面语语句s13为:“对对对,我的故乡是山西,那里很美”。
127.步骤30806-6,基于转换后的书面语语句确定口语文本。
128.在转换后的书面语语句存在多个的情况下,可以对转换后的书面语语句按照原书面语语句在书面语文本中的排列顺序进行组合,生成口语文本。
129.沿用上例,对书面语文本lt中包含的n个书面语语句中至少一个书面语语句,执行上述至少一种转换处理,获得n转换后的书面语语句分别为书面语语句s13、书面语语句s23、
……
、书面语语句sn3,将这n个转换后的书面语语句进行组合,生成口语文本st1。
130.综上,通过对书面语语句进行子句单元的复制子句、子句乱序和/或子句添加的转换处理,实现了对书面语语句进行口语改写,使转换后的书面语语句更加符合口语特点。
131.此外,在语句组成单元为词语单元的情况下,对待处理书面语文本进行子句单元的转换处理的转换方式也是多种多样的,本技术实施例提供的第一种实施方式,具体采用如下方式实现:对待处理书面语文本进行语句识别,获得待处理书面语文本中包含的书面语语句;确定预设词语集合中包含的预设词语对应的词语位置概率分布;根据词语位置概率分布在预设词语中确定目标预设词语以及目标预设词语对应的词语添加位置,并根据词语添加位置将目标预设词语插添加至书面语语句中,获得转换后的书面语语句;基于转换后的书面语语句确定口语文本。
132.实际应用中,由于口语表达中,会随机添加对一些口语化的词语,这些口语化的词语可以包括:连接词,语气词或其他口语词语等,比如:哇塞、其实等,这些口语化的词语在书面语语句中通常不存在。为了使书面语更加符合口语特点,可以对书面语语句进行一些口语词语的添加处理。
133.具体的,预设词语集合,是指预先设置的包含至少一个口语化词语的集合。相应地,预设词语是指预设词语集合中包含的词语。词语位置概率分布,是指预先通过对某一口语语料集中预设词语的出现位置(比如句首、句尾、或句中等位置)进行统计,获得的每个预设词语的位置概率分布。实际应用中,可以统计每个预设词语在每个位置出现的频次,再根据统计的频次计算位置概率分布。
134.假设,预设词语集合中包含了2个预设词语,这2个预设词语分别为预设词语1、预设词语2。根据对销售领域的口语语料集进行统计,预设词语1在句首出现了80次,预设词语2在句尾出现了20次,则预设词语1添加至句首的概率为:80/(80+20)=80%,预设词语2添加至句尾的概率为20%,则以上2个概率即为预设词语对应的词语位置概率分布。
135.具体的,根据词语位置概率分布在预设词语中确定目标预设词语以及目标预设词语对应的词语添加位置(在书面语语句中添加目标预设词语的位置)的具体实现,参考上述基于子句位置概率分布在预设子句中确定目标预设子句以及目标预设子句对应的子句添加位置的具体实现即可,在此不做赘述。
136.在确定目标预设词语以及目标预设词语对应的词语添加位置的基础上,即可将目标预设词语添加至书面语语句中的词语添加位置,并获得转换后的书面语语句,进一步,基于转换后的书面语语句确定口语文本的具体实现参考上述在子句单元的转换处理部分,基于转换后的书面语语句确定口语文本的具体实现即可,在此不做限制。
137.沿用上例,在书面语文本lt中包含的n个书面语语句的基础上,以其中的书面语语句s1为例进行说明,预设词语集合中包含了2个预设词语,这2个预设词语分别为预设词语1、预设词语2,这2个预设词语的词语位置概率分布为:预设词语1添加至句首的概率为80%,预设词语2添加至句首的概率为20%。假设根据该词语位置概率分布在预设词语集合中确定目标预设词语为预设词语1以及目标预设词语对应的词语添加位置为句首。在预设词语1为“其实”情况下,将预设词语1添加至书面语语句s1的句首,获得转换后的书面语语句s13为:“其实我的故乡是山西,那里很美”。再将n个转换后的书面语语句进行组合,生成口语文本st1。
138.综上,通过对书面语语句进行词语单元的词语添加处理,实现了对书面语语句进行口语改写,使转换后的书面语语句更加符合口语特点。
139.具体实施时,由于口语表达时,在添加一些口语化词语之后,可能会习惯性地对添加的词语进行重复,因此,为了使转换后的书面语更加符合口语特点,可以对书面语语句中添加的词语进行复制处理,本技术实施例,具体通过如下方式实现:对转换后的书面语语句中添加的目标预设词语进行复制,获得复制词语;将复制词语按照预设词语插入规则插入转换后的书面语语句中,获得插入后的书面语语句;基于插入后的书面语语句确定口语文本。
140.具体的,预设词语插入规则,是指预先设置的将目标预设词语插入书面语语句中的规则,该规则可以根据实际口语特点进行设置,比如该预设词语插入规则可以是将目标预设词语插入目标预设词语之前或之后的位置,也可以是将目标预设词语插入书面语语句中的其他位置,在此不做限制。
141.沿用上例,在获得转换后的书面语语句s13为:“其实我的故乡是山西,那里很美”的基础上,将目标预设词语“其实”进行复制,获得复制词语“其实”,在预设词语插入规则为插入至目标预设词语之前的情况下,将该复制词语“其实”加入至转换后的书面语语句s13中,获得插入后的书面语语句s14,该书面语语句s14为“其实其实我的故乡是山西,那里很美”。再将n个插入后的书面语语句进行组合,生成口语文本st1。
142.综上,在对书面语语句进行词语单元的词语添加处理的处理上,再对添加的词语
进行重复处理,使转换后的书面语语句更加符合口语特点。
143.在语句组成单元为词语单元的情况下,除上述词语单元的转换处理之外,本技术实施例提供的第二种实施方式,具体采用如下处理方式实现:对待处理书面语文本进行语句识别,获得书面语文本中包含的书面语语句;按照预设词语采样规则对书面语语句中的词语进行词语采样,获得书面语语句中的目标词语;在书面语语句中删除目标词语,并将目标词语插入删除后的书面语语句中目标词语对应的预设插入范围内,获得转换后的书面语语句;基于转换后的书面语语句确定口语文本。
144.由于口语表达中,有时并不在意词语的表达顺序,因此口语语句中可能会出现词语的表达顺序与书面语语句的表达顺序不一致的情况。为了使转换后的书面语更加符合口语特点,可以对书面语语句的一些词语进行位置调整处理。
145.具体的,预设词语采样规则,是指预先设置的在书面语语句中采样待乱序的词语的采样规则,该预设词语采样规则,可以是随机采样,也可以是根据预设字符数量进行采样,比如随机采样在书面语语句中采样字符数量为3个字符的词语等。相应地,目标词语,是指通过词语采样规则在书面语语句中采样的词语。
146.预设插入范围,是指预先设置的进行插入处理的范围。该预设插入范围可以根据实际经验或口语表达习惯进行预先设置,具体的,目标词语对应的预设插入范围,可以是目标词语在书面语语句所在位置之前3个字符到目标词语在书面语语句所在位置之后3个字符的字符区间,该字符区间可以简称为[-3,3],此外,该预设插入范围还可以是该词语所属子句范围内等。进一步的,将目标词语在预设插入范围内随机插入即可。
[0147]
沿用上例,在书面语文本lt中包含的n个书面语语句的基础上,以其中的书面语语句s1为例进行说明,在书面语语句s1中随机采样词语,获得目标词语为“那里”,在书面语语句s1中删除该目标词语,删除后的书面语语句s1为“我的故乡是山西,很美”。并在预设插入范围为“目标词语所属的子句范围”的情况下,将该目标词语插入至书面语语句s1的预设插入范围内,获得转换后的书面语语句s13为:“我的故乡是山西,很美那里”。再将n个转换后的书面语语句进行组合,生成口语文本st1。
[0148]
综上,通过对书面语语句进行词语单元的转换处理,使转换后的书面语语句更加符合口语特点。
[0149]
在语句组成单元为字符单元的情况下,考虑到有时在口语表达过程并不严格遵循字符的表达顺序,因此口语语句中可能会出现字符的表达顺序与书面语语句中字符的表达顺序不一致的情况。为了使转换后的书面语更加符合口语特点,可以对书面语语句的一些字符进行位置调整处理,本技术实施例,具体采用如下方式实现:对待处理书面语文本进行语句识别,获得待处理书面语文本中包含的书面语语句;按照预设字符采样规则对书面语语句中的字符进行字符采样,获得书面语语句中的目标字符;在书面语语句中删除目标字符,并将目标字符插入删除后的书面语语句中目标字符对应的预设字符插入范围内,获得转换后的书面语语句;
基于转换后的书面语语句确定口语文本。
[0150]
具体的,预设字符采样规则,是指预先设置的在书面语语句中采样待乱序的字符的采样规则,该预设字符采样规则,可以是随机采样,也可以是根据预设字符位置进行采样,比如随机采样在书面语语句中位置为第5位置的字符等,在此不做限制。
[0151]
相应地,目标字符对应的预设字符插入范围,可以是目标字符在书面语语句所在位置之前3个字符到目标词语在书面语语句所在位置之后3个字符的字符区间,该字符区间可以简称为[-3,3],此外,该预设字符插入范围还可以是该目标字符所在子句范围内等,在此不做限制。
[0152]
沿用上例,在书面语文本lt中包含的n个书面语语句的基础上,以其中的书面语语句s1为例进行说明,在书面语语句s1中随机采样字符,获得目标字符为“美”,在书面语语句s1中删除该目标字符,删除后的书面语语句s1为“我的故乡是山西,那里很”。并在目标字符对应的预设字符插入范围为“目标字符所属的子句范围”的情况下,将该目标字符“美”插入至书面语语句s1的预设字符插入范围内,获得转换后的书面语语句s13为:“我的故乡是山西,那里美很”。再将n个转换后的书面语语句进行组合,生成口语文本st1。
[0153]
综上,通过对书面语语句进行字符单元的乱序处理,使转换后的书面语语句更加符合口语特点。
[0154]
在语句组成单元为符号单元的情况下,由于口语表达中可能对于语句的断开或衔接不具有明确划分,或者划分较为随意,因此口语语句中出现的符号可能与书面语语句中出现的符号存在不一致的情况。为了使转换后的书面语更加符合口语特点,可以通过如下两种方式或如下两种方式的组合对待处理书面语文本进行符号单元的转换处理,包括:转换方法一:对待处理书面语文本进行语句识别,获得待处理书面语文本中包含的书面语语句;按照预设符号采样规则对书面语语句进行符号采样,获得书面语语句中的目标标点符号,在书面语语句中删除目标标点符号,获得转换后的书面语语句;基于转换后的书面语语句确定口语文本。
[0155]
具体的,预设符号采样规则,是指预先设置的在书面语语句中采样待删除的符号的采样规则。预设符号采样规则,可以是随机采样,也可以是根据预设位置进行采样,比如采样在书面语语句中第一子句后的标点符号,在此不做限制。相应地,目标标点符号,是指按照预设符号采样规则从书面语语句中采样的标点符号。
[0156]
沿用上例,在书面语文本lt中包含的n个书面语语句的基础上,以其中的书面语语句s1为例进行说明,随机对书面语语句s1进行符号采样,获得书面语语句s1中的目标标点符号为子句“我的故乡是山西”子句之后的逗号。在书面语语句s1中删除该目标标点符号,获得转换后的书面语语句s13为:“我的故乡是山西那里很美”。再将n个转换后的书面语语句进行组合,生成口语文本st1。
[0157]
转换方法二:对待处理书面语文本进行语句识别,获得待处理书面语文本中包含的书面语语句;按照预设符号子句采样规则对书面语语句进行符号子句采样,获得书面语语句中的目标符号子句,在目标符号子句中插入预设标点符号,获得转换后的书面语语句;基于转换后的书面语语句确定口语文本。
[0158]
具体的,预设符号子句采样规则,是指预先设置的在书面语语句中采样添加符号的子句的采样规则。预设符号子句采样规则,可以是随机采样,也可以是根据子句的字符数
量进行采样,比如采样在书面语语句中采样字符数量最多的子句,在此不做限制。相应地,预设标点符号,是指预先设置的用以进行插入的标点符号,实际应用中,可以在目标符号子句中随机插入该预设标点符号,也可以按照预设的位置插入该预设标点符号,在此不做限制;目标符号子句,是指按照预设符号子句采样规则在书面语语句中采样的子句。
[0159]
沿用上例,在书面语文本lt中包含的n个书面语语句的基础上,以其中的书面语语句s1为例进行说明,在预设符号子句采样规则为采样字符最长子句的情况下,对书面语语句s1进行符号子句采样,获得书面语语句s1中的目标符号子句为“我的故乡是山西”。在预设标点符号为“!”的情况下,在书面语语句s1中插入该预设标点符号,获得转换后的书面语语句s13为:“我的故乡是山西,!那里很美”。再将n个转换后的书面语语句进行组合,生成口语文本st1。
[0160]
综上,通过对书面语语句进行符号单元的删除符号、添加符号的转换处理,实现了对书面语语句进行口语改写,使转换后的书面语语句更加符合口语特点。
[0161]
步骤30808:基于书面语文本和回译书面语文本与口语文本的对应关系,构建样本语料。
[0162]
具体的,在上述获得口语文本的基础上,由于获得的口语文本是对书面语文本或回译书面语文本进行转换处理获得的,因此,口语文本和书面语文本或回译书面语文本之间存在对应关系,基于该对应关系,即可生成书面语-口语文本对齐的样本语料。
[0163]
其中,样本语料,是指用以进行模型训练的训练样本对。实际应用中,通过生成书面语文本-口语文本的训练样本对,可以用以训练口语文本到书面语文本的书面语改写模型。在训练书面语改写模型的情况下,将样本语料中的口语文本作为训练样本,并将样本语料中的书面语文本作为口语文本对应的样本标签。
[0164]
实际应用中,由于经过转换处理获得的口语文本中,可能存在一些异常数据,这些异常数据的存在严重影响口语文本的质量,为了保障生成的口语文本的质量,可以对口语文本中的异常数据进行数据清洗,本技术实施例,具体采用如下方式实现:识别口语文本中的异常信息;根据异常信息对口语文本进行数据清洗,获得清洗后的口语文本;基于书面语文本和回译书面语文本与清洗后的口语文本的对应关系,构建样本语料。
[0165]
其中,异常信息,可以是错别字,重复的标点符号,中文标点混合英文标点符号、特殊的符号,停用词等异常的信息。此外,异常信息还可以是语义模糊,或语义不合理的信息,在此不做限制。实际应用中,可以通过预设异常识别规则识别口语文本中的异常信息,也可以基于预先训练的文本清洗模型识别口语文本中异常信息。具体实施时,文本清洗模型可以是用于语法纠错的深度上下文模型进行语法检测。
[0166]
进一步的,在识别出口语文本中的异常信息之后,在口语文本为多个的情况下,可以直接对存在异常信息的口语文本进行删除,从而获得无异常信息的口语文本(即清洗后的口语文本)。此外也可以对口语文本中的异常信息进行删除或纠正,从而获得清洗后的口语文本,在此不做限制。需要说明的是,若删除了任意一个口语文本,也需要将其对应的书面语文本或回译书面语文本进行删除。
[0167]
具体实施时,考虑到可能采用的书面语文本中也包含异常信息,可以对书面语文
本以及口语文本都进行数据清洗。
[0168]
沿用上例,在将书面语文本lt作为待处理的书面语文本进行转换处理,获得口语文本st1,将回译书面语文本lt3作为待处理文本进行转换处理在获得口语文本st2的基础上,通过异常识别规则,识别出口语文本st1中的异常信息为“,!”,而口语文本st2无异常,则根据该异常信息对口语文本st1进行数据清洗,获得清洗后的口语文本st1,并将口语文本st2直接作为清洗后的口语文本st2。基于书面语文本lt和清洗后的口语文本st1之间的对应关系,将书面语文本lt和清洗后的口语文本st1构建样本语料对1。并基于回译书面语文本lt3与清洗后的口语文本st2之间的对应关系,将书面语文本lt3与清洗后的口语文本st2构建样本语料对2,将样本语料对1以及样本语料对2作为样本语料。
[0169]
综上,通过对转换处理后的口语文本进行数据清洗,在通过清洗后的口语文本构建样本语料,保障了样本语料的质量,也进一步增加了模型训练的准确性。
[0170]
参见图4,图4示出了本技术一实施例提供的文本处理方法中构建样本语料的示意图。在获取书面语文本后,为了能够进一步扩充书面语文本,可以将该书面语文本进行回译处理,并在回译过程中,通过对书面语文本中的语句进行词法语法分析,并根据分析结果对语句中关键实体词回对(替换),保障获得的回译语料和书面语文本中的关键信息保持一致。再将回译语料以及书面语文本共同作为数据源输入口语化数据生成模块进行口语转换。该口语化数据生成模块中包括对数据源中的书面语语句进行子句级、词级、字符级以及符号级的转换处理。
[0171]
其中,子句级的转换处理包括对书面语语句在子句级别进行子句重复、子句生成、子句乱序等转换处理;词级的转换处理包括对书面语语句在词语级别进行添加词语、词语重复以及词语乱序等转换处理;字符级的转换处理包括对书面语语句在字符级别进行字符乱序处理等转换处理,符号级的转换处理包括对书面语语句在符号级别进行符号删除、符号插入等转换处理。
[0172]
在将数据源通过口语化数据生成模块进行口语转换后,可以获得初始口语文本,对该初始口语文本进行数据清洗,去除其中的异常信息(即包含错误信息、错误数据或错误标点的信息),即可输出数据源对应的口语文本。
[0173]
本技术实施例通过研究分析总结口语化文本的文本结构及句法语法结构特点,基于标准的书面语文本进行回译处理,扩充书面语文本之后,再对扩充的书面语文本进行转换处理,生成相应书面语文本的口语化表述,以此扩充书面语改写模型的样本语料,提高了获得书面语改写的样本语料的效率以及丰富性。
[0174]
步骤30810:通过样本语料对初始书面语改写模型进行训练,直至获得满足第二训练停止条件的书面语改写模型。
[0175]
具体的,在上述构建样本语料的基础上,即可通过样本语料对初始书面语改写模型进行训练,训练完成后即可生成可以用以书面语改写的书面语改写模型。
[0176]
其中,初始书面语改写模型,可以是基于seq2seq模型构建的待训练的书面语改写模型,其中该seq2seq模型中的编码器以及解码器均可以采用transformer模型构建。相应地,第二训练停止条件,是指停止基于样本语料对初始书面语改写模型进行模型训练的条件。该第二训练停止条件,可以是对样本语料中口语文本通过模型进行书面语改写生成的预测书面语文本与样本书面语文本之间的损失值小于预设损失值,还可以是训练迭代次数
达到预设迭代次数,比如5次、或6次等,在此不做限制。相应地,书面语改写模型可以理解为训练完成的对口语文本进行书面语改写的模型。
[0177]
具体实施时,训练过程中通过初始书面语改写模型对输入的样本口语文本进行书面语改写输出预测书面语文本,并计算预测书面语文本和样本书面语文本的损失值,实际应用中,计算模型损失值的损失函数在实际应用中可以为0-1损失函数、绝对值损失函数、平方损失函数、交叉熵损失函数等,在此,以绝对值损失函数为例进行解释说明,参见下述公式2:公式2其中,l代表损失值,f(x)表示预测书面语文本,y表示样本书面语文本,在本技术中,对损失函数的选择不做限定,以实际应用为准。
[0178]
在计算模型损失值之后,即可根据模型损失值反向调整初始文本分类模型的模型参数,并采样下一批次样本语料继续训练初始文本分类模型,直至到达训练停止条件,即可获得训练完成的书面语改写模型。
[0179]
具体实施时,由于该书面语改写模型采用丰富的样本语料进行模型训练,该书面语改写模型,可以用于处理较为复杂的语句改写,因此,可以将该书面语改写模型用以对标准文本类型的目标口语文本进行相对复杂的改写处理。
[0180]
此外,在获得目标口语文本对应的文本类型的基础上,还存在文本类型为模糊文本类型的情况。在这种情况下,为了保障书面语改写的合理性以及准确性,本技术实施例,具体通过如下方式实现:在文本类型为模糊文本类型的情况下,根据模糊文本类型选择对应的书面语转换模型;将目标口语文本输入书面语转换模型进行处理,获得目标口语文本对应的转换书面语文本;其中,书面语转换模型,基于书面语文本以及对书面语文本进行转换处理获得的基础口语文本训练得到。
[0181]
由于目标口语文本为模糊文本类型,表明目标口语文本的文本语义表述较为模糊。而针对模糊文本类型的目标口语文本,需要输入对口语文本进行较小改写的书面语转换模型进行书面语改写,获得目标口语文本对应的书面语文本(转换书面语文本)。这是由于这种类型的目标口语文本,其语义表述本身比较模糊,如果再对其进行复杂的改写,可能会导致其语义更加模糊,或者容易出现偏差。因此,针对模糊文本类型的目标口语文本,可以采用书面语转换模型对其进行简单的口语词汇、语气词汇等改写即可。
[0182]
假设文本分类模型输出的目标口语文本tst对应的文本类型为模糊文本类型,则将该目标口语文本tst输入书面语转换模型,获得该书面语转换模型输出的目标书面语文本tlt2。
[0183]
综上,通过将模糊文本类型的目标口语文本通过书面语转换模型进行轻微改写,实现了对不同类型口语文本的合理性改写,保障了书面语改写的质量。
[0184]
具体实施时,书面语转换模型的训练,具体通过如下步骤实现:获取书面语文本;对书面语文本进行语句组成单元的转换处理,获得基础口语文本;
基于书面语文本与基础口语文本的对应关系,构建基础样本语料;通过基础样本语料对初始书面语转换模型进行训练,直至获得满足第一训练停止条件的书面语转换模型。
[0185]
基础口语文本,是指对获取的书面语文本进行转换处理,生成的口语文本。实际应用中,获取书面语文本,以及对书面语文本进行语句组成单元的转换处理,获得基础口语文本的具体实现,与上述获取书面语文本,对书面语文本和回译书面语文本分别进行语句组成单元的转换处理,获得口语文本的具体实现类似,参考上述具体实现即可,在此不再赘述。
[0186]
相应地,基础样本语料,是指将基于口语文本作为训练样本,将该口语文本对应的书面语文本作为样本标签所构建的样本语料。第一训练停止条件,是指停止基于基础样本语料对初始书面语改写模型进行模型训练的条件。类似地,第一训练停止条件,可以是对样本语料中口语文本通过模型进行书面语改写生成的预测书面语文本与样本书面语文本之间的损失值小于预设损失值,还可以是训练迭代次数达到预设迭代次数,比如5次、或6次等,在此不做限制。相应地,书面语转换模型可以理解为基于基础样本语料训练完成的对口语文本进行书面语改写的模型。
[0187]
具体实施时,通过基础样本语料对初始书面语转换模型进行训练,直至获得满足第一训练停止条件的书面语转换模型的具体实现方式,与上述通过样本语料对初始书面语转换模型进行训练,直至获得满足第二训练停止条件的书面语转换模型的具体实现方式类似,参考上述实现方式即可,在此不做赘述。
[0188]
需要说明的是,该基础样本语料中的书面语文本未通过回译处理进行扩充,因此,该基础样本语料相对于上述构建的样本语料较为精简。也因此,通过该基础样本语料进行模型训练所获得的书面语转换模型所进行的书面语改写也相对上述书面语改写模型更为简单。
[0189]
综上,通过基础样本语料训练书面语转换模型,使书面语转换模型可以实现对模糊文本类型的目标口语文本进行轻微改写,使书面语改写更具有合理性。
[0190]
此外,还存在文本类型为无效文本类型的可能性,文本类型为无效文本类型的情况下,删除目标口语文本。由于无效文本类型的目标口语文本,表明该目标口语文本是不包含语义信息的口语文本。对这类型的口语文本进行书面语改写,获得的改写结果也是没有语义信息的。因此,针对无效文本类型的目标口语文本可以直接进行删除,即无需对其进行书面语改写。
[0191]
综上,对于无效文本类型的目标口语文本,直接进行删除,避免了浪费计算资源处理无效的口语文本。从而节约了计算成本。
[0192]
本技术实施例提供的文本处理方法,通过获取目标口语文本;将目标口语文本进行分类处理,获得目标口语文本对应的文本类型;再在文本类型为标准文本类型的情况下,根据标准文本类型选择对应的书面语改写模型,实现了根据目标口语文本的文本类型选择适合目标口语文本的书面语改写模型;再将目标口语文本输入书面语改写模型进行处理,获得目标口语文本对应的目标书面语文本,使书面语改写更加具有针对性,并提高了书面语改写的准确性。其中,书面语改写模型,基于书面语文本以及对书面语文本进行回译和转换处理获得的口语文本训练得到,实现了基于回译以及转换处理对书面语文本进行预处
理,从而为模型训练提供大量口语文本-书面语文本的样本语料,简化了模型的训练难度,也避免了人工耗时费力收集并处理大量的文本数据,节约了时间成本以及人力成本。
[0193]
下述结合附图5,以本技术提供的文本处理方法在实际场景中的应用为例,对文本处理方法进行进一步说明。其中,图5示出了本技术一实施例提供的一种应用于实际场景的文本处理方法的处理流程图,具体包括以下步骤:步骤502:获取书面语文本。
[0194]
具体的,该书面语文本可以是任意领域的书面语文本,比如医学领域的书面语文本,化学领域的书面语文本、销售领域的书面语文本、日常生活领域的书面语文本,旅游领域的书面语文本等,在此不做限制。并且该书面语文本的文本数量可以是一个也可以是多个,在此不做限制。
[0195]
以销售领域为例,获取销售领域的书面语文本t。
[0196]
步骤504:通过对书面语文本进行词性分析,识别书面语文本中词性为预设词性的关键词语。
[0197]
对书面语文本t中包含的每个词语进行词性分析,获得该书面语文本t中每个词语的词性。在预设词性为名词词性的情况下,将该书面语文本t中名词词性的词语识别为关键词语。
[0198]
步骤506:在书面语文本中对关键词语所处的位置进行位置标记。
[0199]
基于此,假设书面语文本t中识别出的关键词语为“计算机”以及“速度”,这些关键词语在书面语文本t中所属的书面语语句ss为:“我使用计算机,速度很快,而且是非常便捷的”,在书面语文本t通过星号“*”进行位置标记,标记完成后获得的标记后的书面语文本t。该标记后的书面语文本t中的书面语语句ss变更为:“我使用*计算机*,*速度*很快,而且是非常便捷的”。
[0200]
步骤508:将标记后的书面语文本翻译为预设语种对应的译文书面语文本。
[0201]
具体的,预设语种可以是英语、法语、韩语等任意一种或多种语种,在此不做限制。
[0202]
基于此,在预设语种为英语的情况下,将标记后的书面语文本t翻译为英语,获得标记后的书面语文本t对应的英语译文书面语文本t1。
[0203]
步骤510:将译文书面语文本翻译为书面语文本所属的目标语种,获得初始回译书面语文本。
[0204]
具体的,由于书面语文本t中的文本内容所属的目标语种是汉语,因此将英语译文书面语文本t1翻译为汉语,获得英语译文书面语文本t1对应的初始回译文书面语文本t2,其中,初始回译书面语文本t2中与书面语语句ss对应的书面语语句ss2更新为:“我采用*电脑*,*效率*很快,而且非常方便”。
[0205]
步骤512:通过关键词语对初始回译书面语文本中位置标记对应的目标关键词语进行替换,获得回译书面语文本。
[0206]
具体的,位置标记对应的目标关键词语,是指位置标记在初始回译书面语文本中所标记的词语,该目标关键词语也与关键词语相对应。实际应用中,结合对书面语文本进行词性分析,在回译过程中对书面语语句中特定词性的词语进行位置标记并替换,以此尽可能保证回译书面语文本与书面语文本中的关键信息不变。
[0207]
基于此,初始回译书面语文本t2中的标记位置对应的目标关键词语为“电脑”以及“效率”;通过关键词词语“计算机”对初始回译书面语文本t2中的“电脑”进行替换,并通过关键词词语“速度”对初始回译书面语文本t2中的“效率”进行替换,获得回译书面语文本t3,其中,回译书面语文本t3中与书面语语句ss对应的书面语语句ss3更新为:“我采用计算机进行运算,速度很快,而且非常方便”。
[0208]
步骤514:将书面语文本和回译书面语文本中每个书面语文本作为待处理书面文本,对每个待处理书面语文本进行语句识别,获得每个待处理书面语文本中包含的书面语语句。
[0209]
具体的,将书面语文本t和回译书面语文本t3中每个书面语文本都作为待处理书面文本,对每个待处理文本依次进行语句识别,获得每个待处理文本中包含的书面语语句。进一步的,对每个待处理文本中的每个书面语句执行下述步骤516至步骤522。
[0210]
基于此,假设将书面语文本t作为待处理文本t,对待处理文本t进行语句识别,获得待处理文本t中包含的n个书面语语句,这n个书面语语句分别为书面语语句1、书面语语句2、
……
、书面语语句n,对这n个书面语语句分别执行下述步骤516至步骤522。
[0211]
步骤516:对书面语语句进行子句单元的转换处理,获得转换后的第a4书面语语句。
[0212]
具体的,对任意一个书面语语句进行子句单元的转换处理,具体通过如下执行如下步骤516-1至步骤516-18进行实现:步骤516-1:确定书面语语句的各个子句转换处理策略中复制子句转换处理策略对应的复制子句转换处理概率。
[0213]
其中,复制子句转换处理策略,是指对书面语语句中的子句进行复制的处理策略,相应地,复制子句转换处理概率,是指预先设置的执行复制子句转换处理策略的概率。该复制子句转换处理概率,可以根据实际经验或口语表达习惯进行预先设置,比如复制子句转换处理概率可以为10%、20%、30%等,在此不做限制。在复制子句转换处理概率为10%的情况下,表明对书面语语句有10%的概率执行复制子句转换处理策略。
[0214]
基于此,假设书面语语句1为上述书面语语句ss“我使用计算机,速度很快,而且是非常便捷的”,而复制子句转换处理策略对应的复制子句转换处理概率为10%,则针对书面语语句1执行复制子句转换处理策略的复制子句转换处理概率为10%。
[0215]
步骤516-2:基于复制子句转换处理概率,确定是否针对书面语语句执行复制子句转换处理策略。
[0216]
具体的,若基于复制子句转换处理概率确定执行复制子句转换处理策略,则执行下述步骤516-3;若确定不执行复制子句换行处理策略,则直接将书面语语句作为第a1书面语语句,执行下述步骤516-5。
[0217]
步骤516-3:在确定执行复制子句转换处理策略的情况下,按照第一预设采样规则对书面语语句进行子句采样,获得书面语语句中的第一目标子句。
[0218]
具体的,第一预设采样规则,是指预先设置的在书面语语句中采样待复制的子句的采样规则。该第一预设采样规则,可以是随机采样,也可以是根据位置进行采样,比如采样位置在书面语语句中排在第一位置的子句,此外,还可以根据字符数量进行采样,比如采样子句中字符数量小于5的子句等。该第一预设采样规则,可以与上述方法实施例中的预设子句采样规则相同,也可以理解为上述方法实施例中的预设子句采样规则中的一种。相应
地,第一目标子句,是指按照第一预设采样规则在书面语语句中采样的子句,也可以理解为上述方法实施例中的目标子句。
[0219]
基于此,在确定执行复制子句转换处理策略的情况下,随机对书面语语句1进行子句采样,获得书面语语句1中的第一目标子句为“速度很快”。
[0220]
步骤516-4:对第一目标子句进行复制获得复制目标子句,并将复制目标子句按照预设子句插入位置插入至书面语语句中,获得转换后的第a1书面语语句。
[0221]
具体的,预设子句插入位置,是指预先设置的将目标第一子句插入书面语语句中的位置,该位置可以根据实际口语特点进行设置,比如该预设子句插入位置可以是书面语语句的句首或句尾,也可以是该书面语语句中第一目标子句所处位置之前或之后,在此不做限制。
[0222]
基于此,对该第一目标子句“速度很快”进行复制,获得的复制目标子句也为“速度很快”,在预设子句插入位置为第一目标子句所处位置之前的情况下,将复制目标子句插入至书面语语句1中第一目标子句所处位置之前,获得转换后的第a1书面语语句为:“我使用计算机,速度很快,速度很快,而且是非常便捷的”。
[0223]
步骤516-5:确定第a1书面语语句的各个子句转换处理策略中添加子句转换处理策略对应的添加子句转换处理概率。
[0224]
其中,添加子句转换处理策略,是指对书面语语句进行子句添加的处理策略。相应地,添加子句转换处理概率,是指预先设置的执行添加子句转换处理策略相关处理的概率,该添加子句转换处理概率,也可以根据实际经验或口语表达习惯进行预先设置,比如添加子句转换处理概率可以为15%、20%等,在此不做限制。在添加子句转换处理概率为15%的情况下,表明对书面语语句有15%的概率执行添加子句转换处理策略。
[0225]
基于此,确定第a1书面语语句的添加子句转换处理策略对应的添加子句转换处理概率为15%。
[0226]
步骤516-6:基于添加子句转换处理概率,确定是否针对第a1书面语语句执行添加子句转换处理策略。
[0227]
具体的,基于添加子句转换处理概率,确定是否针对第a1书面语语句执行添加子句转换处理策略的具体实现方式与上述基于复制子句转换处理概率,确定是否针对书面语语句执行复制子句转换处理策略的具体实现方式类似,参考上述基于复制子句转换处理概率,确定是否针对书面语语句执行复制子句转换处理策略的具体实现方式即可,在此不做赘述。
[0228]
具体实施时,若确定执行添加子句转换处理策略,则执行下述步骤516-7;若确定不执行添加子句转换处理策略,则直接将第a1书面语语句作为第a2书面语语句,执行下述步骤516-9。
[0229]
基于此,假设基于添加子句转换处理概率15%,确定针对第a1书面语语句执行添加子句转换处理策略。
[0230]
步骤516-7:在确定执行添加子句转换处理策略的情况下,确定预设子句集合中包含的预设子句对应的子句位置概率分布。
[0231]
具体的,预设子句集合中包含了3个预设子句,这3个预设子句分别为预设子句1、预设子句2以及预设子句3。这3个预设子句对应的子句位置概率分布为:预设子句1添加至
句首的概率为60%,预设子句2添加至句尾的概率为20%,预设子句3添加至句首的概率为20%。
[0232]
步骤516-8:基于子句位置概率分布在预设子句中确定目标预设子句以及目标预设子句对应的子句添加位置,并根据子句添加位置将目标预设子句添加至第a1书面语语句中,获得转换后的第a2书面语语句。
[0233]
具体的,基于子句位置概率分布,在预设子句中确定目标预设子句为预设子句1以及预设子句1对应的子句添加位置为句首,则将预设子句1添加至第a1书面语语句的句首,在预设子句1为“对对对”的情况下,获得转换后的第a2书面语语句为“对对对,我使用计算机,速度很快,速度很快,而且是非常便捷的”。
[0234]
步骤516-9:确定第a2书面语语句的各个子句转换处理策略中乱序子句转换处理策略对应的乱序子句转换处理概率。
[0235]
其中,乱序子句转换处理策略,是指对书面语语句中的子句进行乱序的处理策略。相应地,乱序子句转换处理概率,是指预先设置的执行乱序子句转换处理策略相关处理的概率,该乱序子句转换处理概率,也可以根据实际经验或口语表达习惯进行预先设置,比如乱序子句转换处理概率可以为5%、10%等,在此不做限制。在乱序子句转换处理概率为5%的情况下,表明对书面语语句有5%的概率执行乱序子句转换处理策略。
[0236]
基于此,确定第a2书面语语句的乱序子句转换处理策略对应的乱序子句转换处理概率为5%。
[0237]
步骤516-10:基于乱序子句转换处理概率,确定是否针对第a2书面语语句执行乱序子句转换处理策略。
[0238]
具体的,基于乱序子句转换处理概率,确定是否针对第a2书面语语句执行乱序子句转换处理策略的具体实现方式与上述基于复制子句转换处理概率,确定是否针对书面语语句执行复制子句转换处理策略的具体实现方式类似,参考上述基于复制子句转换处理概率,确定是否针对书面语语句执行复制子句转换处理策略的具体实现方式即可,在此不做赘述。
[0239]
具体实施时,若确定执行乱序子句转换处理策略,则执行下述步骤516-11;若确定不执行乱序子句转换处理策略,则直接将第a2书面语语句作为第a3书面语语句,执行下述步骤516-13。
[0240]
基于此,假设基于添加子句转换处理概率5%,确定针对第a2书面语语句执行乱序子句转换处理策略。
[0241]
步骤516-11:在确定执行乱序子句转换处理策略的情况下,按照第二预设采样规则对第a2书面语语句进行子句采样,获得第a2书面语语句中的第二目标子句。
[0242]
具体的,第二预设采样规则,是指预先设置的在书面语语句中采样待乱序的子句的采样规则,该第二预设采样规则,可以是随机采样,也可以是根据位置进行采样,比如采样位置在书面语语句中排在最末位置的子句,此外,还可以根据字符数量进行采样,比如采样子句中字符数量小于5的子句等,在此不做限制。实际应用中,该第二预设采样规则,可以和上述第一预设采样规则相同,也可以与上述第一预设采样规则不同,在此不做限制。该第二预设采样规则,也可以与上述方法实施例中的预设子句采样规则相同,或可以理解为上述方法实施例中的预设子句采样规则中的一种。相应地,第二目标子句,是指按照第二预设
采样规则在书面语语句中采样的子句,也可以理解为上述方法实施例中的目标子句。
[0243]
基于此,在确定执行乱序子句转换处理策略的情况下,随机对第a2书面语语句进行子句采样,获得第a2书面语语句中的第二目标子句为“对对对”。
[0244]
步骤516-12:在第a2书面语语句中删除第二目标子句,并将第二目标子句按照预设子句插入规则插入删除后的第a2书面语语句,获得转换后的第a3书面语语句。
[0245]
具体的,在第a2书面语语句中删除第二目标子句“对对对”,获得删除后的第a2书面语语句:“我使用计算机,速度很快,速度很快,而且是非常便捷的”。并将第二目标子句“对对对”随机插入删除后的第a2书面语语句中,获得转换后的第a3书面语语句为:“我使用计算机,速度很快,速度很快,而且是非常便捷的,对对对”。
[0246]
步骤516-13:确定第a3书面语语句的各个子句转换处理策略中倒装子句转换处理策略对应的倒装子句转换处理概率。
[0247]
其中,倒装子句转换处理策略,是指对书面语语句中的子句的语序进行倒装(比如从主谓宾结构倒装为宾谓主的结构)的处理策略。实际应用中,虽然子句的语序不一致,但表达的意思仍是相同的,因此口语语句中可能会出现子句中的语序与书面语语句中的语序不一致的情况。为了使转换后的书面语更加符合口语特点,可以对书面语语句的一些子句的语序进行倒装处理。相应地,倒装子句转换处理概率,是指预先设置的执行倒装子句转换处理策略相关处理的概率,该倒装子句转换处理概率,也可以根据实际经验或口语表达习惯进行预先设置,比如倒装子句转换处理概率可以为3%、5%等,在此不做限制。在倒装子句转换处理概率为3%的情况下,表明对书面语语句有3%的概率执行倒装子句转换处理策略。
[0248]
基于此,确定第a3书面语语句的倒装子句转换处理策略对应的倒装子句转换处理概率为3%。
[0249]
步骤516-14:基于倒装子句转换处理概率,确定是否针对第a3书面语语句执行倒装子句转换处理策略。
[0250]
具体的,基于倒装子句转换处理概率,确定是否针对第a3书面语语句执行倒装子句转换处理策略的具体实现方式与上述基于倒装子句转换处理概率,确定是否针对书面语语句执行倒装子句转换处理策略的具体实现方式类似,参考上述基于倒装子句转换处理概率,确定是否针对书面语语句执行倒装子句转换处理策略的具体实现方式即可,在此不做赘述。
[0251]
具体实施时,若确定执行倒装子句转换处理策略,则执行下述步骤516-15;若确定不执行倒装子句转换处理策略,则直接将第a3书面语语句作为第a4书面语语句,执行下述步骤518。
[0252]
基于此,假设基于添加子句转换处理概率5%,确定针对第a2书面语语句执行乱序子句转换处理策略。
[0253]
步骤516-15:在确定执行倒装子句转换处理策略的情况下,按照第三预设采样规则对第a3书面语语句进行子句采样,获得第a3书面语语句中的第三目标子句。
[0254]
具体的,第三预设采样规则,是指预先设置的在书面语语句中采样待倒装的子句的采样规则,该第三预设采样规则,可以是随机采样,也可以是根据位置进行采样,比如采样位置在书面语语句中排在句首位置的子句,此外,还可以根据字符数量进行采样,比如采样子句中字符数量大于5的子句等,在此不做限制。实际应用中,该第三预设采样规则,可以
和上述第一预设采样规则或第二预设采样规则相同,也可以与上述第一预设采样规则或第二预设采样规则不同,在此不做限制。该第三预设采样规则,也可以与上述方法实施例中的预设子句采样规则相同,或可以理解为上述方法实施例中的预设子句采样规则中的一种。相应地,第三目标子句,是指按照第三预设采样规则在书面语语句中采样的子句,也可以理解为上述方法实施例中的目标子句。
[0255]
基于此,在确定执行倒装子句转换处理策略的情况下,随机对第a3书面语语句进行子句采样,获得第a3书面语语句中的第三目标子句为“我使用计算机”。
[0256]
步骤516-17:对第三目标子句进行句法分析,获得第三目标子句对应的句法结构。
[0257]
具体的,对第三目标子句进行句法分析,获得第三目标子句对应的句法结构为主谓宾结构。
[0258]
步骤516-18:通过将第三目标子句按照句法结构对应的目标句法结构进行转换,获得转换后的第a4书面语语句。
[0259]
具体的,在主谓宾结构对应的目标句法结构为宾谓主结构的情况下,将第三目标子句按照宾谓主结构进行转换,获得转换后的第a4书面语语句为:“计算机被我使用,速度很快,速度很快,而且是非常便捷的,对对对”。
[0260]
步骤518:对第a4书面语语句进行词语单元的转换处理,获得第b3书面语语句。
[0261]
具体的,在上述对书面语语句进行子句单元的转换处理,获得第a4书面语语句的基础上,对第a4书面语语句进行词语单元的转换处理,具体通过如下执行如下步骤518-1至步骤518-12进行实现:步骤518-1:确定第a4书面语语句的各个词语转换处理策略中添加词语转换处理策略对应的添加词语转换处理概率。
[0262]
具体的,添加词语转换处理策略,是指对书面语语句进行词语添加的处理策略。相应地,添加词语转换处理概率,是指预先设置的执行添加词语转换处理策略的概率。该添加词语转换处理概率,可以根据实际经验或口语表达习惯进行预先设置,比如添加词语转换处理概率可以为10%、13%等,在此不做限制。在添加词语转换处理概率为10%的情况下,表明对书面语语句有10%的概率执行添加词语转换处理策略。
[0263]
基于此,确定第a4书面语语句:“计算机被我使用,速度很快,速度很快,而且是非常便捷的,对对对”的词语转换处理策略中添加词语转换处理策略对应的添加词语转换处理概率为10%,则针对第a4书面语语句执行添加词语转换处理策略的添加词语转换处理概率为10%。
[0264]
步骤518-2:基于添加词语转换处理概率,确定是否针对第a4书面语语句执行添加词语转换处理策略。
[0265]
具体的,基于添加词语转换处理概率,确定是否针对第a4书面语语句执行添加词语转换处理策略的具体实现方式与上述基于复制子句转换处理概率,确定是否针对书面语语句执行复制子句转换处理策略的具体实现方式类似,参考上述基于复制子句转换处理概率,确定是否针对书面语语句执行复制子句转换处理策略的具体实现方式即可,在此不做赘述。
[0266]
具体实施时,若确定执行添加词语转换处理策略,则执行下述步骤518-3;若确定不执行添加词语转换处理策略,则直接将第a4书面语语句作为第b1书面语语句,执行下述
步骤518-5。
[0267]
基于此,假设基于添加词语转换处理概率10%,确定针对第a4书面语语句执行添加词语转换处理策略。
[0268]
步骤518-3:在确定执行添加词语转换处理策略的情况下,确定预设词语集合中包含的预设词语对应的词语位置概率分布。
[0269]
具体的,预设词语集合中包含了2个预设词语,这2个预设词语分别为预设词语1、预设词语2。根据对销售领域的口语语料集进行统计,这两预设词语对应的词语位置概率分布为:预设词语1添加至句首的概率为80%,预设词语2添加至句尾的概率为20%。
[0270]
步骤518-4:根据词语位置概率分布在预设词语中确定目标预设词语以及目标预设词语对应的词语添加位置,并根据词语添加位置将目标预设词语添加至第a4书面语语句,获得转换后的第b1书面语语句。
[0271]
具体的,基于词语位置概率分布,在预设词语中确定目标预设词语为预设词语1以及预设词语1对应的预设添加位置为句首,则将预设词语1添加至在第a4书面语语句的句首,在预设词语1为“哇塞”的情况下,获得转换后的第b1书面语语句为“计算机被我使用,哇塞,速度很快,速度很快,而且是非常便捷的,对对对”。
[0272]
步骤518-5:确定第b1书面语语句的各个词语转换处理策略中复制词语转换处理策略对应的复制词语转换处理概率。
[0273]
其中,复制词语转换处理策略,是指对书面语语句中在上述步骤518-4中所添加的目标预设词语进行复制的处理策略。相应地,复制词语转换处理概率,是指预先设置的执行复制词语转换处理策略相关处理的概率,该复制词语转换处理概率,也可以根据实际经验或口语表达习惯进行预先设置,比如复制词语转换处理概率可以为8%、12%等,在此不做限制。在复制词语转换处理概率为8%的情况下,表明对书面语语句有8%的概率执行复制词语转换处理策略。
[0274]
基于此,确定第b1书面语语句的复制词语转换处理策略对应的复制词语转换处理概率为8%。
[0275]
步骤518-6:基于复制词语转换处理概率,确定是否针对第b1书面语语句执行复制词语转换处理策略。
[0276]
具体的,基于复制词语转换处理概率,确定是否针对第b1书面语语句执行复制词语转换处理策略的具体实现方式与上述基于复制子句转换处理概率,确定是否针对书面语语句执行复制子句转换处理策略的具体实现方式类似,参考上述基于复制子句转换处理概率,确定是否针对书面语语句执行复制子句转换处理策略的具体实现方式即可,在此不做赘述。
[0277]
具体实施时,若确定执行复制词语转换处理策略,则执行下述步骤518-7;若确定不执行复制词语转换处理策略,则直接将第b1书面语语句作为第b2书面语语句,执行下述步骤518-8。
[0278]
基于此,假设基于复制词语转换处理概率8%,确定针对第b1书面语语句执行复制词语转换处理策略。
[0279]
步骤518-7:在确定执行复制词语转换处理策略的情况下,对第b1书面语语句中添加的目标预设词语进行复制,获得复制词语,并将复制词语按照预设词语插入规则插入第
b1书面语语句中,获得插入后的第b2书面语语句。
[0280]
基于此,在确定执行复制词语转换处理策略的情况下,对第b1书面语语句中目标预设词语“哇塞”进行复制,获得的复制词语也为“哇塞”,在预设词语插入规则为将目标预设词语插入目标预设词语所处位置之前的情况下,将复制词语插入至第b1书面语语句中目标预设词语所处位置之前,获得插入后的第b2书面语语句为:“计算机被我使用,哇塞,哇塞,速度很快,速度很快,而且是非常便捷的,对对对”。
[0281]
步骤518-8:确定第b2书面语语句的各个词语转换处理策略中乱序词语转换处理策略对应的乱序词语转换处理概率。
[0282]
其中,乱序词语转换处理策略,是指对书面语语句中的词语进行乱序的处理策略。相应地,乱序词语转换处理概率,是指预先设置的执行乱序词语转换处理策略相关处理的概率,该乱序词语转换处理概率,也可以根据实际经验或口语表达习惯进行预先设置,比如乱序词语转换处理概率可以为6%、9%等,在此不做限制。在乱序词语转换处理概率为6%的情况下,表明对书面语语句有6%的概率执行乱序词语转换处理策略。
[0283]
基于此,确定第b2书面语语句的乱序词语转换处理策略对应的乱序词语转换处理概率为6%。
[0284]
步骤518-9:基于乱序词语转换处理概率,确定是否针对第b2书面语语句执行乱序词语转换处理策略。
[0285]
具体的,基于乱序词语转换处理概率,确定是否针对第b2书面语语句执行乱序词语转换处理策略的具体实现方式与上述基于复制子句转换处理概率,确定是否针对书面语语句执行复制子句转换处理策略的具体实现方式类似,参考上述基于复制子句转换处理概率,确定是否针对书面语语句执行复制子句转换处理策略的具体实现方式即可,在此不做赘述。
[0286]
具体实施时,若确定执行乱序词语转换处理策略,则执行下述步骤518-10;若确定不执行乱序词语转换处理策略,则直接将第b2书面语语句作为第b3书面语语句,执行下述步骤520。
[0287]
基于此,假设基于乱序词语转换处理概率5%,确定针对第b2书面语语句执行乱序词语转换处理策略。
[0288]
步骤518-10:在确定执行乱序词语转换处理策略的情况下,按照预设词语采样规则对第b2书面语语句中的词语进行词语采样,获得第b2书面语语句中的目标词语。基于此,在确定执行乱序词语转换处理策略的情况下,随机对第b2书面语语句进行2个字符数量的词语采样,获得第b2书面语语句中的目标词语为“使用”。
[0289]
步骤518-11:在第b2书面语语句中删除目标词语,并将目标词语插入删除后的第b2书面语语句中目标词语对应的预设插入范围内,获得转换后的第b3书面语语句。
[0290]
具体的,在第b2书面语语句中删除目标词语“使用”,获得删除后的第b2书面语语句:“计算机被我,速度很快,速度很快,而且是非常便捷的”。并将目标词语“计算”随机插入删除后的第b2书面语语句中[-3,3]的字符区间内,获得转换后的第b3书面语语句为:“计算机使用被我,哇塞,哇塞,速度很快,速度很快,而且是非常便捷的,对对对”。
[0291]
步骤520:对第b3书面语语句进行字符单元的转换处理,获得第c书面语语句。
[0292]
具体的,在上述对书面语语句进行词语单元的转换处理,获得第b3书面语语句的
基础上,对第b3书面语语句进行字符单元的转换处理,具体通过如下执行如下步骤520-1至步骤520-4进行实现:步骤520-1:确定第b3书面语语句的乱序字符转换处理策略对应的乱序字符转换处理概率。
[0293]
具体的,乱序字符转换处理策略,是指对书面语语句中的字符进行乱序的处理策略。相应地,乱序字符转换处理概率,是指预先设置的执行乱序字符转换处理策略相关处理的概率,该乱序字符转换处理概率,也可以根据实际经验或口语表达习惯进行预先设置,比如乱序字符转换处理概率可以为5%、9%等,在此不做限制。在乱序字符转换处理概率为5%的情况下,表明对书面语语句有6%的概率执行乱序字符转换处理策略。
[0294]
基于此,确定第b3书面语语句的乱序字符转换处理策略对应的乱序字符转换处理概率为5%。
[0295]
步骤520-2:基于乱序字符转换处理概率,确定是否针对第b3书面语语句执行乱序字符转换处理策略。
[0296]
具体的,基于乱序字符转换处理概率,确定是否针对第b3书面语语句执行乱序字符转换处理策略的具体实现方式与上述基于复制子句转换处理概率,确定是否针对书面语语句执行复制子句转换处理策略的具体实现方式类似,参考上述基于复制子句转换处理概率,确定是否针对书面语语句执行复制子句转换处理策略的具体实现方式即可,在此不做赘述。
[0297]
具体实施时,若确定执行乱序字符转换处理策略,则执行下述步骤520-3;若确定不执行乱序字符转换处理策略,则直接将第b3书面语语句作为第c书面语语句,执行下述步骤522。
[0298]
基于此,假设基于乱序字符转换处理概率5%,确定针对第b3书面语语句执行乱序字符转换处理策略。
[0299]
步骤520-3:在确定执行乱序字符转换处理策略的情况下,按照预设字符采样规则对第b3书面语语句中的字符进行字符采样,获得第b3书面语语句中的目标字符。基于此,在确定执行乱序字符转换处理策略的情况下,随机对第b3书面语语句进行字符采样,获得第b3书面语语句中的目标字符为“使”。
[0300]
步骤520-4:在第b3书面语语句中删除目标字符,并将目标字符插入删除后的第b3书面语语句中目标字符对应的预设字符插入范围内,获得转换后的第c书面语语句。具体的,在第b3书面语语句中删除目标字符“使”,获得删除后的第b3书面语语句:“计算机用被我,哇塞,哇塞,速度很快,速度很快,而且是非常便捷的,对对对”。并将目标字符“使”随机插入删除后的第b3书面语语句中该目标字符所属的子句范围内,获得转换后的第c书面语语句为:“计算机用被我使,哇塞,哇塞,速度很快,速度很快,而且是非常便捷的,对对对”。
[0301]
步骤522:对第c书面语语句进行符号单元的转换处理,获得第d2书面语语句。
[0302]
具体的,在上述对书面语语句进行字符单元的转换处理,获得第c书面语语句的基础上,对第c书面语语句进行符号单元的转换处理,具体通过如下执行如下步骤522-1至步骤522-8进行实现:步骤522-1:确定第c书面语语句的符号转换处理策略中删除符号转换处理策略对应的删除符号转换处理概率。
[0303]
具体的,删除符号转换处理策略,是指对书面语语句进行符号删除的处理策略。相应地,删除符号转换处理概率,是指预先设置的执行删除符号转换处理策略相关处理的概率,该删除符号转换处理概率,也可以根据实际经验或口语表达习惯进行预先设置,比如删除符号转换处理概率可以为8%、12%等,在此不做限制。在删除符号转换处理概率为8%的情况下,表明对书面语语句有8%的概率执行删除符号转换处理策略。
[0304]
基于此,确定第c书面语语句的符号转换处理策略中删除符号转换处理策略对应的删除符号转换处理概率为8%,则针对第c书面语语句执行删除符号转换处理策略的概率为8%。
[0305]
步骤522-2:基于删除符号转转换处理概率,确定是否针对第c书面语语句执行删除符号转换处理策略。
[0306]
具体的,基于删除符号转换处理概率,确定是否针对第c书面语语句执行删除符号转换处理策略的具体实现方式与上述基于复制子句转换处理概率,确定是否针对书面语语句执行复制子句转换处理策略的具体实现方式类似,参考上述基于复制子句转换处理概率,确定是否针对书面语语句执行复制子句转换处理策略的具体实现方式即可,在此不做赘述。
[0307]
具体实施时,若确定执行删除符号转换处理策略,则执行下述步骤522-3;若确定不执行删除符号转换处理策略,则直接将第c书面语语句作为第d1书面语语句,执行下述步骤522-5。
[0308]
基于此,假设基于删除符号转换处理概率8%,确定针对c书面语语句执行删除符号转换处理策略。
[0309]
步骤522-3:在确定执行删除符号转换处理策略的情况下,按照预设符号采样规则对第c书面语语句进行符号采样,获得第c书面语语句中的目标标点符号。基于此,在确定执行删除符号转换处理策略的情况下,随机对第c书面语语句进行符号采样,获得第c书面语语句中的目标标点符号为第一个“速度很快”子句后的逗号。
[0310]
步骤522-4:在第c书面语语句中删除目标标点符号,获得转换后的第d1书面语语句。
[0311]
具体的,在第c书面语语句中删除第一个“速度很快”子句后的逗号,获得删除后的第d1书面语语句:“计算机用被我使,哇塞,哇塞,速度很快速度很快,而且是非常便捷的,对对对”。
[0312]
步骤522-5:确定第d1书面语语句的符号转换处理策略中添加符号转换处理策略对应的添加符号转换处理概率。
[0313]
其中,添加符号转换处理策略,是指对书面语语句进行符号添加的处理策略。相应地,添加符号转换处理概率,是指预先设置的执行添加符号转换处理策略相关处理的概率,该添加符号转换处理概率,也可以根据实际经验或口语表达习惯进行预先设置,比如添加符号转换处理概率可以为2%、5%等,在此不做限制。在添加符号转换处理概率为2%的情况下,表明对书面语语句有2%的概率执行添加符号转换处理策略。
[0314]
基于此,确定第d1书面语语句的添加符号转换处理策略对应的添加符号转换处理概率为2%。
[0315]
步骤522-6:基于添加符号转转换处理概率,确定是否针对第d1书面语语句执行添
加符号转换处理策略。
[0316]
具体的,基于添加符号转换处理概率,确定是否针对第d1书面语语句执行添加符号转换处理策略的具体实现方式与上述基于复制子句转换处理概率,确定是否针对书面语语句执行复制子句转换处理策略的具体实现方式类似,参考上述基于复制子句转换处理概率,确定是否针对书面语语句执行复制子句转换处理策略的具体实现方式即可,在此不做赘述。
[0317]
具体实施时,若确定执行添加符号转换处理策略,则执行下述步骤522-7;若确定不执行添加符号转换处理策略,则直接将第d1书面语语句作为第d2书面语语句,执行下述步骤524。
[0318]
基于此,假设基于添加符号转换处理概率2%,确定针对d1书面语语句执行添加符号转换处理策略。
[0319]
步骤522-7:在确定执行添加符号转换处理策略的情况下,按照预设符号子句采样规则对第d1书面语语句进行符号子句采样,获得第d1书面语语句中的目标符号子句。
[0320]
基于此,在确定执行添加符号转换处理策略的情况下,在第d1书面语语句采样字符数量最多的子句包括“速度很快速度很快”以及“而且是非常便捷的”,再从这两个子句中随机选择一个子句,获得目标字符子句,该目标字符子句为“速度很快速度很快”。
[0321]
步骤522-8:在目标符号子句中随机插入预设标点符号,获得转换后的第d2书面语语句,将第d2书面语语句作为目标口语语句。
[0322]
具体的,预设标点符号为“!”的情况下,在目标符号子句“速度很快速度很快”中随机插入预设标点符号“!”,获得转换后的d2书面语语句为:“计算机用被我使,哇塞,哇塞,速度很快速度很快,!而且是非常便捷的,对对对”。将第d2书面语语句作为目标口语语句。
[0323]
步骤524:对每个待处理文本中的每个书面语句对应的第d2书面语语句进行组合,获得每个待处理文本对应的口语文本。
[0324]
具体的,对待处理文本t中包含的n个书面语语句,分别执行上述步骤516至步骤522之后,可以获得待处理文本t中每个书面语语句对应的目标口语语句,则将这n个目标口语语句按照n个书面语语句在待处理文本t中的语句顺序进行组合,获得待处理文本t对应的口语文本。其中,口语文本中包括上述书面语语句1对应的目标口语语句:“计算机用被我使,哇塞,哇塞,速度很快速度很快,!而且是非常便捷的,对对对”。
[0325]
步骤526:识别口语文本中的异常信息。
[0326]
具体的,通过预设异常识别规则,识别出口语文本中书面语语句1对应的目标口语语句中的异常信息为“,!”步骤528:根据异常信息对口语文本进行数据清洗,获得清洗后的口语文本。
[0327]
实际应用中,根据异常信息对口语文本进行数据清洗,可以将口语文本中识别的异常信息进行过滤或调整。
[0328]
具体的,根据异常信息“,!”对口语文本中书面语语句1对应的目标口语语句进行数据清洗,获得清洗后的口语文本中书面语语句1对应的目标口语语句变更为:“计算机用被我使,哇塞,哇塞,速度很快速度很快!而且是非常便捷的,对对对”。
[0329]
步骤530:基于书面语文本和回译书面语文本与清洗后的口语文本的对应关系,构建样本语料。
[0330]
实际应用中,由于对每个书面语文本或回译书面语文本都可以获得对应的清洗后的口语文本。因此可以获取大量的书面语文本,并对每个书面语文本分别进行上述步骤502至步骤528,获得每个书面语文本对应的回译书面语文本,以及这些书面语文本对应的清洗后的口语文本。将具有对应关系的书面语文本与清洗后口语文本组成样本语料对,并将这些样本语料对组成样本语料。
[0331]
进一步的,由于各种转换处理策略具有各自的转换处理概率,因此每次执行上述步骤516至步骤522的过程中,各种转换处理策略是否执行都是不固定的,也因此,每次执行上述步骤516至步骤522生成的口语文本很大概率是不相同的。基于此可以对每个待处理文本多次执行上述步骤516至步骤522,从而生成为每个待处理文本生成多种口语文本,从而进一步扩充样本语料。
[0332]
具体的,获取销售领域的m个书面语文本(这m个书面语文本中包括上述书面语文本t),并对每个书面语文本进行上述步骤504至步骤512的回译处理,获得m个回译书面语文本,再将这m个书面语文本和m个回译书面语文本作为待处理文本,执行上述步骤514至步骤528,获得m个书面语文本对应的m个清洗后的口语文本,以及m个回译书面语文本对应的m个清洗后的口语文本,将m个书面语文本作为训练样本,并将其对应的m个清洗后的口语文本作为样本标签,以及将m个回译书面语文本作为训练样本,并将其对应的m个清洗后的口语文本作为样本标签,构建样本语料。
[0333]
步骤532:通过样本语料对初始书面语改写模型进行训练,直至获得满足第二训练停止条件的书面语改写模型。
[0334]
具体的,通过样本语料对初始书面语改写模型进行训练,在训练满足预设i次迭代次数的情况下,停止训练,获得书面语改写模型m1。
[0335]
此外,还可以通过对上述步骤516至步骤522中的多种转换处理概率设置更低的概率值的基础上,再重新对上述的m个书面语文本中包含的书面语语句执行上述步骤516至步骤528,获得这m个书面语文本对应的m个清洗后的口语文本sst,再基于这m个书面语文本作为训练样本,并将其对应的m个清洗后的口语文本sst作为样本标签,构建基础样本语料。再通过基础样本语料对上述初始书面语改写模型进行训练,直至获得满足第一训练停止条件的书面语转换模型m2。
[0336]
具体实施时,第一训练停止条件是指通过基础样本语料训练初始书面语改写模型的训练停止条件,该第一训练停止条件可以与上述第二训练停止条件相同,也可以不同,在此不做限制。书面语转换模型可以理解为训练完成的对口语文本进行轻微书面语改写的模型。具体实施时,由于书面语转换模型的采用较书面语改写模型的样本语料更为简单的样本语料进行模型训练,因此,该书面语转换模型,可以用于处理较为轻微的语句改写。
[0337]
步骤534:获取目标口语文本。
[0338]
具体的,获取目标口语文本t4。该目标口语文本t4可以为销售领域中的任一口语文本。
[0339]
步骤536:将目标口语文本通过文本分类模型进行文本分类,获得口语文本类型。
[0340]
其中,文本分类模型,是指预先训练的对口语文本进行分类的模型,实际应用中,该文本分类模型,可以是cnn(卷积神经网络)、rnn(循环神经网络)、lstm(长短时记忆网络)、fasttext、textcnn、han模型等,在此不做限制。
[0341]
实际应用中,可以获取大量的口语文本,并对这些口语文本进行标注处理,获得每个口语文本对应的文本标签,该文本标签包括:无效文本类型、模糊文本类型、标准文本类型等,在此不做限制。再通过口语文本以及口语文本对应的文本标签构建训练样本,通过训练样本训练初始文本分类模型,获得上述训练完成的文本分类模型。
[0342]
具体的,将目标口语文本t4通过预先训练完成的文本分类模型进行文本分类,获得该文本分类模型输出的该目标口语文本t4对应的文本类型。
[0343]
步骤538:在文本类型为无效文本类型的情况下,删除该目标口语文本。
[0344]
具体的,假设文本类型为无效文本类型的情况下,删除该目标口语文本t4即可。
[0345]
步骤540:在文本分类为标准文本类型的情况下,将目标口语文本输入书面语改写模型进行书面语改写,获得书面语改写模型输出的目标书面语文本。
[0346]
具体的,假设文本类型为标准文本类型的情况下,将目标口语文本t4输入书面语改写模型m1进行书面语改写,获得书面语改写模型m1输出的目标书面语文本t5。
[0347]
步骤542:在文本类型为模糊文本类型的情况下,将目标口语文本输入书面语转换模型进行书面语改写,获得书面语转换模型输出的转换书面语文本。
[0348]
具体的,假设文本类型为模糊文本类型的情况下,将目标口语文本t4输入书面语转换模型m2进行书面语改写,获得书面语转换模型m2输出的转换书面语文本t6。
[0349]
综上,本技术实施例提供的文本处理方法,通过对书面语文本进行回译处理,获得回译语书面文本,实现以回译书面语文本对原书面语文本进行扩充。在此基础上以预设的转换处理概率对书面语文本进行子句级别、词语级别、字符级别以及符号级别的转换处理,从而进一步扩充书面语文本对应的口语文本。并将扩充后的书面语文本以及口语文本进行组合生成样本语料,实现了对书面语改写模型的样本语料的自动生成,并且丰富了书面语改写模型的样本语料,从而提高该样本语料的生成效率,并间接地通过丰富样本语料提高了书面语改写模型的改写准确度。
[0350]
与上述方法实施例相对应,本技术还提供了文本处理装置实施例,图6示出了本技术一实施例提供的文本处理装置的结构示意图。如图6所示,该装置包括:获取模块602,被配置为获取目标口语文本;分类模块604,被配置为将所述目标口语文本进行分类处理,获得所述目标口语文本对应的文本类型;选择模块606,被配置为在所述文本类型为标准文本类型的情况下,根据所述标准文本类型选择对应的书面语改写模型;处理模块608,被配置为将所述目标口语文本输入所述书面语改写模型进行处理,获得所述目标口语文本对应的目标书面语文本;其中,所述书面语改写模型,基于书面语文本以及对所述书面语文本进行回译和转换处理获得的口语文本训练得到。
[0351]
可选地,所述文本处理装置,还包括:选择模型模块,被配置为在所述文本类型为模糊文本类型的情况下,根据所述模糊文本类型选择对应的书面语转换模型;将所述目标口语文本输入所述书面语转换模型进行处理,获得所述目标口语文本对应的转换书面语文本;其中,所述书面语转换模型,基于所述书面语文本以及对所述书面语文本进行转换处理获得的基础口语文本训练得到。
[0352]
可选地,所述书面语转换模型的训练,通过运行如下模块实现:第一获取模块,被配置为获取书面语文本;第一转换模块,被配置为对所述书面语文本进行语句组成单元的转换处理,获得基础口语文本;第一构建模块,被配置为基于所述书面语文本与所述基础口语文本的对应关系,构建基础样本语料;第一训练模块,被配置为通过所述基础样本语料对初始书面语转换模型进行训练,直至获得满足第一训练停止条件的所述书面语转换模型。
[0353]
可选地,所述分类模块604,进一步被配置为:将所述目标口语文本输入文本分类模型进行分类处理,获得所述目标口语文本对应的文本类型;其中,所述文本分类模型的训练,通过运行如下模块实现:获取样本模块,被配置为获取样本口语文本以及样本口语文本对应的语义清晰度标签;构建样本对模块,被配置为基于所述样本口语文本以及所述语义清晰度标签构建训练样本对;模型训练模块,被配置为通过所述训练样本对对初始文本分类模型进行模型训练,直至获得满足分类训练停止条件的所述文本分类模型。
[0354]
可选地,所述处理模块608,进一步被配置为:将所述目标口语文本进行分句处理,获得所述目标口语文本中包含的语句序列;将所述语句序列中的口语句单元依次输入所述书面语改写模型的编码层进行编码处理,获得所述口语句单元对应的语句特征向量和词表向量,其中,所述词表向量由所述口语句单元与词表进行映射获得;计算所述语句特征向量与所述词表向量之间的向量积,并将所述向量积输入所述书面语改写模型的解码层进行解码处理,获得所述目标口语文本对应的目标书面语文本。
[0355]
可选地,所述书面语改写模型的训练,通过运行如下模块实现:第二获取模块,被配置为获取书面语文本;回译模块,被配置为通过对所述书面语文本进行回译处理,获得所述书面语文本对应的回译书面语文本;第二转换模块,被配置为对所述书面语文本和所述回译书面语文本分别进行语句组成单元的转换处理,获得口语文本;第二构建模块,被配置为基于所述书面语文本和所述回译书面语文本与所述口语文本的对应关系,构建样本语料;第二训练模块,被配置为通过样本语料对初始书面语改写模型进行训练,直至获得满足第二训练停止条件的书面语改写模型。
[0356]
可选地,所述回译模块,包括:翻译子模块,被配置为将所述书面语文本翻译为预设语种对应的译文书面语文本;回译子模块,被配置为将所述译文书面语文本回译为所述书面语文本所属的目标语种,获得初始回译书面语文本;
替换子模块,被配置为通过所述书面语文本中的关键词语对所述初始回译书面语文本中所述关键词语对应的目标关键词语进行替换,获得回译书面语文本。
[0357]
可选地,所述回译模块,还包括:词性分析子模块,被配置为通过对所述书面语文本进行词性分析,识别所述书面语文本中词性为预设词性的关键词语;标记子模块,被配置为在所述书面语文本中对所述关键词语所处的位置进行位置标记;相应地,所述替换子模块,进一步被配置为:通过所述关键词语,对所述初始回译书面语文本中所述位置标记对应的目标关键词语进行替换,获得回译书面语文本。
[0358]
可选地,所述语句组成单元包括下述至少一项:子句单元、词语单元、字符单元以及符号单元。
[0359]
可选地,在所述语句组成单元为子句单元的情况下,所述第二转换模块,包括:第一识别子模块,被配置为对所述待处理书面语文本进行语句识别,获得所述待处理书面语文本中包含的书面语语句;子句转换子模块,被配置为对所述书面语语句进行子句单元的转换处理,获得转换后的书面语语句;第一确定模块,被配置为基于所述转换后的书面语语句确定口语文本。
[0360]
可选地,所述子句转换子模块,进一步被配置为:按照预设子句采样规则对所述书面语语句进行子句采样,获得所述书面语语句中的目标子句;在所述书面语语句中对所述目标子句进行转换处理,获得转换后的书面语语句;和/或确定预设子句集合中包含的预设子句对应的子句位置概率分布;基于所述子句位置概率分布在所述预设子句中确定目标预设子句以及所述目标预设子句对应的子句添加位置;根据所述子句添加位置将所述目标预设子句添加至所述书面语语句中,获得转换后的书面语语句。
[0361]
可选地,所述子句转换子模块,进一步被配置为:对所述目标子句进行复制获得复制目标子句,并将所述复制目标子句按照预设子句插入位置插入至所述书面语语句,获得转换后的书面语语句;和/或,在所述书面语语句中将删除所述目标子句;将所述目标子句按照预设子句插入规则插入删除后的书面语语句,获得转换后的书面语语句;和/或对所述目标子句进行句法分析,获得所述目标子句对应的句法结构;通过将目标子句按照所述句法结构对应的目标句法结构进行转换,获得转换后的书面语语句。
[0362]
可选地,在所述语句组成单元为词语单元的情况下,所述第二转换模块,包括:第二识别子模块,被配置为对所述待处理书面语文本进行语句识别,获得所述待处理书面语文本中包含的书面语语句;确定分布子模块,被配置为确定预设词语集合中包含的预设词语对应的词语位置概率分布;添加词语子模块,被配置为根据所述词语位置概率分布在所述预设词语中确定目
标预设词语以及所述目标预设词语对应的词语添加位置,并根据所述词语添加位置将所述目标预设词语插添加至所述书面语语句中,获得转换后的书面语语句;第二确定模块,被配置为基于转换后的书面语语句确定口语文本。
[0363]
可选地,在所述语句组成单元为词语单元的情况下,所述第二转换模块,进一步被配置为:对所述待处理书面语文本进行语句识别,获得所述书面语文本中包含的书面语语句;按照预设词语采样规则对所述书面语语句中的词语进行词语采样,获得所述书面语语句中的目标词语;在所述书面语语句中删除所述目标词语,并将所述目标词语插入删除后的书面语语句中所述目标词语对应的预设插入范围内,获得转换后的书面语语句;基于转换后的书面语语句确定口语文本。
[0364]
可选地,所述第二转换模块,进一步被配置为:复制词语子模块,被配置为对转换后的书面语语句中添加的所述目标预设词语进行复制,获得复制词语;插入词语子模块,被配置为将所述复制词语按照预设词语插入规则插入所述转换后的书面语语句中,获得插入后的书面语语句;第三确定模块,被配置为基于插入后的书面语语句确定口语文本。
[0365]
可选地,在所述语句组成单元为字符单元的情况下,所述第二转换模块,进一步被配置为:对所述待处理书面语文本进行语句识别,获得所述待处理书面语文本中包含的书面语语句;按照预设字符采样规则对所述书面语语句中的字符进行字符采样,获得书面语语句中的目标字符;在所述书面语语句中删除所述目标字符,并将所述目标字符插入删除后的书面语语句中所述目标字符对应的预设字符插入范围内,获得转换后的书面语语句;基于转换后的书面语语句确定口语文本。
[0366]
可选地,在所述语句组成单元为符号单元的情况下,所述第二转换模块,进一步被配置为:对所述待处理书面语文本进行语句识别,获得所述待处理书面语文本中包含的书面语语句;按照预设符号采样规则对所述书面语语句进行符号采样,获得所述书面语语句中的目标标点符号,在所述书面语语句中删除所述目标标点符号,获得转换后的书面语语句;基于转换后的书面语语句确定口语文本;和/或对所述待处理书面语文本进行语句识别,获得所述待处理书面语文本中包含的书面语语句;按照预设符号子句采样规则对所述书面语语句进行符号子句采样,获得所述书面语语句中的目标符号子句,在所述目标符号子句中插入预设标点符号,获得转换后的书面语语句;基于转换后的书面语语句确定口语文本。
[0367]
可选地,所述第二转换模块,进一步被配置为:确定所述待处理书面语文本的转换处理策略对应的转换处理概率;
基于所述转换处理概率,在所述转换处理策略中确定待执行的目标转换处理策略;通过执行所述目标转换处理策略对所述书面语文本进行语句组成单元的转换处理,获得所述待处理书面语文本对应的口语文本。
[0368]
可选地,所述文本处理装置,还包括:识别信息模块,被配置为识别所述口语文本中的异常信息;清洗模块,被配置为根据所述异常信息对所述口语文本进行数据清洗,获得清洗后的口语文本;构建样本语料模块,被配置为基于所述书面语文本和所述回译书面语文本与所述清洗后的口语文本的对应关系,构建样本语料。
[0369]
可选地,所述第二转换模块,进一步被配置为:对所述书面语文本进行语句组成单元的转换处理,获得所述书面语文本对应的第一口语文本;对所述回译书面语文本进行语句组成单元的转换处理,获得所述回译书面语文本对应的第二口语文本;将所述第一口语文本以及所述第二口语文本作为所述口语文本。
[0370]
可选地,所述文本处理装置,还包括:删除模块,被配置为在所述文本类型为无效文本类型的情况下,删除所述目标口语文本。
[0371]
本技术实施例提供的文本处理装置,通过获取目标口语文本;将所述目标口语文本进行分类处理,获得所述目标口语文本对应的文本类型;再在所述文本类型为标准文本类型的情况下,根据所述标准文本类型选择对应的书面语改写模型,实现了根据目标口语文本的文本类型选择适合目标口语文本的书面语改写模型;再将所述目标口语文本输入所述书面语改写模型进行处理,获得所述目标口语文本对应的目标书面语文本,使书面语改写更加具有针对性,并提高了书面语改写的准确性。其中,所述书面语改写模型,基于书面语文本以及对所述书面语文本进行回译和转换处理获得的口语文本训练得到,实现了基于回译以及转换处理对书面语文本进行预处理,从而为模型训练提供大量口语文本-书面语文本的样本语料,简化了模型的训练难度,也避免了人工耗时费力收集并处理大量的文本数据,节约了时间成本以及人力成本。
[0372]
上述为本实施例的一种文本处理装置的示意性方案。需要说明的是,该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思,文本处理装置的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
[0373]
需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
[0374]
本技术一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述的文本处
理方法的步骤。
[0375]
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
[0376]
本技术一实施例还提供一种计算机可读存储介质,其存储有计算机指令,所述计算机指令被处理器执行时实现如前所述文本处理方法的步骤。
[0377]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
[0378]
本技术实施例公开了一种芯片,其存储有计算机指令,所述计算机指令被处理器执行时实现如前所述文本处理方法的步骤。
[0379]
上述为本实施例的一种芯片的示意性方案。需要说明的是,该芯片的技术方案与上述的文本处理方法的技术方案属于同一构思,芯片的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
[0380]
上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0381]
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0382]
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本技术所必须的。
[0383]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
[0384]
以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本技术的内容,可作很多的修改和变化。本技术选取并具体描述这些实施例,是为了更好地解释本技术的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。

技术特征:
1.一种文本处理方法,其特征在于,包括:获取目标口语文本;将所述目标口语文本进行分类处理,获得所述目标口语文本对应的文本类型;在所述文本类型为标准文本类型的情况下,根据所述标准文本类型选择对应的书面语改写模型;将所述目标口语文本输入所述书面语改写模型进行处理,获得所述目标口语文本对应的目标书面语文本;其中,所述书面语改写模型,基于书面语文本以及对所述书面语文本进行回译和转换处理获得的口语文本训练得到。2.根据权利要求1所述的文本处理方法,其特征在于,所述获得所述目标口语文本对应的文本类型之后,还包括:在所述文本类型为模糊文本类型的情况下,根据所述模糊文本类型选择对应的书面语转换模型;将所述目标口语文本输入所述书面语转换模型进行处理,获得所述目标口语文本对应的转换书面语文本;其中,所述书面语转换模型,基于所述书面语文本以及对所述书面语文本进行转换处理获得的基础口语文本训练得到。3.根据权利要求2所述的文本处理方法,其特征在于,所述书面语转换模型的训练,包括:获取书面语文本;对所述书面语文本进行语句组成单元的转换处理,获得基础口语文本;基于所述书面语文本与所述基础口语文本的对应关系,构建基础样本语料;通过所述基础样本语料对初始书面语转换模型进行训练,直至获得满足第二训练停止条件的所述书面语转换模型。4.根据权利要求1所述的文本处理方法,其特征在于,所述将所述目标口语文本进行分类处理,获得所述目标口语文本对应的文本类型,包括:将所述目标口语文本输入文本分类模型进行分类处理,获得所述目标口语文本对应的文本类型;其中,所述文本分类模型的训练,包括:获取样本口语文本以及样本口语文本对应的语义清晰度标签;基于所述样本口语文本以及所述语义清晰度标签构建训练样本对;通过所述训练样本对对初始文本分类模型进行模型训练,直至获得满足分类训练停止条件的所述文本分类模型。5.根据权利要求1所述的文本处理方法,其特征在于,所述将所述目标口语文本输入所述书面语改写模型进行处理,获得所述目标口语文本对应的目标书面语文本,包括:将所述目标口语文本进行分句处理,获得所述目标口语文本中包含的语句序列;将所述语句序列中的口语句单元依次输入所述书面语改写模型的编码层进行编码处理,获得所述口语句单元对应的语句特征向量和词表向量,其中,所述词表向量由所述口语句单元与词表进行映射获得;计算所述语句特征向量与所述词表向量之间的向量积,并将所述向量积输入所述书面
语改写模型的解码层进行解码处理,获得所述目标口语文本对应的目标书面语文本。6.根据权利要求1所述的文本处理方法,其特征在于,所述书面语改写模型,基于书面语文本以及对所述书面语文本进行回译和转换处理获得的口语文本训练得到,包括:获取书面语文本;通过对所述书面语文本进行回译处理,获得所述书面语文本对应的回译书面语文本;对所述书面语文本和所述回译书面语文本分别进行语句组成单元的转换处理,获得口语文本;基于所述书面语文本和所述回译书面语文本与所述口语文本的对应关系,构建样本语料;通过所述样本语料对初始书面语改写模型进行训练,直至获得满足第二训练停止条件的所述书面语改写模型。7.根据权利要求6所述的文本处理方法,其特征在于,所述通过对所述书面语文本进行回译处理,获得所述书面语文本对应的回译书面语文本,包括:将所述书面语文本翻译为预设语种对应的译文书面语文本;将所述译文书面语文本回译为所述书面语文本所属的目标语种,获得初始回译书面语文本;通过所述书面语文本中的关键词语对所述初始回译书面语文本中所述关键词语对应的目标关键词语进行替换,获得回译书面语文本。8.根据权利要求7所述的文本处理方法,其特征在于,所述将所述书面语文本翻译为预设语种对应的译文书面语文本之前,还包括:通过对所述书面语文本进行词性分析,识别所述书面语文本中词性为预设词性的关键词语;在所述书面语文本中对所述关键词语所处的位置进行位置标记;相应地,所述通过所述书面语文本中的关键词语对所述初始回译书面语文本中所述关键词语对应的目标关键词语进行替换,获得回译书面语文本,包括:基于所述位置标记,通过所述关键词语对所述初始回译书面语文本中对应的目标关键词语进行替换,获得回译书面语文本。9.根据权利要求3或6所述的文本处理方法,其特征在于,所述语句组成单元包括下述至少一项:子句单元、词语单元、字符单元以及符号单元。10.根据权利要求6所述的文本处理方法,其特征在于,将所述书面语文本和所述回译书面语文本中任意一个书面语文本作为待处理书面文本,对所述待处理书面文本进行语句组成单元的转换处理,包括:确定所述待处理书面语文本的转换处理策略对应的转换处理概率;基于所述转换处理概率,在所述转换处理策略中确定待执行的目标转换处理策略;通过执行所述目标转换处理策略对所述待处理书面语文本进行语句组成单元的转换处理,获得所述待处理书面语文本对应的口语文本。11.根据权利要求1所述的文本处理方法,其特征在于,所述获得所述目标口语文本对应的文本类型之后,还包括:在所述文本类型为无效文本类型的情况下,删除所述目标口语文本。
12.一种文本处理装置,其特征在于,包括:获取模块,被配置为获取目标口语文本;分类模块,被配置为将所述目标口语文本进行分类处理,获得所述目标口语文本对应的文本类型;选择模块,被配置为在所述文本类型为标准文本类型的情况下,根据所述标准文本类型选择对应的书面语改写模型;处理模块,被配置为将所述目标口语文本输入所述书面语改写模型进行处理,获得所述目标口语文本对应的目标书面语文本;其中,所述书面语改写模型,基于书面语文本以及对所述书面语文本进行回译和转换处理获得的口语文本训练得到。13.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述计算机指令时实现权利要求1-11任意一项所述方法的步骤。14.一种计算机可读存储介质,其存储有计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1-11任意一项所述方法的步骤。

技术总结
本申请提供一种文本处理方法及装置,其中文本处理方法包括:获取目标口语文本;将所述目标口语文本进行分类处理,获得所述目标口语文本对应的文本类型;在所述文本类型为标准文本类型的情况下,根据所述标准文本类型选择对应的书面语改写模型;将所述目标口语文本输入所述书面语改写模型进行处理,获得所述目标口语文本对应的目标书面语文本;其中,所述书面语改写模型,基于书面语文本以及对所述书面语文本进行回译和转换处理获得的口语文本训练得到,实现了根据目标口语文本的文本类型选择适合目标口语文本的书面语改写模型进行书面语改写,使书面语改写更加具有针对性,并提高了书面语改写的准确性。了书面语改写的准确性。了书面语改写的准确性。


技术研发人员:弓源 李长亮
受保护的技术使用者:北京金山数字娱乐科技有限公司
技术研发日:2022.03.16
技术公布日:2022/4/15
转载请注明原文地址:https://win.8miu.com/read-1142315.html

最新回复(0)