语音识别准确率的确定方法、装置、设备以及介质与流程

专利检索2022-05-10 45

1.本发明涉及计算机技术领域，尤其涉及一种语音识别准确率的确定方法、装置、设备以及计算机可读存储介质。

背景技术：

2.随着信息化建设全面开展，人工智能越来越受到了全社会的普遍关注，其中，语音识别技术得到快速发展，语音识别是人机交互的入口，与生活关联比较密切的语音识别技术的应用也越来越多，比如智能音箱、手机等各种智能设备。然而，语音识别可能存在不准确的情况，现有技术中，通过识别文本中关键词相同的频率来判断当前文本与标准文本的相似度，进而确定语音识别的准确度，但是该方法不能正确理解词的语音语义信息，导致同音词同义词的识别错误，使得准确度的判断不准确。

技术实现要素：

3.本发明的主要目的在于提供一种语音识别准确率的确定方法、装置、设备以及计算机可读存储介质，旨在解决语音识别准确度判断不准确的问题。
4.为实现上述目的，本发明提供的一种语音识别准确率的确定方法，所述语音识别准确率的确定方法包括以下步骤：
5.获取对语音信号进行语音识别得到的目标语音文本；
6.确定所述目标语音文本与所述语音信号的预设参考语音文本的第一相似度，所述第一相似度由所述目标语音文本的每一行字符串与所述参考语音文本的每一行字符串相似度得到；
7.确定所述目标语音文本与所述参考语音文本的第二相似度，所述第二相似度由所述目标语音文本的分词与所述参考语音文本的分词的相似度得到；
8.根据所述第一相似度以及所述第二相似度确定所述目标语音文本的识别准确率。
9.在一实施例中，所述确定所述目标语音文本与与所述语音信号的预设参考语音文本的第一相似度的步骤之前，还包括：
10.根据所述目标语音文本得到第一语音文本，当所述目标语音文本区分人物角色时，所述第一语音文本包括划分人物角色并去除标点的目标语音文本，去除人物角色和标点的目标语音文本，以及去除人物角色和标点并将文字转换为拼音的目标语音文本，当所述目标语音文本未区分人物角色时，所述第一语音文本包括仅去除标点的目标语音文本，以及仅去除标点的语音文本并将文字转换为拼音的目标语音文本；
11.根据预设参考语音文本得到第二语音文本，当所述参考语音文本区分人物角色时，所述第二语音文本包括划分人物角色并去除标点的参考语音文本，去除人物角色和标点的参考语音文本，以及去除人物角色和标点并将文字转换为拼音的参考语音文本，当所述参考语音文本未区分人物角色时，所述第二语音文本包括仅去除标点的参考语音文本以及仅去除标点的语音文本并将文字转换为拼音的参考语音文本；
12.所述确定所述目标语音文本与所述语音信号的预设参考语音文本的第一相似度的步骤包括：
13.确定所述第一语音文本与所述第二语音文本的第一相似度；
14.所述确定所述目标语音文本与所述参考语音文本的第二相似度的步骤包括：
15.确定所述第一语音文本与所述第二语音文本的第二相似度。
16.在一实施例中，所述确定所述第一语音文本与所述第二语音文本的第一相似度的步骤包括：
17.在所述第二语音文本中确定所述第一语音文本中的各个语音文本对应的语音文本；
18.分别确定所述第一语音文本中的各个语音文本与对应的第二语音文本中的各个语音文本的相似度；
19.对各个所述相似度进行加权平均以得到所述第一相似度。
20.在一实施例中，所述分别确定所述第一语音文本中的各个语音文本与对应的第二语音文本中的各个语音文本的相似度的步骤包括：
21.确定所述第一语音文本中的语音文本的每一行字符串与对应的所述第二语音文本的语音文本的每一行字符串的相似值；
22.在所述相似值大于预设阈值时，将所述相似值作为所述第一语音文本中的语音文本对应的行的相似值，并停止确定所述相似值；
23.在所述相似值小于或者等于预设阈值时，确定所述第一语音文本中的语音文本对应的行的字符串与对应的所述第二语音文本中的语音文本的下一行字符串的相似值，若所述第一语音文本中的语音文本对应的行的字符串与对应的所述第二语音文本的语音文本的每一行的相似值均小于或者等于预设阈值，则确定所述第一语音文本中的语音文本对应的行的下一行字符串与对应的所述第二语音文本中的语音文本的每一行字符串的相似值，直至所述第一语音文本的所有字符串均已确定相似值，根据每行字符串对应的相似值确定所述第一语音文本中的语音文本与所述第二语音文本的语音文本的相似度。
24.在一实施例中，所述确定所述第一语音文本中的语音文本的每一行字符串与对应的所述第二语音文本的语音文本的每一行字符串的相似值的步骤包括：
25.根据预设算法确定所述第一语音文本中的语音文本的每一行字符串与对应的所述第二语音文本中的语音文本的每一行字符串中的相似字符串，确定最长的相似字符串的数量；
26.确定第一语音文本中的语音文本的每一行字符串与对应的所述第二语音文本中的语音文本的每一行字符串中最长字符串的字符串长度；
27.确定第一语音文本中的语音文本的每一行字符串的行数与对应的所述第二语音文本中的语音文本的每一行字符串的行数的行数最小值；
28.根据所述最长的相似字符串的数量、所述最长字符串的字符串长度以及所述行数最小值确定所述相似值。
29.在一实施例中，所述确定所述第一语音文本与所述第二语音文本的第二相似度的步骤包括：
30.将所述第一语音文本分为多个第一分词，以及将所述第二语音文本分为多个第二
分词；
31.分别确定所述第一分词以及所述第二分词的哈希值；
32.根据所述哈希值确定所述第一分词以及所述第二分词的海明距离；
33.根据所述海明距离确定所述第一语音文本与第二语音文本的所述第二相似度。
34.在一实施例中，所述根据所述第一相似度以及所述第二相似度确定所述目标语音文本的准确率的步骤包括：
35.根据所述目标语音文本的文本行数以及字符串平均字数确定所述第二相似度的权重值，所述字符串平均字数为所述目标语音文本中各行字符串的字数的平均值；
36.根据所述第二相似度的权重值确定所述第一相似度的权重值；
37.根据所述第一相似度、所述第二相似度以及对应的所述权重值确定所述目标语音文本的准确率。
38.为实现上述目的，本发明还提供一种语音识别准确率的确定装置，所述语音识别准确率的确定装置包括：
39.获取模块，用于获取对语音信号进行语音识别得到的目标语音文本；
40.第一确定模块，用于确定所述目标语音文本与所述语音信号的预设参考语音文本的第一相似度，所述第一相似度由所述目标语音文本的每一行字符串与所述参考语音文本的每一行字符串相似度得到；
41.第二确定模块，用于确定所述目标语音文本与所述参考语音文本的第二相似度，所述第二相似度由所述目标语音文本的分词与所述参考语音文本的分词的相似度得到；
42.计算模块，用于根据所述第一相似度以及所述第二相似度确定所述目标语音文本的识别准确率。
43.为实现上述目的，本发明还提供一种语音识别准确率的确定设备，所述语音识别准确率的确定设备包括存储器、处理器以及存储在所述存储器并可在所述处理器上执行的语音识别准确率的确定程序，所述语音识别准确率的确定程序被所述处理器执行时实现如上所述的语音识别准确率的确定方法的各个步骤。
44.为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有语音识别准确率的确定程序，所述语音识别准确率的确定程序被处理器执行时实现如上所述的语音识别准确率的确定方法的各个步骤。
45.本发明提供的一种语音识别准确率的确定方法、装置、设备以及计算机可读存储介质，获取对语音信号进行语音识别得到的目标语音文本，确定目标语音文本与语音信号的预设参考语音文本的第一相似度，确定目标语音文本与参考语音文本的第二相似度，根据第一相似度以及第二相似度确定目标语音文本的识别准确率。通过确定目标语音文本与参考语音文本之间的第一相似度以及第二相似度，根据第一相似度和第二相似度准确计算出目标语音文本与参考语音文本的相似度，准确确定了语音识别的识别准确率。
附图说明
46.图1为本发明实施例涉及的语音识别准确率的确定设备的硬件结构示意图；
47.图2为本发明语音识别准确率的确定方法的第一实施例的流程示意图；
48.图3为本发明语音识别准确率的确定方法的第二实施例的流程示意图；
49.图4为本发明语音识别准确率的确定方法的第三实施例的步骤s21的细化流程示意图；
50.图5为本发明语音识别准确率的确定方法的第四实施例的步骤s31的细化流程示意图；
51.图6为本发明语音识别准确率的确定装置的逻辑结构示意图。
52.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
53.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
54.本发明实施例的主要解决方案是：获取对语音信号进行语音识别得到的目标语音文本，确定目标语音文本与语音信号的预设参考语音文本的第一相似度，确定目标语音文本与参考语音文本的第二相似度，根据第一相似度以及第二相似度确定目标语音文本的识别准确率。
55.通过确定目标语音文本与参考语音文本之间的第一相似度以及第二相似度，根据第一相似度和第二相似度准确计算出目标语音文本与参考语音文本的相似度，准确确定了语音识别的识别准确率。
56.作为一种实现方案，语音识别准确率的确定设备可以如图1所示。
57.本发明实施例方案涉及的是语音识别准确率的确定设备，语音识别准确率的确定设备包括：处理器101，例如cpu，存储器102，通信总线103。其中，通信总线103用于实现这些组件之间的连接通信。
58.存储器102可以是高速ram存储器，也可以是稳定的存储器(non
‑
volatilememory)，例如磁盘存储器。如图1所示，作为一种计算机可读存储介质的存储器102中可以包括语音识别准确率的确定程序；而处理器101可以用于调用存储器102中存储的语音识别准确率的确定程序，并执行以下操作：
59.获取对语音信号进行语音识别得到的目标语音文本；
60.确定所述目标语音文本与所述语音信号的预设参考语音文本的第一相似度，所述第一相似度由所述目标语音文本的每一行字符串与所述参考语音文本的每一行字符串相似度得到；
61.确定所述目标语音文本与所述参考语音文本的第二相似度，所述第二相似度由所述目标语音文本的分词与所述参考语音文本的分词的相似度得到；
62.根据所述第一相似度以及所述第二相似度确定所述目标语音文本的识别准确率。
63.在一实施例中，处理器101可以用于调用存储器102中存储的语音识别准确率的确定程序，并执行以下操作：
64.根据所述目标语音文本得到第一语音文本，当所述目标语音文本区分人物角色时，所述第一语音文本包括划分人物角色并去除标点的目标语音文本，去除人物角色和标点的目标语音文本，以及去除人物角色和标点并将文字转换为拼音的目标语音文本，当所述目标语音文本未区分人物角色时，所述第一语音文本包括仅去除标点的目标语音文本，以及仅去除标点的语音文本并将文字转换为拼音的目标语音文本；
65.根据预设参考语音文本得到第二语音文本，当所述参考语音文本区分人物角色
时，所述第二语音文本包括划分人物角色并去除标点的参考语音文本，去除人物角色和标点的参考语音文本，以及去除人物角色和标点并将文字转换为拼音的参考语音文本，当所述参考语音文本未区分人物角色时，所述第二语音文本包括仅去除标点的参考语音文本以及仅去除标点的语音文本并将文字转换为拼音的参考语音文本；
66.确定所述第一语音文本与所述第二语音文本的第一相似度；
67.确定所述第一语音文本与所述第二语音文本的第二相似度。
68.在一实施例中，处理器101可以用于调用存储器102中存储的语音识别准确率的确定程序，并执行以下操作：
69.在所述第二语音文本中确定所述第一语音文本中的各个语音文本对应的语音文本；
70.分别确定所述第一语音文本中的各个语音文本与对应的第二语音文本中的各个语音文本的相似度；
71.对各个所述相似度进行加权平均以得到所述第一相似度。
72.在一实施例中，处理器101可以用于调用存储器102中存储的语音识别准确率的确定程序，并执行以下操作：
73.确定所述第一语音文本中的语音文本的每一行字符串与对应的所述第二语音文本的语音文本的每一行字符串的相似值；
74.在所述相似值大于预设阈值时，将所述相似值作为所述第一语音文本中的语音文本对应的行的相似值，并停止确定所述相似值；
75.在所述相似值小于或者等于预设阈值时，确定所述第一语音文本中的语音文本对应的行的字符串与对应的所述第二语音文本中的语音文本的下一行字符串的相似值，若所述第一语音文本中的语音文本对应的行的字符串与对应的所述第二语音文本的语音文本的每一行的相似值均小于或者等于预设阈值，则确定所述第一语音文本中的语音文本对应的行的下一行字符串与对应的所述第二语音文本中的语音文本的每一行字符串的相似值，直至所述第一语音文本的所有字符串均已确定相似值，根据每行字符串对应的相似值确定所述第一语音文本中的语音文本与所述第二语音文本的语音文本的相似度。
76.在一实施例中，处理器101可以用于调用存储器102中存储的语音识别准确率的确定程序，并执行以下操作：
77.根据预设算法确定所述第一语音文本中的语音文本的每一行字符串与对应的所述第二语音文本中的语音文本的每一行字符串中的相似字符串，确定最长的相似字符串的数量；
78.确定第一语音文本中的语音文本的每一行字符串与对应的所述第二语音文本中的语音文本的每一行字符串中最长字符串的字符串长度；
79.确定第一语音文本中的语音文本的每一行字符串的行数与对应的所述第二语音文本中的语音文本的每一行字符串的行数的行数最小值；
80.根据所述最长的相似字符串的数量、所述最长字符串的字符串长度以及所述行数最小值确定所述相似值。
81.在一实施例中，处理器101可以用于调用存储器102中存储的语音识别准确率的确定程序，并执行以下操作：
82.将所述第一语音文本分为多个第一分词，以及将所述第二语音文本分为多个第二分词；
83.分别确定所述第一分词以及所述第二分词的哈希值；
84.根据所述哈希值确定所述第一分词以及所述第二分词的海明距离；
85.根据所述海明距离确定所述第一语音文本与第二语音文本的所述第二相似度。
86.在一实施例中，处理器101可以用于调用存储器102中存储的语音识别准确率的确定程序，并执行以下操作：
87.根据所述目标语音文本的文本行数以及字符串平均字数确定所述第二相似度的权重值，所述字符串平均字数为所述目标语音文本中各行字符串的字数的平均值；
88.根据所述第二相似度的权重值确定所述第一相似度的权重值；
89.根据所述第一相似度、所述第二相似度以及对应的所述权重值确定所述目标语音文本的准确率。
90.基于上述语音识别准确率的确定设备的硬件构架，提出本发明语音识别准确率的确定方法的实施例。
91.参照图2，图2为本发明语音识别准确率的确定方法的第一实施例，所述语音识别准确率的确定方法包括以下步骤：
92.步骤s10，获取对语音信号进行语音识别得到的目标语音文本。
93.具体的，目标语音样本是通过语音识别设备对语音信号进行语音识别得到的文字文本，目标语音样本可以是分角色的语音文本，例如客服与用户的对话语音的语音文本，也可以是不分角色的语音文本，例如诗歌或散文等语音文本。
94.步骤s20，确定所述目标语音文本与所述语音信号的预设参考语音文本的第一相似度，所述第一相似度由所述目标语音文本的每一行字符串与所述参考语音文本的每一行字符串相似度得到。
95.具体的，预设参考语音文本为语音信号对应的答案文本，示例性的，语音信号的预设参考语音文本为“今天的天气真好啊”，而对语音信号进行语音识别得到的目标语音文本可能是“今天天气好”。确定目标语音文本与语音信号的预设参考语音文本的第一相似度，第一相似度由目标语音文本的每一行字符串与参考语音文本的每一行字符串相似度得到。
96.步骤s30，确定所述目标语音文本与所述参考语音文本的第二相似度，所述第二相似度由所述目标语音文本的分词与所述参考语音文本的分词的相似度得到。
97.具体的，确定目标语音文本与参考语音文本的第二相似度，第二相似度由目标语音文本的分词与参考语音文本的分词的相似度得到。
98.步骤s40，根据所述第一相似度以及所述第二相似度确定所述目标语音文本的识别准确率。
99.具体的，根据第一相似度以及第二相似度确定目标语音文本的识别准确率。可以是根据第一相似度以及第二相似度的和值确定目标语音文本的识别准确率，也可以是根据第一相似度以及第二相似度的加权平均值确定目标语音文本的识别准确率。
100.根据目标语音文本的文本行数以及字符串平均字数确定第二相似度的权重值，其中，字符串平均字数为目标语音文本中各行字符串的字数的平均值，如下公式所示：
[0101][0102]
其中，λ为第二相似度的权重值，μ表示目标语音文本的文本行数，ν表示目标语音文本中各行字符串的字数的平均值。示例性的，a可以为0.2，b可以为0.8。
[0103]
根据第二相似度的权重值确定第一相似度的权重值，如下公式所示：
[0104]
ω＝1
‑
λ；
[0105]
根据第一相似度、第二相似度以及对应的权重值确定目标语音文本的准确率，如下公式所示：
[0106]
similardegree＝ω
×
similarlcs λ
×
similarhash；
[0107]
其中，similardegree为目标语音文本的准确率，similarlcs为第一相似度，ω为第一相似度的权重值，similarhash为第二相似度，λ为第二相似度的权重值。
[0108]
在本实施例的技术方案中，获取对语音信号进行语音识别得到的目标语音文本，确定目标语音文本与语音信号的预设参考语音文本的第一相似度，确定目标语音文本与参考语音文本的第二相似度，根据第一相似度以及第二相似度确定目标语音文本的识别准确率。通过确定目标语音文本与参考语音文本之间的第一相似度以及第二相似度，根据第一相似度和第二相似度准确计算出目标语音文本与参考语音文本的相似度，准确确定了目标语音文本的识别准确率。
[0109]
参照图3，图3为本发明语音识别准确率的确定方法的第二实施例，基于第一实施例，所述步骤s20之前，还包括：
[0110]
步骤s50，根据所述目标语音文本得到第一语音文本，当所述目标语音文本区分人物角色时，所述第一语音文本包括划分人物角色并去除标点的目标语音文本，去除人物角色和标点的目标语音文本，以及去除人物角色和标点并将文字转换为拼音的目标语音文本，当所述目标语音文本未区分人物角色时，所述第一语音文本包括仅去除标点的目标语音文本，以及仅去除标点的语音文本并将文字转换为拼音的目标语音文本；
[0111]
步骤s60，根据预设参考语音文本得到第二语音文本，当所述参考语音文本区分人物角色时，所述第二语音文本包括划分人物角色并去除标点的参考语音文本，去除人物角色和标点的参考语音文本，以及去除人物角色和标点并将文字转换为拼音的参考语音文本，当所述参考语音文本未区分人物角色时，所述第二语音文本包括仅去除标点的参考语音文本以及仅去除标点的语音文本并将文字转换为拼音的参考语音文本；
[0112]
所述步骤s20包括：步骤s21，确定所述第一语音文本与所述第二语音文本的第一相似度；
[0113]
所述步骤s30包括：步骤s31，确定所述第一语音文本与所述第二语音文本的第二相似度。
[0114]
具体的，根据目标语音文本得到第一语音文本，当目标语音文本区分人物角色时，示例性的，目标语音文本为“用户：退订会员，客服：退订方式如下”，划分人物角色并去除标点的目标语音文本为“用户退订会员客服退订方式如下”；去除人物角色和标点的目标语音文本为“退订会员退订方式如下”；去除人物角色和标点并将文字转换为拼音的目标语音文本为“tuidinghuiyuantuidingfangshiruxia”。
[0115]
当目标语音文本未区分人物角色时，示例性的，如小说或者诗歌等文本，目标语音
文本为“晓看天色，暮看云”，仅去除标点的目标语音文本为“晓看天色暮看云”；仅去除标点的语音文本并将文字转换为拼音的目标语音文本为“xiaokantiansemukanyun”。
[0116]
根据预设参考语音文本得到第二语音文本，当参考语音文本区分人物角色时，示例性的，参考语音文本为“用户：订阅会员，客服：订阅方式如下”，划分人物角色并去除标点的参考语音文本为“用户订阅会员客服订阅方式如下”；去除人物角色和标点的参考语音文本为“订阅会员订阅方式如下”；去除人物角色和标点并将文字转换为拼音的参考语音文本为“dingyuehuiyuandingyuefangshiruxia”。
[0117]
当参考语音文本未区分人物角色时，示例性的，如小说或者诗歌等文本，参考语音文本为“桃之夭夭，灼灼其华”，仅去除标点的参考语音文本为“桃之夭夭灼灼其华”；仅去除标点的语音文本并将文字转换为拼音的参考语音文本为“taozhiyaoyaozhuozhuoqihua”。
[0118]
确定第一语音文本的各个语音文本与对应的第二语音文本各个语音文本的第一相似度，确定第一语音文本的各个语音文本与第二语音文本的各个语音文本的第二相似度。
[0119]
在本实施例的技术方案中，获取对语音信号进行语音识别得到的目标语音文本，根据目标语音文本得到第一语音文本，根据预设参考语音文本得到第二语音文本，确定所述第一语音文本与所述第二语音文本的第一相似度，确定所述第一语音文本与所述第二语音文本的第二相似度，根据第一相似度以及第二相似度确定目标语音文本的识别准确率。通过对目标语音文本以及参考语音文本的预处理，考虑了不同的人物角色或者不同的语言环境，准确确定了目标语音文本的识别准确率。
[0120]
参照图4，图4为本发明语音识别准确率的确定方法的第三实施例，基于第二实施例，所述步骤s21包括：
[0121]
步骤s211，在所述第二语音文本中确定所述第一语音文本中的各个语音文本对应的语音文本；
[0122]
步骤s212，分别确定所述第一语音文本中的各个语音文本与对应的第二语音文本中的各个语音文本的相似度；
[0123]
步骤s213，对各个所述相似度进行加权平均以得到所述第一相似度。
[0124]
具体的，在第二语音文本中确定第一语音文本中的各个语音文本对应的语音文本，示例性的，第一语音文本中的划分人物角色并去除标点的目标语音文本，对应的是第二语音文本中划分人物角色并去除标点的参考语音文本；第一语音文本中的去除人物角色和标点的目标语音文本，对应的是第二语音文本为去除人物角色和标点的参考语音文本。
[0125]
分别确定所述第一语音文本中的各个语音文本与对应的第二语音文本中的各个语音文本的相似度，可以是对第一语音文本各个语音文本以及对应的第二语音文本中的各个语音文本逐行进行相似度的计算，最后将每行相似度的平均值作为第一语音文本的各个语音文本与对应的第二语音文本中的各个语音文本的相似度。
[0126]
对各个相似度进行加权平均以得到第一相似度，当所述目标语音文本区分人物角色时，第一语音文本中的划分人物角色并去除标点的目标语音文本与第二语音文本中划分人物角色并去除标点的参考语音文本的第一相似度值为similarlcs
a
，第一语音文本中的去除人物角色和标点的目标语音文本与第二语音文本中的去除人物角色和标点的参考语音文本的第一相似度为similarlcs
b
，以及第一语音文本中的去除人物角色和标点并将文
字转换为拼音的目标语音文本与第二语音文本中的去除人物角色和标点并将文字转换为拼音的参考语音文本的第一相似度为similarlcs
c
，第一语音文本与第二语音文本的第一相似度如下公式所示：
[0127]
similarlcs＝ε*similarlcs
a
δ*similarlcs
b
η*similarlcs
c
；
[0128]
其中，similarlcs为第一语音文本与第二语音文本的第一相似度，ε、δ以及η为第一语音文本中的语音文本与对应的第二语音文本中的语音文本的权重值。示例性的，ε＝0.3，δ＝0.4，η＝0.3。
[0129]
对各个相似度进行加权平均以得到第一相似度，当所述目标语音文本未区分人物角色时，第一语音文本中的仅去除标点的目标语音文本与第二语音文本中仅去除标点的参考语音文本的第一相似度值为similarlcs
d
，第一语音文本中的仅去除标点的语音文本并将文字转换为拼音的目标语音文本与第二语音文本中的仅去除标点的语音文本并将文字转换为拼音的参考语音文本的第一相似度为similarlcs
e
，第一语音文本与第二语音文本的第一相似度如下公式所示：
[0130]
similarlcs＝ε*similarlcs
d
δ*similarlcs
e
；
[0131]
其中，similarlcs为第一语音文本与第二语音文本的第一相似度，ε和δ以为第一语音文本中的语音文本与对应的第二语音文本中的语音文本的权重值。示例性的，ε＝0.4，δ＝0.6。
[0132]
分别确定所述第一语音文本中的各个语音文本与对应的第二语音文本中的各个语音文本的相似度，也可以是确定第一语音文本中的语音文本的每一行字符串与对应的第二语音文本的语音文本的每一行字符串的相似值；在确定第一语音文本中的语音文本的第i行字符串与对应的第二语音文本的语音文本的每一行字符串的相似值时，当相似值大于预设阈值时，将相似值作为第一语音文本中的语音文本第i行的相似值，并停止确定相似值；在相似值小于或者等于预设阈值时，确定第一语音文本中的语音文本第i行的字符串与对应的第二语音文本中的语音文本的下一行字符串的相似值。在第i行字符串与对应的第二语音文本的每一行字符串的相似值均小于或者等于预设阈值时，丢弃第i行字符串的所有相似值，并确定第一语音文本中的语音文本第i 1行字符串与对应的第二语音文本中的语音文本的每一行字符串的相似值，直至第一语音文本的所有字符串均已确定过相似值。根据每行字符串对应的相似值的平均值或者加权平均值确定第一语音文本中的语音文本与第二语音文本的语音文本的相似度。
[0133]
确定第一语音文本中的语音文本的每一行字符串与对应的所述第二语音文本的语音文本的每一行字符串的相似值，可以根据第一语音文本中的语音文本的每一行字符串与对应的所述第二语音文本的语音文本的每一行字符串的相似字符串的数量计算相似值。
[0134]
确定第一语音文本中的语音文本的每一行字符串与对应的所述第二语音文本的语音文本的每一行字符串的相似值，也可以根据预设算法确定第一语音文本中的语音文本的每一行字符串与对应的第二语音文本中的语音文本的每一行字符串中的相似字符串，确定最长的相似字符串的数量；确定第一语音文本中的语音文本的每一行字符串与对应的第二语音文本中的语音文本的每一行字符串中最长字符串的字符串长度；确定第一语音文本中的语音文本的每一行字符串的行数与对应的第二语音文本中的语音文本的每一行字符串的行数的行数最小值；根据最长的相似字符串的数量、最长字符串的字符串长度以及行
数最小值确定相似值。示例性的，如下公式所示：
[0135][0136]
其中，similarlcs1为第一语音文本中的语音文本的每一行字符串与对应的所述第二语音文本的语音文本的每一行字符串的相似值，将第一语音文本的语音文本按行存储于列表list＜string>a＝[a1,a2,...,a
n
]，n为第一语音文本的语音文本的总行数，将对应的第二语音文本的语音文本按行存储于列表list＜string>b＝[b1,b2,...,b
m
]，m为第二语音文本的语音文本的总行数，lcs
longest
表示字符串a
i
和b
j
中的最长的相似字符串的数量，表示字符串a
i
和b
j
中最长字符串的字符串长度，smaller＜i,j>表示取i和j中行数最小值，1≤i≤n，1≤j≤m。
[0137]
在本实施例的技术方案中，在第二语音文本中确定第一语音文本中的各个语音文本对应的语音文本，分别确定第一语音文本中的各个语音文本与对应的第二语音文本中的各个语音文本的相似度，对各个相似度进行加权平均以得到第一相似度。通过确定目标语音文本与参考语音文本的第一相似度，准确确定了目标语音文本的识别准确率。
[0138]
参照图5，图5为本发明语音识别准确率的确定方法的第四实施例，基于第二实施例，所述步骤s31包括：
[0139]
步骤s311，将所述第一语音文本分为多个第一分词，以及将所述第二语音文本分为多个第二分词；
[0140]
步骤s312，分别确定所述第一分词以及所述第二分词的哈希值；
[0141]
步骤s313，根据所述哈希值确定所述第一分词以及所述第二分词的海明距离；
[0142]
步骤s313，根据所述海明距离确定所述目标语音文本与预设参考语音文本的所述第二相似度。
[0143]
具体的，可以采用正向最大匹配算法等算法将第一语音文本分为多个第一分词，以及将所述第二语音文本分为多个第二分词；
[0144]
分别确定第一分词以及第二分词的哈希值，示例性的，使用md5(message digest algorithm 5，消息摘要算法第五版)哈希算法计算哈希值，将第一分词存储在数组array[pc1,pc2,...,pc
n
]，将第二分词存储在数据array[pc1,pc2,...,pc
m
]中。对数组array[pc1,pc2,...,pc
n
]和数组array[pc1,pc2,...,pc
m
]进行降维处理，将降维后的数据以字符串形式分别保存为stringdoc
pcn
和stringdoc
pcm
；根据哈希值确定第一分词以及第二分词的海明距离，示例性的，
[0145][0146]
其中，hd
‑
doc
pc
表示第一分词与第二分词之间的海明距离，stringdoc
pcn
表示第一分词对应的数组，stringdoc
pcm
表示第二分词对应的数组。
[0147]
根据海明距离确定第一语音文本与第二语音文本的第二相似度。示例性的，如下公式所示：
[0148]
[0149]
其中，similarhash为第一语音文本与第二语音文本的第二相似度，hd
‑
doc
pc
表示第一分词与第二分词之间的海明距离，哈希值是通过128位md5哈希算法计算得到，因此为规范相似度采用128这个值对海明距离进行处理得到第二相似度。
[0150]
在本实施例的技术方案中，将第一语音文本分为多个第一分词，以及将第二语音文本分为多个第二分词；分别确定第一分词以及第二分词的哈希值，根据哈希值确定第一分词以及第二分词的海明距离；根据海明距离确定第一语音文本与第二语音文本的第二相似度。通过确定目标语音文本与参考语音文本的第二相似度，准确确定了目标语音文本的识别准确率。
[0151]
参照图6，本发明还提供一种语音识别准确率的确定装置，所述语音识别准确率的确定装置包括：
[0152]
获取模块100，用于获取对语音信号进行语音识别得到的目标语音文本；
[0153]
第一确定模块200，用于确定所述目标语音文本与所述语音信号的预设参考语音文本的第一相似度，所述第一相似度由所述目标语音文本的每一行字符串与所述参考语音文本的每一行字符串相似度得到；
[0154]
第二确定模块300，用于确定所述目标语音文本与所述参考语音文本的第二相似度，所述第二相似度由所述目标语音文本的分词与所述参考语音文本的分词的相似度得到；
[0155]
计算模块400，用于根据所述第一相似度以及所述第二相似度确定所述目标语音文本的识别准确率。
[0156]
在一实施例中，在确定所述目标语音文本与与所述语音信号的预设参考语音文本的第一相似度之前，所述获取模块100具体用于：
[0157]
根据所述目标语音文本得到第一语音文本，当所述目标语音文本区分人物角色时，所述第一语音文本包括划分人物角色并去除标点的目标语音文本，去除人物角色和标点的目标语音文本，以及去除人物角色和标点并将文字转换为拼音的目标语音文本，当所述目标语音文本未区分人物角色时，所述第一语音文本包括仅去除标点的目标语音文本，以及仅去除标点的语音文本并将文字转换为拼音的目标语音文本；
[0158]
根据预设参考语音文本得到第二语音文本，当所述参考语音文本区分人物角色时，所述第二语音文本包括划分人物角色并去除标点的参考语音文本，去除人物角色和标点的参考语音文本，以及去除人物角色和标点并将文字转换为拼音的参考语音文本，当所述参考语音文本未区分人物角色时，所述第二语音文本包括仅去除标点的参考语音文本以及仅去除标点的语音文本并将文字转换为拼音的参考语音文本；
[0159]
在确定所述目标语音文本与所述语音信号的预设参考语音文本的第一相似度方面，所述第一确定模块200具体用于：
[0160]
确定所述第一语音文本与所述第二语音文本的第一相似度；
[0161]
在确定所述目标语音文本与所述参考语音文本的第二相似度方面，所述第二确定模块300具体用于：
[0162]
确定所述第一语音文本与所述第二语音文本的第二相似度。
[0163]
在一实施例中，在确定所述第一语音文本与所述第二语音文本的第一相似度方面，所述第一确定模块200具体用于：
[0164]
在所述第二语音文本中确定所述第一语音文本中的各个语音文本对应的语音文本；
[0165]
分别确定所述第一语音文本中的各个语音文本与对应的第二语音文本中的各个语音文本的相似度；
[0166]
对各个所述相似度进行加权平均以得到所述第一相似度。
[0167]
在一实施例中，在分别确定所述第一语音文本中的各个语音文本与对应的第二语音文本中的各个语音文本的相似度方面，所述第一确定模块200具体用于：
[0168]
确定所述第一语音文本中的语音文本的每一行字符串与对应的所述第二语音文本的语音文本的每一行字符串的相似值；
[0169]
在所述相似值大于预设阈值时，将所述相似值作为所述第一语音文本中的语音文本对应的行的相似值，并停止确定所述相似值；
[0170]
在所述相似值小于或者等于预设阈值时，确定所述第一语音文本中的语音文本对应的行的字符串与对应的所述第二语音文本中的语音文本的下一行字符串的相似值，若所述第一语音文本中的语音文本对应的行的字符串与对应的所述第二语音文本的语音文本的每一行的相似值均小于或者等于预设阈值，则确定所述第一语音文本中的语音文本对应的行的下一行字符串与对应的所述第二语音文本中的语音文本的每一行字符串的相似值，直至所述第一语音文本的所有字符串均已确定相似值，根据每行字符串对应的相似值确定所述第一语音文本中的语音文本与所述第二语音文本的语音文本的相似度。
[0171]
在一实施例中，在确定所述第一语音文本中的语音文本的每一行字符串与对应的所述第二语音文本的语音文本的每一行字符串的相似值方面，所述第一确定模块200具体用于：
[0172]
根据预设算法确定所述第一语音文本中的语音文本的每一行字符串与对应的所述第二语音文本中的语音文本的每一行字符串中的相似字符串，确定最长的相似字符串的数量；
[0173]
确定第一语音文本中的语音文本的每一行字符串与对应的所述第二语音文本中的语音文本的每一行字符串中最长字符串的字符串长度；
[0174]
确定第一语音文本中的语音文本的每一行字符串的行数与对应的所述第二语音文本中的语音文本的每一行字符串的行数的行数最小值；
[0175]
根据所述最长的相似字符串的数量、所述最长字符串的字符串长度以及所述行数最小值确定所述相似值。
[0176]
在一实施例中，在确定所述第一语音文本与所述第二语音文本的第二相似度方面，所述第二确定模块300具体用于：
[0177]
将所述第一语音文本分为多个第一分词，以及将所述第二语音文本分为多个第二分词；
[0178]
分别确定所述第一分词以及所述第二分词的哈希值；
[0179]
根据所述哈希值确定所述第一分词以及所述第二分词的海明距离；
[0180]
根据所述海明距离确定所述第一语音文本与第二语音文本的所述第二相似度。
[0181]
在一实施例中，在根据所述第一相似度以及所述第二相似度确定所述目标语音文本的准确率方面，所述计算模块400具体用于：
[0182]
根据所述目标语音文本的文本行数以及字符串平均字数确定所述第二相似度的权重值，所述字符串平均字数为所述目标语音文本中各行字符串的字数的平均值；
[0183]
根据所述第二相似度的权重值确定所述第一相似度的权重值；
[0184]
根据所述第一相似度、所述第二相似度以及对应的所述权重值确定所述目标语音文本的准确率。
[0185]
本发明还提供一种语音识别准确率的确定设备，所述语音识别准确率的确定设备包括存储器、处理器以及存储在所述存储器并可在所述处理器上执行的语音识别准确率的确定程序，所述语音识别准确率的确定程序被所述处理器执行时实现如上实施例所述的语音识别准确率的确定方法的各个步骤。
[0186]
本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有语音识别准确率的确定程序，所述语音识别准确率的确定程序被处理器执行时实现如上实施例所述的语音识别准确率的确定方法的各个步骤。
[0187]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0188]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、系统、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、系统、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、系统、物品或者装置中还存在另外的相同要素。
[0189]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例系统可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个计算机可读存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，停车管理设备，空调器，或者网络设备等)执行本发明各个实施例所述的系统。
[0190]
以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

转载请注明原文地址:https://win.8miu.com/read-250214.html

专利

最新回复(0)