一种藏语短语自动识别系统

专利检索2024-11-18  3


本发明涉及藏语短语识别,尤其涉及一种藏语短语自动识别系统。


背景技术:

1、藏语作为一种历史悠久、使用广泛的少数民族语言,其保护与发展对于民族文化传承具有重要意义。随着信息技术的发展,自动识别技术对于推动藏语文本和语音资源的数字化、信息化处理起到了关键作用,有利于藏语文本数据库建设和现代传媒平台上的应用推广;

2、藏语自身的语言特点,如丰富的形态变化、特殊的语法结构以及地域方言差异等,激发了学者们研究针对性强的藏语识别技术的兴趣,随着语言学理论研究的深入,对藏语特征有了更深刻的认识,这为构建高效的藏语识别系统提供了理论基础;

3、经检索,中国专利号为cn111696522b的发明专利,公开了一种用于低资源语料藏语的语音识别模型的训练方法及系统,与现有技术相比,该中国专利号为cn111696522b的发明专利通过将深度学习训练模型与藏语这种低资源语料结合,训练基于藏语的建立模型,对藏语语音进行识别,提高藏族人民人机交互的效率的优点;

4、但是,dnn虽然比传统的gmm具有更强的非线性特征提取能力,但在处理序列数据时,尤其是在存在长距离依赖关系的情况下,dnn的单向传播结构会导致对远距离上下文信息的捕捉不足,而bi-lstm能够通过其正向和反向传播机制同时考虑当前元素的前后文信息,特别适用于处理藏语这类形态丰富、词法和语法结构复杂的语言。


技术实现思路

1、本发明的目的是为了解决现有技术中的藏语识别系统单向传播结构存在对远距离上下文信息捕捉不足的缺点,而提出的一种藏语短语自动识别系统。

2、为了实现上述目的,本发明采用了如下技术方案:

3、一种藏语短语自动识别系统,藏语识别模块包括:

4、数据预接入模块:用于从大规模藏语语料库中提取文本数据;

5、数据预处理模块:用于将每个词语拆解为字符级别,并通过词嵌入技术在大规模语料上训练模型;

6、字符向量生成模块:用于将每个字符映射为一个高维稠密向量;

7、双向长短时记忆网络:用于对输入的字符级向量序列进行正向遍历,对输入序列进行反向遍历;

8、标签预测层:用于计算出整个序列标签的最佳路径概率分布,给定输入序列下所有可能的标签序列的概率;

9、识别输出模块:用于采用viterbi算法找出使概率最大的标签序列,以此作为最终的藏语短语识别结果。

10、数据预接入模块从大规模藏语语料库中提取的藏语文本数据,包括各种类型的文本资源,新闻文章、文学作品、社交媒体内容,通过数据预处理模块对原始文本进行清洗和标准化,去除无关字符、标点符号、数字,并统一大小写、转写格式。

11、数据预处理模块中包括词嵌入技术引入单元,词嵌入技术引入单元进行词语拆解为字符级别,将每一条文本按照藏语的字符单位进行拆解,形成字符序列,然后构建字符词汇表,将所有出现过的字符统计起来,形成一个唯一的字符词汇表,为每一个字符分配一个唯一的索引接着词嵌入技术引入单元进行词嵌入模型训练,采用word2vec,训练跳字模型(skip-gram),通过预测上下文中的字符来学习字符的向量表示,然后字符向量生成模块基于词嵌入技术将一段文本的所有字符转换为相应的向量表示后,按顺序排列组成一个向量序列,作为神经网络系统的输入层数据。

12、双向长短时记忆网络中包括正反向lstm单元,正反向lstm单元基于词嵌入得到的字符级向量序列作为bi-lstm网络的输入,对于每个字符向量ct,ct是序列中的第t个字符的向量表示,通过正向lstm单元和反向lstm单元,首先正向lstm按照时间步从前向后,对字符序列进行处理,每个时间步t,正向lstm会接收当前字符向量ct和前一时间步隐藏状态利用lstm特有的门控机制包括输入门、遗忘门、输出门计算新的隐藏状态以及细胞状态捕获到当前字符及其前方的上下文信息。

13、正反向lstm单元中的反向lstm单元按照时间步从后向前,对相同的字符序列进行处理,同样对每个时间步t,反向lstm接收到当前字符向量ct和后一时间步的隐藏状态反向lstm同样运用门控机制,从未来到现在的方向捕获上下文信息,得到隐藏状态以及细胞状态

14、双向长短时记忆网络中包括融合输出单元,融合输出单元基于每个时间步t处,通过bi-lstm结合正向和反向lstm的信息,并通过简单的串联操作合并两个方向的隐藏状态:

15、

16、对于序列中的每个字符,得到了前方的上下文信息,以及后方的上下文信息,形成了一个更全面的特征表示,然后得到的每个字符的综合上下文信息ht用于后续的分类、标注、生成自然语言处理任务中,捕获并整合字符序列中每个字符在其前后文环境下的复杂含义。

17、标签预测层中包括概率计算单元,标签预测层通过bi-lstm层对输入序列处理完毕后,得到每个时间步,即对应每个输入字符或词的上下文感知特征向量序列h=[h1,h2,...,ht],其中ht是时间步t的位置上对应的特征向量,然后进行定义转移矩阵,基于crf层定义了一个转移矩阵a,其中元素ai,j表示从标签i转移到标签j的概率,接着定义发射概率,对于每个时间步t和标签集合中的每一个标签yt,定义发射概率e(yt|ht),即在给定特征向量ht的情况下观察到标签的概率yt,概率计算单元构建概率分布,给定输入序列x,计算所有标签序列y的概率,基于联合概率公式:

18、

19、其中,z(x)是规范化因子,称分区函数,确保概率总和为1;

20、f(ht,yt-1,yt)为关于当前时间步特征向量ht以及前一时刻标签yt-1和当前时刻标签yt的评分函数分解成发射概率和转移概率两部分;

21、概率计算单元使用viterbi算法,沿概率最大的路径自左向右遍历时间步,记录下每个时间步下最有可能的路径标签,并最终回溯得到全局最优解,通过最大化联合概率p(y|x),确定整个序列的标签分配,得到出整个序列标签的最佳路径概率分布。

22、识别输出模块中包括viterbi解码单元,viterbi解码单元始化viterbi路径矩阵,为每个起始状态设置一个初始概率,对于每个标签状态,计算从起始状态出发到达第一个字符状态的viterbi概率,然后进行递归,对于每个时间步t以及标签状态j,在时间步t的位置,计算从上一时间步的所有可能标签转移到当前标签j的最大概率路径,并乘以当前字符在状态j下的发射概率:

23、delta[t][j]=max(delta[t-1][i]*a[i][j])*e[j][o_t]

24、delta是viterbi路径矩阵,delta[t][j]表示在时间步t状态下为j的最大概率;

25、a[i][j]是从状态转移到状态j的转移概率;

26、e[j][o_t]是在状态j下观察到字符o_t的发射概率,处理完最后一个字符后,找到viterbi路径矩阵最后一列中概率最大的状态作为结束状态,从结束状态开始,逆向查找每个时间步t的最大概率状态所对应的前一个状态,直到达到起始状态,构建出具有最大概率的标签序列,最后根据回溯得到的最优路径,将对应的标签序列作为识别出的藏语短语的结果输出。

27、本发明具备以下有益效果:

28、1、本发明中,通过正向和反向两个方向的lstm网络共同处理输入序列,能够充分捕捉到藏语字符前后文的丰富信息,提高了对短语边界和结构识别的准确性。

29、2、本发明中,通过字符级向量表示允许模型捕捉到单词内部的细微差别,尤其对于形态丰富的藏语而言,即使是一个字符的不同也能显著改变整个词汇的意义,从而增强模型的识别能力和泛化能力。

30、3、本发明中,通过实现标签依赖建模,crf层条件随机场能有效地建立标签之间的依赖关系,解决了独立预测各标签可能出现的局部最优问题,使得模型在预测时能够考虑到整个序列的标签一致性,提高短语结构的整体合理性。


技术特征:

1.一种藏语短语自动识别系统,其特征在于,藏语识别模块包括:

2.根据权利要求1所述的一种藏语短语自动识别系统,其特征在于,数据预接入模块从大规模藏语语料库中提取的藏语文本数据,包括各种类型的文本资源,新闻文章、文学作品、社交媒体内容,通过数据预处理模块对原始文本进行清洗和标准化,去除无关字符、标点符号、数字,并统一大小写、转写格式。

3.根据权利要求1所述的一种藏语短语自动识别系统,其特征在于,数据预处理模块中包括词嵌入技术引入单元,词嵌入技术引入单元进行词语拆解为字符级别,将每一条文本按照藏语的字符单位进行拆解,形成字符序列,然后构建字符词汇表,将所有出现过的字符统计起来,形成一个唯一的字符词汇表,为每一个字符分配一个唯一的索引接着词嵌入技术引入单元进行词嵌入模型训练,采用word2vec,训练跳字模型(skip-gram),通过预测上下文中的字符来学习字符的向量表示,然后字符向量生成模块基于词嵌入技术将一段文本的所有字符转换为相应的向量表示后,按顺序排列组成一个向量序列,作为神经网络系统的输入层数据。

4.根据权利要求1所述的一种藏语短语自动识别系统,其特征在于,双向长短时记忆网络中包括正反向lstm单元,正反向lstm单元基于词嵌入得到的字符级向量序列作为bi-lstm网络的输入,对于每个字符向量ct,ct是序列中的第t个字符的向量表示,通过正向lstm单元和反向lstm单元,首先正向lstm按照时间步从前向后,对字符序列进行处理,每个时间步t,正向lstm会接收当前字符向量ct和前一时间步隐藏状态利用lstm特有的门控机制包括输入门、遗忘门、输出门计算新的隐藏状态以及细胞状态捕获到当前字符及其前方的上下文信息。

5.根据权利要求1所述的一种藏语短语自动识别系统,其特征在于,正反向lstm单元中的反向lstm单元按照时间步从后向前,对相同的字符序列进行处理,同样对每个时间步t,反向lstm接收到当前字符向量ct和后一时间步的隐藏状态反向lstm同样运用门控机制,从未来到现在的方向捕获上下文信息,得到隐藏状态以及细胞状态

6.根据权利要求1所述的一种藏语短语自动识别系统,其特征在于,双向长短时记忆网络中包括融合输出单元,融合输出单元基于每个时间步t处,通过bi-lstm结合正向和反向lstm的信息,并通过简单的串联操作合并两个方向的隐藏状态:

7.根据权利要求1所述的一种藏语短语自动识别系统,其特征在于,标签预测层中包括概率计算单元,标签预测层通过bi-lstm层对输入序列处理完毕后,得到每个时间步,即对应每个输入字符或词的上下文感知特征向量序列h=[h1,h2,...,ht],其中ht是时间步t的位置上对应的特征向量,然后进行定义转移矩阵,基于crf层定义了一个转移矩阵a,其中元素ai,j表示从标签i转移到标签j的概率,接着定义发射概率,对于每个时间步t和标签集合中的每一个标签yt,定义发射概率e(yt|ht),即在给定特征向量ht的情况下观察到标签的概率yt,概率计算单元构建概率分布,给定输入序列x,计算所有标签序列y的概率,基于联合概率公式:

8.根据权利要求1所述的一种藏语短语自动识别系统,其特征在于,识别输出模块中包括viterbi解码单元,viterbi解码单元始化viterbi路径矩阵,为每个起始状态设置一个初始概率,对于每个标签状态,计算从起始状态出发到达第一个字符状态的viterbi概率,然后进行递归,对于每个时间步t以及标签状态j,在时间步t的位置,计算从上一时间步的所有可能标签转移到当前标签j的最大概率路径,并乘以当前字符在状态j下的发射概率:


技术总结
本发明涉及藏语短语识技术领域,且公开了一种藏语短语自动识别系统,一种藏语短语自动识别系统,藏语识别模块包括:数据预接入模块:用于从大规模藏语语料库中提取文本数据;数据预处理模块:用于将每个词语拆解为字符级别,并通过词嵌入技术在大规模语料上训练模型;字符向量生成模块:用于将每个字符映射为一个高维稠密向量;双向长短时记忆网络:用于对输入的字符级向量序列进行正向遍历,对输入序列进行反向遍历;标签预测层:用于计算出整个序列标签的最佳路径概率分布,给定输入序列下所有可能的标签序列的概率;识别输出模块:用于采用Viterb i算法找出使概率最大的标签序列,以此作为最终的藏语短语识别结果。

技术研发人员:才藏太,香前,索南才让
受保护的技术使用者:青海师范大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1146144.html

最新回复(0)