本发明涉及人工智能中的自然语言处理领域,特别涉及一种基于字词信息融合与边界检测的嵌套命名实体识别方法。
背景技术:
1、随着互联网时代的蓬勃发展,世界进入了前所未有的大数据时代,网络上产生的信息纷繁复杂,蕴藏在这些网络信息背后的是海量的知识。如何从这些数据中提取有用的信息,并运用它们来带动整个社会的发展与进步,是现如今一个严峻的挑战。这就迫切需要专业的自动化工具从海量的非结构化文本数据中挖掘有价值的关键信息,命名实体识别(named entity recognition,ner)应运而生。
2、ner是指从非结构化文本中识别和判断具有特殊意义的词语及其类型,如人名、地点、机构名称、专有名词等。ner在自然语言处理(naturallanguageprocessing,nlp)过程中具有非常重要的意义,它在关系提取、信息检索、机器翻译、情感分析、问答系统等广泛的下游nlp任务中发挥着至关重要的作用。命名实体作为语义知识的重要载体,其识别和分类已经成为当前自然语言处理领域一项重要的基础性研究课题。
3、在命名实体识别领域中有一种特殊的情况,即嵌套命名实体识别(nestedner,nner)。嵌套命名实体是一种特殊的命名实体,它们的长度通常较长且在其内部存在着多个长度较短的普通命名实体。例如“北京市海淀区人民政府”属于组织类型的实体,而其中的“北京市”、“海淀区”是地名类型的实体。对于这种具有嵌套结构的命名实体,传统的基于序列标注的命名实体模型是难以有效地处理的。
4、nner作为ner的一部分,是许多科学研究(如问答系统、知识图谱等)的基础。准确地识别嵌套内容的作用包括但不限于更细粒度地捕捉文本中的语义信息,提取出来的额外信息也能作为辅助特征,增强其他任务的效果等。简单来讲,如果一个模型能够识别出“北京市海淀区人民政府”是一个组织类型,它倾向于将所有出现的“北京市海淀区人民政府”都标记成组织类型。但如果它能够在识别前者的同时将“北京市”和“海淀区”标记成地点类型,那么它将有能力把所有形如“某地点+人民政府”的实体识别出来。因为从后者的角度来看,模型学到的是“某地点+人民政府”这个结构类型,而非记住了一种具体情况。
5、一些nner工作采用基于跨度分类的方法进行嵌套命名实体识别。该方法将一个句子中若干字符构成序列的每个子序列视为一个潜在的实体跨度,通过穷举所有可能的跨度并使用跨度内的语义信息对每一个跨度进行验证,可以方便而有效的识别嵌套实体。然而,该方法也有其不足。一是负样本过多,考虑了太多非实体区域,没有考虑上下文信息;二是时空复杂度高,对句子中的所有子序列进行分类通常需要很高的计算成本;三是在边界检测中监督较少,这通常导致在确定命名实体的边界时通常表现出较差的性能。本发明使用了字词信息融合和跨度边界检测方法,前者匹配与目标语句中字符最相关的词组并将其融合后输入到bert中,获取更全面的上下文信息,后者用来预测跨度的首字符和尾字符,找出句中所有可能的跨度,减少不必要跨度的产生,提高模型性能。
技术实现思路
1、本发明的目的是提出一种基于字词信息融合与边界检测的嵌套命名实体识别方法,利用bert对字词融合信息做深入地挖掘,再利用基于跨度的方法预测实体的左右边界,减少负样本数量和时空复杂度。
2、一种基于字词信息融合与边界检测的嵌套命名实体识别方法,如图1所示,包括以下步骤:
3、步骤1:字词信息匹配。这一步为预备工作,目的是为目标语句中每个字符匹配所有可能的词汇并组成词组,再将字符与词组作为整体模型的输入;
4、步骤2:字词信息融合。这一步将每个词组中的词汇按照其相应权重进行融合得到融合词向量,再与相应字符进行融合获得最终字词融合向量并注入到bert中,进行编码。
5、步骤3:bert编码阶段。bert模型是近几年提出的一种新的语言表征模型,通过超大数据、巨大模型和极大的计算开销训练而成,在多项自然语言处理任务中取得了优异的效果。利用在步骤1和步骤2中得到的目标语句的字词信息输入到bert底层进行深层知识融合,经过层层transformer编码器得到上下文信息,获取跨度表示;
6、步骤4:跨度边界预测。对于步骤3获取到的字词融合特征,利用其来计算每个字符作为跨度的首字符和尾字符的概率,并计算损失;
7、步骤5:跨度分类。对于步骤4处理好的数据,用mlp分类器进行分类,计算损失,并将步骤4和该步骤中的两个损失进行加权求和成为总损失。
8、相较于现有的技术方案,本发明的有益效果为:
9、本发明引入了字词信息融合方法,为目标语句中的字符匹配相关词组,获得字词融合向量,并输入bert,与其中的多层编码器充分交互,使其有效利用词汇信息,从而获取更全面的上下文信息,更好地进行跨度表示。本文引入了跨度边界检测方法,根据模型跨度表示来预测跨度起始位置和结束位置,即预测一个字符是跨度的首字符还是尾字符。该方法提高了跨度边界划分的准确性,一定程度上减少了不必要跨度的产生,提升模型整体性能。最后将跨度表示与跨度边界预测结果送入跨度分类层进行分类标记。基于这些改进,嵌套命名实体会以更小的时空代价完成识别,为以后其应用于特定领域的命名实体识别工作提供了新技术、新方案、新视角。
1.一种基于字词信息融合与边界检测的嵌套命名实体识别方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种基于字词信息融合与边界检测的嵌套命名实体识别方法,其特征在于,步骤1中,字词信息融合的过程具体为:
3.如权利要求1所述的一种基于字词信息融合与边界检测的嵌套命名实体识别方法,其特征在于,步骤2中跨度边界预测的过程具体为:
4.如权利要求1所述的一种基于字词信息融合与边界检测的嵌套命名实体识别方法,其特征在于,步骤3中跨度分类的过程具体为: