一种基于分层样本进行命名实体识别的方法

专利检索2026-02-08  0


本发明属于自然语言处理领域,涉及一种基于分层样本进行命名实体识别的方法。


背景技术:

1、我国历史悠久,绵延数千年,这其中的历史文物不仅具有极高的珍藏价值,更是我们了解和体验历史的重要桥梁。知识图谱为这些宝贵文物的信息提供了一种系统的组织形式,使得用户在搜索某一文物时,能够同时获得与其相关的丰富信息。在知识图谱的构建中,实体是其核心节点,因此,对实体的准确识别至关重要,这也使命名实体识别技术受到了广泛的关注。

2、目前,中文命名实体识别的方法主要可以分为两类:基于字符粒度的预测以及融合词汇信息的预测。传统的字粒度嵌入向量所包含的信息并不充足,有时不能准确地反映字符的真实语义。因此,许多研究者开始尝试通过融入外部词典信息来增强命名实体识别的准确性。这种词汇增强方法可以有效地降低传统分词技术中的分割错误,并强化中文词汇的语义和边界信息。

3、然而,这一方法在特定数据领域也存在其固有的问题。首先,构建专业的外部词典非常耗时和费力。其次,对于一些特定的领域,比如文物修复,现有的词典中几乎没有相关词汇信息,这导致在这些特定领域中,常规的词汇增强模型实际上与基于字符的模型并没有明显区别。例如,在文物修复领域,lattice-lstm模型和flat模型的命名实体识别效果与基于字符的bilstm-crf模型相差无几。


技术实现思路

1、本发明公开了一种基于分层样本进行命名实体识别的处理方法,该方法不仅可以针对领域数据的特性有针对性地处理不同特点的实体,也可以有效利用词汇增强方法的优点进行预测,解决了现有的常规词典中专业领域词汇命中率不高的问题。

2、所述基于分层样本的命名实体识别方法包括数据预处理模块、粗粒度命名实体初筛模块、样本分层处理模块和细粒度命名实体分类模块四大模块。其中,样本分层处理模块主要针对粗粒度命名实体初筛模块中筛选出来的多层次样本进行分类处理,具体包含的三个子模块分别是易样本处理模块、难样本处理模块、误判样本处理模块。

3、步骤1:数据预处理模块,将原始的txt数据文件按照文档粒度进行处理,包括分句、拆句以及使用bmes标注方法进行标注。按照文物数据的特性,将实体词汇分类为结构化词、组合词和常规词。结构化词是指具有一定的命名规范,例如本发明数据集中的文物名称。根据本发明数据特性可知,文物定名一般按照年代、特征、通称的顺序排列,具有一定的规律性,例如,雍正款铜双耳四足长方炉;组合词是指由多个包含语义的单独词汇组成的一个特殊的词汇,例如,方座底部粘贴标签处。常规词是日常用词,不具备特定领域的特殊性,此类词汇大多被词汇增强模型方法中的词典所涵盖。最后,将所有的文物名称通过分词工具进行分词处理,作为外部知识后续使用。

4、步骤2:粗粒度命名实体初筛模块,此模块基于数据预处理模块的标注语料,采用神经网络bilstm时序记忆的特点来提取命名实体相关的上下文信息,后输入crf,获得实体类别预测的置信度,指导样本粗粒度分类。

5、步骤3:样本分层处理模块,结合置信度大小和阈值,进一步对初筛后的粗粒度样本划分为易样本、难样本和误判样本,并进行相应的处理。本发明在本数据集上进行了大量实验,根据实验结果确定了阈值0.7。置信度大于0.7的样本分为易样本。易样本识别正确,且容易识别。置信度在0.7以下的样本,分为难样本,此类样本处理难度大,特别关注文物名称、工艺和伤况部位这类结构化词和组合词实体。含有结构化词的句子采用jieba分词工具对句子进行分词处理,后根据分词后的词汇在数据预处理模块处理后的外部知识文件中的词汇的频率作为其权重,充分利用外部知识和特定领域的规则来提高实体命名识别的效果。含有组合词的句子利用bert模型的<sep>分隔符提高组合词汇实体的边界位置识别。在误判的样本中,预测标签和真实标签不一致。采用wc-lstm架构,采用词汇增强方法,融入词汇信息,加强实体的语义信息。

6、步骤4:细粒度命名实体分类模块,此模块将上述处理后的三类多层次样本输入到crf网络中,考虑整个序列的上下文信息来预测每个位置的标注。

7、本发明提供了一种基于分层样本的命名实体识别方法,针对领域数据的特点进行多层次分类处理。有效利用了外部知识和特定领域的规则,以及有针对性的使用了词汇增强技术,显著提高了命名实体识别的准确性和鲁棒性。这种方法为命名实体识别带来了创新性的思考和实用性的提升,特别是在专业领域数据中的应用,解决了传统词汇增强方法中领域词汇命中率不高的问题,有望在实际应用中获得更广泛的推广和应用。



技术特征:

1.一种基于分层样本进行命名实体识别的方法,其特征在于,分为以下三个步骤:

2.根据权利要求1所述的一种基于分层样本进行命名实体识别的方法,其特征在于,该方法分为数据预处理模块(1)、粗粒度命名实体筛选模块(2)、样本分层处理模块(3)、细粒度命名实体分类模块(4);


技术总结
一种基于分层样本进行命名实体识别的方法,属于自然语言处理领域。该方法包括四个模块:数据预处理模块、粗粒度实体筛选模块、样本分层处理模块以及细粒度实体分类模块。首先,通过数据预处理模块对原始数据进行处理及标注。然后,利用粗粒度实体筛选模块训练BiLSTM和CRF组合模型获得实体类别预测置信度,指导样本粗粒度分类。之后,利用样本分层处理模块,结合置信度,进一步对初筛后的粗粒度样本划分为多层次类型:易样本、难样本和误判样本的处理。最后,细粒度实体分类模块将分类处理后的样本输入CRF网络进行实体标签的细粒度分类。此方法利用了外部知识且有针对性的使用词汇增强显著提高了命名实体识别的准确性和鲁棒性。

技术研发人员:李建强,齐宏智,徐曦,赵琳娜,程文秀,刘素芹,高正凯,江梦
受保护的技术使用者:北京工业大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1160920.html

最新回复(0)