本发明涉及文本处理,特别是涉及一种病历文本对应实体和实体标签的获取系统。
背景技术:
1、随着互联网技术的不断发展和信息时代数据量的爆炸式增长,以自然语言文本形式存在的电子病历文本展现出其容量大、增速快、形式多样和潜在价值高的特点,在这种背景下,从非结构化的电子病历文本中自动抽取出结构化的信息,即信息抽取技术,受到了广泛的关注,具有重要的应用价值,从病历文本中抽取实体和实体对应的标签成为热门研究方向。
2、现有技术中,获取病历文本对应实体和实体标签的方法为:基于病历文本中词法、句法和语义特征设定相应的规则,基于设定好的规则进行匹配识别病历文本中的实体,设置相应的实体标签库,将获取到的实体与实体标签库中的实体进行匹配获取到实体标签。
3、综上,获取病历文本对应实体和实体标签的方法存在的问题:设定的规则不能覆盖所有实体,病历文本中涉及到的实体多样化,易造成无法匹配到实体和实体标签的情况,降低了获取到病历文本中实体和实体标签的准确性。
技术实现思路
1、针对上述技术问题,本发明采用的技术方案为:一种病历文本对应实体和实体标签的获取系统,系统包括:处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:
2、s100,获取目标病历文本对应的初始特征向量列表a={a1,……,ai,……,an},ai=(ai1,……,aij,……,aim),ai为目标病历文本中第i个文字字符对应的初始特征向量,aij为ai中第j位的bit值,j=1……m,m为初始特征向量的维度,i=1……n,n为目标病历文本中文字字符的数量。
3、s200,将a输入至预设cnn模型中,获取目标病历文本对应的中间特征向量列表b={b1,……,bi,……,bn},bi=(bi1,……,bir,……,bis),bi为目标病历文本中第i个文字字符对应的中间特征向量,bir为bi中第r位的bit值,r=1……s,s为中间特征向量的维度,其中,在s200中通过如下步骤获取s:
4、s201,获取预设cnn模型对应的第一目标参数η1,其中,所述第一目标参数η1为预设cnn模型中卷积核对应的类型数量。
5、s203,根据η1,获取预设cnn模型对应的第二目标参数η2,其中,第二目标参数η2符合如下条件:
6、m/η1<η2≤(m×μ)/η1且η2=a×m,其中,μ为预设的参数,a为预设transformer中注意力头的数量,m为任一正整数。
7、s205,根据η1和η2,获取中间特征向量的维度s,其中,中间特征向量的维度s符合如下条件:
8、s=2×η1×η2。
9、s300,将b输入至预设transformer模型中,获取目标病历文本对应的目标特征向量列表c={c1,……,ci,……,cn},ci=(ci1,……,cih,……,cig),ci为目标病历文本中第i个文字字符对应的目标特征向量,cih为ci中第h位的bit值,h=1……g,g为目标特征向量的维度,其中,g符合如下条件:
10、g=(n+1)×4,n为预设实体标签的数量。
11、s400,根据c,获取目标病历文本对应的目标实体列表和目标实体列表对应的目标标签列表,其中,所述目标实体列表包括若干个目标实体,所述目标实体为结合预设cnn模型和预设transformer模型识别到的目标病历文本中的实体,所述目标标签列表包括若干个目标标签,所述目标标签为目标实体归类到的预设实体标签。
12、本发明与现有技术相比具有明显的有益效果,借由上述技术方案,本发明提供的一种病历文本对应实体和实体标签的获取系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
13、本发明为一种病历文本对应实体和实体标签的获取系统,所述系统包括:n个预设实体标签、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:获取目标病历文本对应的初始特征向量列表,将初始特征向量列表输入至预设cnn模型中,获取目标病历文本对应的中间特征向量列表,将中间特征向量列表输入至预设transformer模型中,获取目标病历文本对应的目标特征向量列表,根据目标特征向量列表,获取目标病历文本对应的目标实体列表和目标实体列表对应的目标标签列表,本发明基于模型获取病历文本中的实体和实体标签,避免了因病历文本中实体的多样化导致无法获取病历文本中实体和实体标签的情况,将模型进行结合处理且基于样本数据不断调整模型的参数,提高了获取到病历文本中实体和实体标签的准确性。
14、上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
1.一种病历文本对应实体和实体标签的获取系统,其特征在于,所述系统包括:处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:
2.根据权利要求1所述的病历文本对应实体和实体标签的获取系统,其特征在于,所述初始特征向量为将基于目标病历文本中文字字符对应的内容信息和位置信息生成的向量进行前后拼接而生成的特征向量。
3.根据权利要求1所述的病历文本对应实体和实体标签的获取系统,其特征在于,m=m1+m2,其中,m1为基于目标病历文本中文字字符对应的内容信息生成的向量的维度,m2为基于目标病历文本中文字字符对应的位置信息生成的向量的维度。
4.根据权利要求1所述的病历文本对应实体和实体标签的获取系统,其特征在于,所述目标病历文本为待获取实体和实体对应标签的病历文本。
5.根据权利要求1所述的病历文本对应实体和实体标签的获取系统,其特征在于,在s201中通过如下步骤获取η1:
6.根据权利要求5所述的病历文本对应实体和实体标签的获取系统,其特征在于,所述第一样本数量列表包括若干个第一样本数量,其中,所述第一样本数量为样本实体对应的文字字符的数量。
7.根据权利要求5所述的病历文本对应实体和实体标签的获取系统,其特征在于,所述第二样本数量为样本实体集中每个样本实体类型对应的样本实体的数量。
8.根据权利要求5所述的病历文本对应实体和实体标签的获取系统,其特征在于,所述第三样本数量为从第一样本数量列表中获取到的目标实体类型对应的第一样本数量。
9.根据权利要求5所述的病历文本对应实体和实体标签的获取系统,其特征在于,α的取值范围为80%~90%。
