本发明属于医疗数据检索,具体涉及一种基于大数据的医疗数据检索方法及系统。
背景技术:
1、随着医疗体系的发展和数据信息化的进步,产生了越来越多的医疗数据,这些海量的医疗数据具有重要的医疗价值,越来越收到医疗工作者的重视。但是医疗数据格式不统一、存储分散、共享困难,造成严重的医疗资源浪费,并且医疗数据的庞大体量使医疗数据的查询检索效率成为限制医疗信息应用的瓶颈问题。
2、现有技术中,医疗数据的检索方式大多基于互联网的在线检索,其检索效率低下,检索结果无法满足需求,还需要进一步分析和处理,并且医疗数据的存储困难,无法提供一种结构化的检索系统。
技术实现思路
1、为了解决现有技术存在的检索效率低下、检索结果无法满足需求以及医疗数据存储困难的问题,本发明目的在于提供一种基于大数据的医疗数据检索方法及系统。
2、本发明所采用的技术方案为:
3、一种基于大数据的医疗数据检索方法,包括如下步骤:
4、获取海量医疗知识,并根据海量医疗知识,构建医疗知识图谱和医疗命名实体识别模型;
5、获取海量医疗数据,使用医疗命名实体识别模型和医疗知识图谱,获取所有医疗数据的检索标签;
6、对海量医疗数据的检索标签进行聚类处理,得到所有医疗数据的类别标签,并根据海量医疗数据的检索标签和对应的类别标签,构建医疗数据分类模型;
7、根据医疗数据的类别标签,将海量医疗数据分类存储至对应的数据库;
8、获取用户上传的检索信息,使用医疗命名实体识别模型,抽取检索信息的若干检索信息命名实体;
9、使用医疗知识图谱,对若干检索信息命名实体进行标准医疗用词修正,得到检索信息的若干检索信息标准实体;
10、根据若干检索信息标准实体,使用医疗数据分类模型进行分类,得到检索信息的类别标签;
11、根据检索信息的类别标签,匹配至对应的数据库,并根据检索信息的若干医疗数据标准实体,匹配数据库中医疗数据的检索标签,得到匹配的检索标签;
12、将匹配的检索标签对应的医疗数据作为检索结果进行输出。
13、进一步地,获取海量医疗知识,并根据海量医疗知识,构建医疗知识图谱和医疗命名实体识别模型,包括如下步骤:
14、获取海量医疗知识,并将海量医疗知识中的若干医疗知识作为模型训练样本集;
15、根据模型训练样本集,构建医疗命名实体识别模型和医疗关系抽取模型,并输出医疗命名实体识别模型;
16、使用医疗命名实体识别模型,对海量医疗知识进行命名实体抽取,得到海量医疗知识命名实体;
17、根据海量医疗知识命名实体,使用医疗关系抽取模型对海量医疗知识进行实体关系抽取,得到海量医疗知识实体关系;
18、根据海量医疗知识命名实体和对应的海量医疗知识实体关系,构建医疗知识图谱,并输出医疗知识图谱。
19、进一步地,医疗命名实体识别模型包括第一输入层、语义特征提取模块、图特征提取模块、特征交互协作模块、crf模块以及第一输出层,语义特征提取模块包括设置有bert预训练语言子模型的字向量表征层和第一bilstm层,字向量表征层分别与第一输入层、第一bilstm层以及图特征提取模块连接,第一bilstm层与特征交互协作模块连接,图特征提取模块包括设置有bert预训练语言子模型的词向量表征层、字词关系文本构图层以及gat层,词向量表征层、字词关系文本构图层以及gat层依次连接,且词向量表征层与第一输入层连接,字词关系文本构图层与语义特征提取模块的字向量表征层连接,gat层与特征交互协作模块连接,特征交互协作模块与crf模块连接,且特征交互协作模块基于交互注意力机制建立,crf模块与第一输出层连接;
20、医疗关系抽取模型包括第二输入层、词表征层、嵌入层、遮罩层、胶囊网络层、命名实体处理层、动态池化层、第一分类层以及第二输出层,第二输入层、词表征层、嵌入层、遮罩层、胶囊网络层、命名实体处理层、动态池化层、第一分类层以及第二输出层依次连接,词表征层设置有bert预训练语言子模型,嵌入层基于稀疏自注意力机制建立,命名实体处理层为第二bilstm层,动态池化层基于动态k-max池化算法建立。
21、进一步地,获取海量医疗数据,使用医疗命名实体识别模型和医疗知识图谱,获取所有医疗数据的检索标签,包括如下步骤:
22、获取海量医疗原始数据;
23、对海量医疗原始数据进行预处理,得到海量医疗数据;
24、使用医疗命名实体识别模型对海量医疗数据进行命名实体抽取,得到医疗数据的若干医疗数据命名实体;
25、使用医疗知识图谱,对若干医疗数据命名实体进行标准医疗用词修正,得到医疗数据的若干医疗数据标准实体;
26、将若干医疗数据标准实体作为对应的医疗数据的检索标签,遍历所有医疗数据,得到所有医疗数据的检索标签。
27、进一步地,获取海量医疗原始数据,包括如下步骤:
28、获取互联网的海量医疗文件,并获取所有医疗文件中所有医疗文件数据的后缀名;
29、根据医疗文件数据的后缀名称,对海量医疗文件进行数据解析,得到不同数据格式的海量医疗文件数据;医疗文件数据的数据格式包括文本格式和图像格式;
30、对文本格式的医疗文件数据进行数据提取,得到海量医疗原始数据;
31、对图像格式的医疗文件数据进行图像文字识别,得到海量医疗原始数据。
32、进一步地,对海量医疗数据的检索标签进行聚类处理,得到所有医疗数据的类别标签,并根据海量医疗数据的检索标签和对应的类别标签,构建医疗数据分类模型,包括如下步骤:
33、将医疗数据的文字格式的检索标签转换为数字格式的检索数组;
34、根据海量医疗数据的检索数组,使用k均值聚类算法进行聚类处理,得到k个聚类中心;
35、将聚类中心的类别标签作为属于该类别的医疗数据的类别标签,得到所有医疗数据的类别标签;
36、根据海量医疗数据的检索数组和对应的医疗数据的类别标签,构建医疗数据分类模型。
37、进一步地,医疗数据分类模型包括第三输入层、特征提取层、第二分类层以及第三输出层,第三输入层、特征提取层、第二分类层以及第三输出层依次连接,特征提取层基于bilstm网络建立,第二分类层基于预训练的elman神经网络建立。
38、进一步地,将医疗数据的文字格式的检索标签转换为数字格式的检索数组,包括如下步骤:
39、将医疗数据的文字格式的检索标签进行unicode编码,得到对应的混合格式的unicode代码组;
40、将unicode代码组中的字符转换为数字,得到数字格式的检索数组。
41、进一步地,根据检索信息的类别标签,匹配至对应的数据库,并根据检索信息的若干医疗数据标准实体,匹配数据库中医疗数据的检索标签,得到匹配的检索标签,包括如下步骤:
42、根据检索信息的类别标签,匹配至对应的数据库;
43、选择检索信息的任一医疗数据标准实体,根据该医疗数据标准实体与对应的数据库中所有医疗数据的检索标签的语义相似度,匹配得到第一检索标签组;
44、选择检索信息的下一医疗数据标准实体,根据该医疗数据标准实体与第一检索标签组中所有医疗数据的检索标签的语义相似度,匹配得到第二检索标签组;
45、选择检索信息的第n医疗数据标准实体,根据该医疗数据标准实体与第n检索标签组中所有医疗数据的检索标签的语义相似度,匹配得到第n检索标签组,其中,n为大于2的正实数;
46、遍历检索信息的所有医疗数据标准实体,根据医疗数据标准实体与第n检索标签组中所有医疗数据的检索标签的语义相似度,匹配得到第n检索标签组,其中,n为大于2的正实数;
47、将第n检索标签组中前l个检索标签作为匹配的医疗数据的检索标签进行输出,其中,l为大于等于1的正实数。
48、一种基于大数据的医疗数据检索系统,用于实现医疗数据检索方法,系统包括医疗命名实体识别模型构建单元、医疗知识图谱构建单元、检索标签获取单元、医疗数据分类模型构建单元、数据库单元、检索信息命名实体抽取单元、标准医疗用词修正单元、医疗数据分类单元、检索标签匹配单元以及检索结果输出单元,医疗命名实体识别模型构建单元、医疗知识图谱构建单元、检索标签获取单元、医疗数据分类模型构建单元、数据库单元、检索信息命名实体抽取单元、标准医疗用词修正单元、医疗数据分类单元、检索标签匹配单元以及检索结果输出单元依次连接;
49、医疗命名实体识别模型构建单元,用于获取海量医疗知识,并根据海量医疗知识,构建医疗命名实体识别模型;
50、医疗知识图谱构建单元,用于根据海量医疗知识和医疗命名实体识别模型,构建医疗知识图谱;
51、检索标签获取单元,用于获取海量医疗数据,使用医疗命名实体识别模型和医疗知识图谱,获取所有医疗数据的检索标签;
52、医疗数据分类模型构建单元,用于对海量医疗数据的检索标签进行聚类处理,得到所有医疗数据的类别标签,并根据海量医疗数据的检索标签和对应的类别标签,构建医疗数据分类模型;
53、数据库单元,用于根据医疗数据的类别标签,将海量医疗数据分类存储至对应的数据库;
54、检索信息命名实体抽取单元,用于获取用户上传的检索信息,使用医疗命名实体识别模型,抽取检索信息的若干检索信息命名实体;
55、标准医疗用词修正单元,用于使用医疗知识图谱,对若干检索信息命名实体进行标准医疗用词修正,得到检索信息的若干检索信息标准实体;
56、医疗数据分类单元,用于根据若干检索信息标准实体,使用医疗数据分类模型进行分类,得到检索信息的类别标签;
57、检索标签匹配单元,用于根据检索信息的类别标签,匹配至对应的数据库,并根据检索信息的若干医疗数据标准实体,匹配对应的医疗数据的检索标签;
58、检索结果输出单元,用于将匹配的检索标签对应的医疗数据作为检索结果进行输出。
59、本发明的有益效果为:
60、本发明提供的一种基于大数据的医疗数据检索方法及系统,基于大数据构建医疗知识图谱,为医疗数据检索提供标准医疗用词修正,避免了不规范用词导致的检索结果偏差,提高了检索准确性;通过医疗命名实体识别模型和医疗数据分类模型,提取检索信息的医疗数据标准实体和类别标签,通过类别标签匹配至对应的数据库,再根据医疗数据标准实体匹配数据库中医疗数据的检索标签,输出对应的检索结果,提供了一种系统化、程序化的检索方法,提高了检索效率,检索结果直观且满足需求,无需进一步分析和处理;根据医疗数据的类别标签,将海量医疗数据分类存储至对应的数据库,提供了一种结构化的医疗大数据分类存储结构,在基于互联网的在线检索之外,提供了离线式的存储检索系统,提高了系统的实用性。
61、本发明的其他有益效果将在具体实施方式中进一步进行说明。
1.一种基于大数据的医疗数据检索方法,其特征在于:包括如下步骤:
2.根据权利要求1所述的一种基于大数据的医疗数据检索方法,其特征在于:获取海量医疗知识,并根据海量医疗知识,构建医疗知识图谱和医疗命名实体识别模型,包括如下步骤:
3.根据权利要求2所述的一种基于大数据的医疗数据检索方法,其特征在于:所述的医疗命名实体识别模型包括第一输入层、语义特征提取模块、图特征提取模块、特征交互协作模块、crf模块以及第一输出层,所述的语义特征提取模块包括设置有bert预训练语言子模型的字向量表征层和第一bilstm层,所述的字向量表征层分别与第一输入层、第一bilstm层以及图特征提取模块连接,所述的第一bilstm层与特征交互协作模块连接,所述的图特征提取模块包括设置有bert预训练语言子模型的词向量表征层、字词关系文本构图层以及gat层,所述的词向量表征层、字词关系文本构图层以及gat层依次连接,且词向量表征层与第一输入层连接,所述的字词关系文本构图层与语义特征提取模块的字向量表征层连接,所述的gat层与特征交互协作模块连接,所述的特征交互协作模块与crf模块连接,且特征交互协作模块基于交互注意力机制建立,所述的crf模块与第一输出层连接;
4.根据权利要求1所述的一种基于大数据的医疗数据检索方法,其特征在于:获取海量医疗数据,使用医疗命名实体识别模型和医疗知识图谱,获取所有医疗数据的检索标签,包括如下步骤:
5.根据权利要求4所述的一种基于大数据的医疗数据检索方法,其特征在于:获取海量医疗原始数据,包括如下步骤:
6.根据权利要求1所述的一种基于大数据的医疗数据检索方法,其特征在于:对海量医疗数据的检索标签进行聚类处理,得到所有医疗数据的类别标签,并根据海量医疗数据的检索标签和对应的类别标签,构建医疗数据分类模型,包括如下步骤:
7.根据权利要求6所述的一种基于大数据的医疗数据检索方法,其特征在于:所述的医疗数据分类模型包括第三输入层、特征提取层、第二分类层以及第三输出层,所述的第三输入层、特征提取层、第二分类层以及第三输出层依次连接,所述的特征提取层基于bilstm网络建立,所述的第二分类层基于预训练的elman神经网络建立。
8.根据权利要求6所述的一种基于大数据的医疗数据检索方法,其特征在于:将医疗数据的文字格式的检索标签转换为数字格式的检索数组,包括如下步骤:
9.根据权利要求1所述的一种基于大数据的医疗数据检索方法,其特征在于:根据检索信息的类别标签,匹配至对应的数据库,并根据检索信息的若干医疗数据标准实体,匹配数据库中医疗数据的检索标签,得到匹配的检索标签,包括如下步骤:
10.一种基于大数据的医疗数据检索系统,用于实现如权利要求1-9任一所述的医疗数据检索方法,其特征在于:所述的系统包括医疗命名实体识别模型构建单元、医疗知识图谱构建单元、检索标签获取单元、医疗数据分类模型构建单元、数据库单元、检索信息命名实体抽取单元、标准医疗用词修正单元、医疗数据分类单元、检索标签匹配单元以及检索结果输出单元,所述的医疗命名实体识别模型构建单元、医疗知识图谱构建单元、检索标签获取单元、医疗数据分类模型构建单元、数据库单元、检索信息命名实体抽取单元、标准医疗用词修正单元、医疗数据分类单元、检索标签匹配单元以及检索结果输出单元依次连接;