1.本发明涉及医学数据处理技术领域,具体来说,涉及一种高性能、高容错、可扩展的医学数据采集方法及系统。
背景技术:
2.随着医疗信息化进程的不断加快,通过对各医疗机构海量医学数据的采集、存储、查询、统计、分析、推理,可以将其有效地运用于各个医疗领域,对提高医疗系统效率、增强医疗服务质量、优化临床决策路径、实现个性化医疗服务等起着重要作用。其中,医学数据的采集方式多样性、采集时效性、采集完整性是医疗信息化建设的基础和难点之一。
3.由于医学数据种类繁多,且医疗信息化建设长期被厂商“捆绑”,医疗系统厂商数量众多,不同医院乃至同一医院中不同系统都可能来自不同的厂商,各个厂商生产的系统中数据采集方式及遵从的协议各不相同,同时医疗数据对完整性、实时性的要求又远高于其他行业数据,因此如何高效、高质地完成各类数据完整、正确的采集,以便在各场景下得到有效运用一直是有待解决的技术难题。
4.目前,仅有大约5%的医疗机构实现了医疗数据的互通,且绝大多数使用的是传统的数据采集方式。传统的数据采集方式仅支持采集单一数据类型,不满足医学数据多样性的要求,如需采集多种类型的数据,则要针对各数据类型对应的不同采集方式进行二次开发,往往经过数月才能完成各类数据的聚合,人力物力花费巨大且时间成本过高。此外,传统的采集架构仅支持执行单并发采集任务,由于医学数据的数据量通常很大,因此采集时效性很差,难以满足医疗行业业务需求,且采集过程中缺少校验机制,无法保证数据采集的完整性,极大程度上降低了医学数据的可用性,阻碍了医学数据共享互通愿景的实现。
5.针对相关技术中的问题,目前尚未提出有效的解决方案。
技术实现要素:
6.针对相关技术中的问题,本发明提出一种高性能、高容错、可扩展的医学数据采集方法及系统,以克服现有相关技术所存在的上述技术问题。
7.为此,本发明采用的具体技术方案如下:
8.根据本发明的一个方面,提供了一种高性能、高容错、可扩展的医学数据采集方法,该方法包括以下步骤:
9.s1、对各类待采集医学数据的采集方式及对应的配置参数进行确认;
10.s2、根据已确认的各类医学数据的采集方式,完成对应参数、边缘服务器、关联校验规则及数据补偿规则的配置;
11.s3、建立各类医学数据的采集任务;
12.s4、根据采集任务对应的需求,并利用边缘服务器对各类医学数据进行采集、解析及上传;
13.s5、通过远程字典服务集群并根据关联校验规则,对存储的散列值进行计算,且当
存在数据缺失时发送对应的数据补偿请求;
14.s6、通过数据采集组件并根据接收到的数据补偿命令,同时结合数据解析组件、数据上传组件、消息中间件及远程字典服务集群,共同完成对应的数据补偿。
15.进一步的,所述s1对各类待采集医学数据的采集方式及对应的配置参数进行确认中,所述待采集医学数据包括但不限于医院信息系统、放射信息系统及影像归档和通信系统产生的数据;
16.其中,所述数据包括结构化数据及非结构化数据;
17.所述采集方式包括但不限于应用程序接口、数据库视图、医学数字成像和通信及文件传输协议;
18.其中,所述数据库视图采集方式对应的配置参数包括但不限于视图名称、数据库类型、数据类型、ip地址、端口号、数据库用户名、数据库密码及数据库名称;
19.所述医学数字成像和通信采集方式对应的配置参数包括但不限于边缘服务器应用实体名称、边缘服务器ip地址、边缘服务器端口号、院方影像归档和通信系统应用实体名称、院方影像归档和通信系统ip地址、院方影像归档和通信系统端口号及数据补偿类型;
20.所述文件传输协议采集方式对应的配置参数包括但不限于文件传输协议名称、文件传输方式、文件传输协议服务器地址、端口号、文件传输协议服务器用户名及文件传输协议服务器密码。
21.进一步的,所述s2中根据已确认的各类医学数据的采集方式,完成对应参数、边缘服务器、关联校验规则及数据补偿规则的配置中,所述边缘服务器的配置指在边缘服务器上部署采集程序,且所述采集程序包括结构化数据采集组件、非结构化数据采集组件、数据解析组件、数据上传组件及数据补偿组件;
22.所述关联校验规则包括但不限于关联字段配置及关联逻辑配置;
23.所述数据补偿规则包括但不限于补偿字段配置及补偿逻辑配置;
24.其中,当根据实际业务需求需要扩展采集的数据类型时,针对新增数据采集,重新执行上述步骤s1
‑
s2。
25.进一步的,所述s3中建立各类医学数据的采集任务还包括以下步骤:
26.s31、建立采集任务时,对包括但不限于任务执行时间、执行频率及执行方式进行自定义设置;
27.s32、对各医疗机构实际运行情况进行适配。
28.进一步的,所述s4中根据采集任务对应的需求,并利用边缘服务器对各类医学数据进行采集、解析及上传还包括以下步骤:
29.s41、边缘服务器通过数据采集组件对各类医学数据进行采集,并暂存边缘服务器;
30.s42、对非结构化数据及结构化数据进行处理。
31.进一步的,所述数据采集组件通过结构化数据采集组件、非结构化数据采集组件分别采集结构化医学数据及非结构化医学数据。
32.进一步的,所述s42中对非结构化数据进行处理还包括以下步骤:
33.边缘服务器通过数据上传组件将非结构化数据上传至云端并进行云存储;
34.边缘服务器通过数据解析组件对非结构化数据进行结构化解析,并通过消息中间
件将解析完成的数据传至云端关系型数据库并存储;
35.云端关系型数据库将解析完成的数据的相关命令发送至远程字典服务集群,且远程字典服务集群根据该命令存储对应的散列值;
36.其中,所述数据解析组件根据医学数字成像和通信3.0标准,对医学影像文件进行解析,使该医学影像文件成为可用的结构化数据并进行存储。
37.进一步的,所述s42中对结构化数据进行处理还包括以下步骤:
38.边缘服务器通过消息中间件将结构化数据传至云端关系型数据库并进行存储;
39.云端关系型数据库将结构化数据的相关命令发送至远程字典服务集群,且远程字典服务集群根据该命令存储对应的散列值。
40.进一步的,所述s5中通过远程字典服务集群并根据关联校验规则,对存储的散列值进行计算,且当存在数据缺失时发送对应的数据补偿请求还包括以下步骤:
41.s51、当存在数据缺失时,根据校验结果及已配置的数据补偿规则,将缺失数据对应的补偿请求发送至消息中间件;
42.s52、消息中间件将缺失数据对应的补偿请求发送至数据补偿组件,数据补偿组件根据接收到的补偿请求,向数据采集组件发送特定的数据补偿命令。
43.根据本发明的另一方面,提供了一种高性能、高容错、可扩展的医学数据采集系统,该系统包括:确认模块、规则配置模块、任务建立模块、医学数据处理模块、数据补偿发送模块及数据补偿接收模块;
44.其中,所述确认模块,用于对各类待采集医学数据的采集方式及对应的配置参数进行确认;
45.所述规则配置模块,用于根据已确认的各类医学数据的采集方式,完成对应参数、边缘服务器、关联校验规则及数据补偿规则的配置;
46.所述任务建立模块,用于建立各类医学数据的采集任务;
47.所述医学数据处理模块,用于根据采集任务对应的需求,并利用边缘服务器对各类医学数据进行采集、解析及上传;
48.所述数据补偿发送模块,用于通过远程字典服务集群并根据关联校验规则,对存储的散列值进行计算,且当存在数据缺失时发送对应的数据补偿请求;
49.所述数据补偿接收模块,用于通过数据采集组件并根据接收到的数据补偿命令,同时结合数据解析组件、数据上传组件、消息中间件及远程字典服务集群,共同完成对应的数据补偿。
50.本发明的有益效果为:
51.(1)本发明通过在边缘服务器上部署采集程序,实现了多种类医学数据的高效采集,同时其支持多个采集任务并发执行,大幅度提升了数据采集的效率,增强了时效性。
52.(2)本发明还引入了远程字典服务集群,对采集到的数据进行关联校验,并对缺失数据自动补偿,有效提高了数据的完整性。
53.(3)本发明针对不同数据类型的采集方式,提供数据源模块化配置,可针对不同厂商、不同数据源进行快速扩展适配,提高数据采集的可扩展性。且本发明采用组件化方式,各组件单独运行,有效提升了系统的容错率。
附图说明
54.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
55.图1是根据本发明实施例的一种高性能、高容错、可扩展的医学数据采集方法的流程示意图;
56.图2是实现院内、院间数据互通时的结构框图。
具体实施方式
57.为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
58.根据本发明的实施例,提供了一种高性能、高容错、可扩展的医学数据采集方法及系统,用于解决如何高效地实现多种类型医学数据的采集,同时提高数据采集的时效性、完整性、可扩展性、容错率,从而增强医学数据的可用性,实现共享互通的愿景。
59.本发明通过在边缘服务器上部署采集程序,实现了多种类医学数据的高效采集,同时其支持多个采集任务并发执行,大幅度提升了数据采集的效率,增强了时效性。本发明还引入了消息中间件和远程字典服务集群(redis集群),对采集到的数据进行关联校验,并对缺失数据自动补偿,有效提高了数据的完整性。此外,本发明针对不同数据类型的采集方式,提供数据源模块化配置,有利于快速实现新增数据源的接入,提高数据源的可扩展性。进一步地,本发明采用组件化方式,将采集程序拆分成采集组件、解析组件、上传组件和补偿组件,各组件单独运行,有效提升了系统的容错率。
60.现结合附图和具体实施方式对本发明进一步说明,如图1所示,根据本发明的一个方面,提供了一种高性能、高容错、可扩展的医学数据采集方法,该方法包括以下步骤:
61.s1、对各类待采集医学数据的采集方式及对应的配置参数进行确认;
62.所述待采集医学数据可以为医院信息系统(his)、放射信息系统(ris)、影像归档和通信系统(pacs)等产生的数据,其中包括结构化数据(如his/ris/计算机化的病案系统数据)及非结构化数据(如医学数字成像和通信/非医学数字成像和通信影像数据)。
63.所述采集方式包括但不限于应用程序接口(api)、数据库视图、医学数字成像和通信(dicom)、文件传输协议(ftp)等。
64.其中,数据库视图采集方式对应的配置参数包括但不限于:视图名称、数据库类型、数据类型、ip地址、端口号、数据库用户名、数据库密码、数据库名称。
65.其中,医学数字成像和通信采集方式对应的配置参数包括但不限于:边缘服务器应用实体名称(边缘服务器ae title)、边缘服务器ip地址、边缘服务器端口号、院方影像归档和通信系统应用实体名称(院方pacs系统ae title)、院方影像归档和通信系统ip地址(院方pacs系统ip地址)、院方影像归档和通信系统端口号(院方pacs系统端口号)及数据补偿类型(q/r类型)。
66.其中,文件传输协议采集方式对应的配置参数包括但不限于:文件传输协议名称、文件传输方式(ftp/sftp)、文件传输协议服务器地址、端口号、文件传输协议服务器用户名、文件传输协议服务器密码。
67.由于各系统的厂商可能各不相同,实际实施过程中需与不同厂商分别对接,确认各类型医学数据的采集方式及配置参数,针对其他采集方式及对应的配置参数,此处不再赘述。
68.s2、根据已确认的各类医学数据的采集方式,完成对应参数、边缘服务器、关联校验规则及数据补偿规则的配置;
69.所述配置边缘服务器具体指在边缘服务器上部署采集程序,所述采集程序包括结构化数据采集组件、非结构化数据采集组件、数据解析组件、数据上传组件、数据补偿组件。各组件相互独立,可根据待采集的医学数据类型对应的采集方式,按需完成采集程序中各组件的部署,有效提升系统的容错率和可用性。
70.所述关联校验规则具体包括关联字段配置、关联逻辑配置等;所述数据补偿规则具体包括补偿字段配置、补偿逻辑配置等。可根据需求,灵活配置上述规则,以使其自适应于各医疗机构实际情况。
71.本发明针对不同数据类型的采集方式,提供数据源模块化配置,有利于快速实现新增数据源的接入,提高数据源的可扩展性。当根据实际业务需求需要扩展采集的数据类型时,仅需针对新增数据采集重新执行上述s1
‑
s2步骤即可。
72.s3、建立各类医学数据的采集任务;
73.s31、建立采集任务时,可自定义设置任务执行时间、执行频率、执行方式等各类采集执行策略;
74.s32、灵活适配各医疗机构实际运行情况;防止业务高峰期的采集任务影响医疗机构其他业务。
75.s4、根据采集任务对应的需求,并利用边缘服务器对各类医学数据进行采集、解析及上传;
76.所述根据采集任务对应的需求,并利用边缘服务器对各类医学数据进行采集、解析及上传具体包括以下步骤:
77.s41、边缘服务器通过数据采集组件持续高效地完成各类医学数据的采集,并暂存边缘服务器;
78.所述采集组件采用高可用并行采集线程(即支持多进程并发采集),极大地提升了数据采集效率以及稳定性。
79.所述数据采集组件通过结构化数据采集组件、非结构化数据采集组件分别采集结构化医学数据及非结构化医学数据。
80.s42、非结构化数据处理过程:1.所述边缘服务器通过数据上传组件将非结构化数据(如影像文件)上传至云端云存储(对象存储);2.所述边缘服务器通过数据解析组件对非结构化数据(如影像文件)进行结构化解析,并通过消息中间件将解析完成的数据传至云端关系型数据库进行存储,云端关系型数据库发送该数据相关命令至远程字典服务集群,远程字典服务集群根据该命令存储对应的散列值(hash值),以使后续的关联校验步骤得以实现。
81.其中,所述数据解析组件可根据dicom3.0标准,对医学影像文件进行解析,使之成为可用的结构化数据进行存储。此外,所述数据解析组件支持多进程并发解析,大大地提升了解析效率。
82.所述消息中间件可以为kafka消息中间件。
83.结构化数据处理过程:所述边缘服务器通过消息中间件将结构化数据传至云端关系型数据库进行存储,云端关系型数据库发送该数据相关命令至远程字典服务集群,远程字典服务集群根据该命令存储对应的散列值,以使后续的关联校验步骤得以实现。
84.s5、通过远程字典服务集群并根据关联校验规则,对存储的散列值进行计算,且当存在数据缺失时发送对应的数据补偿请求;
85.所述远程字典服务集群可满足高吞吐量的数据计算,通过已配置的关联校验规则,高效地校验数据完整性。(由于远程字典服务集群里既有结构化数据对应的散列值,也有非结构化数据对应的散列值,因此远程字典服务集群可以根据关联校验规则并结合这两类散列值进行高效地关联计算,实现对结构化及非结构化数据完整性的校验。)
86.s51、当存在数据缺失时,根据校验结果及已配置的数据补偿规则,向消息中间件发送缺失数据对应的补偿请求;
87.s52、消息中间件将数据补偿请求发送至数据补偿组件。数据补偿组件根据接收到的数据补偿请求,向数据采集组件发送特定的数据补偿命令。
88.s6、通过数据采集组件并根据接收到的数据补偿命令,同时结合数据解析组件、数据上传组件、消息中间件及远程字典服务集群,共同完成对应的数据补偿;
89.s6步骤具体指针对缺失数据,重新执行如s4步骤类似的数据采集、解析、上传流程。
90.例如,远程字典服务集群进行关联校验计算得出某影像数据对应的散列值缺失,即校验结果为该影像数据缺失时,由远程字典服务集群向kafka消息中间件发送补偿请求,再通过数据补偿组件将补偿命令发送至非结构化数据采集组件。非结构化数据采集组件重新采集缺失的影像文件,通过数据上传组件将该影像文件上传至云端云存储;同时,通过数据解析组件对该影像文件进行结构化解析,并通过kafka消息中间件将解析完成的数据传至云端关系型数据库进行存储,云端关系型数据库发送该数据相关命令至远程字典服务集群,远程字典服务集群根据该命令存储对应的散列值。
91.远程字典服务集群进行关联校验计算得出某检查数据对应的散列值缺失,即校验结果为该检查数据缺失时,由远程字典服务集群向kafka消息中间件发送补偿请求,再通过数据补偿组件将补偿命令发送至结构化数据采集组件。结构化数据采集组件重新采集缺失的检查数据,并通过kafka消息中间件将缺失的检查数据传至云端关系型数据库进行存储,云端关系型数据库发送该数据相关命令至远程字典服务集群,远程字典服务集群根据该命令存储对应的散列值。
92.根据本发明的另一方面,提供了一种高性能、高容错、可扩展的医学数据采集系统,该系统包括:确认模块、规则配置模块、任务建立模块、医学数据处理模块、数据补偿发送模块及数据补偿接收模块;
93.其中,所述确认模块,用于对各类待采集医学数据的采集方式及对应的配置参数进行确认;
94.所述规则配置模块,用于根据已确认的各类医学数据的采集方式,完成对应参数、边缘服务器、关联校验规则及数据补偿规则的配置;
95.所述任务建立模块,用于建立各类医学数据的采集任务;
96.所述医学数据处理模块,用于根据采集任务对应的需求,并利用边缘服务器对各类医学数据进行采集、解析及上传;
97.所述数据补偿发送模块,用于通过远程字典服务集群并根据关联校验规则,对存储的散列值进行计算,且当存在数据缺失时发送对应的数据补偿请求;
98.所述数据补偿接收模块,用于通过数据采集组件并根据接收到的数据补偿命令,同时结合数据解析组件、数据上传组件、消息中间件及远程字典服务集群,共同完成对应的数据补偿。
99.综上所述,本发明通过在边缘服务器上部署采集程序,实现了多种类医学数据的高效采集,同时其支持多个采集任务并发执行,大幅度提升了数据采集的效率,增强了时效性。本发明还引入了远程字典服务集群,对采集到的数据进行关联校验,并对缺失数据自动补偿,有效提高了数据的完整性。本发明针对不同数据类型的采集方式,提供数据源模块化配置,可针对不同厂商、不同数据源进行快速扩展适配,提高数据采集的可扩展性。且本发明采用组件化方式,各组件单独运行,有效提升了系统的容错率。
100.例如图2所示,本发明可以针对医疗机构不同系统、不同数据源进行集约化采集,对数据进行标准化存储后,最终以数据或者应用方式反哺院内业务,以实现院内、院间数据互通,提升医疗诊断效率及准确性,减少患者就医流程。
101.技术术语的解释:
102.数据源(data source):数据的来源,是提供某种所需要数据的器件或原始媒体。
103.数据采集:从传感器和其它待测设备等模拟和数字被测单元中自动采集信息的过程。
104.采集方式:实现数据采集的方式。
105.结构化数据:可由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
106.非结构化数据:数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。
107.半结构化数据:具有一定的结构性的数据。
108.dicom3.0:即医学数字成像和通信,是医学图像和相关信息的国际标准,它定义了质量能满足临床需要的可用于数据交换的医学图像格式。
109.医学影像:指为了医疗或医学研究,对人体或人体某部分,以非侵入方式取得内部组织影像的技术与处理过程。如超声影像、放射影像、心血管造影影像等。
110.api:应用程序接口(application programming interface,api),一些预先定义的接口(如函数、http接口)或指软件系统不同组成部分衔接的约定。
111.数据库视图:视图是从一个或几个基本表(或视图)中导出的虚拟的表。在系统的数据字典中仅存放了视图的定义,不存放视图对应的数据。
112.ftp协议:文件传输协议(file transfer protocol,ftp),在网络上进行文件传输的一套标准协议。
113.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
转载请注明原文地址:https://win.8miu.com/read-50433.html