本申请涉及物联网数据处理,尤其涉及一种物联网数据湖的流批一体方法、设备及介质。
背景技术:
1、随着物联网的快速发展以及传统企业数字化转型的趋势,让数据体量以前所未有的速度增长,数据时效性在企业运营中的显得尤为重要,企业对海量数据的处理有了更高要求,除了通过离线批量方式将数据同步到存储系统,还需要应对实时数据低延迟写入存储,并快速对外提供低延迟的数据服务,以满足企业根据数据报表进行战略决策调整、数据分析人员进行数据在线分析、工厂设备实时异常告警等需求。
2、对于实时性要求高的场景比如实时告警,实时分析查询场景,将数据存储在低延迟的存储,比如时序数据库或者消息队列中进行实时计算,而对于离线计算将数据存储在hive、clickhouse等数据库中进行离线计算。现有技术具有的技术问题如下:额外成本高、数据一致性差、系统小文件问题、长数据链路以及快速响应性能限制。
技术实现思路
1、本申请实施例提供了一种物联网数据湖的流批一体方法、设备及介质,解决了现有技术存在的额外成本高、数据一致性差、系统小文件问题、数据链路过长以及快速响应性能限制的技术问题。
2、第一方面,本申请实施例提供了一种物联网数据湖的流批一体方法,方法包括:将待更新设备物模型数据进行数据更新,得到待写入物模型数据,并将待写入物模型数据通过数据同步方法写入预设的数据湖表;获取待写入物模型数据对应的设备时序数据,并通过设备时序写入法将设备时序数据写入数据湖表;其中,设备时序写入法用于确定设备时序数据的写入间隔;将数据湖表中的历史设备时序数据与设备时序数据进行对比,以确定设备实时指标数据;将设备实时指标数据输入预设的预测告警模型,得到设备异常预警数据;根据设备时序入湖数据,通过分区分析法,得到数据湖分析数据。
3、在本申请的一种实现方式中,将待写入物模型数据通过数据同步方法写入预设的数据湖表,具体包括:判断待写入物模型数据是否支持开启cdc模式,在待写入物模型数据支持开启cdc模式的情况下,确定第一检查点,并基于检查点,进行数据增量采集;其中,第一检查点用于写入待写入物模型数据;在待写入物模型数据不支持开启cdc模式的情况下,通过查询对应的客户端接口。
4、在本申请的一种实现方式中,通过设备时序写入法将设备时序数据写入数据湖表,具体包括:基于设备时序数据,在数据湖中确定设备时序数据表;根据设备时序数据表,确定第二检查点;其中,第二检查点用于写入设备时序数据;基于第二检查点,将设备时序数据写入数据湖。
5、在本申请的一种实现方式中,将数据湖表中的历史设备时序数据与设备时序数据进行对比,以确定设备实时指标数据,具体包括:基于mqtt协议,实时获取设备时序入湖数据,得到待处理设备时序数据;对待处理设备时序数据进行状态设置处理,得到更新设备数据;其中,状态设置处理包括:数据状态设置、无效数据清理;通过对比,确定数据实时写入更新缓存中的更新设备数据;其中,更新缓存包括:redis、state。
6、在本申请的一种实现方式中,将设备实时指标数据输入预设的预测告警模型,得到设备异常预警数据,具体包括:基于设备实时指标数据,确定数据湖规则计算结果表和数据湖规则计算结果表;实时获取设备时序入湖数据,并将预设的数据湖规则表与设备时序入湖数据进行数据关联;对数据湖规则表进行聚合实时运算,得到实时运算结果;将实时运算结果写入数据湖规则计算结果表,得到待过滤数据湖规则计算结果表;将待过滤数据湖规则计算结果表进行异常过滤,并通过湖里预设的异常过滤规则对数据湖规则计算结果表进行过滤,以得到设备异常预警数据。
7、在本申请的一种实现方式中,根据设备时序入湖数据,通过分区分析法,得到数据湖分析数据,具体包括:基于设备时序入湖数据,确定设备分区;根据设备分区,确定业务分析的时间粒度;基于时间粒度,获取对应的业务维表,以得到数据湖分析数据;其中,业务维表包括:产品维表、时间维表、地区维表、其他维表。
8、在本申请的一种实现方式中,在将待写入物模型数据通过数据同步方法写入预设的数据湖表之后,方法还包括:根据数据湖表,确定更新规则数据;其中更新规则数据包括:设备规则数据、设备告警数据;将更新规则数据实时同步至预设的数据湖告警表中。
9、在本申请的一种实现方式中,在根据设备时序入湖数据,通过分区分析法,得到数据湖分析数据之后,方法还包括:基于数据湖分析数据,得到可视化报表。
10、第二方面,本申请实施例还提供了一种流批一体的物联网数据湖构建设备,设备包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:将待更新设备物模型数据进行数据更新,得到待写入物模型数据,并将待写入物模型数据通过数据同步方法写入预设的数据湖表;获取待写入物模型数据对应的设备时序数据,并通过设备时序写入法将设备时序数据写入数据湖表;其中,设备时序写入法用于确定设备时序数据的写入间隔;将数据湖表中的历史设备时序数据与设备时序数据进行对比,以确定设备实时指标数据;将设备实时指标数据输入预设的预测告警模型,得到设备异常预警数据;根据设备时序入湖数据,通过分区分析法,得到数据湖分析数据。
11、第三方面,本申请实施例还提供了一种物联网数据湖的流批一体方法的非易失性计算机存储介质,存储有计算机可执行指令,计算机可执行指令设置为:将待更新设备物模型数据进行数据更新,得到待写入物模型数据,并将待写入物模型数据通过数据同步方法写入预设的数据湖表;获取待写入物模型数据对应的设备时序数据,并通过设备时序写入法将设备时序数据写入数据湖表;其中,设备时序写入法用于确定设备时序数据的写入间隔;将数据湖表中的历史设备时序数据与设备时序数据进行对比,以确定设备实时指标数据;将设备实时指标数据输入预设的预测告警模型,得到设备异常预警数据;根据设备时序入湖数据,通过分区分析法,得到数据湖分析数据。
12、本申请实施例提供了一种物联网数据湖的流批一体方法、设备及介质,通过将实时数据采集入湖以及构建湖内数据自主分析模块,解决了现有技术存在的额外成本高、数据一致性差、系统小文件问题、数据链路过长以及快速响应性能限制的技术问题,提升了数据处理效率、降低了数据管理成本、实现了实时数据和离线数据的同时处理、提高数据的一致性、降低小文件问题以及数据的预测和预警。
1.一种物联网数据湖的流批一体方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种物联网数据湖的流批一体方法,其特征在于,将所述待写入物模型数据通过数据同步方法写入预设的数据湖表,具体包括:
3.根据权利要求1所述的一种物联网数据湖的流批一体方法,其特征在于,通过设备时序写入法将所述设备时序数据写入所述数据湖表,具体包括:
4.根据权利要求1所述的一种物联网数据湖的流批一体方法,其特征在于,将所述数据湖表中的历史设备时序数据与所述设备时序数据进行对比,以确定设备实时指标数据,具体包括:
5.根据权利要求1所述的一种物联网数据湖的流批一体方法,其特征在于,将所述设备实时指标数据输入预设的预测告警模型,得到设备异常预警数据,具体包括:
6.根据权利要求1所述的一种物联网数据湖的流批一体方法,其特征在于,根据所述设备时序入湖数据,通过分区分析法,得到数据湖分析数据,具体包括:
7.根据权利要求1所述的一种物联网数据湖的流批一体方法,其特征在于,在将所述待写入物模型数据通过数据同步方法写入预设的数据湖表之后,所述方法还包括:
8.根据权利要求1所述的一种物联网数据湖的流批一体方法,其特征在于,在根据所述设备时序入湖数据,通过分区分析法,得到数据湖分析数据之后,所述方法还包括:
9.一种流批一体的物联网数据湖构建设备,其特征在于,所述设备包括:
10.一种物联网数据湖的流批一体方法的非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:
