基于分量周期匹配的时间序列相似性度量方法

专利检索2026-02-24  2


本发明涉及到数据处理,尤其涉及基于分量周期匹配的时间序列相似性度量方法。


背景技术:

1、时间序列是将同一指标的数值按照时间的先后顺序排列组成的一组随机数列,时间序列在数据挖掘领域中的应用日益广泛。例如在网络领域,通常用时间序列来表示网络流量随时间变化的状态和趋势。时间序列的相似性度量作为数据挖掘领域的重要内容,能够发现时间序列之间的内在关系,具有重要意义。

2、常见时间序列相似性度量方法如下:欧氏距离、余弦相似度、奇异值分解、动态时间弯曲距离、趋势距离、编辑距离、特征子序列距离、子序列匹配、弗雷歇距离及豪斯多夫距离。这些度量方法大多从空间分布和时间周期两个方面对两个不同的时间序列进行匹配和距离计算,其共同点是基于时间序列的原始值进行匹配和相似度分析,而较少考虑基于时间序列的内部子成分进行相似度度量。但实际上相当多的时间序列是由多个独立的子成分叠加形成的,如:骨干网络流量就是多个独立网络节点的流量叠加结果。因此,将原始时间序列进行分解,将其分解为多个独立子成分,并针对不同时间序列的独立子成分进行相似度分析,有助于更精确地发现两个看似不相关时间序列的隐藏关联。

3、对时间序列的分解方法一般采用频域分解,即:将原始时间序列分解为多个不同频域周期的独立子成分。常见分解方法包括离散傅里叶变换dft、小波变换wt以及经验模态分解emd。目前部分研究已经将目光转向基于信号分解的时间序列相似性方法,包括基于emd的时间序列相似性度量算法、基于小波变换的时间序列聚类方法、基于加权本征模函数imf对时间序列相似匹配的方法、基于emd方法的时间序列分层相似性匹配算法、基于小波和动态时间弯曲的时间序列相似匹配方法。

4、综上,现有时间序列相似性度量方法大致分为两类,其一为对原始时间序列直接进行相似性度量,即直接度量方法;其二为对原始时间序列进行分解后再进行相似性度量,即分解度量方法。直接度量方法一般采用绝对值相似和形状相似两类方法,忽略了原始信号内部各个分量的特性,评价结果不可避免具有模糊性;而分解度量方法虽然考虑了各个分量的特性,但均未对各个分量的周期进行考察和对比,而是直接将部分分量进行累加还原,或直接对分量进行顺序一对一度量,或仅仅选择部分分量进行相似性度量,均存在一定程度的局限性。

5、公开号为cn115659160a,公开日为2023年01月31日的中国专利文献公开了一种用于数字孪生模型优化的数据质量度量方法,其特征在于,该方法包括以下步骤:

6、获取任意一种工业场景下的多种时序数据;

7、对任意一种时序数据通过时间序列分解得到季节性曲线,将季节性曲线转换到频域空间中并得到若干幅值,根据不同幅值对应的频率得到若干工艺周期,根据不同工艺周期分别对季节性曲线划分得到若干段,根据同一工艺周期内的不同段之间的相似度获取该工艺周期对应的若干段工艺周期曲线,将连续的不同段工艺周期曲线作为一个生命周期曲线;

8、对每个生命周期曲线通过模态分解及工艺周期获取每个工艺周期的若干imf分量,根据每个工艺周期每个imf分量与工艺周期曲线的匹配关系获取每个工艺周期的若干特征点序列及若干分量相似度,根据同一工艺周期在相邻生命周期内的若干特征点序列获取相邻两个相同段工艺周期曲线的第一相似度;

9、根据每个工艺周期在相邻生命周期的第一相似度,获取每个工艺周期的稳定性参数,获取不同种时序数据中每个工艺周期的稳定性参数,根据不同种时序数据中的若干工艺周期获取若干标准周期,根据每个标准周期对应的不同种时序数据中的工艺周期的稳定性参数,获取每个标准周期的数据质量指标;

10、根据每个标准周期的数据质量指标对数字孪生模型进行优化。

11、该专利文献公开的用于数字孪生模型优化的数据质量度量方法,能够针对具体的工艺流程进行优化。但是,由于未考虑原始信号各个分量的周期问题,而是将不同周期的信号进行混合匹配,导致无法识别信号的内在关联,增加了相似性分析过程中的计算次数,增大了距离度量过程的时间复杂度,适用性欠佳。


技术实现思路

1、本发明为了克服上述现有技术的缺陷,提供基于分量周期匹配的时间序列相似性度量方法,本发明不仅仅对原始时间序列进行频域分解,还利用了各个分量的周期特性,避免了分量之间匹配的盲目性,在信号分解和周期匹配上实现了周期的一致性,通过各个分量周期匹配进行时间序列的相似性度量,减少了相似性分析过程中的计算次数,进而降低距离度量过程的时间复杂度,增强了适用性。

2、本发明通过下述技术方案实现:

3、基于分量周期匹配的时间序列相似性度量方法,其特征在于,包括以下步骤:

4、s1、原始时间序列emd分解,将时间序列a和时间序列b进行emd分解,各自分解为多个分量,假设时间序列a分解为m个分量imf1-m和残余项,时间序列b分解为n个分量imf1-n和残余项;

5、s2、各个分量周期计算,依次计算各个分量的周期,周期的计算方式为基于极值点的估算,时间序列a获得m个周期,形成周期集合pa,时间序列b获得n个周期,形成周期集合pb;

6、s3、周期最短距离计算,依次计算周期集合pa和pb中各个成员各自与对方集合的最短距离,最短距离的计算方式为取最小相对误差,获得pa和pb每个成员各自与对方集合的最短距离,各自构成集合da和db;

7、s4、最短距离合并,依据pa和pb各个成员的最短距离计算相似性值集合,并以加权平均方式进行合并,获得时间序列a和时间序列b之间的相似性度量值s。

8、所述s1具体包括:

9、s11、根据原始信号上极值点和下极值点,分别画出上包络线和下包络线;

10、s12、求上包络线和下包络线的均值,画出均值包络线;

11、s13、原始信号减均值包络线,得到中间信号;

12、s14、判断中间信号是否满足imf的两个条件,如果满足,中间信号则为一个imf分量;反之,以中间信号为基础,重复s11-s14的分析;

13、s15、得到第一个imf1后,用原始信号减imf1,作为新的原始信号,再通过s11-s14的分析,得到imf2,以此类推,完成emd分解。

14、所述s2具体包括:

15、s21、对每一个分量imfi,根据峰值点的数量与位置估算得到平均周期thi;

16、s22、对每一个分量imfi,根据谷值点的数量与位置估算得到平均周期tli;

17、s23、根据计算获得的平均周期thi和平均周期tli,取平均值,作为分量imfi的平均周期pi;

18、s24、根据s21-s23,分别对时间序列a的m个分量imf1-m计算平均周期,记为pa1-m;

19、s25、根据s21-s23,分别对时间序列b的n个分量imf1-n计算平均周期,记为pb1-n。

20、所述s3具体包括:

21、s31、遍历集合pa中的所有成员pa1-m,分别计算pa1-m与pb集合中所有成员的相对误差,以最小相对误差为最短距离并分别记为da1-m;对于pa1-m中的任意成员pai,pai与pb之间的最短距离为dai=min(|(pai-pb1)/max(pai,pb1)|,|(pai-pb2)/max(pai,pb2)|,…,|(pai-pbn)/max(pai,pbn)|);

22、s32、遍历集合pb中的所有成员pb1-n,分别计算pb1-n与pa集合中所有成员的相对误差,以最小相对误差为最短距离并分别记为db1-n;对于pb1-n中的任意成员pbj,pbj与pa之间的最短距离为dbj=min(|(pbj-pa1)/max(pbj,pa1)|,|(pbj-pa2)/max(pbj,pa2)|,…,|(pbj-pam)/max(pbj,pam)|)。

23、所述s4具体包括:

24、s41、遍历da集合,对任一成员dai,计算对应的相似性值vai,相似性值计算公式为:vai=|1-dai|;根据da集合获得相似性值集合va1-m;

25、s42、遍历db集合,对任一成员dbj,计算对应的相似性值vbj,相似性值计算公式为:vbj=|1-dbj|;根据db集合获得相似性值集合vb1-n;

26、s43、对时间序列a的m个分量imf1-m计算权重值,记为wa1-m;

27、s44、对时间序列b的n个分量imf1-n计算权重值,记为wb1-n;

28、s45、通过加权平均计算时间序列a和时间序列b的相似性度量值s,计算公式为s=[(va1 x wa1+va2 x wa2+…+vam x wam)+(vb1 x wb1+vb2 xwb2+…+vbn x wbn)]/(m+n)。

29、所述步骤s43中,权重值的计算具体是指分别计算时间序列原始数据的均值ao,以及m个分量imf1-m各自的均值a1-m,分别用a1-m值除以ao,获得各个分量均值占原始数据的权重值wa1-m;对于任意分量imfi的权重值wai=ai/ao。

30、所述步骤s44中,权重值的计算具体是指分别计算时间序列原始数据的均值bo,以及n个分量imf1-n各自的均值b1-n,分别用b1-n值除以bo,获得各个分量均值占原始数据的权重值wb1-n;对于任意分量imfj的权重值wbj=bj/bo。

31、本发明的有益效果主要表现在以下方面:

32、1、本发明,不仅仅对原始时间序列进行频域分解,还利用了各个分量的周期特性,避免了分量之间匹配的盲目性,在信号分解和周期匹配上实现了周期的一致性,通过各个分量周期匹配进行时间序列的相似性度量,减少了相似性分析过程中的计算次数,进而降低距离度量过程的时间复杂度,增强了适用性。

33、2、本发明,通过将时间序列中数据点的距离度量转化为分量周期的距离度量,可显著减少距离度量过程的时间复杂度。

34、3、本发明,相较于现有技术未考虑原始信号各个分量的周期问题,将不同周期的信号进行混合匹配,导致无法识别信号的内在关联而言,通过充分利用分量周期,考察各个分量的周期相似性,能更好的降低距离度量过程的时间复杂度。

35、4、本发明,相较于现有技术在形状相似匹配中,会导致时间轴过于弯曲而言,信号分解和周期匹配上实现了周期的一致性,能够有效减小时间轴的弯曲。

36、5、本发明,通过对行为特征时间序列进行分解,计算分量的相似度,基于分量的匹配能够发现时间序列之间的内部关联。


技术特征:

1.基于分量周期匹配的时间序列相似性度量方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于分量周期匹配的时间序列相似性度量方法,其特征在于:所述s1具体包括:

3.根据权利要求1所述的基于分量周期匹配的时间序列相似性度量方法,其特征在于:所述s2具体包括:

4.根据权利要求1所述的基于分量周期匹配的时间序列相似性度量方法,其特征在于:所述s3具体包括:

5.根据权利要求1所述的基于分量周期匹配的时间序列相似性度量方法,其特征在于:所述s4具体包括:

6.根据权利要求5所述的基于分量周期匹配的时间序列相似性度量方法,其特征在于:所述步骤s43中,权重值的计算具体是指分别计算时间序列原始数据的均值ao,以及m个分量imf1-m各自的均值a1-m,分别用a1-m值除以ao,获得各个分量均值占原始数据的权重值wa1-m;对于任意分量imfi的权重值wai=ai/ao。

7.根据权利要求5所述的基于分量周期匹配的时间序列相似性度量方法,其特征在于:所述步骤s44中,权重值的计算具体是指分别计算时间序列原始数据的均值bo,以及n个分量imf1-n各自的均值b1-n,分别用b1-n值除以bo,获得各个分量均值占原始数据的权重值wb1-n;对于任意分量imfj的权重值wbj=bj/bo。


技术总结
本发明公开了基于分量周期匹配的时间序列相似性度量方法,属于数据处理技术领域,包括以下步骤:S1、原始时间序列EMD分解;S2、各个分量周期计算;S3、周期最短距离计算;S4、最短距离合并,依据PA和PB各个成员的最短距离计算相似性值集合,并以加权平均方式进行合并,获得时间序列A和时间序列B之间的相似性度量值S。本发明不仅仅对原始时间序列进行频域分解,还利用了各个分量的周期特性,避免了分量之间匹配的盲目性,在信号分解和周期匹配上实现了周期的一致性,通过各个分量周期匹配进行时间序列的相似性度量,减少了相似性分析过程中的计算次数,进而降低距离度量过程的时间复杂度,增强了适用性。

技术研发人员:崔光灿,张锋军,李庆华,石凯,牛作元,许杰,刘炜,黄鹂声,汪文勇,于佳辉,赵官凌
受保护的技术使用者:电子科技大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1161703.html

最新回复(0)