一种基于时频混合对比学习的多变量时序分类方法及系统

专利检索2026-06-17  9


本发明涉及行为时序分类,特别涉及一种基于时频混合对比学习的多变量时序分类方法及系统。


背景技术:

1、多变量时间序列数据的分类问题一直是机器学习技术领域中备受关注的研究方向之一。在实际生活中,多变量时间序列数据的人体行为识别分类具有广泛的应用。由于多变量时间序列数据涵盖了在不同时间点上观测的多个特征或变量的信息,因此,其分类问题相对于单一时间序列或静态数据的分类问题更具有挑战性。

2、近年来,基于深度学习的多变量时间序列分类方法取得了显著的进展。其中,监督学习方法在多变量时间序列分类中取得了显著的研究成果,但仍面临众多挑战。其一,现有监督方法难以解决少样本、高噪声数据问题。其二,监督学习方法通常需要大量标签数据进行学习,而获取大量标记数据的成本昂贵且不切实际。因此,当前的研究趋势逐渐转向半监督学习。半监督学习通过少量标记数据和大量未标记数据进行模式识别,具有改善模型泛化性和提高分类准确度的优势。该类方法已被广泛用于人体行为图像识别、视频预测分类以及人体行为目标检测等领域。

3、然而,这种现有的半监督的对比学习方法生成伪标签的质量十分依赖于模型的学习能力,没有充分学习时间序列数据中的时频信息,使得模型在训练中捕捉数据的内在结构和语义信息不够准确,从而大大降低了其泛化能力。


技术实现思路

1、基于此,本发明的目的是提出一种基于时频对比学习的半监督时序数据分类方法及系统,以解决现有的半监督的对比学习方法生成伪标签的质量十分依赖于模型的学习能力,没有充分学习时间序列数据中的时频信息,使得模型在训练中捕捉数据的内在结构和语义信息不够准确,从而大大降低了其泛化能力的问题。

2、第一方面,本发明提出的一种基于时频对比学习的半监督时序数据分类方法,所述方法包括:

3、获取多变量时间序列的训练数据集,所述训练数据集包括若干个带标签和未带标签的原始时序样本,所述标签指示对应的行为类别;

4、构建时域编码器和频域编码器,将所述训练数据集输入时域编码器和频域编码器分别得到时域第一特征和频域第一特征;

5、将所述时域第一特征和所述频域第一特征进行非线性变换,得到对应的时域第二特征和频域第二特征,将所述时域第二特征和所述频域第二特征进行时频混合对比学习,以得到自监督对比损失函数和有监督对比损失函数;

6、对所述时域第二特征和所述频域第二特征进行标签传播算法,得到带伪标签的时序样本;

7、对于所述带伪标签的时序样本,采用交叉熵作为分类损失函数,再根据所述自监督对比损失函数、所述有监督对比损失函数和所述分类损失函数构建所述时域编码器和所述频域编码器的整体损失函数;

8、所述时域编码器和所述频域编码器分别基于所述整体损失函数进行分类训练,得到最终行为分类结果。

9、综上,根据上述的一种基于时频混合对比学习的多变量时序分类方法,该方法主要用于人体行为识别分类场景,针对现有的大部分半监督学习方法主要针对单变量时间序列进行分析且很少考虑时间序列数据的时间依赖性等内部属性,因此本方法首先获取多变量时间序列作为训练数据集,再分别构建时域编码器和频域编码器,以提取行为时序分别再时域和频域对应的特征,经非线性变换能更好的对提取的特征进行时频混合对比学习,在该时频混合对比学习中,将时域和频域视为两个视图,每个视图带标签数据直接在已知类标签的指导下进行分类,而未带标签数据则利用标签传播算法生成的伪标签指导另一个视图的学习,此外,在该时频混合对比学习中,采用自监督和有监督对比学习相融合的策略,其中监督对比学习旨在通过有监督的方式调整同类样本在相同域下的表示,使其更为相近,同时促使不同类别样本在表示空间中更为分散;而自监督对比学习致力于在不同域的表示中调整相似性质的样本,使其更为接近,而对于差异性质较大的样本则推动其在表示空间中更为远离;最后根据自监督对比损失、有监督对比损失函数和分类损失函数整合时域编码器和频域编码器的整体损失函数,基于整体损失函数可以用作分类训练,以得到最终行为分类结果。

10、在本发明较佳实施例中,所述获取多变量时间序列的训练数据集,所述训练数据集包括若干个带标签和未带标签的原始时序样本,所述标签指示对应的行为类别的步骤包括:

11、获取多变量时间序列以形成训练数据集,表示多变量的原始时序样本,n表示时间序列数目,l表示时间序列长度,v表示特征维度,表示相应的行为类别标签。

12、在本发明较佳实施例中,在所述训练数据集输入所述频域编码器之前,对所述训练数据集进行预处理,所述预处理包括快速傅里叶变换,以得到振幅和相位;

13、,

14、,

15、,

16、其中,是频域中的复数表示,是振幅,是相位,q是虚数参数,k是频率索引,是旋转因子,是复数的实部,是复数的虚部,是反正切函数,是一个小正数。

17、在本发明较佳实施例中,所述构建时域编码器和频域编码器,将所述训练数据集输入时域编码器和频域编码器分别得到时域第一特征和频域第一特征的步骤包括:

18、所述时域编码器接收来自所述训练数据集中的原始时序样本,所述频域编码器接收来自所述训练数据集中的原始时序样本;

19、所述时域编码器和频域编码器均包括空间通道和时间通道;

20、通过所述空间通道输出行为空间特征,通过所述时间通道输出行为时序的动态模式和长期依赖关系,将所述空间通道和所述时间通道的输出进行拼接,形成融合时空信息的特征嵌入z,再经过平均池化得到编码器的输出out,所述时域编码器输出的时域第一特征用表示,所述频域编码器输出的频域第一特征用表示,具体公式为:

21、,

22、,

23、其中,表示特征向量拼接,表示空间通道中三个基本块输出的行为空间特征,h表示时间通道输出的时序动态模式和长期依赖关系,表示平均池化。

24、在本发明较佳实施例中,所述将所述时域第一特征和所述频域第一特征进行非线性变换,得到对应的时域第二特征和频域第二特征的步骤包括:

25、通过多层感知机对所述时域第一特征、所述频域第一特征进行非线性变换得到时域第二特征、频域第二特征。

26、在本发明较佳实施例中,所述将所述时域第二特征和所述频域第二特征进行时频混合对比学习,以得到自监督对比损失函数和有监督对比损失函数的步骤包括:

27、所述时域第二特征和所述频域第二特征进行时频混合对比学习时,将同一时间序列在时域和频域中的不同表示视为一对正样本,而不同时间序列的不同域的表示视为负样本,利用时域和频域的表示进行归一化温度缩放的交叉熵损失,通过最大化正样本对的相似性和最小化负样本对的相似性,使相同的样本接近,不相同的样本分散;

28、通过自监督对比学习方法计算自监督对比损失,使在相同域下的同类样本在表示空间中相近,使不同类别样本在表示空间中远离,自监督对比损失函数的计算公式为:

29、,

30、其中,是两个向量之间的余弦相似度,是指示函数,是温度标量,i、j表示样本i、j的索引;

31、通过有监督对比学习方法并计算有监督对比损失,使在不同域下的同类样本在表示空间中相近,使不同类别样本在表示空间中远离,有监督对比损失函数的计算公式为:

32、,

33、其中,是温度参数,是基准温度参数,表示正样本对的样本数量,是有标签样本的下标集合,表示属于同一类别的正样本下标集合,表示正样本的行为类别标签,表示时序长度为时对应的行为类别标签,c为时域或频域符号的标志,表示有标签样本的索引。

34、在本发明较佳实施例中,所述对所述时域第二特征和所述频域第二特征进行标签传播算法,得到带伪标签的时序样本的步骤包括:

35、通过所述时域第二特征和所述频域第二特征计算样本间的相似度矩阵,以构建样本之间的关系图,相似度矩阵的计算公式为:

36、,

37、其中,和分别表示样本i和样本j的嵌入特征,是控制相似度衰减速度的超参数;

38、再利用相似度矩阵构建归一化拉普拉斯算子s,所述归一化拉普拉斯算子的公式为:

39、,

40、其中,d是对角矩阵;

41、通过保留相似度矩阵中每行的前k个值创建最近邻图,标签传播算法通过迭代求解公式来估计所述最近邻图中节点的伪标签,所述迭代求解公式为:

42、,

43、其中,表示第t次迭代的预测伪标签,表示第t+1次迭代的预测伪标签,表示传播率,y表示定义的标签矩阵;

44、通过求解矩阵得到最终的预测分数 f,用公式表示为:

45、,

46、其中,表示类别,c表示类别的数量;

47、采用动态阈值在伪标签集合中选择高质量伪标签,其中,时域中的伪标签经选择后得到高质量伪标签,频域中的伪标签经选择后得到高质量伪标签,定义当某一类别的最大的预测分数 f超过阈值时,则选择将该类别的伪标签样本用于标签传播算法训练,阈值的公式为:

48、,

49、其中,表示类别为b时的阈值,e表示模型训练的迭代次数,表示选择伪标签的固定阈值,表示大于阈值的选择样本的数量,)表示在所有类别中大于阈值的选择样本数量的最大值,m()表示非线性映射函数。

50、在本发明较佳实施例中,所述分类损失函数的计算公式为:

51、,

52、其中,表示预测标签,p()表示概率函数;

53、所述整体损失函数的计算公式为:

54、,

55、第二方面,本发明提供一种基于时频对比学习的半监督时序数据分类系统,应用于人体行为识别分类场景,所述系统包括:

56、数据获取模块,用于获取多变量时间序列的训练数据集,所述训练数据集包括若干个带标签和未带标签的原始时序样本,所述标签指示对应的行为类别;

57、特征提取模块,用于构建时域编码器和频域编码器,将所述训练数据集输入时域编码器和频域编码器分别得到时域第一特征和频域第一特征;

58、时频混合对比学习模块,用于将所述时域第一特征和所述频域第一特征进行非线性变换,得到对应的时域第二特征和频域第二特征,将所述时域第二特征和所述频域第二特征进行时频混合对比学习,以得到自监督对比损失函数和有监督对比损失函数;

59、标签传播模块,用于对所述时域第二特征和所述频域第二特征进行标签传播算法,得到带伪标签的时序样本;

60、综合损失模块,用于对于所述带伪标签的时序样本,采用交叉熵作为分类损失函数,再根据所述自监督对比损失函数、所述有监督对比损失函数和所述分类损失函数构建所述时域编码器和所述频域编码器的整体损失函数;

61、分类训练模块,用于所述时域编码器和所述频域编码器分别基于所述整体损失函数进行分类训练,得到最终行为分类结果。

62、本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。


技术特征:

1.一种基于时频混合对比学习的多变量时序分类方法,其特征在于,应用于人体行为识别分类场景,所述方法包括:

2.根据权利要求1所述的一种基于时频混合对比学习的多变量时序分类方法,其特征在于,所述获取多变量时间序列的训练数据集,所述训练数据集包括若干个带标签和未带标签的原始时序样本,所述标签指示对应的行为类别的步骤包括:

3.根据权利要求2所述的一种基于时频混合对比学习的多变量时序分类方法,其特征在于,在所述训练数据集输入所述频域编码器之前,对所述训练数据集进行预处理,所述预处理包括快速傅里叶变换,以得到振幅和相位;

4.根据权利要求3所述的一种基于时频混合对比学习的多变量时序分类方法,其特征在于,所述构建时域编码器和频域编码器,将所述训练数据集输入时域编码器和频域编码器分别得到时域第一特征和频域第一特征的步骤包括:

5.根据权利要求4所述的一种基于时频混合对比学习的多变量时序分类方法,其特征在于,所述将所述时域第一特征和所述频域第一特征进行非线性变换,得到对应的时域第二特征和频域第二特征的步骤包括:

6.根据权利要求5所述的一种基于时频混合对比学习的多变量时序分类方法,其特征在于,所述将所述时域第二特征和所述频域第二特征进行时频混合对比学习,以得到自监督对比损失函数和有监督对比损失函数的步骤包括:

7.根据权利要求6所述的一种基于时频混合对比学习的多变量时序分类方法,其特征在于,所述对所述时域第二特征和所述频域第二特征进行标签传播算法,得到带伪标签的时序样本的步骤包括:

8.根据权利要求7所述的一种基于时频混合对比学习的多变量时序分类方法,其特征在于,所述分类损失函数的计算公式为:

9.根据权利要求8所述的一种基于时频混合对比学习的多变量时序分类方法,其特征在于,所述整体损失函数的计算公式为:

10.一种基于时频混合对比学习的多变量时序分类系统,其特征在于,应用于人体行为识别分类场景,所述系统包括:


技术总结
本申请提出一种基于时频混合对比学习的多变量时序分类方法及系统,该方法包括:将多变量时间序列输入时域编码器和频域编码器中得到时域第一特征和频域第一特征,经非线性变换得到对应的时域第二特征和频域第二特征后进行时频混合对比学习,得到自监督对比损失函数和有监督对比损失函数,再对时域第二特征和频域第二特征进行标签传播算法,得到带伪标签的时序样本和分类损失函数,最后根据自监督对比损失函数、有监督对比损失函数和分类损失函数构建整体损失函数,时域编码器和频域编码器基于整体损失函数进行分类。本方法能够充分学习时间序列中的时频信息,使得模型在训练时准确捕捉数据的内在结构和语义信息。

技术研发人员:易玉根,吴福英,刘敏,盛绘,罗勇,黄晓梅,秦乐,饶鑫平
受保护的技术使用者:江西师范大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1163981.html

最新回复(0)