本公开涉及计算机,具体而言,涉及一种视频分类方法、装置、电子设备及存储介质。
背景技术:
1、目前,转换器(transformer)在自然语言处理和计算机视觉领域有着广泛的应用,在视频分类任务中,transformer取得了比传统卷积神经网络更好的准确率,视频转换器(video transformer)相对于传统的transformer来说,只使用了transformer网络结构中的编码(encoder)部分,可以很好地应用在视频分类任务中,但是通常输入的视频帧数较多,每个视频帧的图像大小也较大,这样将视频转换为标记(token)输入时,导致输入token的数量较大,需要的计算量就会较大,并且编码层中的softmax注意力还增加了二次复杂度,会导致视频转换器不能很好地支持太大的计算量,降低了视频分类的效率,因此如何有效地降低计算复杂度是非常有必要的。
技术实现思路
1、本公开实施例至少提供一种视频分类方法、装置、电子设备及存储介质。
2、第一方面,本公开实施例提供了一种视频分类方法,包括:
3、获取待处理视频;
4、通过已训练的目标分类网络的输入层,获得所述待处理视频分别对应的区域图像,以及所述区域图像的输入向量表示;
5、通过所述目标分类网络中编码层,对所述区域图像的输入向量表示基于线性注意力处理后再进行权重校准,基于校准后的权重,获得所述各视频帧分别对应的区域图像的目标特征向量,以使不同视频帧赋予不同的权重,权重值越高表示对于视频分类越重要;
6、根据所述各视频帧对应的权重校准后的目标特征向量,确定所述待处理视频的类别。
7、本公开实施例中,获取待处理视频;通过已训练的目标分类网络的输入层,获得所述各视频帧分别对应的区域图像,以及所述区域图像的输入向量表示;通过所述目标分类网络中编码层,对所述区域图像的输入向量表示基于线性注意力处理后再进行权重校准,基于校准后的权重,获得所述各视频帧分别对应的区域图像的目标特征向量,以使不同视频帧赋予不同的权重,权重值越高表示对于视频分类越重要;根据所述各视频帧对应的权重校准后的目标特征向量,确定所述待处理视频的类别,这样,对各视频帧基于线性注意力处理后再进行权重校准,基于校准后的权重获得目标特征向量,可以降低不重要特征的权重并提高重要特征的权重,以抑制无关特征,突出显著特征,从而可以提高最终视频分类的准确性,并且通过权重校准就可以实现对无关特征的抑制和突出显著特征,因此也不需要依赖softmax注意力的非线性处理,而可以采用线性注意力,可以降低softmax注意力带来的复杂度,提高了效率。
8、一种可选的实施方式中,通过已训练的目标分类网络的输入层,获得所述待处理视频分别对应的区域图像,以及所述区域图像的输入向量表示,包括:
9、基于已训练的目标分类网络,通过所述目标分类网络的输入层,对所述待处理视频中各视频帧进行切分,获得所述各视频帧分别对应的区域图像,并对所述各视频帧分别对应的区域图像进行向量映射,获得所述各视频帧分别对应的区域图像的输入向量表示;
10、通过所述目标分类网络中编码层,对所述区域图像的输入向量表示基于线性注意力处理后再进行权重校准,基于校准后的权重,获得所述各视频帧分别对应的区域图像的目标特征向量,以使不同视频帧赋予不同的权重,权重值越高表示对于视频分类越重要,包括:通过所述目标分类网络中编码层的归一化层,对所述各视频帧分别对应的区域图像的输入向量表示进行归一化处理,并通过所述编码层的线性注意力,对所述区域图像的归一化处理后的输入向量表示基于线性注意力处理后再进行权重校准,基于校准后的权重,获得所述各视频帧分别对应的区域图像的目标特征向量。
11、本公开实施例中,基于目标分类网络进行视频分类,并将传统的softmax注意力替换为线性注意力,可以有效降低复杂度,并且在计算线性注意力时,通过权重校准,来实现对不同重要程度的特征的区分,以克服线性注意力无法集中显著特征且抑制无关特征的缺点,提升了准确率。
12、一种可选的实施方式中,通过所述编码层的线性注意力,对所述区域图像的归一化处理后的输入向量表示基于线性注意力处理后再进行权重校准,基于校准后的权重,获得所述各视频帧分别对应的区域图像的目标特征向量,包括:
13、通过所述编码层的线性注意力,对所述区域图像的归一化处理后的输入向量表示分别进行线性变换,生成所述区域图像对应的初始查询向量、初始键向量和初始值向量;
14、对所述区域图像对应的初始查询向量和初始键向量进行去噪处理,获得所述区域图像对应的目标查询向量和目标键向量,以基于所述目标查询向量和所述目标键向量获得对应区域图像的校准后的权重;
15、根据所述目标查询向量和所述目标键向量,以及所述初始值向量,获得所述各视频帧分别对应的区域图像的目标特征向量。
16、这样,本公开实施例中,对线性注意力中的初始查询向量和初始键向量进行去噪处理,以实现对各视频帧的权重校准,可以有效抑制无关特征,并且突出显著特征。
17、一种可选的实施方式中,对所述区域图像对应的初始查询向量和初始键向量进行去噪处理,获得所述区域图像对应的目标查询向量和目标键向量,包括:
18、基于预设核函数,分别对所述区域图像对应的初始查询向量和初始键向量进行核函数处理,获得对应的核函数处理后的初始查询向量和核函数处理后的初始键向量;
19、根据核函数处理后的初始查询向量和核函数处理后的初始键向量,以及训练参数,获得所述区域图像对应的目标查询向量和目标键向量。
20、这样,本公开实施例中,针对核函数处理后的初始查询向量和核函数处理后的初始键向量,进行去噪处理,进而获得目标查询向量和目标键向量,在去噪时,先通过核函数处理,而不是直接针对初始查询向量和初始键向量,可以避免网络训练中的内存溢出情况。
21、一种可选的实施方式中,根据核函数处理后的初始查询向量和核函数处理后的初始键向量,以及训练参数,获得所述区域图像对应的目标查询向量和目标键向量,包括:
22、分别针对每个区域图像,获得核函数处理后的初始查询向量与第一训练参数的第一乘积;
23、将所述第一乘积通过预设激活函数处理后,与所述核函数处理后的初始查询向量进行点乘,获得对应的目标查询向量;
24、获得核函数处理后的初始键向量与第二训练参数的第二乘积;
25、将所述第二乘积通过预设激活函数处理后,与所述核函数处理后的初始键向量进行点乘,获得对应的目标键向量。
26、这样,本公开实施例中,基于训练学习到的第一训练参数和第二训练参数和激活函数处理,学习特征通道之间的非线性交互,可以自适应进行权重分配,以便更好地识别不同特征的重要性,并且保持重要特征不变而抑制不重要特征。
27、一种可选的实施方式中,根据核函数处理后的初始查询向量和核函数处理后的初始键向量,以及训练参数,获得所述区域图像对应的目标查询向量和目标键向量,包括:
28、分别针对每个区域图像,将核函数处理后的初始查询向量和核函数处理后的初始键向量进行拼接,获得拼接向量;
29、获得所述拼接向量与第三训练参数的第三乘积;
30、将所述第三乘积通过预设激活函数处理后,与所述核函数处理后的初始查询向量进行点乘,获得对应的目标查询向量;
31、获得所述拼接向量与第四训练参数的第四乘积;
32、将所述第四乘积通过预设激活函数处理后,与所述核函数处理后的初始键向量进行点乘,获得对应的目标键向量。
33、这样,本公开实施例中,在去噪时,还可以通过拼接方式增加初始查询向量和初始键向量之间的联系,从而可以更加有效地识别不同特征的重要程度,进一步提高准确率。
34、一种可选的实施方式中,对所述区域图像对应的初始查询向量和初始键向量进行去噪处理之前,还包括:
35、对所述区域图像对应的初始键向量和初始值向量进行空间平移操作,获得所述区域图像对应的键空间特征和值空间特征;
36、对所述区域图像对应的键空间特征和值空间特征进行时序平移操作,获得所述区域图像对应的键时空特征和值时空特征,以对所述键时空特征进行去噪。
37、本公开实施例中,还可以在时间和空间维度上分别进行时序平移操作和空间平移操作,可以有效融合局部信息,实现局部信息的强化,进一步提高视频分类的准确性。
38、一种可选的实施方式中,根据所述各视频帧对应的权重校准后的目标特征向量,确定所述待处理视频的类别,包括:
39、将所述各视频帧分别对应的区域图像的目标特征向量,通过所述编码层的归一化层并通过所述编码层的前馈神经网络,获得所述各视频帧分别对应的区域图像的隐藏向量表示;
40、根据所述各视频帧分别对应的区域图像的隐藏向量表示,通过所述目标分类网络的输出层,获得所述待处理视频的类别。
41、本公开实施例中,通过线性注意力获得目标特征向量后,再通过归一化层和前馈神经网络,进而输入至输出层,实现对待处理视频的分类,获得待处理视频的类别,降低复杂度同时还保证了视频分类的准确性。
42、第二方面,本公开实施例还提供一种视频分类装置,包括:
43、获取模块,用于获取待处理视频;
44、第一处理模块,用于通过已训练的目标分类网络的输入层,获得所述待处理视频分别对应的区域图像,以及所述区域图像的输入向量表示;
45、第二处理模块,用于通过所述目标分类网络中编码层,对所述区域图像的输入向量表示基于线性注意力处理后再进行权重校准,基于校准后的权重,获得所述各视频帧分别对应的区域图像的目标特征向量,以使不同视频帧赋予不同的权重,权重值越高表示对于视频分类越重要;
46、第三处理模块,用于根据所述各视频帧对应的权重校准后的目标特征向量,确定所述待处理视频的类别。
47、一种可选的实施方式中,通过已训练的目标分类网络的输入层,获得所述待处理视频分别对应的区域图像,以及所述区域图像的输入向量表示,第一处理模块用于:
48、基于已训练的目标分类网络,通过所述目标分类网络的输入层,对所述待处理视频中各视频帧进行切分,获得所述各视频帧分别对应的区域图像,并对所述各视频帧分别对应的区域图像进行向量映射,获得所述各视频帧分别对应的区域图像的输入向量表示;
49、通过所述目标分类网络中编码层,对所述区域图像的输入向量表示基于线性注意力处理后再进行权重校准,基于校准后的权重,获得所述各视频帧分别对应的区域图像的目标特征向量,以使不同视频帧赋予不同的权重,权重值越高表示对于视频分类越重要,第二处理模块用于:
50、通过所述目标分类网络中编码层的归一化层,对所述各视频帧分别对应的区域图像的输入向量表示进行归一化处理,并通过所述编码层的线性注意力,对所述区域图像的归一化处理后的输入向量表示基于线性注意力处理后再进行权重校准,基于校准后的权重,获得所述各视频帧分别对应的区域图像的目标特征向量。
51、一种可选的实施方式中,通过所述编码层的线性注意力,对所述区域图像的归一化处理后的输入向量表示基于线性注意力处理后再进行权重校准,基于校准后的权重,获得所述分别各视频帧对应的区域图像的目标特征向量时,第二处理模块用于:
52、通过所述编码层的线性注意力,对所述区域图像的归一化处理后的输入向量表示分别进行线性变换,生成所述区域图像对应的初始查询向量、初始键向量和初始值向量;
53、对所述区域图像对应的初始查询向量和初始键向量进行去噪处理,获得所述区域图像对应的目标查询向量和目标键向量,以基于所述目标查询向量和所述目标键向量获得对应区域图像的校准后的权重;
54、根据所述目标查询向量和所述目标键向量,以及所述初始值向量,获得所述各视频帧分别对应的区域图像的目标特征向量。
55、一种可选的实施方式中,对所述区域图像对应的初始查询向量和初始键向量进行去噪处理,获得所述区域图像对应的目标查询向量和目标键向量时,第二处理模块用于:
56、基于预设核函数,分别对所述区域图像对应的初始查询向量和初始键向量进行核函数处理,获得对应的核函数处理后的初始查询向量和核函数处理后的初始键向量;
57、根据核函数处理后的初始查询向量和核函数处理后的初始键向量,以及训练参数,获得所述区域图像对应的目标查询向量和目标键向量。
58、一种可选的实施方式中,根据核函数处理后的初始查询向量和核函数处理后的初始键向量,以及训练参数,获得所述区域图像对应的目标查询向量和目标键向量时,第二处理模块用于:
59、分别针对每个区域图像,获得核函数处理后的初始查询向量与第一训练参数的第一乘积;
60、将所述第一乘积通过预设激活函数处理后,与所述核函数处理后的初始查询向量进行点乘,获得对应的目标查询向量;
61、获得核函数处理后的初始键向量与第二训练参数的第二乘积;
62、将所述第二乘积通过预设激活函数处理后,与所述核函数处理后的初始键向量进行点乘,获得对应的目标键向量。
63、一种可选的实施方式中,根据核函数处理后的初始查询向量和核函数处理后的初始键向量,以及训练参数,获得所述区域图像对应的目标查询向量和目标键向量时,第二处理模块用于:
64、分别针对每个区域图像,将核函数处理后的初始查询向量和核函数处理后的初始键向量进行拼接,获得拼接向量;
65、获得所述拼接向量与第三训练参数的第三乘积;
66、将所述第三乘积通过预设激活函数处理后,与所述核函数处理后的初始查询向量进行点乘,获得对应的目标查询向量;
67、获得所述拼接向量与第四训练参数的第四乘积;
68、将所述第四乘积通过预设激活函数处理后,与所述核函数处理后的初始键向量进行点乘,获得对应的目标键向量。
69、一种可选的实施方式中,对所述区域图像对应的初始查询向量和初始键向量进行去噪处理之前,第二处理模块还用于:
70、对所述区域图像对应的初始键向量和初始值向量进行空间平移操作,获得所述区域图像对应的键空间特征和值空间特征;
71、对所述区域图像对应的键空间特征和值空间特征进行时序平移操作,获得所述区域图像对应的键时空特征和值时空特征,以对所述键时空特征进行去噪。
72、一种可选的实施方式中,根据所述各视频帧对应的权重校准后的目标特征向量,确定所述待处理视频的类别时,第三处理模块用于:
73、将所述各视频帧分别对应的区域图像的目标特征向量,通过所述编码层的归一化层并通过所述编码层的前馈神经网络,获得所述各视频帧分别对应的区域图像的隐藏向量表示;
74、根据所述各视频帧分别对应的区域图像的隐藏向量表示,通过所述目标分类网络的输出层,获得所述待处理视频的类别。
75、第三方面,本公开可选实现方式还提供一种电子设备,包括处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器用于执行所述存储器中存储的机器可读指令,所述机器可读指令被所述处理器执行时,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
76、第四方面,本公开可选实现方式还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
77、关于上述视频分类装置、电子设备、及计算机可读存储介质的效果描述参见上述视频分类方法的说明,这里不再赘述。
78、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开的技术方案。
79、为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
1.一种视频分类方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,通过已训练的目标分类网络的输入层,获得所述待处理视频分别对应的区域图像,以及所述区域图像的输入向量表示,包括:
3.根据权利要求1或2所述的方法,其特征在于,通过所述编码层的线性注意力,对所述区域图像的归一化处理后的输入向量表示基于线性注意力处理后再进行权重校准,基于校准后的权重,获得所述各视频帧分别对应的区域图像的目标特征向量,包括:
4.根据权利要求3所述的方法,其特征在于,对所述区域图像对应的初始查询向量和初始键向量进行去噪处理,获得所述区域图像对应的目标查询向量和目标键向量,包括:
5.根据权利要求4所述的方法,其特征在于,根据核函数处理后的初始查询向量和核函数处理后的初始键向量,以及训练参数,获得所述区域图像对应的目标查询向量和目标键向量,包括:
6.根据权利要求4所述的方法,其特征在于,根据核函数处理后的初始查询向量和核函数处理后的初始键向量,以及训练参数,获得所述区域图像对应的目标查询向量和目标键向量,包括:
7.根据权利要求2-6任一项所述的方法,其特征在于,对所述区域图像对应的初始查询向量和初始键向量进行去噪处理之前,还包括:
8.根据权利要求1-7任一项所述的方法,其特征在于,根据所述各视频帧对应的权重校准后的目标特征向量,确定所述待处理视频的类别,包括:
9.一种视频分类装置,其特征在于,包括:
10.一种电子设备,其特征在于,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器用于执行所述存储器中存储的机器可读指令,所述机器可读指令被所述处理器执行时,所述处理器执行如权利要求1至8任一项所述的视频分类方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时,所述处理器执行如权利要求1至8任一项所述的视频分类方法的步骤。