一种识别TLS协议加密传输的TwitterHLS视频的方法

专利检索2025-04-10  8


本发明涉及一种识别tls协议加密传输的twitterhls视频的方法,属于计算机网络安全。


背景技术:

1、根据2023年的sandvine报告,全球互联网流量在最近一年增长了23%,并且预计这一增长趋势将持续下去。值得注意的是,在这种背景下,视频使用量同期增长了24%,目前已经占据了整个互联网流量的65%。视频的传播已不再局限于传统视频服务提供商,而是扩展到包括会议、游戏、社交媒体网络等不同领域。特别是在社交媒体网络中,由于其卓越的人际交流功能,成为了视频传播的的重要平台。

2、由于社交媒体网络中视频来源的随机性和多样性,加上技术的限制,导致审核无法覆盖所有视频,国家网络监管部门迫切需要一种能够准确识别加密传播的有害视频的技术,以应对这些视频在网络空间和社会中带来的极大不良影响。

3、twitter作为全球领先的社交媒体平台之一,其加密视频传输技术在全球社交媒体平台的发展中扮演着关键角色。进行对twitter平台加密视频的识别研究不仅能够有效监管twitter平台,还有助于积累加密视频监管技术,为在社交媒体平台升级加密视频传输技术时及时进行有害视频监管提供了有力支持。此技术还具有推广应用的潜力,可扩展到其他基于hls流媒体技术,使用http/2协议和tls协议进行视频数据加密传输的非社交媒体平台。

4、目前已公开的文献中,识别加密视频的方法主要采用机器学习和深度学习技术。然而,这些方法大多局限于在特定网络条件下以及顺序播放情况下对加密视频的识别,未充分考虑网络波动和跳转播放对识别结果的影响。现有识别方法主要存在以下三个问题:(1)现有方法通过在固定网络条件下提取加密视频传输数据的数据特征,然后通过机器学习或深度学习进行加密视频识别。然而,这种特征过度依赖于特定的网络环境,难以适应实际中多变的网络环境引起的特征变化;(2)传统的机器学习和深度学习方法需要大量采集、标记视频流量数据,并使用这些训练数据训练模型,这既耗时费力,也极大地限制了可识别视频的数量;(3)快节奏的生活方式使得用户往往会跳转到视频的感兴趣部分进行观看,打乱了顺序播放时的数据特征。然而,现有方法只能准确识别顺序播放的加密视频,对于跳转播放的视频识别能力较为有限。新的专利技术旨在克服这些问题,提供更具适应性和准确性的加密视频识别方法。


技术实现思路

1、为解决上述问题,本发明公开了一种识别tls协议加密传输的twitterhls视频的方法。该方法首先针对twitter平台,通过自动化程序获取视频的url;其次,基于twitter视频所采用的hls流媒体技术,使用自动化程序采集视频的明文指纹数据,构建twitter视频明文指纹库;随后,在网络链路的中间节点捕获加密传输的视频数据流,提取出加密视频片段,并对这些片段进行tls协议干扰和http/2协议干扰的修正,从而形成加密视频片段修正长度序列;最后,以twitter视频明文指纹库为基础,利用隐马尔科夫模型进行加密视频匹配,计算匹配结果的得分,将得分最高的明文指纹对应的视频描述信息作为加密视频的识别结果。本发明具备出色的鲁棒性,可应用于在网络中间节点上准确识别多变的网络环境和复杂的播放模式下的twitter平台的加密视频内容。

2、为了实现本发明的目的,本方案具体技术步骤如下:一种识别tls协议加密传输的twitter hls视频的方法,针对使用http/2协议结合tls1.2、tls1.3协议加密传输的twitter视频,所述方法包括以下步骤:

3、步骤(1)通过自动化url采集技术,自动获取twitter视频的url;

4、步骤(2)基于twitter视频采用的hls流媒体技术,利用自动化视频明文指纹采集技术,自动采集twitter视频的明文信息,提取视频明文指纹数据,建立twitter视频明文指纹库;

5、步骤(3)运用自动化视频加密传输数据流采集技术,自动捕获twitter视频播放时的加密传输数据流并存储;

6、步骤(4)对步骤(3)中采集的加密传输数据流进行预处理,提取出加密视频片段;

7、步骤(5)对步骤(4)中提取的加密视频片段进行tls协议干扰修正;

8、步骤(6)对步骤(5)中的修正结果进行http/2协议干扰修正,构建加密视频片段修正长度序列;

9、步骤(7)以twitter视频明文指纹库为基础,利用隐马尔科夫模型进行加密视频匹配,并保存匹配结果;

10、步骤(8)汇总步骤(7)中的匹配结果,计算各视频明文指纹得分,将得分最高的视频明文指纹的描述信息作为加密视频识别的结果。

11、进一步的,所述步骤(1)具体包含以下子步骤:

12、(1.1)通过信息浏览搜集twitter热门搜索标签;

13、(1.2)设计自动化采集程序,根据twitter热门搜索标签搜索视频,获取视频列表,并采集视频url。

14、进一步,所述步骤(2)中,视频的明文指纹是指视频片段的明文长度序列,而视频的索引文件中则记录了这些视频的明文指纹信息。在使用hls流媒体技术的播放场景中,视频在服务端会经过vbr编码技术编码成多个不同分辨率的版本,每个分辨率的视频都会被切割成时长相等的视频片段。同一分辨率的视频片段信息会被保存在二级m3u8索引文件中,不同分辨率的二级m3u8索引文件则存储在一级m3u8文件中。这些视频片段的长度和序列与视频内容密切相关,表现出极高的稳定性,因此,可以作为用于识别加密视频的视频明文指纹。所述步骤(2)包含以下子步骤:

15、(2.1)编写自动化采集程序,根据视频url,获取一级m3u8索引文件和视频描述信息;

16、(2.2)解析一级m3u8索引文件,获取二级m3u8索引文件的相对路径,构造二级m3u8索引文件的url,通过该url下载二级m3u8索引文件;

17、(2.3)解析二级m3u8索引文件,提取视频片段的相对路径,构建视频片段的url,通过这些url解析获取视频片段的长度信息;

18、(2.4)基于获得的视频片段的长度信息,生成视频明文指纹,并将视频明文指纹及其他描述信息共同存入twitter视频明文指纹数据库中。

19、进一步的,所述步骤(3)包含以下子步骤:

20、(3.1)判断步骤(2)获得的视频明文指纹对应的视频是否存在,若存在,则进入步骤(3.2),否则,进入步骤(3.6);

21、(3.2)判断推文中是否同时存在多个视频,若不存在,则进入步骤(3.3),否则,进入步骤(3.6);

22、(3.3)判断评论区是否存在视频,若存在,则进入步骤(3.4),否则,进入步骤(3.5);

23、(3.4)通过网页标签及其顺序定位到推文中的视频;

24、(3.5)开始加密流量采集,然后播放视频,视频播放完后结束采集并存储加密视频流,进入步骤(3.7);

25、(3.6)记录出错的url,并删除url列表中的相关url;

26、(3.7)检查待采集视频url列表是否为空,若不为空,则进入步骤(3.1)以进行下一个视频的数据采集,否则完成采集流程。

27、进一步的,所述步骤(4)中,由于采用了http/2协议的多路复用技术,在当前hls流媒体技术的视频内容分发机制中,实际播放视频时,客户端连续请求多个视频片段,服务端则连续响应这些请求,因此,必须精确划分视频片段。所述步骤(4)包含以下子步骤:

28、(4.1)根据加密tcp数据流的tls连接时握手信息“client hello”中包含的服务器sni信息“video.twimg.com”,提取出加密视频数据流,并滤除大小过小的数据包;

29、(4.2)基于tcp数据包的明文头部和tls记录中的明文头部信息精确划分加密视频片段。

30、进一步的,所述步骤(5)中,tls协议干扰是指在数据传输过程中,tls协议对视频片段长度产生的影响。当视频片段进入网络链路进行传输时,tls协议会执行一系列操作,包括切分、压缩、加密和填充等,同时添加相应的协议头部和控制信息,以确保视频片段在加密的情况下稳定可靠地传输。然而,这些tls协议的操作会使视频片段的数据长度发生变化。因此,为了实现加密数据修正的还原目标,需要从实际传输负载长度中减去添加的所有额外控制信息的长度。所述步骤(5)包含以下子步骤:

31、(5.1)对于步骤(4)获取的加密视频片段,可以得到如下公式:

32、payload_tlslen=payloadlen-tls_nlen×ntls

33、其中,payload_tlslen代表修正tls协议干扰后的加密视频片段长度,payloadlen代表加密视频片段长度,tls_nlen代表单个tls记录在承载传输数据后引入的长度变化,即单个tls记录对所承载的传输数据的长度偏移量,ntls代表tls记录的数量;

34、(5.2)根据步骤(4)得到的tls记录组成的加密视频片段,获取(5.1)公式中的payloadlen、和ntls参数;

35、(5.3)对于tls1.2协议tls_nlen的长度为29,对于tls1.3协议tls_nlen的长度为22;

36、(5.4)对步骤(4)提取出的每个加密视频片段对应的tls记录都减去tls偏移量tls_nlen。

37、进一步的,所述步骤(6)中,http/2协议干扰是指在数据传输过程中,http/2协议对视频片段长度产生的影响。基于http/2协议传输视频片段时,http/2协议将http负载数据封装为若干个data帧,并在最前面添加http头部。因此,视频片段在通过http/2协议传输时,实际传输的数据长度会产生偏移。为了克服http/2协议对视频片段的干扰,需要计算http头部的统计平均值和承载视频片段的data帧的数量。本发明采用随机森林模型来计算承载视频片段的data帧的数量。所述步骤(6)包含以下子步骤:

38、(6.1)取出部分http头部单独成为一个tls记录的加密视频片段和其对应的去除掉tls协议干扰的tls记录序列的第一个tls记录,该tls记录长度就是http头部的长度,计算http头部长度的统计平均值作为http头部与加密数据被混合在一个tls记录中的加密视频片段的http头部长度;

39、(6.2)取出部分http头部单独成为一个tls记录的加密视频片段和其对应的去除掉tls协议干扰的tls记录序列,并获取加密视频片段对应的明文数据,根据以下公式计算加密视频片段对应的http/2data帧的个数,

40、nhttp/2=(payload_tlslen-http2h-originlen)/http2_fhlen

41、其中,nhttp/2表承载加密视频片段数据的http/2data帧的个数,payload_tlslen代表修正tls协议干扰后的加密视频片段长度,http2h代表加密视频片段数据的http头部长度,originlen代表加密视频片段对应的明文数据长度,http2_fhlen代表http/2帧头部的长度,根据rfc 7540可知,其大小固定为9个字节;

42、(6.3)将加密视频片段对应的http/2data帧的个数nhttp/2作为标签,修正tls协议干扰后的加密视频片段长度序列作为特征,训练随机森林模型;

43、(6.4)使用训练好的随机森林模型计算每个传输视频长度的tls记录序列中所包含的http/2data帧的个数;

44、(6.5)将步骤(5)得到的修正tls协议干扰的加密视频片段长度再去除http头部和http/2data帧头部的长度,就可以得到加密视频片段修正长度,即:

45、segment_rlen=payload_tlslen-http2h-nhttp/2×http2_fhlen

46、其中,segment_rlen代表加密视频片段修正还原后的数据长度,payload_tlslen代表修正tls协议干扰后的加密视频片段长度,http2h代表加密视频片段数据的http头部长度,nhttp/2代表承载加密视频片段数据的http/2data帧的个数,http2_fhlen代表http/2帧头部的长度,根据rfc 7540可知,其大小固定为9个字节;

47、(6.6)将修正还原出的加密视频片段长度的序列作为加密视频片段修正长度序列。

48、进一步的,所述步骤(7)中,计算状态转移矩阵所使用的数据源于在不同情境下的数据采集,包括稳定网络下按顺序播放、网络波动下按顺序播放,以及实验者根据个人喜好跳转播放未观看过和已观看过的视频。本发明采用维特比算法来求解隐马尔科夫模型,以获得概率最大的加密视频片段对应的明文指纹组合,作为识别的结果。所述步骤(7)包含以下子步骤:

49、(7.1)将待识别视频的加密视频片段修正长度序列作为观测序列,每个修正长度作为一个输出状态;

50、(7.2)将步骤(2)得到的twitter视频明文指纹库作为隐含状态序列;

51、(7.3)基于采集的数据进行统计分析,并根据古德图灵估计计算状态转移矩阵,使用如下公式计算:

52、

53、其中,st为t时刻的隐含状态,st-1为t-1时刻的隐含状态;

54、(7.4)计算发射概率矩阵,根据http头部的正态分布中关于均值的n倍标准差内的数据覆盖的概率来设置某一时刻的不同隐含状态转移为观测状态的发射概率,使用如下公式计算:

55、

56、其中,xt为t时刻的观测状态,st为t时刻的隐含状态;

57、(7.5)计算初始状态矩阵,在视频指纹匹配中,所有状态的先验概率是相同的,因此,将初始状态矩阵设置为一个常数矩阵;

58、(7.6)根据(7.1)-(7.5)得到的两个状态集合和三个概率矩阵构建隐马尔可夫模型。

59、(7.7)利用(7.6)得到的隐马尔科夫模型进行加密视频片段修正长度序列与视频明文指纹库的匹配,将匹配结果保存。

60、进一步的,所述步骤(8)包含以下子步骤:

61、(8.1)对步骤(7)中加密视频片段修正长度序列的匹配结果进行统计,计算每个匹配的明文指纹的得分;

62、(8.2)从视频明文指纹数据库中提取得分最高的明文指纹对应的视频描述信息,作为加密视频识别的结果。

63、与现有技术相比,本发明的技术方案具有以下有益技术效果:

64、(1)本发明针对使用http/2协议搭配tls协议加密传输的twitterhls视频,http/2是世界主流的传输协议,tls协议是被广泛应用的加密传输协议,hls是apple公司提出的基于http的流媒体传输协议,twitter是全球领先的社交媒体平台之一,twitter应用hls技术提供流媒体视频。本发明顺应这些协议的基本运行逻辑,还原出几乎与原始视频片段相同的视频片段长度,实现了对twitter视频的精确识别;

65、(2)本发明所提出的一种识别tls协议加密传输的twitterhls视频的方法的技术思路可以为监管其他社交媒体平台提供有益的借鉴意义,能够为网络监管部门在网络中间节点监管社交媒体平台中的有害视频提供强有力的技术支撑;

66、(3)本发明所提出的一种识别tls协议加密传输的twitterhls视频的方法具有较强的泛用性,适用于所有使用http/2协议搭配tls协议传输的hls视频。其优越性在于能够克服复杂的网络环境和播放模式对加密视频识别的影响,实现在复杂的网络环境和播放模式下对加密视频的精确识别。这使得本发明技术在各种应用场景中都能取得良好的效果。


技术特征:

1.一种识别tls协议加密传输的twitterhls视频的方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种识别tls协议加密传输的twitterhls视频的方法,其特征在于,所述步骤(1)包含以下子步骤:

3.根据权利要求1所述的一种识别tls协议加密传输的twitterhls视频的方法,其特征在于,所述步骤(2)包含以下子步骤:

4.根据权利要求1所述的一种识别tls协议加密传输的twitterhls视频的方法,其特征在于,所述步骤(3)包含以下子步骤:

5.根据权利要求1所述的一种识别tls协议加密传输的twitterhls视频的方法,其特征在于,所述步骤(4)包含以下子步骤:

6.根据权利要求5所述的一种识别tls协议加密传输的twitterhls视频的方法,其特征在于,所述步骤(5)包含以下子步骤:

7.根据权利要求1所述的一种识别tls协议加密传输的twitterhls视频的方法,其特征在于,所述步骤(6)包含以下子步骤:

8.根据权利要求1所述的一种识别tls协议加密传输的twitterhls视频的方法,其特征在于,所述步骤(7)包含以下子步骤:

9.根据权利要求1所述的一种识别tls协议加密传输的twitterhls视频的方法,其特征在于,所述步骤(8)包含以下子步骤:


技术总结
本发明公开了一种识别TLS协议加密传输的TwitterHLS视频的方法,利用自动化URL采集技术获取待识别Twitter视频的URL;基于Twitter使用的HLS流媒体技术和这些采集到的URL,运用自动化视频明文指纹采集技术获取待识别Twitter视频的明文指纹数据,从而建立Twitter视频明文指纹库;基于采集到的视频URL,利用自动化视频加密传输流量采集技术,获取待识别Twitter视频的加密传输流量;借助视频片段长度还原技术对加密传输视频流量进行精确还原,得到加密视频片段修正长度序列;通过加密视频识别技术,以Twitter视频明文指纹库为基础,利用隐马尔科夫模型识别加密视频。通过视频明文指纹识别由HLS技术分发的基于HTTP/2协议和TLS协议的Twitter平台加密视频,可应用于复杂的网络环境和播放模式,具有较好的泛化性能。

技术研发人员:吴桦,赵航宇,程光
受保护的技术使用者:东南大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1152244.html

最新回复(0)