本发明属于电磁频谱分配智能决策模型,具体涉及一种电磁频谱分配智能决策模型对抗攻击方法。
背景技术:
1、根据思科(cisco)的数据,全球移动数据流量经历了迅猛增长,频谱扩展对于应对这种指数级数据流量增长至关重要。然而,目前频谱短缺使得无线运营商很难获得足够的具有独占所有权的许可频段。另一方面,来自学术界和工业界的实验测试和调查显示,联邦通信委员会(fcc)的静态频谱分配政策导致了分配的许可频段的低利用率。这促使fcc重新考虑当前的静态频谱分配政策,并采用动态频谱访问(dsa)以提高频谱利用率。
2、为了实现dsa用户和主用户之间的频谱共存,迄今为止引入了许多策略,可以分为两种主要的频谱访问机制。
3、第一种是先听后说(lbt),也称为交织方案,其中只有当检测到频段可用时,次用户(su)才能访问频段。尽管这种方案可以有效地避免对主用户的强干扰,但dsa用户访问共享频段的机会可能相当有限。这是因为在lbt中,频谱访问完全取决于当前的频谱感知结果。在现实中,由于无线环境的随机性、su之间的有限/无合作以及其他实际因素,频谱感知永远无法完美。这将导致误报警或错过对pus活动的检测,从而使su在频道访问方面做出不恰当的决策。
4、第二种频谱访问方案是频谱共享,也称为下行方案。在这种方案中,次用户与主用户共存于共享频段,并调整其发送功率水平,使主用户所经历的累积干扰低于可容忍的干扰阈值。该方案需要一个强大的假设,即次用户的发射机和主用户的接收机之间的信道状态信息是预先已知的,以便进行功率控制。然而,在现实中,通常很难在没有中央控制器的情况下获取这些信道状态信息。即使存在中央控制器,交换这些信道状态信息可能会对底层网络造成沉重的控制开销,难以在实践中实施。
技术实现思路
1、为了克服上述现有技术存在的不足,本发明的目的在于提供一种电磁频谱分配智能决策模型对抗攻击方法,该方法具有攻击性有效、伪装性强、动态自适应攻击的特点。
2、为了实现上述目的,本发明采用的技术方案是:
3、一种电磁频谱分配智能决策模型对抗攻击方法,包括以下步骤;
4、步骤1:初始状态时,频谱分配算法首先从中央频谱控制环境中获取状态s,跳转步骤2;
5、步骤2:快速梯度符号的攻击算法根据攻击是否有效进行动态选择是否对分配算法进行攻击,若是则跳转至步骤3,否则跳转至步骤4;
6、步骤3:基于快速梯度符号的攻击方法对状态s进行对抗样本的制作,得到状态样本s′,跳转至步骤4;
7、步骤4:将状态样本输入至频谱感知进行状态信息的特征编码,跳转至步骤5;
8、步骤5:将经过频谱感知进行特征编码后的状态向量输入至dqn+rc网路中,得到动作a,返回给中央频谱控制环境,直至频谱分配完毕,本发明提出的电磁频谱分配智能决策模型对抗攻击算法终止。
9、最终,经过上述步骤,本发明提出的基于快速梯度符号的频谱分配对抗性攻击算法得到的结果是可以自适应动态决策是否发起有效且隐蔽性好的对抗性攻击。
10、在本发明中,将分布式动态频谱访问问题形式化为一个强化学习问题。定义了动态频谱访问环境中的agent(代理)、state(状态)、action(动作)、reward(奖励)和policy(策略)。频谱访问策略是由深度q网络和当前频谱感知结果决定的。
11、所述步骤1中,只需要接受来自中央频谱控制环境返回的状态即可。中央频谱控制环境是算法交互需要。
12、所述步骤2中的具体计算过程中,为了保证攻击的有效性和不易被检测性,采用了战略定时攻击:提出了一种只在重要时刻进行攻击的战略定时攻击方法,为了确定给定状态的重要性,比较最佳动作和最差动作的概率a*和aw;
13、假设,概率之间的较大差异意味着当前时间步骤非常重要,这种差异被形式化为一个动作偏好函数c(s);因此,只有当这个函数c(s)达到某个阈值β时,才会执行对抗攻击;由于在受害者方使用的是dqn,将网络估计的q值转换为概率,使用温度常数t=1,得到
14、
15、其中,a′∈a代表所有可能的动作。通过以上c(s)的确定,即可得到攻击的时刻,以上判断是否攻击的过程全部集成在基于快速梯度符号的攻击算法中。
16、所述步骤3中的快速梯度符号的攻击方法用作分布式动态频谱分配网络中次用户之间有效干扰协调的鲁棒性测试,通过该方法,多个次用户可以进行有效的干扰协调,以避免频谱资源的冲突和竞争,从而提高整体网络性能。
17、针对攻击方面,采用具有攻击隐蔽性的战略定时攻击方法去干扰用户的感知状态,使得dsa系统在存在欺骗的环境中进行对抗性的分布式频谱访问决策;本发明提出的快速梯度符号策略(fgsm),fgsm利用神经网络的梯度来创建一个对抗样本,对于输入的图像,该方法使用损失相对于输入图像的梯度来创建一个新的图像,使损失最大化。
18、adv_st=st+∈*sign(q(st,at)) (5)。
19、所述步骤4中的具体计算过程,由于原始的状态s数据分布差距过大,所以需要对其进行特征编码将其映射到分布相似的高级特征向量,具体而言,对于是否执行攻击的状态s,都需要将其经过两层多层感知机进行状态信息的特征编码,将编码后的特征向量作为下一阶段的输入即可。
20、所述步骤5中,dqn+rc网路用于避免对主用户(pu)造成干扰的多优先级频谱智能接入系统,该方法可确保次用户(su)在频谱资源分配过程中避免对主用户造成干扰,从而保证网络的可靠性和正常运行;
21、在本发明中,通过研究机器学习方法,以获得用于dsa网络的人工智能支持的频谱访问策略。为了减少底层dsa网络的控制开销,采用强大的机器学习技术——深度强化学习(drl),使次用户能够在分布式方式下学习“适当”的频谱访问策略,假设没有关于底层系统统计的知识。此外,利用一种特殊类型的循环神经网络,称为蓄水池计算(rc),利用dsa网络的时间相关性来实现drl。
22、具体而言,开发了基于drl和rc的动态频谱访问方案,以促进dsa系统进行适当的频道访问,旨在保护主用户免受有害干扰,并避免与其他次用户的冲突。所述dqn网络中的智能体即为频谱接入用户(主用户和次用户),dqn网络中的智能体即为频谱接入用户(主用户和次用户),在dqn网络训练过程中,加入rc算法,公式如下所示:
23、score=num*2+task*4 (1)
24、具体来说,其中num表示用户编号1,2,3…m,task表示a、b、c三个任务等级;2、4表示两者的影响权重;
25、使用编号乘2,任务乘4,使得任务紧急程度高但是编号优先级低的情况也能够抢占成功,增加了抢占成功例子的多样性,score值低的优先级高,其中task所遵循的概率分布约束为:
26、
27、根据频谱访问策略,次用户(sus)访问无线信道进行数据传输,然后,次用户的接收器根据实际的无线传输质量提供反馈奖励,这些奖励将被次用户的发射器存储,并用作dqn+rc的训练数据,以更新频谱访问策略,上述学习过程将定期进行,以应对无线环境的变化。
28、有一组{1,2,...,n}个正交信道和一组{1,2,...,l}个次用户(sus)。每个信道都被一个主用户(pu)占用,每个主用户处于两种状态之一:非活跃(1)或活跃(0),处于非活跃状态的主用户意味着次用户访问相应的信道,而处于活跃状态的主用户意味着次用户不能访问相应的信道,因为主用户正在使用它,每个主用户活动的动态被描述为一个二状态马尔可夫链,第n个信道上的二状态马尔可夫链的转移概率表示为
29、
30、在每个时隙的开始,每个次用户对所有n个信道进行频谱感知,以检测信道的状态。假设时隙t的频谱感知结果为s(t)=[s1(t),…,sl(t)];
31、其中sl(t)∈0,1是一个n维向量[s1(t),…,sl(t)]表示第l个次用户在第n个信道上的感知状态。频谱感知探测器并不完美,因此sl(t)可能包含误差,设第l个次用户在第n个信道上的感知错误概率为
32、
33、其中tn(t)是第n个信道的真实状态。信道的转移概率和感知误差概率对于次用户来说都是未知的。第l个次用户所知道的唯一信息是表示环境中观测到的状态和dqn的输入。
34、在进行频谱感知后,每个次用户根据感知结果决定是否访问最多一个信道或保持空闲。第l个次用户的动作表示为
35、al(t)∈{0,…,n} (3)
36、其中al(t)=n(n>0)表示第l个次用户决定在时隙t访问第n个信道,而al(t)=0表示第l个次用户决定在时隙t不访问任何信道。
37、如果一个次用户访问的信道当前没有任何主用户或其他次用户正在使用,那么该次用户不会受到任何干扰。可达到的数据传输速率,即log2(1+sinr/γ),被用作奖励函数。其余情况采用-c的奖励。
38、dqn的更新过程采用时序差分更新,即最大化自己的折扣奖励:
39、
40、本发明的有益效果:
41、本发明提供一种适应对抗攻击的学习范式,该学习范式利用基于机器学习和攻击算法的联合训练,使次用户能够根据自身当前和过去的频谱感知结果,在存在诡变或欺诈的环境中进行抗干扰的分布式频谱访问决策,从而减少与主用户和其他次用户的碰撞机会。简而言之,该学习范式使次用户能够具备适应性学习的能力,以在不知道底层系统统计信息的情况下或者被部分信息干扰的情况下,学习到适合当前环境的频谱访问策略。
42、本发明提出了基于多智能体对抗攻击的强化学习频谱智能接入系统的设计以及实验结果的细致分析。通过讨论不同信道分配方法的优点、局限性以及抗攻击稳定性对比实验,展现了学习型算法在这一实际应用中的潜力。
43、本发明利用dqn算法,能够在多智能体对抗攻击的环境中实现频谱资源的高效管理和分配。对系统性能指标、安全性要求和频谱资源管理优化的深入理解。该方法能够在频谱资源稀缺和对抗攻击的环境中实现高效的资源管理和分配。
44、综上所述,电磁频谱分配智能决策模型对抗攻击方法具有重要的研究和应用价值。该在实际应用中,该方法可以应用于无线通信网络、物联网和5g等领域。有望提高频谱资源的利用效率,降低通信成本,并增强系统的安全性和鲁棒性。鼓励进一步研究和实验,以推动该方法在实际场景中的应用和推广。
1.一种电磁频谱分配智能决策模型对抗攻击方法,其特征在于,包括以下步骤;
2.根据权利要求1所述的一种电磁频谱分配智能决策模型对抗攻击方法,其特征在于,所述步骤1中,频谱分配算法只需要接受来自中央频谱控制环境返回的状态即可。
3.根据权利要求1所述的一种电磁频谱分配智能决策模型对抗攻击方法,其特征在于,所述步骤2中的具体计算过程中,采用战略定时攻击,只在重要时刻进行攻击的战略定时攻击方法,比较最佳动作和最差动作的概率a*和aw;
4.根据权利要求1所述的一种电磁频谱分配智能决策模型对抗攻击方法,其特征在于,所述步骤3中的快速梯度符号的攻击方法用作分布式动态频谱分配网络中次用户之间有效干扰协调的鲁棒性测试;
5.根据权利要求1所述的一种电磁频谱分配智能决策模型对抗攻击方法,其特征在于,所述步骤4中的具体计算过程,对原始的状态s数据进行特征编码将其映射到分布相似的高级特征向量,具体而言,对于是否执行攻击的状态s,都需要将其经过两层多层感知机进行状态信息的特征编码,将编码后的特征向量作为下一阶段的输入即可。
6.根据权利要求1所述的一种电磁频谱分配智能决策模型对抗攻击方法,其特征在于,所述步骤5中,dqn网络中的智能体即为频谱接入用户(主用户和次用户),dqn网络中的智能体即为频谱接入用户(主用户和次用户),在dqn网络训练过程中,加入rc算法,公式如下所示:
7.根据权利要求6所述的一种电磁频谱分配智能决策模型对抗攻击方法,其特征在于,有一组{1,2,...,n}个正交信道和一组{1,2,...,l}个次用户(sus),每个信道都被一个主用户(pu)占用,每个主用户处于两种状态之一:非活跃(1)或活跃(0),处于非活跃状态的主用户意味着次用户访问相应的信道,而处于活跃状态的主用户意味着次用户不能访问相应的信道,每个主用户活动的动态被描述为一个二状态马尔可夫链,第n个信道上的二状态马尔可夫链的转移概率表示为
8.根据权利要求7所述的一种电磁频谱分配智能决策模型对抗攻击方法,其特征在于,在进行频谱感知后,每个次用户根据感知结果决定是否访问最多一个信道或保持空闲,第l个次用户的动作表示为
9.根据权利要求8所述的一种电磁频谱分配智能决策模型对抗攻击方法,其特征在于,如果一个次用户访问的信道当前没有任何主用户或其他次用户正在使用,那么该次用户不会受到任何干扰,可达到的数据传输速率,即log2(1+sinr/γ),被用作奖励函数,其余情况采用-c的奖励;