一种移动群智感知中在线用户选择的动态激励机制

专利检索2025-03-23  15


本发明涉及深度强化学习,尤其是一种移动群智感知中在线场景下针对选择优质用户完成感知任务的动态激励机制,具体是一种移动群智感知中在线用户选择的动态激励机制。


背景技术:

1、网络的快速发展和移动终端设备(如智能手机和汽车)的广泛普及,移动群智感知mcs(mobile crowd sensing,简称mcs)已经成为一种新的感知和计算架构,mcs是一种利用智能手机和移动设备进行数据收集和分析的方法。mcs利用大量用户的参与,通过他们的设备感知器收集数据,这些数据可以用于地理位置、环境、交通、社会活动等各种领域的分析和研究,mcs在城市规划、环境监测、交通管理、灾害预警等领域有着广泛的应用,可以提供实时的、多维度的数据,帮助决策者更好地理解和解决问题,一个基本的mcs平台通常包括一个基于云的系统和一组智能手机或移动用户,平台可以发布一组不同目的的感知任务,移动用户积极参与执行相应的任务,因此,mcs在灵活性、便捷性和可扩展性方面比传统感知网络具有更优越的优势,传统的mcs任务通常依赖于一个集中的第三方平台来管理任务和匹配具有一致兴趣的参与者。

2、mcs系统包括两个角色:服务供应商sp(server provider,简称sp)和移动用户mu(mobile users,简称mu),服务供应商招募移动用户来执行群体感知任务,自愿参与的移动用户将获取感知数据并执行任务,然而,移动用户在参与任务时会消耗自己的计算和通信资源。任务执行往往会在服务提供方面产生许多资源成本,如电池电量、计算能力等,以及由于收集到的数据通常包含个人的应用数据以及用户移动的时空信息,此外,当感知数据与自己的敏感信息一起提交时,移动用户可能面临潜在的隐私威胁,隐私威胁来自用户工作场所、个人资料和行为数据的泄露。隐私风险会降低用户参与任务的意愿。因此,除非获得足够的报酬且mcs系统的互惠性和可信度得到保证,否则移动用户不会接受参与性任务。理性的用户不会接受感知任务并做出贡献,因此,设计一种有效的激励机制对于服务供应商以合理的成本鼓励高数据质量的移动用户参与mcs任务至关重要,为如何在满足任务发起者的资金预算约束的前提下,确定合适的奖励来招募感知任务mu,从而提高数据质量,是mcs环境中的关键问题。

3、目前,现有mcs结合动态激励机制的研究主要集中在线下场景,在选择优质用户和计算成本时,假设平台知道所有用户的信息,对在线场景的研究较少。实际的mcs通常是在线场景,平台在用户与平台建立连接之前不知道用户的信息。同时,移动用户随意连接平台,随时会断开连接。现有技术中平台知道所有用户的信息,在现实场景中,只有当用户与平台建立连接时,平台才能获得用户的信息,且没有考虑到用户的移动性。

4、强化学习rl(reinforcement learning,简称rl)及其扩展到多智能体强化学习marl(multiple agent reinforcement learning,简称marl)可以克服这一限制。强化学习在具有大状态空间的复杂决策问题中具有很大的潜力。marl进一步挖掘了合作任务的潜力,并在与dota 2和星际争霸ii的世界冠军的竞争中证明了自己的优势。除了游戏设置之外,rl还被应用于车辆操作,例如车队操作,旅行商问题和动态路由游戏。


技术实现思路

1、本发明的目的是针对现有技术的不足,而提供一种移动群智感知中在线用户选择的动态激励机制。这种动态激励机制使sp能够直接从历史经验中学习优质用户选择策略,而无需知道所有用户的信息,且在在线场景中兼顾用户的移动性,这种动态激励机制建立在平衡供应商成本和用户参与度的基础上,在线选择优质用户,最大化在线优质用户的任务完成率。

2、实现本发明目的的技术方案是:

3、一种移动群智感知中在线用户选择的动态激励机制,包括如下步骤:

4、1)供应商向平台上传任务,对在线场景进行建模,该场景包含k个时隙t={t1,t2,...,tk},首先,平台发布了m个感知任务s={s1,s2,...,sm},其中,所有感知任务位置都是已知的,并且均匀分布在感知范围中,在任务开始时平台发布任务,并将持续整个过程,因此,每个任务sj都有一个属性lj,lj表示任务sj需要完成的位置,并且s中所有任务的位置信息都是平台已知的,根据历史数据,假设在整个mcs过程中总共有n个移动用户u={u1,u2,...,un},选中用户后,该用户将进入服务时间,服务时间是指用户被选中后的一段时间,在服务期间,用户将继续移动并完成其所在范围内的所有任务,目标是在成本预算的约束下,选择一组优质移动用户,使所有任务的tcpt最大化;

5、2)平台将感知任务交给移动用户执行;

6、3)移动用户接收到步骤2)的感知任务后执行感知任务,并将感知数据提交给平台,一旦平台接收到完成的感知数据,平台根据感知数据得到数据质量、用户信誉和投票得分,平台对用户贡献进行评分;

7、4)平台根据步骤3)的评分结果从移动用户中选择优质移动用户集;

8、5)平台将感知任务分配给优质移动用户集在线优质用户,在在线场景下,在线优质用户随机连接平台,并随时断开连接,因此,当用户连接到平台时,平台应该立即决定是否选择该用户,平台通过在线优质用户的位置预判用户完成任务的概率,用户ui当前在位置a时,在时间t后在位置b的概率为:

9、

10、第一种情况是最终位置与初始位置不同,即a≠b,第二种情况是最终位置是初始位置,即a=b;

11、对于每个用户ui,用户在服务时间(ti,ti+τi)至少执行一次任务sj的概率为:

12、

13、其中li为用户ui连接平台时的当前位置,lj为任务sj所需的位置,表示用户ui从初始时间ti的初始位置li出发,在时间t到达任务位置lj的概率,

14、优质用户集合中所有用户至少执行一次任务sj的概率为:

15、

16、假设表示计算当前用户参与度时未执行的任务集,其中,s随时间变化,则s中所有任务的总完成概率表示为:

17、

18、其中,将在线优质用户选择问题建模为:

19、

20、

21、

22、φ表示被选中优质用户,每个被选中优质用户都是从优质移动用户集中选出的,γj(φ)表示φ中所有被选中优质用户完成任务sj的概率,因此,表示所有任务的总完成概率,约束条件(2)表示所有被选中优质用户都是从在线的优质移动用户集合u中选择的,约束条件(3)限制所有被选中优质用户的总出价即成本;

23、将在线优质用户选择问题近似为马尔可夫决策过程mdp(markov decisionprocess,简称mdp),使所有任务的总完成概率tcpt(total completion probability forall tasks,简称tcpt)最大化,将mdp设计为软演员评论家算法sac-dim(soft actorcritic-dynamic incentive mechanism,简称sac-dim),具体相应mdp的状态、行动和奖励定义如下:

24、状态空间:系统的状态由用户ui在时隙t的参与度用户出价和用户当前的状态三个部分组成,因此,状态st在时隙t表示为一个元组

25、动作空间:选择完成任务用户的决策由代理在每个时隙决定,定义mdp在时隙t选择的用户为

26、奖励函数:为了学习mcs模型的在线优质用户选择激励机制策略,尝试在用户的参与度即任务完成率和任务成本之间进行权衡,将即时奖励定义为r(st,at)=ω1γ(t)-ω2b(t);

27、上述软演员评论家算法sac-dim,sac-dim算法结合了离线策略和最大熵,由于从重放缓冲区r中采样的批数据可以被重用,离线策略的采样效率很高,能够实现策略的稳定性和探索性;

28、6)在线优质用户提交感知数据,并上传参与任务的成本;

29、7)服务供应商在收到用户提的交感知数据后向平台支付奖励;

30、8)平台根据用户提的感知数据质量分配奖励并更新用户数据质量。

31、步骤3)中,所述的评估移动用户贡献过程如下:

32、将数据质量、用户信誉和投票得分线性组合形成uti,j(·),用于评估移动用户贡献:

33、uti,j(di,j,d-i,j)=qi,j(·)+ti,j(·)+r(·)-c·di,j

34、

35、其中qi,j(·),ti,j(·)和r(·)是平台对用户中任意用户ui的感知数据di,j给出的质量、信誉和奖励度量函数,c·di,j表示执行感知任务所消耗的各种资源的成本,包括功耗、感知时间,c为用户消耗的单位资源成本。

36、本技术方案提供基于深度强化学习drl(deep reinforcement learning,简称drl)的动态激励机制(dynamic incentive mechanism,dim)。动态激励机制使sp能够直接从历史经验中学习优质用户选择策略,而无需知道所有用户的信息,且在在线场景中兼顾用户的移动性,这种动态激励机制建立在平衡供应商成本和用户参与度的基础上,在线选择优质用户,最大化移动用户的任务完成率。


技术特征:

1.一种移动群智感知中在线用户选择的动态激励机制,其特征在于,包括如下步骤:

2.根据权利要求1所述的移动群智感知中在线用户选择的动态激励机制,其特征在于,步骤3)中,所述的评估移动用户贡献过程如下:


技术总结
本发明公开了一种移动群智感知中在线用户选择的动态激励机制,第一个阶段是观察阶段,平台将部分任务分配给用户,获取用户信息并评估用户上传的数据质量,输出优质用户集;第二个阶段是选择阶段,平台根据选择标准从用户中选择在线优质用户。这种动态激励机制使SP能够直接从历史经验中学习优质用户选择策略,而无需知道所有用户的信息,且在在线场景中兼顾用户的移动性,这种动态激励机制建立在平衡供应商成本和用户参与度的基础上,在线选择优质用户,最大化在线优质用户的任务完成率。

技术研发人员:石贞奎,朱聪
受保护的技术使用者:广西师范大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1151367.html

最新回复(0)