本发明属于数据分析,更具体的,涉及一种基于大数据的智慧监督模型构建方法与系统。
背景技术:
1、在现代社会,随着科技的发展和数据生成量的剧增,传统的犯罪侦查和分析方法面临着重大挑战。传统方法通常依赖人工收集和分析数据,这不仅耗时耗力,而且在处理大规模数据时效率极低。同时,由于犯罪手段的不断演变和复杂化,传统方法在识别新型犯罪模式和构建犯罪网络方面显得力不从心。
2、为了应对这些挑战,近年来,基于大数据的智慧监督模型逐渐成为犯罪侦查和分析的重要工具。这类模型利用先进的数据处理技术,如数据挖掘、机器学习和自然语言处理,自动化地整合和分析来自不同来源的大量数据,包括财务记录、通话记录、社交媒体活动以及出行信息等。这些技术能够揭示数据之间的隐含关系,帮助执法人员追踪犯罪活动,识别犯罪嫌疑人,以及预测犯罪趋势。
3、尽管基于大数据的智慧监督模型在犯罪侦查领域展现出巨大潜力,但目前的技术实现仍存在一些缺陷。数据的质量和完整性直接影响分析结果的准确性。不准确或不完整的数据可能导致误判或遗漏重要线索。
技术实现思路
1、为解决现有技术中存在的不足,本发明的目的在于解决上述缺陷,进而提出一种基于大数据的智慧监督模型构建方法与系统。
2、本发明采用如下的技术方案。
3、本发明第一方面公开了一种基于大数据的智慧监督模型构建方法,包括步骤1~步骤4;
4、步骤1,搜集样本:搜集目标人物的多种类型的所有数据信息,包括:财务信息与社交信息与媒体信息,并对数据信息进行初始化处理,包括:数据信息的标准化处理;
5、步骤2,模型建立:训练所有数据信息,并建立最大二项堆网络模型;
6、步骤3,模型训练:基于交叉熵损失函数预测模型,并根据前馈网络更新最大二项堆网络模型的权重和偏置;
7、步骤4,结果反馈:根据训练好的模型对当前的数据信息进行预测,并得到最终的预测结果。
8、进一步的,每一条数据信息至少包括:时间戳、值与对方信息;对于流水数据,其值为流水数据的所涉及的金额;对于社交信息而言,其值为通话时长或者停留时间。
9、进一步的,步骤2具体包括步骤2.1~步骤2.7;
10、步骤2.1,根据结点的数据类型,计算出每一个结点在最大二项堆中的映射向量;
11、步骤2.2,计算任意结点关于任何类型数据信息的邻域特征向量;
12、步骤2.3,计算出所有类型的注意力分数;
13、步骤2.4,根据注意力分数,计算前后时间中任意两个结点之间的影响因子;
14、步骤2.5,基于预设的置信度阈值,对相同根源的结点进行合并;
15、步骤2.6,根据相同类型下前后时间中两个结点之间的影响因子,计算出每一种类型的特征向量;
16、步骤2.7,建立堆嵌入矩阵,从而建立最大二项堆网络模型。
17、进一步的,每一个结点在最大二项堆中的映射向量vk如下式所示:
18、
19、其中,为时间下ti下搜集到的第j种类型的结点所对应的值,uj为预设的权重学习矩阵,k=1,2,…,k,其中,k为结点的个数;
20、任意结点vk的邻域特征向量gk如下式所示:
21、
22、其中,vj为最大二项堆中类型为j的结点集合,其中,所述结点vk的数据信息的类型为j,ak为结点vk关联的堆矩阵,i为单位矩阵;
23、堆矩阵a如下式所示:
24、
25、其中,a11表示所述结点的第1个子结点(即深度最小的子结点)对应的值,而ah1则表示所述结点的第h个子结点(即深度最大的子结点)对应的值,aij表示a(i―1)j的关联的结点的第(j―i+1)个子结点对应的值,h表示结点的深度;
26、注意力分数fk如下式所示:
27、
28、其中,σ(·)表示激活函数,是第k种类型的预设的注意力向量,t表示向量的转置;
29、前后时间中两个结点分别为vi,vj,其之间的影响因子为如下式所示:
30、
31、其中,tij表示两个结点vi,vj的时间差;
32、置信度阈值c公式如下所示:
33、c=max(0.95,1―e1/(n―k))
34、其中,n为预设的结点数量上限;
35、第j种类型的加权特征向量zj如下式所示:
36、
37、
38、其中,σ(·)表示激活函数;
39、最大二项堆网络模型g如下式所示:
40、qj=wqzj
41、kj=wkzj
42、vj=wvzj
43、
44、其中,d是键向量的维度,wq,wk,wv为权重矩阵,qj,kj,vj分别是查询向量、键向量和值向量。
45、进一步的,交叉熵损失函数如下式所示:
46、
47、其中,i为样本数据的标号,yi是标签,y′i是模型预测的标签概率;
48、前馈网络可以表示为两层线性变换,这两层线性变换中有一个激活函数,对于自注意力层的每个输出位置ai,前馈网络可以如下式表示:
49、f(ai)=relu(aiw1+b1)w2+b2
50、其中,ai表示关联性强度向量中的第i个元素,w1,b1是第一层线性变换的权重和偏置,w2,b2是第二层线性变换的权重和偏置,relu为激活函数。
51、本发明第二方面公开了一种基于大数据的智慧监督模型构建系统,应用于第一方面所述的方法,系统包括:样本搜集模块与算法模块;
52、样本搜集模块用于搜集样本:搜集目标人物的多种类型的所有数据信息,包括:财务信息与社交信息与媒体信息;
53、算法模块用于对数据信息进行初始化处理,包括:数据信息的标准化处理;以及模型建立:训练所有数据信息,并建立最大二项堆网络模型;以及模型训练:基于交叉熵损失函数预测模型,并根据前馈网络更新最大二项堆网络模型的权重和偏置;以及结果反馈:根据训练好的模型对当前的数据信息进行预测,并得到最终的预测结果。
54、本发明第三方面公开了一种终端,包括处理器及存储介质;其特征在于:
55、所述存储介质用于存储指令;
56、所述处理器用于根据所述指令进行操作以执行第一方面所述方法的步骤。
57、本发明第四方面公开了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现第一方面所述方法的步骤。
58、本发明的有益效果在于,与现有技术相比,本发明具有以下优点:
59、基于二项堆网络模型,本发明创造性的提出了基于大数据的智慧监督模型构建方法与系统,利用数据信息的时间序列构建二项堆结构,其中,各项变量在不同时间点的数据信息构成二项堆结构的节点,而二项堆中的连线代表了测量数据之间的信息互动。与传统技术相比,该方案在两个层面上整合了深度学习网络的结构设计:一是从数据变量的视角,对不同数据类型之间的相互作用进行模型化,挖掘变量之间的内在联系;二是从时间序列的视角,对不同时间点的数据向量进行建模,探索了时间序列数据之间的互动关系。此外,该方案能够实现从头到尾的训练和学习过程,无需手动设置参数界限,增强了模型的适用性和泛化能力。
1.一种基于大数据的智慧监督模型构建方法,其特征在于,所述方法包括步骤1~步骤4;
2.根据权利要求1所述的一种基于大数据的智慧监督模型构建方法,其特征在于,每一条数据信息至少包括:时间戳、值与对方信息;对于流水数据,其值为流水数据的所涉及的金额;对于社交信息而言,其值为通话时长或者停留时间。
3.根据权利要求1所述的一种基于大数据的智慧监督模型构建方法,其特征在于,步骤2具体包括步骤2.1~步骤2.7;
4.根据权利要求3所述的一种基于大数据的智慧监督模型构建方法,其特征在于,每一个结点在最大二项堆中的映射向量vk如下式所示:
5.根据权利要求3所述的一种基于大数据的智慧监督模型构建方法,其特征在于,
6.一种基于大数据的智慧监督模型构建系统,应用于权利要求1~5任一所述的方法,其特征在于,所述系统包括:样本搜集模块与算法模块;
7.一种终端,包括处理器及存储介质;其特征在于:
8.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5任一项所述方法的步骤。