危险品检测方法、装置、计算机设备和存储介质与流程

专利检索2022-05-10  12



1.本技术涉及图像识别技术领域,特别是涉及一种危险品检测方法、装置、计算机设备和存储介质。


背景技术:

2.随着安检技术的提高和安检设备的普及,越来越多的场所中部署有用于进行安全检查的安检机。
3.在传统技术中,在获取待识别物品的x光图像后,可以利用预先训练的深度学习模型提取图像中待检测物品对应的物品特征,并通过分类器对物品特征进行识别,生成对应的识别结果,确定其是否为危险品。
4.然而,传统的深度学习模型中难以从图像中准确获取待检测物品的有效信息,对危险品的识别效率不高。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种危险品检测方法、装置、计算机设备和存储介质。
6.一种危险品检测方法,所述方法包括:
7.获取待识别的安检对象对应的x光安检对象图像;
8.将所述x光安检对象图像输入到训练好的危险品识别模型中,以通过所述危险品识别模型中的双线性卷积神经网络确定所述x光安检对象图像中的最优显著性区域,并基于所述最优显著性区域获取所述安检对象是否为危险品的预测结果;所述最优显著性区域为反映所述安检对象细节特征的图像区域;
9.根据所述危险品识别模型输出的预测结果,确定所述安检对象是否为危险品。
10.在其中一个实施例中,还包括:
11.获取待识别物品对应的x光训练图像及其标签,并将所述x光训练图像输入到待训练的分类网络模型,以通过所述分类网络模型中的双线性卷积神经网络确定所述x光训练图像中的显著性区域,并基于所述显著性区域获取所述待识别物品是否为危险品的预测结果;
12.调整用于确定所述显著性区域的显著性区域参数,并根据各组显著性区域参数对应的预测结果,确定出最优的显著性区域参数;
13.固定最优的显著性区域参数,再次执行所述将所述x光训练图像输入到待训练的分类网络模型,并根据所述预测结果和所述标签,调整所述显著性区域参数以外的模型参数;
14.当满足切换条件时,切换为对显著性区域参数的调整,交替调整所述显著性区域参数和所述模型参数,直到满足训练结束条件,得到危险品识别模型。
15.在其中一个实施例中,所述调整用于确定所述显著性区域的显著性区域参数,包
括:
16.确定当前的用于确定所述显著性区域的显著性区域参数;
17.获取状态转移概率和状态转移方向;
18.根据所述状态转移概率和状态转移方向,调整当前的显著性区域参数。
19.在其中一个实施例中,所述根据所述状态转移概率和状态转移方向,调整当前的显著性区域参数,包括:
20.根据所述状态转移概率和状态转移方向,确定当前的根策略和叶策略;所述根策略用于确定显著性区域参数的调整方向,所述叶策略用于确定显著性区域的调整幅度;
21.根据所述根策略和叶策略,调整当前的显著性区域参数。
22.在其中一个实施例中,所述根据所述状态转移概率和状态转移方向,确定当前的根策略和叶策略,包括:
23.根据所述状态转移概率和状态转移方向,调整所述叶策略,得到多组候选叶策略,当所述根策略固定时,获取多个候选叶策略各自对应的叶奖励,并根据多个叶奖励,从多组候选叶策略中确定最优的叶策略;
24.根据所述状态转移概率和状态转移方向,调整所述根策略,得到多组候选根策略,当最优的叶策略固定时,获取多个候选根策略各自对应的根奖励,并根据多个根奖励,从多组候选根策略中确定最优的根策略;
25.再次执行所述调整所述叶策略,交替调整最优的叶策略和最优的根策略,直到满足训练结束条件,得到目标叶策略和目标根策略。
26.在其中一个实施例中,所述获取待识别的安检对象对应的安检对象图像,包括:
27.获取待检测包裹对应的x光图像;
28.生成所述x光图像对应的掩膜图片,并确定所述掩膜图片中的感兴趣区域;
29.确定感兴趣区每个像素对应的分类标记,并根据所述分类标记对各个像素进行聚类,得到聚类结果;
30.根据所述聚类结果确定所述x光图像中待识别的安检对象对应的x光安检对象图像。
31.在其中一个实施例中,所述根据所述危险品识别模型输出的预测结果,确定所述安检对象是否为危险品,包括:
32.若所述危险品识别模型输出的预测结果为危险品,则获取所述安检对象对应的光谱数据;
33.基于所述光谱数据和预先建立的危险品光谱数据库,确定所述安检对象是否为危险品;所述危险品光谱数据库包括不同类型的危险品和各危险品对应的光谱数据。
34.一种危险品检测装置,所述装置包括:
35.图像获取模块,用于获取待识别的安检对象对应的x光安检对象图像;
36.图像识别模块,用于将所述x光安检对象图像输入到训练好的危险品识别模型中,以通过所述危险品识别模型中的双线性卷积神经网络确定所述x光安检对象图像中的最优显著性区域,并基于所述最优显著性区域获取所述安检对象是否为危险品的预测结果;所述最优显著性区域为反映所述安检对象细节特征的图像区域;
37.危险品识别模块,用于根据所述危险品识别模型输出的预测结果,确定所述安检
对象是否为危险品。
38.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上任一项所述方法的步骤。
39.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述方法的步骤。
40.上述危险品检测方法、装置、计算机设备和存储介质,可以获取待识别的安检对象对应的x光安检对象图像,将x光安检对象图像输入到训练好的危险品识别模型中,通过危险品识别模型中的双线性卷积神经网络确定所x光安检对象图像中的最优显著性区域,并基于最优显著性区域获取安检对象是否为危险品的预测结果,根据危险品识别模型输出的预测结果,确定安检对象是否为危险品,通过确定图像中最能反映安检对象细节特征的图像区域,并基于该区域进行预测,既可以快速准确识别出危险品,又可以提高危险品的识别效率,降低检测识别误差。
附图说明
41.图1为一个实施例中一种危险品检测方法的应用环境图;
42.图2为一个实施例中一种危险品检测方法的流程示意图;
43.图3为一个实施例中一种马尔科夫模型的模型结构示例图;
44.图4为一个实施例中一种危险品检测装置的结构框图;
45.图5为一个实施例中计算机设备的内部结构图。
具体实施方式
46.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
47.本技术提供的一种危险品检测方法,可以应用于如图1所示的应用环境中,在该应用环境中,终端102可以通过网络与服务器104进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备和x光安检机,终端102可以配置有图像采集装置,用于获取待识别的安检对象对应的x光图像。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
48.在一个实施例中,如图2所示,提供了一种危险品检测方法,以该方法应用于图1中的服务器104为例进行说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。具体地,可以包括以下步骤:
49.步骤201,获取待识别的安检对象对应的x光安检对象图像。
50.作为一示例,待识别的安检对象可以是独立的、以单独分割出来的待识别物体。待识别的安检对象可以是行李、包裹、背包等可收纳其他物件的物体,也可以是液体或无法确定具体构造或成分的物体,例如不明液体、不明固体粉末等。
51.在具体实现中,终端可以配置有图像采集装置,并通过图像采集装置获取安检过程中采集到的x光图像,在获取x光图像时,图像采集装置可以运用双能x光多视觉穿透技术对摆放在安检机中的物体进行透射检测,进而获取到x光图像。终端在获取到x光图像后,可
以将该图像上传到服务器,以使服务器获取到待识别的安检对象对应的x光安检对象图像。
52.步骤202,将所述x光安检对象图像输入到训练好的危险品识别模型中,以通过所述危险品识别模型中的双线性卷积神经网络确定所述x光安检对象图像中的最优显著性区域,并基于所述最优显著性区域获取所述安检对象是否为危险品的预测结果。
53.作为一示例,最优显著性区域为反映安检对象细节特征的图像区域。
54.双线性卷积网络可以是指包含两个特征提取器的卷积神经网络,双线性卷积神经网络的输出经过外积相乘、池化后获得图像特征描述(image descriptor)。在传统的双线性卷积网络中,可以包含两个模型:局部模型和整体模型。其中,局部模型可以先对图像局部定位,然后提取定位区域对应的特征,获得图像特征描述。整体模型则可以直接构造整幅图像的图像特征描述。然而,局部模型提取到的图像特征描述通常会随着图像拍摄的位置、姿态及视角的改变而改变,而整体模型,若对训练图像进行局部标注,模型训练代价高、耗时长,并且某些类没有明确定义的局部特征,难以同时兼顾准确性和时效性。
55.而在本实施例中,在获取到x光安检对象图像后,可以将x光安检对象图像输入到预先训练好的危险品识别模型中,通过危险品识别模型中的双线性卷积神经网络确定x光安检对象图像中的最优显著性区域,并基于最优显著性区域获取安检对象是否为危险品的预测结果。
56.在实际应用中,危险品识别模型也可以称为细粒度分类模型,可进行细粒度识别和细粒度分类。其中,细粒度分类可以指对同一父类下的多个子类进行识别区分,由于同一父类下各个子类之间的差别,小于不同父类之间的差别,因此在进行细粒度分类时,分类识别过程更加细致。危险品识别模型在分析x光安检对象图像的过程中,可以对图像中高度局部化、且与图像中姿态及位置无关的特征进行识别。
57.步骤203,根据所述危险品识别模型输出的预测结果,确定所述安检对象是否为危险品。
58.在获取到危险品识别模型输出的预测结果后,则可以基于该预测结果,确定案件对象是否为危险品。具体而言,若危险品识别模型确定安检对象为非危险品,则可以确定安检对象为非危险品。若危险品识别模型确定安检对象为危险品,则可以确定安检对象为危险品,或者,在安检对象被危险品识别模型确定为危险品后,可以对安检对象作进一步识别,避免错误检测。
59.在本实施例中,可以获取待识别的安检对象对应的x光安检对象图像,将x光安检对象图像输入到训练好的危险品识别模型中,通过危险品识别模型中的双线性卷积神经网络确定所x光安检对象图像中的最优显著性区域,并基于最优显著性区域获取安检对象是否为危险品的预测结果,根据危险品识别模型输出的预测结果,确定安检对象是否为危险品,通过确定图像中最能反映安检对象细节特征的图像区域,并基于该区域进行预测,既可以快速准确识别出危险品,又可以提高危险品的识别效率,降低检测识别误差。
60.在一个实施例中,所述获取待识别的安检对象对应的x光安检对象图像,可以包括如下步骤:
61.获取待检测包裹对应的x光图像;生成所述x光图像对应的掩膜图片,并确定所述掩膜图片中的感兴趣区域;确定感兴趣区每个像素对应的分类标记,并根据所述分类标记对各个像素进行聚类,得到聚类结果;根据所述聚类结果确定所述x光图像中待识别的安检
对象对应的x光安检对象图像。
62.在实际应用中,终端可以通过图像采集装置获取待检测包裹对应的x光图像,并将x光图像上传到服务器进行处理。具体而言,当终端为双能x光射线多视觉安检机时,其中的图像采集装置可以通过内置的射线源透射待检测包裹,由数据接收装置收集待检测包裹x光图像对应的图像数据,暂存在存储区域,随后可以上传到服务器。
63.由于待检测包裹中往往会存在叠放在一起的物品,导致传统的深度学习模型无法准确获取到待检测物的有效信息,其检测结果仍然存在较大检测和识别错误的风险。而在本实施例中,在获取到待检测包裹对应的x光图像后,服务器可以基于掩膜技术对获取到的x光图像进行图像分割,得到一个或多个安检对象。具体地,服务器可以生成x光图像对应的掩膜图片,并获取掩膜图片中的感兴趣区域。在确定感兴趣区域后,可以对感兴趣区中的像素进行分类标记,确定每个像素对应的分类标记,例如可以预先设置有a、b、c三个类别,每个类别对应一物体,对感兴趣区中的像素进行标记时,可以标记像素属于a、b、c中的哪一个类别。
64.在对各个像素进行分类比较后,则可以根据每个像素对应的分类标记,对各个像素进行聚类,得到聚类结果,具体地,可以将具有相同分类标记的像素划分为同一物体的像素,进而可以根据聚类结果确定x光图像中一个或多个待识别的安检对象,以及各个安检对象对应的x光安检对象图像。在一示例中,在进行聚类时,可以聚类算法将各个像素分组到不同的安检对象中。
65.在完成聚类后,还可以采用密集滑动窗口法,将当前得到的一个或多个案件对象分割出来。
66.在本实施例中,可以获取待检测包裹对应的x光图像,生成x光图像对应的掩膜图片,并确定掩膜图片中的感兴趣区域,确定感兴趣区每个像素对应的分类标记,并根据分类标记对各个像素进行聚类,得到聚类结果,根据聚类结果确定x光图像中待识别的安检对象对应的x光安检对象图像,实现了图像中叠放物品的物品分离,针对安检过程中被叠放在一起的检测物,能够有效地分割出单独的安检对象,并分别对每个安检对象进行识别,提高危险品的识别准确性。
67.在一个实施例中,所述根据所述危险品识别模型输出的预测结果,确定所述安检对象是否为危险品,可以包括如下步骤:
68.若所述危险品识别模型输出的预测结果为危险品,则获取所述安检对象对应的光谱数据;基于所述光谱数据和预先建立的危险品光谱数据库,确定所述安检对象是否为危险品。
69.其中,危险品光谱数据库包括不同类型的危险品和各危险品对应的光谱数据,光谱数据可以包括光谱强度和光谱的峰值特征。
70.在识别危险品时,还可以结合核密度法和光谱技术,基于核密度法和能量的衰落原理,利用不同介质接收射线的能量不同,得到危险品接收射线能量与介质密度的对应关系。在实际应用中,可以获取多种不同类型的危险品对应的光谱数据。具体地,利用光谱分析仪获取危险品对应的光谱数据,进而可以基于多种危险品对应的光谱数据,构建危险品光谱数据库。
71.在将x光安检对象图像输入到危险品识别模型后,若危险品识别模型确定待识别
的安检对象为危险品,则可以进一步获取该安检对象对应的光谱数据,例如通过快速光谱分析仪获取光谱数据。在得到安检对象对应的光谱数据后,可以与预先建立的危险品光谱数据库进行比对,并根据比对结果确定安检对象是否为危险品。
72.具体而言,危险品识别模型在确定待识别的安检对象是否为危险品的同时,可以确定安检对象具体的类型,当危险品识别模型确定待识别的安检对象为危险品时,还可以输出该安检对象对应的危险品类型。在获取到危险品类型后,可以根据该危险品类型在光谱数据库中查询到该危险品类型对应的光谱数据,并确定该光谱数据是否与安检对象的光谱数据匹配,若匹配,则可以确定待识别的安检对象为危险品。若不匹配,则可以通过人工进行相关检测。
73.在本实施例中,若危险品识别模型输出的预测结果为危险品,则获取安检对象对应的光谱数据,基于光谱数据和预先建立的危险品光谱数据库,确定安检对象是否为危险品,能够在识别出危险品时结合光谱技术再次确认,有效提高危险品识别的准确率。
74.在一个实施例中,所述方法还可以包括如下步骤:
75.步骤301,获取待识别物品对应的x光训练图像及其标签,并将所述x光训练图像输入到待训练的分类网络模型,以通过所述分类网络模型中的双线性卷积神经网络确定所述x光训练图像中的显著性区域,并基于所述显著性区域获取所述待识别物品是否为危险品的预测结果。
76.在实际应用中,可以获取待识别物品对应的x光训练图像及其标签,其中,待识别物品可以是危险品或非危险品。危险品可以包括以下至少一种:易燃易爆物品或液体、毒品粉末、稀有金属、枪械、刀具;非危险品可以包括以下至少一种:衣服、手机、书本、背包、无害金属。待识别物品对应的标签可以指示待识别物品的物品名称和危险等级,例如“剪刀,低危险”“砍刀,高危险”。在一示例中,针对x光训练图像,可以对训练集中的数据进行尺度变换。
77.在获取到x光训练图像和标签后,可以将x光训练图像输入到待训练的分类网络模型,通过分类网络模型中的双线性卷积神经网络确定x光训练图像中的显著性区域,并基于显著性区域获取待识别物品是否为危险品的预测结果。
78.具体地,在开始训练分类网络模型时,用户可以预先设置待训练的分类网络模型的超参数,并初始化分类网络模型中的权值和阈值。其中,超参数作为一个参数,其可以是一个未知变量,但是超参数不同于通过模型训练得到的参数,超参数可以是对模型训练过程中得到的参数有影响的参数,主要由用户人工输入,并作出调整,以便优化训练模型的效果。在具体实现中,超参数可以包括学习率、批次大小和迭代次数。
79.学习率作为监督学习以及深度学习中重要的超参数,可以决定目标函数能否收敛到局部最小值以及何时收敛到最小值。合适的学习率能够使目标函数在合适的时间内收敛到局部最小值。在模型训练过程中,针对学习率的调整,可以从相对较大的学习率开始,因为在模型开始训练时,初始的随机权重远离最优值,随着训练推进,学习率可以下调,以允许权重更新。
80.批次大小(batch_size)是指使用训练集中的预设数量的训练样本对模型权重进行一次反向传播的参数更新,预设数量对应的训练样本被称为“一批数据”。使用训练数据集中的全部训练样本对模型进行一次完整训练,被称之“一代训练”(epoch)。
81.迭代次数是指对模型进行参数更新的次数,每使用预设数量的训练样本进行一次参数更新,即被称之“一次训练”。在进行模型训练时,当测试错误率和训练错误率相差较小,且测试准确率趋于稳定时,对应的迭代次数可以达到最优;当测试错误率先变小后变大时则可以确定迭代次数过大,需要减小迭代次数,否则存在出现过拟合的可能。
82.在模型训练过程中,设置合适的批次大小可以提高内存利用率,同时,令到大矩阵乘法的并行化效率提高,完成一次epoch所需的迭代次数减少,从而可以在相同数据量下,进一步加快处理速度。实际应用中,batch_size越大,采用梯度下降(gradient descent gd)方法时其确定的下降方向越准,能够减小引起的训练震荡。其中,梯度下降是一种寻找目标函数最小化的方法,它利用梯度信息,通过不断迭代调整参数来寻找合适的目标值。
83.在一实施例中,分类网络模型中的双线性卷积神经网络可以包括并行特征提取层,并行特征提取层可以采用卷积神经网络vgg16的第一卷积层至第五卷积层,其中,第一卷积层至第五卷积层输出的特征从细节特征向语义特征注意力过渡,在第五卷积层的后面可以通过外积操作获得一个双线性向量,然后连接全连接层,并在输出上进行最大化操作,实现对x光训练图像的识别与分类。在一示例中,卷积层可以是全卷积层,在全卷积层中,输出特征图的每个神经元与输入的所有神经元连接。分类网络模型中的每个卷积层都可以确定图像中的显著性区域,对数据集中的每个数据,利用优化的显著性区域和第五卷积层的特征,可以得到最终融合的结果,该结果可用于进行危险品识别和分类。
84.步骤302,调整用于确定所述显著性区域的显著性区域参数,并根据各组显著性区域参数对应的预测结果,确定出最优的显著性区域参数。
85.在获取预测结果后,可以对网络分类模型中用于确定x光训练图像中显著性区域的显著性区域参数进行调整,并确定在不同的显著性区域下对应的预测结果,例如,可以将相同的x光训练图像分别输入到具有不同显著性区域参数的分类网络模型中。在确定各组显著性区域对应的预测结果后,可以多个预测结果和输入的x光训练图像的标签,确定出最优的显著性区域参数。
86.步骤303,固定最优的显著性区域参数,再次执行所述将所述x光训练图像输入到待训练的分类网络模型,并根据所述预测结果和所述标签,调整所述显著性区域参数以外的模型参数。
87.在确定最优显著性区域参数后,可以固定当前最优的显著性区域参数,并再次执行步骤301,将新的x光训练图像输入到待训练的分类网络模型中,获取分类网络模型输出的预测结果,进而可以根据预测结果和标签,对分类网络模型中显著性区域参数以外的其他模型参数进行调整。
88.在调整分类网络模型除显著性区域参数以外的其他模型参数时,可以基于预先构建的损失函数和梯度下降法进行调整,其中,损失函数可以是指能够将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数,在一示例中,损失函数可以定义为标签与预测结果的误差平方和。
89.步骤304,当满足切换条件时,切换为对显著性区域参数的调整,交替调整所述显著性区域参数和所述模型参数,直到满足训练结束条件,得到危险品识别模型。
90.在调整显著性区域参数以外的模型参数时,若检测到当前满足切换条件,则可以固定当前的显著性区域参数以外的模型参数,并再次对显著性区域参数进行调整,重复上
述过程,以交替调整显著性区域参数和模型参数,满足训练结束条件,得到危险品识别模型,例如,当训练误差小于预设的阈值时,可以确定满足训练结束条件。
91.在本实施例中,通过交替训练分类网络模型中的显著性区域参数以及除显著性区域参数以外的模型参数,可以得到能够准确识别出图像显著性区域的危险品识别模型,为快速准确地识别出危险品提供模型基础。
92.在一示例中,在进行模型训练时,针对显著性区域,可以设置的参数包括:折扣率γ,衰减因子λ,迭代的轮数每个迭代对应的最大时间步t,学习率α,探索率ε。
93.在一实施例中,在训练分类网络模型时,可以针对不同的类别的危险品和非危险品分别进行训练,即一个分类网络模型可以识别出一种危险品或非危险品对应x光图像中的显著性区域。在得到多种危险品和非危险品各自对应的分类网络模型后,可以将多个分类网络模型进行融合,得到可以同时识别出多种物品对应的显著性区域的危险品识别模型。
94.在一个实施例中,所述调整用于确定所述显著性区域的显著性区域参数,可以包括如下步骤:
95.确定当前的用于确定所述显著性区域的显著性区域参数;获取状态转移概率和状态转移方向;根据所述状态转移概率和状态转移方向,调整当前的显著性区域参数。
96.其中,状态转移概率可以是在当前状态下,转移到下一指定状态的概率,状态转移方向可以包括向上的移动、向左的移动、向下的移动、向右的移动。
97.在具体实现中,可以确定分类网络模型中当前的用于确定显著性区域的显著性区域参数,该参数被调整后将改变分类网络模型识别出的显著性区域。
98.在获取当前的显著性区域参数后,可以确定状态转移概率和状态转移方向,并根据状态转移概率和状态转移方向,调整当前的显著性区域参数。
99.具体而言,在调整显著性区域参数时,可以基于强化学习和马尔科夫模型进行调整。
100.强化学习(reinforcement learning,rl)又可以称为再励学习、评价学习或增强学习,是机器学习的范式和方法论之一。强化学习可用于描述和解决优化区域显著性特征的智能体(agent)在与环境(例如图像)的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索

利用间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。其中,智能体可以是能够单独进行数据分析并可以同环境交互的实体。
101.马尔科夫模型是一种统计模型,广泛应用在语音识别,词性自动标注,音字转换,概率文法等各个自然语言处理等应用领域。马尔科夫模型由四元组m=(s,a,psa,r)构成。其中,s表示状态集(states),有s∈s,s
i
表示第i步的状态;a表示一组动作(actions),有a∈a,a
i
表示第i步的动作;psa表示状态转移概率;r为回报函数(reward function),其与状态和动作关联,可以表示为s
×
a

r。在一示例中,回报函数可以是状态s的函数,可以将r表示为s

r。如果一组(s,a)转移到了下个状态s

,那么回报函数可记为r(s

|s,a)。如果(s,a)对应的下个状态s

是唯一的,那么回报函数也可以记为r(s,a)。
102.在本实施例中,基于马尔科夫模型的调整显著性区域参数的过程可以如下所示:
首先设置优化显著性区域参数的智能体(agent)的初始状态为s0(初始区域特征),然后从动作a中选择一个动作a0执行判断。执行后,智能体可以按psa的状态转移概率随机转移到了下一个状态s1,s1∈p
s0a0
。然后再执行一个动作a1,并基于状态转移概率转移到了s2,不断重复该过程,在调整显著性区域参数的过程中,可以根据状态s和动作a确定对应的回报r。如图3所示,为马尔科夫模型的模型结构示例。
103.在本实施例中,可以确定当前的用于确定显著性区域的显著性区域参数,获取状态转移概率和状态转移方向,根据状态转移概率和状态转移方向,调整当前的显著性区域参数,通过随机调整显著性区域参数,可以得到多个不同的显著性区域,为确定出最优的显著性区域提供基础。
104.在一个实施例中,所述根据所述状态转移概率和状态转移方向,调整当前的显著性区域参数,可以包括如下步骤:
105.根据所述状态转移概率和状态转移方向,确定当前的根策略和叶策略;根据所述根策略和叶策略,调整当前的显著性区域参数。
106.其中,根策略用于确定显著性区域参数的调整方向,叶策略用于确定显著性区域的调整幅度。
107.在实际应用中,可以根据状态转移概率和状态转移方向,确定调整显著性域区域参数的根策略和叶策略,进而可以根据确定的根策略和叶策略调整显著性区域参数。
108.具体而言,在基于强化学习调整显著性区域参数时,可以基于树结构策略进行。树结构策略可以由根策略和叶策略组成,可以通过a
r
和a1表示根策略和叶策略的动作选择。根据优化显著性区域参数的智能体的移动距离和移动方向,可以将动作分为与语义概念相关的五类:尺度变化、显著左移、显著右移、轻微左调整和轻微右调整。上述五种调整策略可以确定为树形结构中根策略的分支,由此得到多个根策略。根策略首先粗略地估计了能够最大程度减少语义差距的分支,进而可以在根策略确定后,通过叶策略在当前所选分支下,执行更加细化的动作,从而调整边界。在确定合适的根策略和叶策略后,即可以根据当前的根策略和叶策略调整显著性区域参数。
109.在本实施例中,可以根据状态转移概率和状态转移方向,确定当前的根策略和叶策略,根据根策略和叶策略,调整当前的显著性区域参数,能够实现x光训练图像中显著性区域的自主确定,为准确识别出危险品提供模型基础。
110.在一个实施例中,所述根据所述状态转移概率和状态转移方向,确定当前的根策略和叶策略,可以包括:
111.根据所述状态转移概率和状态转移方向,调整所述叶策略,得到多组候选叶策略,当所述根策略固定时,获取多个候选叶策略各自对应的叶奖励,并根据多个叶奖励,从多组候选叶策略中确定最优的叶策略;根据所述状态转移概率和状态转移方向,调整所述根策略,得到多组候选根策略,当最优的叶策略固定时,获取多个候选根策略各自对应的根奖励,并根据多个根奖励,从多组候选根策略中确定最优的根策略;再次执行所述调整所述叶策略,交替调整最优的叶策略和最优的根策略,直到满足训练结束条件,得到目标叶策略和目标根策略。
112.在实际应用中,同时优化根策略和叶策略会导致模型训练过程的不稳定。为避免该情况出现,在渐进式强化学习过程中,对于每一组迭代次数k,可以保持一个策略固定,只
训练另一个策略。当达到迭代次数k时,则可以切换训练的策略。渐进式强化学习确保了在优化显著性区域参数时,智能体在强化学习的设置中可以获得稳定和卓越的性能。
113.具体而言,可以根据状态转移概率和状态转移方向,首先调整叶策略,得到多组叶策略。进而可以在根策略固定时,获取多个候选叶策略各自对应的叶奖励,并根据多个叶奖励,从多组候选叶策略中确定最优的叶策略。具体例如,可以确定各个叶策略对应的叶奖励,并将对应叶奖励最高的候选叶策略确定为最优的叶策略。
114.针对叶策略,可以设置对应的奖励函数,并基于该奖励函数确定每个候选叶策略对应的叶奖励。叶奖励反映了动作对当前环境的影响,例如通过选择不同的叶策略,模型对应的损失函数不同,可以基于叶奖励确定叶策略的调整对损失函数的影响。
115.在确定最优的叶策略后,可以调整根策略,得到多组候选根策略,并在固定最优的叶策略时,获取多个候选根策略各自对应的根奖励,并根据多个根奖励,从多组候选根策略中确定最优的根策略。例如,可以确定各个根策略对应的根奖励,并将对应根奖励最高的候选根策略确定为最优的根策略。通过训练根策略,可以学习在不同情况下调用正确的叶策略。
116.针对根策略,可以设置对应的奖励函数,并基于该奖励函数确定每个候选根策略对应的根奖励。由于根策略执行的操作不直接与环境交互,为了提供全面和正确的奖励分配,根奖励可以包括两个奖励:内在奖励和外在奖励。其中,内在奖励项反映了对语义分支选择的选择好坏,即基于状态转移概率随机转到下一个状态的选择的优劣。
117.作为一示例,根策略对应的奖励函数可以如下所示:
[0118][0119]
其中,ζ为内在奖励函数,u
t
为外在奖励函数。
[0120]
在调整根策略时,为了确定根策略选择高级语义分支的能力,模型可以遍历所有可能的分支(即尺度变化、显著左移、显著右移、轻微左调整和轻微右调整),从而产生五种不同的iou(intersection over union)。其中,最大iou对应的根策略可以对应最大根奖励。
[0121]
在一示例中,在确定最优的根策略和最优的叶策略时,还可以结合根策略和叶策略各自对应的损失函数进行评估。
[0122]
在确定最优的根策略后,可以再次返回到调整叶策略的步骤,交替调整最优的叶策略和最优的根策略,直到满足训练结束条件,得到目标叶策略和目标根策略。这两种策略在训练过程中相互促进,叶策略为根策略提供准确的内在奖励,而根策略选择合适的高层语义分支来进一步细化叶策略。模型通过反复调用树结构策略,对根策略和叶策略进行调整可以消除语义间隙,逐步从x光图像中识别出准确的显著性区域。并且,该方式可以有效地分解复杂的行动策略,在增加搜索空间的同时减少搜索步骤的数量,以更合理的方式获得更佳的结果,使智能体可以在采取较少的步骤的情况下获得准确的显著性区域定位结果。
[0123]
在本实施例中,通过对根策略和叶策略进行交替调整,可以确定出目标叶策略和
目标根策略,为准确识别出x光图像中的显著性区域提供基础。
[0124]
在一个实施例中,在上述强化学习的过程中,一个从环境状态到动作的映射(即行为策略),可以记为策略π:s

a。而强化学习往往具有延迟回报的特点,即如果在第n步特征值匹配失败,那么只有状态s
n
(区域特征)和动作a
n
(特征值匹配)获得了立即回报函数r(s
n
,a
n
)=

1,而前面的所有状态立即回报均为0。因此,对于之前的任意状态s和动作a,立即回报函数r(s,a)难以准确表征行为策略的好坏。因此可以定义一个新的函数:值函数(value function,又叫效用函数)来表明当前状态下策略π的长期影响。在一示例中,值函数可以如下所示:
[0125][0126]
其中,γ=[0,1]称为折合因子,表明了未来的回报相对于当前回报的重要程度。特别地,γ=0时,相当于只考虑立即不考虑长期回报,γ=1时,将长期回报和立即回报视为同等重要。
[0127]
在另一示例中,值函数可以如下所示:
[0128][0129]
在上述值函数中,给定策略π和初始状态s,则动作a=π(s),下个时刻将以概p(s

|s,a)转向下个状态s

。在v
π
(s)中,π和初始状态s可以是预先设定的,而初始动作a由策略π和状态s决定的,即a=π(s)。
[0130]
在一示例中,可以定义动作值函数(action value functionq函数)如下:
[0131][0132]
在上述动作值函数中,给定当前状态s和当前动作a,在未来遵循策略π,那么系统将以概率p(s

|s,a)转向下个状态s


[0133]
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0134]
在一个实施例中,如图4所示,提供了一种危险品检测装置,所述装置包括:
[0135]
图像获取模块401,用于获取待识别的安检对象对应的x光安检对象图像;
[0136]
图像识别模块402,用于将所述x光安检对象图像输入到训练好的危险品识别模型中,以通过所述危险品识别模型中的双线性卷积神经网络确定所述x光安检对象图像中的最优显著性区域,并基于所述最优显著性区域获取所述安检对象是否为危险品的预测结果;所述最优显著性区域为反映所述安检对象细节特征的图像区域;
[0137]
危险品识别模块404,用于根据所述危险品识别模型输出的预测结果,确定所述安
检对象是否为危险品。
[0138]
在一个实施例中,所述装置还包括:
[0139]
标签获取模块,用于获取待识别物品对应的x光训练图像及其标签,并将所述x光训练图像输入到待训练的分类网络模型,以通过所述分类网络模型中的双线性卷积神经网络确定所述x光训练图像中的显著性区域,并基于所述显著性区域获取所述待识别物品是否为危险品的预测结果;
[0140]
显著性区域参数调整模块,用于调整用于确定所述显著性区域的显著性区域参数,并根据各组显著性区域参数对应的预测结果,确定出最优的显著性区域参数;
[0141]
模型参数调整模块,用于固定最优的显著性区域参数,再次执行所述将所述x光训练图像输入到待训练的分类网络模型,并根据所述预测结果和所述标签,调整所述显著性区域参数以外的模型参数;
[0142]
危险品识别模型获取模块,用于当满足切换条件时,切换为对显著性区域参数的调整,交替调整所述显著性区域参数和所述模型参数,直到满足训练结束条件,得到危险品识别模型。
[0143]
在一个实施例中,所述显著性区域参数调整模块,包括:
[0144]
当前参数确定子模块,用于确定当前的用于确定所述显著性区域的显著性区域参数;
[0145]
概率获取子模块,用于获取状态转移概率和状态转移方向;
[0146]
参数更新子模块,用于根据所述状态转移概率和状态转移方向,调整当前的显著性区域参数。
[0147]
在一个实施例中,所述参数更新子模块,包括:
[0148]
策略确定单元,用于根据所述状态转移概率和状态转移方向,确定当前的根策略和叶策略;所述根策略用于确定显著性区域参数的调整方向,所述叶策略用于确定显著性区域的调整幅度;
[0149]
策略调整单元,用于根据所述根策略和叶策略,调整当前的显著性区域参数。
[0150]
在一个实施例中,所述策略调整单元,具体用于:
[0151]
根据所述状态转移概率和状态转移方向,调整所述叶策略,得到多组候选叶策略,当所述根策略固定时,获取多个候选叶策略各自对应的叶奖励,并根据多个叶奖励,从多组候选叶策略中确定最优的叶策略;
[0152]
根据所述状态转移概率和状态转移方向,调整所述根策略,得到多组候选根策略,当最优的叶策略固定时,获取多个候选根策略各自对应的根奖励,并根据多个根奖励,从多组候选根策略中确定最优的根策略;
[0153]
再次执行所述调整所述叶策略,交替调整最优的叶策略和最优的根策略,直到满足训练结束条件,得到目标叶策略和目标根策略。
[0154]
在一个实施例中,所述图像获取模块401,包括:
[0155]
初始图像获取子模块,用于获取待检测包裹对应的x光图像;
[0156]
掩膜生成子模块,用于生成所述x光图像对应的掩膜图片,并确定所述掩膜图片中的感兴趣区域;
[0157]
聚类子模块,用于确定感兴趣区每个像素对应的分类标记,并根据所述分类标记
对各个像素进行聚类,得到聚类结果;
[0158]
分割子模块,用于根据所述聚类结果确定所述x光图像中待识别的安检对象对应的x光安检对象图像。
[0159]
在一个实施例中,所述危险品识别模块404,包括:
[0160]
光谱数据获取模块,用于若所述危险品识别模型输出的预测结果为危险品,则获取所述安检对象对应的光谱数据;
[0161]
光谱数据比对模块,用于基于所述光谱数据和预先建立的危险品光谱数据库,确定所述安检对象是否为危险品;所述危险品光谱数据库包括不同类型的危险品和各危险品对应的光谱数据。
[0162]
关于一种危险品检测装置的具体限定可以参见上文中对于一种危险品检测方法的限定,在此不再赘述。上述一种危险品检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0163]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储x光图像。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种危险品检测方法。
[0164]
本领域技术人员可以理解,图5中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0165]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
[0166]
获取待识别的安检对象对应的x光安检对象图像;
[0167]
将所述x光安检对象图像输入到训练好的危险品识别模型中,以通过所述危险品识别模型中的双线性卷积神经网络确定所述x光安检对象图像中的最优显著性区域,并基于所述最优显著性区域获取所述安检对象是否为危险品的预测结果;所述最优显著性区域为反映所述安检对象细节特征的图像区域;
[0168]
根据所述危险品识别模型输出的预测结果,确定所述安检对象是否为危险品。
[0169]
在一个实施例中,处理器执行计算机程序时还实现上述其他实施例中的步骤。
[0170]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0171]
获取待识别的安检对象对应的x光安检对象图像;
[0172]
将所述x光安检对象图像输入到训练好的危险品识别模型中,以通过所述危险品识别模型中的双线性卷积神经网络确定所述x光安检对象图像中的最优显著性区域,并基于所述最优显著性区域获取所述安检对象是否为危险品的预测结果;所述最优显著性区域
为反映所述安检对象细节特征的图像区域;
[0173]
根据所述危险品识别模型输出的预测结果,确定所述安检对象是否为危险品。
[0174]
在一个实施例中,计算机程序被处理器执行时还实现上述其他实施例中的步骤。
[0175]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read

only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
[0176]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0177]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
转载请注明原文地址:https://win.8miu.com/read-327083.html

最新回复(0)