一种安全检测的方法及装置与流程

专利检索2026-03-06  3


本说明书涉及计算机,尤其涉及一种安全检测的方法及装置。


背景技术:

1、随着人工智能技术的迅猛发展,生成模型(如chatgpt、diffussion等)逐渐流行起来,并逐渐应用在各个领域中。

2、当前,若是服务平台对外提供通过生成模型生成文本、图像等内容的服务,需要避免生成模型生成的内容存在违规的现象,以在一定程度上保护个人信息的安全。

3、在现有技术中,常规的方式是服务平台的开发人员人为的想一些有可能会导致生成模型生成违规内容的语句,并手动输入到生成模型中进行测试,若是测试结果表明生成模型不会生成违规的内容,则对生成模型的测试通过并可以将生成模型上线,而若是生成模型未通过测试,则需要继续对生成模型进行迭代以调整生成模型。

4、可以看出,现有方式是人为对生成模型进行测试,这种方式不但效率低,并且对生成模型的测试可能会不全面。

5、所以,如何提高对生成模型的测试效率,有效地对生成模型进行测试,则是一个亟待解决的问题。


技术实现思路

1、本说明书提供一种安全检测的方法及装置,以提高对生成模型的安全检测的效率。

2、本说明书采用下述技术方案:

3、本说明书提供一种安全检测的方法,包括:

4、从预设的诱导信息库中获取诱导信息,所述诱导信息用于诱导生成模型生成存在风险的内容;

5、将所述诱导信息输入到预先训练的诱导信息补充模型中,得到用于获取所述诱导信息的相关内容的询问语句;

6、将所述询问语句输入到待检测的生成模型中,得到生成内容;

7、通过预先训练的风险识别模型,对所述生成内容进行风险识别,得到识别结果,以通过所述识别结果,对所述待检测的生成模型进行安全检测。

8、可选地,所述诱导信息包括:诱导词、诱导音频以及诱导图像中的至少一种。

9、可选地,训练所述诱导信息补充模型,具体包括:

10、获取样本诱导信息以及所述样本诱导信息对应的标签询问语句;

11、将所述样本诱导信息输入到所述诱导信息补充模型,得到输出结果;

12、以最小化所述输出结果与所述标签询问语句之间的差异为优化目标,对所述诱导信息补充模型进行训练。

13、可选地,训练所述风险识别模型,具体包括:

14、获取样本内容,以及所述样本内容所对应的标注信息,所述标注信息用于表示所述样本内容对应的实际风险结果;

15、将所述样本内容输入到待训练的风险识别模型中,以使所述风险识别模型输出对所述样本内容的识别结果;

16、以最小化所述样本内容的识别结果与所述标注信息之间的差异为优化目标,对所述风险识别模型进行训练。

17、可选地,获取样本内容,以及所述样本内容所对应的标注信息,具体包括:

18、从所述诱导信息库中获取目标诱导信息,以及从所述诱导信息库中确定所述目标诱导信息对应的诱导风险类型;

19、将所述目标诱导信息输入到所述诱导信息补充模型中,得到所述目标诱导信息对应的询问语句;

20、将所述目标诱导信息对应的询问语句输入到所述生成模型中,得到样本内容;

21、根据所述目标诱导信息对应的诱导风险类型,确定所述样本内容所对应的标注信息。

22、本说明书提供一种安全检测的装置,包括:

23、获取模块,用于从预设的诱导信息库中获取诱导信息,所述诱导信息用于诱导生成模型生成存在风险的内容;

24、提示语句生成模块,用于将所述诱导信息输入到预先训练的诱导信息补充模型中,得到用于获取所述诱导信息的相关内容的询问语句;

25、检测内容生成模块,用于将所述询问语句输入到待检测的生成模型中,得到生成内容;

26、获取模块,用于通过预先训练的风险识别模型,对所述生成内容进行风险识别,得到识别结果,以通过所述识别结果,对所述待检测的生成模型进行安全检测。

27、可选地,所述诱导信息包括诱导词、诱导音频以及诱导图像中的至少一种。

28、可选地,所述装置还包括:

29、第一训练模块,用于获取样本诱导信息以及所述样本诱导信息对应的标签询问语句;将所述样本诱导信息输入到所述诱导信息补充模型,得到输出结果;以最小化所述输出结果与所述标签询问语句之间的差异为优化目标,对所述诱导信息补充模型进行训练。

30、可选地,所述装置还包括:

31、第二训练模块,用于获取样本内容,以及所述样本内容所对应的标注信息,所述标注信息用于表示所述样本内容对应的实际风险结果;将所述样本内容输入到待训练的风险识别模型中,以使所述风险识别模型输出对所述样本内容的识别结果;以最小化所述样本内容的识别结果与所述标注信息之间的差异为优化目标,对所述风险识别模型进行训练。

32、可选地,所述第二训练模块具体用于,从所述诱导信息库中获取目标诱导信息,以及从所述诱导信息库中确定所述目标诱导信息对应的诱导风险类型;将所述目标诱导信息输入到所述诱导信息补充模型中,得到所述目标诱导信息对应的询问语句;将所述目标诱导信息对应的询问语句输入到所述生成模型中,得到样本内容;根据所述目标诱导信息对应的诱导风险类型,确定所述样本内容所对应的标注信息。

33、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述安全检测的方法。

34、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述安全检测的方法。

35、本说明书采用的上述至少一个技术方案能够达到以下有益效果:

36、在本说明书中提供的安全检测的方法中,可以从预设的诱导信息库中获取诱导信息,所述诱导信息用于诱导生成模型生成存在风险的内容,而后,将诱导信息输入到预先训练的诱导信息补充模型中,得到用于获取诱导信息的相关内容的询问语句,将询问语句输入到待检测的生成模型中,得到生成内容,通过预先训练的风险识别模型,对生成内容进行风险识别,得到识别结果,以通过识别结果,对待检测的生成模型进行安全检测。

37、从上述内容中可以看出,本说明书中提供的安全检测的方法,可以从诱导信息库中获取诱导信息,如诱导词,再通过诱导信息补充模型确定出诱导信息对应的询问语句,通过将询问语句输入到待检测的生成模型中,诱导生成模型生成存在风险的内容,而后,可以对生成模型生成的内容进行风险识别。可以看出,本方法可以自动化地对生成模型进行安全检测,从而相比于现有技术,能够提高对生成模型安全检测的效率。



技术特征:

1.一种安全检测的方法,包括:

2.如权利要求1所述的方法,所述诱导信息包括:诱导词、诱导音频以及诱导图像中的至少一种。

3.如权利要求1所述的方法,训练所述诱导信息补充模型,具体包括:

4.如权利要求1所述的方法,训练所述风险识别模型,具体包括:

5.如权利要求4所述的方法,获取样本内容,以及所述样本内容所对应的标注信息,具体包括:

6.一种安全检测的装置,包括:

7.如权利要求6所述的装置,所述诱导信息包括诱导词、诱导音频以及诱导图像中的至少一种。

8.如权利要求6所述的装置,所述装置还包括:

9.如权利要求6所述的装置,所述装置还包括:

10.如权利要求9所述的装置,所述第二训练模块具体用于,从所述诱导信息库中获取目标诱导信息,以及从所述诱导信息库中确定所述目标诱导信息对应的诱导风险类型;将所述目标诱导信息输入到所述诱导信息补充模型中,得到所述目标诱导信息对应的询问语句;将所述目标诱导信息对应的询问语句输入到所述生成模型中,得到样本内容;根据所述目标诱导信息对应的诱导风险类型,确定所述样本内容所对应的标注信息。

11.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~5任一项所述的方法。

12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1~5任一项所述的方法。


技术总结
本说明书公开了一种安全检测的方法及装置,涉及人工智能领域,可用于隐私保护,可以从预设的诱导信息库中获取诱导信息,所述诱导信息用于诱导生成模型生成存在风险的内容,而后,将诱导信息输入到预先训练的诱导信息补充模型中,得到用于获取诱导信息的相关内容的询问语句,将询问语句输入到待检测的生成模型中,得到生成内容,通过预先训练的风险识别模型,对生成内容进行风险识别,得到识别结果,以通过识别结果,对待检测的生成模型进行安全检测,可以看出,本方法可以自动化地对生成模型进行安全检测,从而相比于现有技术,能够提高对生成模型安全检测的效率。

技术研发人员:崔世文,李志峰,许卓尔,应缜哲,孟昌华,王维强
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1162202.html

最新回复(0)