基于大模型的人机交互方法、装置、设备及程序产品与流程

专利检索2025-06-07  11


本技术涉及人工智能,更具体的说,是涉及一种基于大模型的人机交互方法、装置、相关设备及程序产品。


背景技术:

1、随着科技的发展,人机交互越来越多的应用于各种场景,示例如,知识问答、智能车机系统、虚拟人交互大屏等。

2、人机交互过程,机器在一些场景下可能会接收到一些上下文不关联的输入或者由于语音识别错误、截断等原因造成的输入,这些输入属于误触发。举例说明如,在嘈杂环境下用户a与机器交互过程,机器可能会将环境中其它用户b的语音识别为输入,此时可能出现用户b的语音内容与在先的用户a的历史输入不相关的情况,该用户b的语音输入即属于一种误触发。另一种示例如,用户a与机器交互过程,由于机器上的麦克风距离用户a较远,导致语音识别错误或者出现截断,该种输入也属于一种误触发。机器若针对误触发的输入仍给出响应的话,会影响交互的顺畅度,降低交互体验。

3、以往的交互方案主要采用传统神经网络模型如分类模型、抽槽模型对用户输入请求进行意图理解及响应,仅能够实现用户定义范围内的功能,不具备较多的泛化能力。这也恰恰使得机器在面临一些上下文不关联或者由于语音识别错误、截断等原因造成的误触发输入时,不会给出响应。

4、而随着大模型技术的发展,鉴于大模型具备强大的语言泛化理解和生成能力,越来越多企业将大模型应用于人机交互过程,利用大模型理解用户输入,并给出交互响应。随之而来的问题是,由于大模型具备强大的泛化理解能力,故对上述示例的误触发也能够进行理解和响应,导致严重影响交互的顺畅度,降低了交互体验。


技术实现思路

1、鉴于上述问题,提出了本技术以便提供一种基于大模型的人机交互方法、装置、相关设备及计算机程序产品,以识别人机交互过程的误触发,提升人机交互的流畅度及交互体验。具体方案如下:

2、第一方面,提供了一种基于大模型的人机交互方法,包括:

3、获取用户当前的输入请求,及人机交互历史;

4、调用配置的人工智能大模型,以指示所述人工智能大模型结合所述人机交互历史,确定所述用户当前的输入请求在设定目标维度上的特征值,所述目标维度为与衡量用户输入请求是否属于误触发相关的度量维度;

5、参考所述用户当前的输入请求在所述设定目标维度上的特征值,确定所述用户当前的输入请求是否属于误触发;

6、在确定所述用户当前的输入请求不属于误触发时,输出与所述用户当前的输入请求对应的响应结果,所述响应结果为对所述用户当前的输入请求进行意图理解并给出的意图响应结果。

7、在一种可能的设计中,在本技术实施例的第一方面的另一种实现方式中,所述目标维度包括以下至少一项或多项:上下文关联性、句子表达的领域范围、句子通顺度、句子完整性、句子是否有意义。

8、在一种可能的设计中,在本技术实施例的第一方面的另一种实现方式中,调用配置的人工智能大模型,以指示所述人工智能大模型结合所述人机交互历史,确定所述用户当前的输入请求在设定目标维度上的特征值的过程,包括:

9、获取提示指令prompt格式模板,所述prompt格式模板包括任务指令、交互历史槽、当前输入槽、目标维度槽,所述任务指令用于指示模型按照所述交互历史槽内的人机交互历史,确定所述当前输入槽内的用户当前的输入请求在所述目标维度槽内各目标维度上的特征值;

10、将所述人机交互历史填充到所述交互历史槽,将所述用户当前的输入请求填充到所述当前输入槽,将所述设定目标维度填充到所述目标维度槽,得到第一提示指令prompt,将所述第一提示指令prompt输入至人工智能大模型,得到模型输出各所述目标维度的特征值。

11、在一种可能的设计中,在本技术实施例的第一方面的另一种实现方式中,所述目标维度包括:上下文关联性、句子表达的领域范围;

12、则参考所述用户当前的输入请求在所述设定目标维度上的特征值,确定所述用户当前的输入请求是否属于误触发的过程,包括:

13、若满足条件1和条件2中任意一项,则确定用户当前的输入请求不属于误触发;

14、所述条件1为,所述用户当前的输入请求与上下文相关联;

15、所述条件2为,所述用户当前的输入请求对应句子表达的领域范围在预先设定的业务功能范围内。

16、在一种可能的设计中,在本技术实施例的第一方面的另一种实现方式中,所述目标维度还包括:句子通顺度、句子完整性、句子是否有意义;

17、则参考所述用户当前的输入请求在所述设定目标维度上的特征值,确定所述用户当前的输入请求是否属于误触发的过程,还包括:

18、若不满足所述条件1和所述条件2,则判断是否满足条件3、条件4、条件5中至少两个条件,若是,则确定用户当前的输入请求不属于误触发,若否,则确定用户当前的输入请求属于误触发;

19、所述条件3为,所述用户当前的输入请求对应句子满足通顺度要求;

20、所述条件4为,所述用户当前的输入请求对应句子满足完整性要求;

21、所述条件5为,所述用户当前的输入请求对应句子有意义。

22、在一种可能的设计中,在本技术实施例的第一方面的另一种实现方式中,在确定所述用户当前的输入请求不属于误触发时,还包括:

23、将所述用户当前的输入请求计入人机交互历史中。

24、在一种可能的设计中,在本技术实施例的第一方面的另一种实现方式中,还包括:

25、在确定所述用户当前的输入请求属于误触发时,拒绝对所述用户当前的输入请求进行响应,以及,放弃将所述用户当前的输入请求计入人机交互历史中。

26、在一种可能的设计中,在本技术实施例的第一方面的另一种实现方式中,在确定所述用户当前的输入请求是否属于误触发的同时或之前,该方法还包括:

27、对所述用户当前的输入请求进行意图理解,并给出意图响应结果作为与所述用户当前的输入请求对应的响应结果。

28、在一种可能的设计中,在本技术实施例的第一方面的另一种实现方式中,在确定所述用户当前的输入请求不属于误触发后,且在输出与所述用户当前的输入请求对应的响应结果之前,该方法还包括:

29、对所述用户当前的输入请求进行意图理解,并给出意图响应结果作为与所述用户当前的输入请求对应的响应结果。

30、在一种可能的设计中,在本技术实施例的第一方面的另一种实现方式中,所述人机交互方法应用于全双工语音交互场景中,则获取用户当前的输入请求的过程,包括:

31、获取用户当前输入的语音并识别所述语音,得到识别文本作为用户当前的输入请求。

32、第二方面,提供了一种基于大模型的人机交互装置,包括:

33、信息获取单元,用于获取用户当前的输入请求,及人机交互历史;

34、维度特征确定单元,用于调用配置的人工智能大模型,以指示所述人工智能大模型结合所述人机交互历史,确定所述用户当前的输入请求在设定目标维度上的特征值,所述目标维度为与衡量用户输入请求是否属于误触发相关的度量维度;

35、误触发判定单元,用于参考所述用户当前的输入请求在所述设定目标维度上的特征值,确定所述用户当前的输入请求是否属于误触发;

36、交互响应单元,用于在确定所述用户当前的输入请求不属于误触发时,输出与所述用户当前的输入请求对应的响应结果,所述响应结果为对所述用户当前的输入请求进行意图理解并给出的意图响应结果。

37、第三方面,提供了一种人机交互设备,包括:存储器和处理器;

38、所述存储器,用于存储程序;

39、所述处理器,用于执行所述程序,实现本技术前述第一方面中任一项所描述的基于大模型的人机交互方法的各个步骤。

40、第四方面,提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现本技术前述第一方面中任一项所描述的基于大模型的人机交互方法的各个步骤。

41、第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本技术前述第一方面中任一项所描述的基于大模型的人机交互方法的各个步骤。

42、借由上述技术方案,本技术充分利用人工智能大模型的上下文语言理解和逻辑推理等能力,结合人机交互历史来确定用户当前的输入请求在各目标维度上的特征值,该目标维度为与衡量用户输入请求是否属于误触发相关的度量维度,在此基础上,综合考虑各目标维度上的特征值,决策用户当前的输入请求是否属于误触发交互,在确定不属于误触发时,输出与用户当前的输入请求对应的响应结果。本技术在人机交互过程对用户当前输入进行是否为误触发的判断,且将误触发判断的过程划分为递进的两个环节,第一环节借助人工智能大模型的能力可以准确得到用户当前输入请求在各目标维度的特征值,第二环节可以综合各目标维度的特征值,决策用户当前输入请求是否为误触发,可以有效提升误触发的识别准确度。在识别到用户当前输入请求不属于误触发时,才输出响应结果,保证人机交互的顺畅度,提升了交互体验。


技术特征:

1.一种基于大模型的人机交互方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述目标维度包括以下至少一项或多项:上下文关联性、句子表达的领域范围、句子通顺度、句子完整性、句子是否有意义。

3.根据权利要求1所述的方法,其特征在于,调用配置的人工智能大模型,以指示所述人工智能大模型结合所述人机交互历史,确定所述用户当前的输入请求在设定目标维度上的特征值的过程,包括:

4.根据权利要求2所述的方法,其特征在于,所述目标维度包括:上下文关联性、句子表达的领域范围;

5.根据权利要求4所述的方法,其特征在于,所述目标维度还包括:句子通顺度、句子完整性、句子是否有意义;

6.根据权利要求1所述的方法,其特征在于,在确定所述用户当前的输入请求不属于误触发时,还包括:

7.根据权利要求1所述的方法,其特征在于,还包括:

8.根据权利要求1所述的方法,其特征在于,在确定所述用户当前的输入请求是否属于误触发的同时或之前,该方法还包括:

9.根据权利要求1所述的方法,其特征在于,在确定所述用户当前的输入请求不属于误触发后,且在输出与所述用户当前的输入请求对应的响应结果之前,该方法还包括:

10.根据权利要求1-9任一项所述的方法,其特征在于,所述人机交互方法应用于全双工语音交互场景中,则获取用户当前的输入请求的过程,包括:

11.一种基于大模型的人机交互装置,其特征在于,包括:

12.一种人机交互设备,其特征在于,包括:存储器和处理器;

13.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~10中任一项所述的基于大模型的人机交互方法的各个步骤。

14.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1~10中任一项所述的基于大模型的人机交互方法的各个步骤。


技术总结
本申请公开了一种基于大模型的人机交互方法、装置、设备及程序产品,属于人工智能技术领域,本申请利用人工智能大模型的能力,结合人机交互历史来确定用户当前的输入请求在各目标维度上的特征值,该目标维度为与衡量用户输入请求是否属于误触发相关的度量维度,综合考虑各目标维度上的特征值,决策用户当前的输入请求是否属于误触发交互,在确定不属于误触发时输出与用户当前的输入请求对应的响应结果。可以有效提升误触发的识别准确度。在识别到用户当前输入请求不属于误触发时,才输出响应结果,保证人机交互的顺畅度,提升了交互体验。

技术研发人员:宁宏伟,梅林海,刘权,王士进,刘聪,胡国平
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1154803.html

最新回复(0)