本公开涉及智能终端,尤其涉及一种多模态交互方法、装置、电子设备和存储介质。
背景技术:
1、扩展现实xr(extended reality),是指通过计算机将真实与虚拟相结合,打造一个可人机交互的虚拟环境。在扩展现实环境下,扩展现实设备识别用户输入的语音指令的精确度不高。
技术实现思路
1、提供该
技术实现要素:
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
2、本公开提供一种多模态交互方法、装置、电子设备和存储介质。
3、本公开采用以下的技术方案。
4、在一些实施例中,本公开提供一种多模态交互方法,包括:
5、获取用户的语音信息和动作信息;
6、根据所述语音信息和所述动作信息,确定对应的控制指令;
7、执行与所述控制指令相应的操作。
8、在一些实施例中,本公开提供一种多模态交互装置,包括:
9、获取模块,用于获取用户的语音信息和动作信息;
10、第一处理模块,用于根据所述语音信息和所述动作信息,确定对应的控制指令;
11、第二处理模块,用于执行与所述控制指令相应的操作。
12、在一些实施例中,本公开提供一种电子设备,包括:至少一个存储器和至少一个处理器;
13、其中,存储器用于存储程序代码,处理器用于调用所述存储器所存储的程序代码执行上述的方法。
14、在一些实施例中,本公开提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码在被处理器运行时,促使所述处理器执行上述方法。
15、在一些实施例中,本公开提供一种计算机程序产品,所述计算机程序产品包括指令,所述指令在被计算机设备执行时使得所述计算机设备执行上述方法。
16、本公开实施例提供的多模态交互方法,应用于扩展现实设备,通过获取用户的语音信息和动作信息,然后根据所述语音信息和所述动作信息,确定对应的控制指令,并执行与所述控制指令相应的操作。本公开实施例在进行语音交互时结合了用户的动作信息进行叠加判断,提高了扩展现实设备识别用户输入的语音指令的精确度,具有较强的实用性。
1.一种多模态交互方法,其特征在于,应用于扩展现实设备,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取用户的语音信息和动作信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述收音部件包括微型机电系统麦克风,和/或拾音传感器。
4.根据权利要求2所述的方法,其特征在于,所述动作检测部件包括深度相机、惯性测量单元和注视点追踪传感器中的至少一种。
5.根据权利要求4所述的方法,其特征在于,所述用户的动作信息包括用户手势信息、用户头部动作信息、针对所述扩展现实设备的控制器的动作信息和用户眼动信息中的至少一种。
6.根据权利要求4所述的方法,其特征在于,所述惯性测量单元包括加速度传感器、陀螺仪、磁力传感器和六自由度传感器中的至少一种。
7.根据权利要求2所述的方法,其特征在于,所述语音信息包括语义信息或不包括语义信息。
8.根据权利要求1所述的方法,其特征在于,所述根据所述语音信息和所述动作信息,确定对应的控制指令,包括:
9.根据权利要求8所述的方法,其特征在于,所述根据所述动作信息和所述语音信息,生成组合交互信息,包括:
10.根据权利要求1所述的方法,其特征在于,所述执行与所述控制指令相应的操作,包括:
11.一种多模态交互装置,其特征在于,包括:
12.一种电子设备,包括:
13.一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码在被计算机设备运行时,促使所述计算机设备执行权利要求1至10中任一项所述的方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品包括指令,所述指令在被计算机设备执行时使得所述计算机设备执行根据权利要求1至10中任一项所述的方法。