多模态交互方法、装置、智能设备和存储介质与流程

专利检索2025-02-02 39

本发明涉及人机交互，尤其涉及一种多模态交互方法、装置、智能和存储介质。

背景技术：

1、随着人工智能技术的发展，各种带有显示屏幕的智能设备越来越多地进入人们的生活，比如智能机器人、智能大屏、智能穿戴设备、智能家居产品等等。用户可以通过如文字、语音、动作、手势等多模态与智能设备进行交互，从而可以提高产品的易学性、易用性、用户粘度等。

2、用户可以与智能设备之间可以进行简单交互，比如语音助手可以响应于用户产生的搜索操作，以进行相关信息的搜索。用户还可以与智能设备进行复杂交互，比如，智能大屏可以响应于用户对图库应用程序中待分享图片的选中操作；再响应于用户触发的启动操作，启动智能大屏中的即时通信应用程序；再响应于用户触发的分享操作，将待分享图片分享给即时通信应用程序中的目标联系人。其中，上述涉及的多种操作均可以是不同模态的操作。

技术实现思路

1、本发明实施例提供一种多模态交互方法、装置、智能设备和存储介质，用以丰富人机交互的实现方式。

2、本发明实施例提供一种多模态交互方法，包括：

3、响应于用户对原始页面中待操作元素产生的目标手势，选中所述待操作元素；

4、响应于所述用户产生的第一动作，开启所述智能设备的语音监听功能；

5、根据所述用户产生的第一语音指令处理所述待操作元素，其中，所述用户在产生所述第一动作和所述第一语音指令时保持所述目标手势。

6、本发明实施例提供一种多模态交互装置，包括：

7、选择模块，用于响应于用户对原始页面中待操作元素产生的目标手势，选中所述待操作元素；

8、开启模块，用于响应于所述用户产生的第一动作，开启智能设备的语音监听功能；

9、处理模块，用于根据所述用户产生的第一语音指令处理所述待操作元素，其中，所述用户在产生所述第一动作和所述第一语音指令时保持所述目标手势。

10、本发明实施例提供一种智能设备，包括：处理器和存储器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现：

11、响应于用户对原始页面中待操作元素产生的目标手势，选中所述待操作元素；

12、响应于所述用户产生的第一动作，开启所述智能设备的语音监听功能；

13、根据所述用户产生的第一语音指令处理所述待操作元素，其中，所述用户在产生所述第一动作和所述第一语音指令时保持所述目标手势。

14、本发明实施例提供了一种存储计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器至少执行以下的动作：

15、响应于用户对原始页面中待操作元素产生的目标手势，选中所述待操作元素；

16、响应于所述用户产生的第一动作，开启智能设备的语音监听功能；

17、根据所述用户产生的第一语音指令处理所述待操作元素，其中，所述用户在产生所述第一动作和所述第一语音指令时保持所述目标手势。

18、发明本提供的多模态交互方法，在用户与智能设备进行交互的过程中，用户可以对智能设备提供的原始页面上的待操作元素产生目标手势，以选中此待操作元素。此时，手势模态的交互形式已经作用于待操作元素。接着，用户在保持目标手势的同时产生第一动作，以开启智能设备的语音监听功能，以使智能设备能够对用户产生的第一语音指令进行响应，从而对上述选中的待操作元素进行处理。其中，用户在产生第一语音指令时同样需要保持最初的目标手势，此时，语音模态的交互形式也作用于待操作元素。

19、可见，上述方案中，多种模态的交互形式可以同时作用于一个待操作元素，丰富人机交互的实现方式以及交互所能实现的功能的同时，也能够简化交互流程，提高交互效率。

技术特征：

1.一种多模态交互方法，其特征在于，应用于智能设备，包括：

2.根据权利要求1所述的方法，其特征在于，所述响应于用户对第一页面中待操作元素的产生的目标手势，选中所述待操作元素，包括：

3.根据权利要求1所述的方法，其特征在于，所述启动所述智能设备的语音监听功能之后，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述用户产生的第一语音指令处理所述待操作元素，包括：

5.根据权利要求3所述的方法，其特征在于，所述第一语音指令包括在所述原始页面之外的目标页面对所述待操作元素执行的第一跨页面处理指令；

6.根据权利要求5所述的方法，其特征在于，所述根据所述备选页面包含的目标页面的入口跳转至所述目标页面，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据所述备选页面包含的目标页面的入口跳转至所述目标页面，包括：

8.根据权利要求4所述的方法，其特征在于，所述第一语音指令包括在所述原始页面之外的目标页面对所述待操作元素执行的第二跨页面处理指令；

9.根据权利要求3或4所述的方法，其特征在于，所述第一语音指令包括在所述原始页面内对所述待操作元素执行的页面内处理指令；

10.根据权利要求5至8中任一项所述的方法，其特征在于，所述原始页面和所述目标页面分别由安装于所述智能设备中的不同应用程序提供。

11.根据权利要求5至8中任一项所述的方法，其特征在于，所述原始页面和所述目标页面分别对应于所述智能设备安装的同一应用程序提供的不同功能。

12.根据权利要求1所述的方法，其特征在于，所述目标手势包括隔空手势、所述第一动作包括隔空动作。

13.根据权利要求12所述的方法，其特征在于，所述方法还包括：

14.根据权利要求3所述的方法，其特征在于，所述方法还包括:

15.根据权利要求3所述的方法，其特征在于，所述备选处理方式包括原始处理方式和个性化处理方式；

16.一种多模态交互装置，其特征在于，包括：

17.一种智能设备，其特征在于，包括：处理器和存储器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现：

18.一种存储计算机指令的计算机可读存储介质，其特征在于，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器至少执行以下的动作：

技术总结
本发明实施例提供一种多模态交互方法、装置、智能设备和存储介质，该方法包括：用户可以对智能设备提供的原始页面上的待操作元素产生目标手势，以选中此待操作元素。此时，手势模态的交互形式作用于待操作元素。接着，用户在保持目标手势的同时产生第一动作，以开启智能设备的语音监听功能，以使智能设备能够对用户产生的第一语音指令进行响应，并按照第一语音指令处理待操作元素。其中，用户在产生第一语音指令时同样需要保持最初的目标手势，此时，语音模态的交互形式也作用于待操作元素。可见，多种模态的交互形式可以同时作用于一个元素，从而丰富人机交互的实现方式以及人机交互所能实现的功能，也简化交互流程。

技术研发人员：张寒,郭皓月,柳琳玮,洪哲,兰佳锦
受保护的技术使用者：科沃斯机器人股份有限公司
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1149477.html

专利

最新回复(0)