可穿戴设备、面部图像重建方法及装置、存储介质与流程

专利检索2025-05-20 30

本公开涉及人工智能，尤其涉及一种可穿戴设备、面部图像重建方法及装置、存储介质。

背景技术：

1、随着ar(augmented reality，增强现实)以及vr(virtual reality，虚拟现实)技术的发展，人们往往把ar/vr眼镜视为未来社交应用的新蓝海，ar/vr可以提供更加沉浸式的社交体验。

2、当通过ar或vr等xr(extended reality，扩展现实)设备远程社交时，xr头戴的穿戴者不可能再像手机一样通过摄像头展示自己的形象，因此我们需要一个数字人形象。如何更好的展示数字人形象一直以来备受关注。

技术实现思路

1、本公开提供一种可穿戴设备、面部图像重建方法及装置、存储介质。

2、根据本公开实施例的第一方面，提供一种可穿戴设备，包括：

3、声音采集组件，用于采集所述可穿戴设备的穿戴者的语音信息；

4、眼动数据采集组件，用于在所述声音采集组件采集所述语音信息时，同步采集所述穿戴者的眼动信息；

5、控制组件，分别与所述声音采集组件以及所述眼动数据采集组件电连接，用于根据所述语音信息和所述眼动信息，控制所述可穿戴设备与外部设备进行信息交互；其中，所述语音信息和所述眼动信息用于重建预设的基准面部图像，重建后的面部图像用于表征所述穿戴者的虚拟形象。

6、在一些实施例中，所述控制组件，用于控制将所述语音信息和所述眼动信息发送给与所述可穿戴设备通信的服务端设备；其中，所述语音信息和所述眼动信息用于所述服务端设备重建所述基准面部图像。

7、在一些实施例中，所述控制组件，用于根据所述语音信息和所述眼动信息重建所述预设的基准面部图像，并控制将重建后的面部图像以及所述语音信息同步发送给与所述可穿戴设备通信的终端设备。

8、根据本公开实施例的第二方面，提供一种面部图像重建方法，所述方法包括：

9、获取预设的基准面部图像；

10、获取语音信息以及眼动信息；其中，所述语音信息和所述眼动信息为基于第一方面中任一项所述的可穿戴设备采集的；

11、基于所述语音信息和所述眼动信息重建所述基准面部图像。

12、在一些实施例中，所述基于所述语音信息和所述眼动信息重建所述基准面部图像，包括：

13、基于所述语音信息，确定所述穿戴者的面部中眼睛之外的部分的面部特征参数；

14、根据所述面部特征参数重建所述基准面部图像中眼睛之外的部分，并同步基于所述眼动信息重建所述基准面部图像中的眼睛。

15、在一些实施例中，所述基于所述语音信息，确定所述穿戴者的面部中眼睛之外的部分的面部特征参数，包括：

16、对所述语音信息进行特征提取，得到语音特征；其中，所述语音特征中至少包括所述语音信息所包括的音节；

17、利用预设对应关系，确定与所述音节对应的所述面部特征参数；其中，所述预设对应关系中至少包括音节与面部特征参数之间的映射。

18、在一些实施例中，所述方法还包括：

19、获取音视频信息；其中，所述音视频信息中包括音频信息以及与所述音频信息同步的所述音频信息的发声者的面部图像序列；

20、根据所述面部图像序列中的各帧图像，确定所述基准面部图像；

21、根据所述音频信息以及所述面部图像序列，构建所述预设对应关系。

22、在一些实施例中，所述根据所述音频信息以及所述面部图像序列，构建所述预设对应关系，包括：

23、提取所述音频信息中所包括的各语音特征，并确定所述面部图像序列中与所述语音特征同步的面部帧图像；

24、确定各所述面部帧图像中的面部特征参数；

25、利用各所述语音特征以及关联所述语音特征的面部特征参数训练模型，得到所述预设对应关系。

26、在一些实施例中，所述音视频信息为所述可穿戴设备的穿戴者的音视频信息。

27、在一些实施例中，所述面部特征参数中包括：面部五官中眼睛之外的器官的结构特征参数；

28、所述根据所述面部特征参数重建所述基准面部图像中眼睛之外的部分，包括：

29、根据所述面部五官中眼睛之外的器官的结构特征参数，调整所述基准面部图像中眼睛之外的各器官的位置。

30、在一些实施例中，所述眼动信息包括：眼眶尺寸序列与眼球在所述眼眶中的位置序列；

31、所述基于所述眼动信息重建所述基准面部图像中的眼睛，包括：

32、确定所述基准面部图像中眼眶的基准尺寸以及眼球在所述眼眶中的基准位置；

33、根据所述眼动信息中眼球的位置序列，调整所述基准面部图像中眼球的基准位置；并同步根据所述眼动信息中眼眶尺寸序列，调整所述基准面部图像中眼眶的尺寸。

34、根据本公开实施例的第三方面，提供一种面部图像重建装置，所述装置包括：

35、第一获取模块，配置为获取预设的基准面部图像；

36、第二获取模块，配置为获取语音信息以及眼动信息；其中，所述语音信息和所述眼动信息为基于第一方面中任一项所述的可穿戴设备采集的；

37、重建模块，配置为基于所述语音信息和所述眼动信息重建所述基准面部图像。

38、在一些实施例中，所述重建模块，还配置为基于所述语音信息，确定所述穿戴者的面部中眼睛之外的部分的面部特征参数；根据所述面部特征参数重建所述基准面部图像中眼睛之外的部分，并同步基于所述眼动信息重建所述基准面部图像中的眼睛。

39、在一些实施例中，所述重建模块，还配置为对所述语音信息进行特征提取，得到语音特征；其中，所述语音特征中至少包括所述语音信息所包括的音节；利用预设对应关系，确定与所述音节对应的所述面部特征参数；其中，所述预设对应关系中至少包括音节与面部特征参数之间的映射。

40、在一些实施例中，所述装置还包括：

41、第三获取模块，获取音视频信息；其中，所述音视频信息中包括音频信息以及与所述音频信息同步的所述音频信息的发声者的面部图像序列；

42、确定模块，配置为根据所述面部图像序列中的各帧图像，确定所述基准面部图像；

43、构建模块，配置为根据所述音频信息以及所述面部图像序列，构建所述预设对应关系。

44、在一些实施例中，所述构建模块，还配置为提取所述音频信息中所包括的各语音特征，并确定所述面部图像序列中与所述语音特征同步的面部帧图像；确定各所述面部帧图像中的面部特征参数；利用各所述语音特征以及关联所述语音特征的面部特征参数训练模型，得到所述预设对应关系。

45、在一些实施例中，所述音视频信息为所述可穿戴设备的穿戴者的音视频信息。

46、在一些实施例中，所述面部特征参数中包括：面部五官中眼睛之外的器官的结构特征参数；

47、所述重建模块，还配置为根据所述面部五官中眼睛之外的器官的结构特征参数，调整所述基准面部图像中眼睛之外的各器官的位置。

48、在一些实施例中，所述眼动信息包括：眼眶尺寸序列与眼球在所述眼眶中的位置序列；

49、所述重建模块，还配置为确定所述基准面部图像中眼眶的基准尺寸以及眼球在所述眼眶中的基准位置；根据所述眼动信息中眼球的位置序列，调整所述基准面部图像中眼球的基准位置；并同步根据所述眼动信息中眼眶尺寸序列，调整所述基准面部图像中眼眶的尺寸。

50、根据本公开实施例的第四方面，提供一种面部图像重建装置，包括：

51、处理器；

52、用于存储处理器可执行指令的存储器；

53、其中，所述处理器被配置为执行如上述第一方面中所述的面部图像重建方法。

54、根据本公开实施例的第五方面，提供一种存储介质，包括：

55、当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述第一方面中所述的面部图像重建方法。

56、本公开的实施例提供的技术方案可以包括以下有益效果：

57、在本公开的实施例中，可穿戴设备自身可采集穿戴者的语音信息以及眼动信息用于穿戴者的虚拟形象的展示，一方面，无需额外购买摄像头等设备，且穿戴者可随意移动，不会限制穿戴者社交时的移动空间，给穿戴者提供了便利；另一方面，因穿戴者说话时，面部动作会发生变化，且眼动信息也属于面部动作之一，因此基于眼动信息和语音信息结合的方式重建穿戴者的虚拟形象，也能使得穿戴者的虚拟形象更加逼真。

58、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

技术特征：

1.一种可穿戴设备，其特征在于，所述设备包括：

2.根据权利要求1所述的设备，其特征在于，

3.根据权利要求1所述的设备，其特征在于，

4.一种面部图像重建方法，其特征在于，所述方法包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述语音信息和所述眼动信息重建所述基准面部图像，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述语音信息，确定所述穿戴者的面部中眼睛之外的部分的面部特征参数，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述音频信息以及所述面部图像序列，构建所述预设对应关系，包括：

9.根据权利要求7所述的方法，其特征在于，所述音视频信息为所述可穿戴设备的穿戴者的音视频信息。

10.根据权利要求5所述的方法，其特在于，所述面部特征参数中包括：面部五官中眼睛之外的器官的结构特征参数；

11.根据权利要求5所述的方法，其特征在于，所述眼动信息包括：眼眶尺寸序列与眼球在所述眼眶中的位置序列；

12.一种面部图像重建装置，其特征在于，所述装置包括：

13.一种面部图像重建装置，其特征在于，包括：

14.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备中的处理器执行时，使得电子设备能够执行如权利要求4至11中任一项所述的面部图像重建方法。

技术总结
本公开是关于一种可穿戴设备、面部图像重建方法及装置、存储介质。该可穿戴设备包括：声音采集组件，用于采集所述可穿戴设备的穿戴者的语音信息；眼动数据采集组件，用于在所述声音采集组件采集所述语音信息时，同步采集所述穿戴者的眼动信息；控制组件，分别与所述声音采集组件以及所述眼动数据采集组件电连接，用于根据所述语音信息和所述眼动信息，控制所述可穿戴设备与外部设备进行信息交互；其中，所述语音信息和所述眼动信息用于重建预设的基准面部图像，重建后的面部图像用于表征所述穿戴者的虚拟形象。通过该可穿戴设备，使得无需额外购买摄像头等设备，不会限制穿戴者社交时的移动空间，且也能使得穿戴者的虚拟形象重建更加逼真。

技术研发人员：孙舶寒
受保护的技术使用者：北京小米移动软件有限公司
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1153887.html

专利

最新回复(0)