[]本发明涉及人工智能,具体地说是一种构建虚拟达人的方法、装置及电子设备。
背景技术:
0、[背景技术]
1、现有技术主要利用人工编写内容,然后发布到各大社交媒体平台来吸引和获取粉丝,该种方式展示了以下不足之处:
2、(1)手动操作:人工编写方法需要耗费大量的人力物力进行内容创作,特别是对于需要深度专业知识的领域,需要投入大量的时间和精力去研究和创作,工作量巨大。
3、(2)单一形式:大部分情况下,人工编写的内容形式单一,多以文字、图片等静态形式为主,往往无法满足用户对于多元化、动态交互内容的需求。
4、(3)更新频率有限:由于人力资源的限制,人工编写内容的更新频率有限,难以做到随时快速更新、响应用户需求或者热点信息。
5、(4)缺乏个性化:人工编写的内容往往难以同时满足多样化、差异化的粉丝需求,同时,由于人们的知识和经验有限,难以做到真正意义上的个性化和专家级别的服务。
6、综上所述,现有的使用人工编写内容发布在社交媒体平台的方法存在不足,未来需要一个更加智能化的系统或者装置进行改善和优化。
技术实现思路
0、[
技术实现要素:
]
1、本发明的目的就是要解决上述的不足而提供一种构建虚拟达人的方法、装置及电子设备,实现了用户可以在短时间内构建出一个既能够深度体现自身特色,又拥有独立交互能力的虚拟达人,极大丰富了数字内容创作和在线交互的可能性。
2、本发明一方面,提供了一种构建虚拟达人的方法,包括以下步骤:
3、1)数据处理:后台配置不同的采访问题后,收集用户回复时的面部表情和回复音频,并对数据进行预处理;
4、2)模型构建:根据音频生成与音频同步的唇形图像,并将生成的唇形同步的图像帧输入到判别器中,以判别生成的唇形图像与音频是否同步,以及对唇形视觉质量进行判别。
5、作为一种实施例,步骤1)数据处理包括以下步骤:
6、101、数据准备:后台配置不同的采访问题,问题形式包括但不限于朗诵、疑问、开心、沮丧等不同场景和不同语气;
7、102、开始收集:利用摄像头和麦克风,收集用户回复时候的面部表情和回复音频,并将声音文件切割为长度不超过100个字符的短音频文件;
8、103、数据预处理:对数据集作进一步处理,即提取视频帧进行人脸检测,并提取相应的音频,按固定的格式保存在文件夹中。
9、作为一种实施例,步骤2)模型构建包括以下步骤:
10、201、首先,模型的输入包含两个部分,一段视频帧序列和一段梅尔频谱音频,这两部分数据按照特定的组织格式输入模型的生成器,并最终输出唇形与音频同步的图像帧;
11、202、在训练的时候,生成器生成的唇形同步的图像帧输入到判别器中,并通过判别器判别生成的唇形图像与音频是否同步,以及对唇形视觉质量进行判别。
12、作为一种实施例,步骤201中,所述生成器由脸部编码器、音频编码器以及解码器组成,脸部编码器接收视频图像帧,生成脸部中间特征;音频编码器接收音频信号生成音频中间特征;得到的脸部中间特征以及音频中间特征合并后进行特征融合,融合后的特征再送入脸部解码器中进行解码,最终输出唇形与音频同步的图像帧。
13、作为一种实施例,步骤202中,所述判别器包含两部分,一是一个已经预训练好的唇形与音频同步的判别器,该判别器接受音频信号以及生成的唇形同步的图像作为输入,来判别生成的唇形图像与音频是否同步;二是唇形视觉质量的判别器,该判别器接收生成器生成的唇形图像以及与音频同步真实同步的唇形图像,来判别其真假,驱动唇形质量更好地生成。
14、本发明另一方面,提供了一种构建虚拟达人的装置,包括:
15、数据处理单元,用于在后台配置不同的采访问题后,收集用户回复时的面部表情和回复音频,并对数据进行预处理;
16、模型构建单元,用于将一段视频帧序列和一段梅尔频谱音频输入模型的生成器,并最终输出唇形与音频同步的图像帧;以及将生成的唇形同步的图像帧输入到判别器中,通过判别器判别生成的唇形图像与音频是否同步,以及对唇形视觉质量进行判别。
17、作为一种实施例,所述数据处理单元包括:
18、数据准备模块,用于在后台配置不同的采访问题,问题形式包括但不限于朗诵、疑问、开心、沮丧等不同场景和不同语气;
19、开始收集模块,用于利用摄像头和麦克风收集用户回复时候的面部表情和回复音频,并将声音文件切割为长度不超过100个字符的短音频文件;
20、数据预处理模块,用于对数据集作进一步处理,即提取视频帧进行人脸检测,并提取相应的音频,按固定的格式保存在文件夹中。
21、作为一种实施例,所述生成器由脸部编码器、音频编码器以及解码器组成,脸部编码器接收视频图像帧,生成脸部中间特征;音频编码器接收音频信号生成音频中间特征;得到的脸部中间特征以及音频中间特征合并后进行特征融合,融合后的特征再送入脸部解码器中进行解码,最终输出唇形与音频同步的图像帧。
22、作为一种实施例,所述判别器包含两部分,一是一个已经预训练好的唇形与音频同步的判别器,该判别器接受音频信号以及生成的唇形同步的图像作为输入,来判别生成的唇形图像与音频是否同步;二是唇形视觉质量的判别器,该判别器接收生成器生成的唇形图像以及与音频同步真实同步的唇形图像,来判别其真假,驱动唇形质量更好地生成。
23、本发明第三方面,提出了一种电子设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的程序,当所述程序被所述处理器执行时,使得所述电子设备实现上述方法。
24、本发明同现有技术相比,具有如下优点:
25、(1)本发明具有强大的虚拟形象构建能力,通过尖端的人工智能算法和模型,用户能够迅速创建出与自身具有高度相似性的虚拟达人形象,这一虚拟达人不仅模拟了生成者的外观特征,更精确地复制了声音和形体动作,达到了80%以上的相似度。
26、(2)本发明虚拟达人的声音复制技术使用先进的语音识别和合成算法来分析生成者的声音特点,并将其应用到虚拟形象中,确保了语调、音色、发音速度等声音属性与原生态极其接近。
27、(3)本发明形体动作的再现则采用深度学习驱动的动作捕捉系统来记录并分析生成者的身体动作习惯,之后通过人物动画和图像处理技术使虚拟形象能够以自然流畅的方式模拟这些动作。
28、(4)本发明还具备自我学习和适应能力,随着用户与虚拟形象的互动,能不断地细化和调整声音及动作模型,以持续提升相似度和自然度。
29、(5)通过本发明,用户可以在短时间内构建出一个既能够深度体现自身特色,又拥有独立交互能力的虚拟达人,极大丰富了数字内容创作和在线交互的可能性。
1.一种构建虚拟达人的方法,其特征在于,包括以下步骤:
2.如权利要求1所述的方法,其特征在于,步骤1)数据处理包括以下步骤:
3.如权利要求1所述的方法,其特征在于,步骤2)模型构建包括以下步骤:
4.如权利要求3所述的方法,其特征在于:步骤201中,所述生成器由脸部编码器、音频编码器以及解码器组成,脸部编码器接收视频图像帧,生成脸部中间特征;音频编码器接收音频信号生成音频中间特征;得到的脸部中间特征以及音频中间特征合并后进行特征融合,融合后的特征再送入脸部解码器中进行解码,最终输出唇形与音频同步的图像帧。
5.如权利要求3所述的方法,其特征在于:步骤202中,所述判别器包含两部分,一是一个已经预训练好的唇形与音频同步的判别器,该判别器接受音频信号以及生成的唇形同步的图像作为输入,来判别生成的唇形图像与音频是否同步;二是唇形视觉质量的判别器,该判别器接收生成器生成的唇形图像以及与音频同步真实同步的唇形图像,来判别其真假,驱动唇形质量更好地生成。
6.一种构建虚拟达人的装置,其特征在于,包括:
7.如权利要求6所述的装置,其特征在于,所述数据处理单元包括:
8.如权利要求6所述的装置,其特征在于:所述生成器由脸部编码器、音频编码器以及解码器组成,脸部编码器接收视频图像帧,生成脸部中间特征;音频编码器接收音频信号生成音频中间特征;得到的脸部中间特征以及音频中间特征合并后进行特征融合,融合后的特征再送入脸部解码器中进行解码,最终输出唇形与音频同步的图像帧。
9.如权利要求6所述的装置,其特征在于:所述判别器包含两部分,一是一个已经预训练好的唇形与音频同步的判别器,该判别器接受音频信号以及生成的唇形同步的图像作为输入,来判别生成的唇形图像与音频是否同步;二是唇形视觉质量的判别器,该判别器接收生成器生成的唇形图像以及与音频同步真实同步的唇形图像,来判别其真假,驱动唇形质量更好地生成。
10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的程序,当所述程序被所述处理器执行时,使得所述电子设备实现如权利要求1至5中任一项所述的方法。
