本发明涉及人工智能,具体而言,涉及一种ai会议管理方法及系统。
背景技术:
1、随着远程工作和在线交流的兴起,线上会议已成为现代商业和教育活动中不可或缺的一部分。在传统的会议管理中,会议记录往往依赖于参会人员手动记录重点或使用简单的录音设备来捕捉讨论内容,这样的做法效率低下且易出错。尽管有些软件支持自动记录会议内容,但这些系统常常无法准确区分不同发言者的声音,或者无法有效处理会议中出现的复杂语境和专业术语。此外,传统方法也无法保证敏感信息的识别和处理,可能导致机密信息的泄露。
技术实现思路
1、本发明的目的在于提供一种ai会议管理方法及系统。
2、第一方面,本发明实施例提供一种ai会议管理方法,包括:
3、获取在线会议室的多个会议窗口;
4、获取目标会议窗口的会议画面和语音输入信息,所述目标会议窗口为所述多个会议窗口中的任一会议窗口;
5、对所述会议画面进行分析,得到所述会议画面对应的文字转录结果;
6、调用预先训练的音频解析模型,对所述语音输入信息进行文字转换,得到所述语音输入信息对应的文字提取结果;
7、对所述文字转录结果和所述文字提取结果进行敏感词识别,在所述文字转录结果和所述文字提取结果均不存在敏感词的基础上,融合所述文字转录结果和所述文字提取结果,得到融合文字结果;
8、基于所述融合文字结果生成会议摘要,并将所述会议摘要与所述目标会议窗口关联。
9、在一种可能的实施方式中,所述对所述会议画面进行分析,得到所述会议画面对应的文字转录结果,包括:
10、获取会议画面对应的画面特征向量,所述会议画面中包括用户口型视频;
11、对所述画面特征向量进行属性提升,得到所述画面特征向量对应的特征增强向量;
12、根据所述画面特征向量获取所述会议画面对应的视频稳定值,所述视频稳定值用于表征所述会议画面的视频流畅性;
13、根据所述视频稳定值对所述特征增强向量进行用户口型视频分析,得到所述用户口型视频对应的文字转录结果,所述视频稳定值用于参与调整预置口型图像分析模型对所述特征增强向量进行所述用户口型视频分析时的重要程度占比,所述文字转录结果用于表征所述会议画面中分析得到的用户口型视频。
14、在一种可能的实施方式中,所述根据所述视频稳定值对所述特征增强向量进行用户口型视频分析,得到所述用户口型视频对应的文字转录结果,包括:
15、将所述视频稳定值和所述特征增强向量输入预置特征生成模型解析单元进行用户口型视频分析,输出得到所述用户口型视频对应的文字转录结果,所述解析单元中包括所述口型图像分析模型,所述解析单元用于通过所述口型图像分析模型和所述视频稳定值对所述特征增强向量进行用户口型视频分析。
16、在一种可能的实施方式中,所述用户口型视频中包括多个视频帧,所述文字转录结果中包括所述多个视频帧匹配的文字转录结果;
17、所述将所述视频稳定值和所述特征增强向量输入预置特征生成模型解析单元进行所述用户口型视频分析,输出得到所述用户口型视频对应的文字转录结果,包括:
18、将所述特征增强向量、前序所有视频帧对应的文字转录结果以及所述视频稳定值输入所述解析单元,输出得到目标视频帧对应的文字转录结果。
19、在一种可能的实施方式中,所述方法还包括:
20、响应于所述视频稳定值大于预设稳定值下限,设置所述解析单元中所述口型图像分析模型的重要性系数为第一重要程度占比;
21、响应于所述视频稳定值小于所述预设稳定值下限,设置所述解析单元中所述口型图像分析模型的重要性系数为第二重要程度占比,所述第一重要程度占比低于所述第二重要程度占比。
22、在一种可能的实施方式中,所述用户口型视频中包括多个视频帧,所述文字转录结果中包括所述多个视频帧匹配的文字转录结果;
23、所述将所述视频稳定值和所述特征增强向量输入预置特征生成模型解析单元进行所述用户口型视频分析,输出得到所述用户口型视频对应的文字转录结果,包括:
24、将所述特征增强向量、前序视频帧对应的文字转录结果以及所述视频稳定值输入所述解析单元,输出得到目标视频帧对应的文字转录结果。
25、在一种可能的实施方式中,所述解析单元中包括特征整合组件和第一类别判别模块;
26、所述将所述特征增强向量、前序视频帧对应的文字转录结果以及所述视频稳定值输入所述解析单元,输出得到目标视频帧对应的文字转录结果,包括:
27、将所述前序视频帧对应的文字转录结果输入所述口型图像分析模型,输出得到所述前序视频帧对应的用户口型特征向量;
28、通过所述特征整合组件根据所述视频稳定值将所述前序视频帧对应的用户口型特征向量以及所述特征增强向量执行合并操作,得到前序综合特征向量;
29、将所述前序综合特征向量输入所述第一类别判别模块,输出得到目标视频帧对应的文字转录结果。
30、在一种可能的实施方式中,所述多个视频帧中包括位于初始节点的初始视频帧;
31、所述方法还包括:
32、获取所述初始视频帧对应的初始特征;
33、将所述特征增强向量、所述初始特征和所述视频稳定值输入所述解析单元,输出得到初始视频帧对应的文字转录结果。
34、在一种可能的实施方式中,所述获取会议画面对应的画面特征向量,包括:
35、将所述会议画面输入特征抽取组件执行特征抽取操作,输出得到所述会议画面对应的所述画面特征向量;
36、所述对所述画面特征向量进行属性提升,得到所述画面特征向量对应的特征增强向量,包括:
37、将所述画面特征向量输入池化组件进行所述属性提升,输出得到所述特征增强向量;
38、所述根据所述画面特征向量获取所述会议画面对应的视频稳定值,包括:
39、将所述画面特征向量输入第二类别判别模块,输出得到所述会议画面对应的视频稳定值;
40、所述第二类别判别模块中包括多个流畅性状态;
41、将所述画面特征向量输入所述第二类别判别模块,输出得到所述会议画面对应的视频稳定值,包括:
42、将所述画面特征向量输入所述第二类别判别模块,输出得到所述会议画面在所述多个流畅性状态上匹配的类别判定置信度;
43、将所述会议画面在所述多个流畅性状态上匹配的类别判定置信度的平均置信度,作为所述会议画面对应的视频稳定值;
44、所述将所述画面特征向量输入所述第二类别判别模块,输出得到所述会议画面对应的视频稳定值之前,还包括:
45、获取样本会议画面对应的画面特征向量,所述样本会议画面中包括样本用户口型视频,所述样本会议画面被预先标记稳定性标识;
46、将所述画面特征向量输入基础类别判别模块,输出得到所述样本会议画面对应的视频稳定值;
47、根据所述视频稳定值和所述稳定性标识之间的差异对所述基础类别判别模块进行训练,得到所述第二类别判别模块;
48、所述样本会议画面中的所述样本用户口型视频还被预先标记用户口型标识;
49、所述将所述视频稳定值和所述特征增强向量输入所述解析单元进行所述用户口型视频分析,输出得到所述用户口型视频对应的文字转录结果之前,还包括:
50、对所述画面特征向量进行属性提升,得到所述画面特征向量对应的特征增强向量;
51、将所述特征增强向量和所述视频稳定值输入样本解析单元,输出得到所述样本用户口型视频对应的预测文字转录结果;
52、根据所述预测文字转录结果和所述用户口型标识之前的差异,对所述样本解析单元进行训练,得到所述解析单元。
53、第二方面,本发明实施例提供一种服务器系统,包括服务器,所述服务器用于执行第一方面至少一种可能的实施方式中的方法。
54、相比现有技术,本发明提供的有益效果包括:采用本发明公开的一种ai会议管理方法及系统,通过获取在线会议室内多个会议窗口的画面和语音输入信息。特定的目标会议窗口中的内容被分析以生成文字转录结果,同时应用预先训练好的音频解析模型对语音输入进行文字转换,产生文字提取结果。然后,系统将检测这些文字结果中的敏感词汇,并在确认无敏感词存在的情况下,将文字转录结果与文字提取结果融合,生成一份综合的融合文字结果。最后,基于融合文字结果自动生成会议摘要,并将该摘要与对应的目标会议窗口相关联,从而为用户提供清晰、准确的会议内容纪要。
1.一种ai会议管理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述会议画面进行分析,得到所述会议画面对应的文字转录结果,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述视频稳定值对所述特征增强向量进行用户口型视频分析,得到所述用户口型视频对应的文字转录结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述用户口型视频中包括多个视频帧,所述文字转录结果中包括所述多个视频帧匹配的文字转录结果;
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
6.根据权利要求3所述的方法,其特征在于,所述用户口型视频中包括多个视频帧,所述文字转录结果中包括所述多个视频帧匹配的文字转录结果;
7.根据权利要求6所述的方法,其特征在于,所述解析单元中包括特征整合组件和第一类别判别模块;
8.根据权利要求6所述的方法,其特征在于,所述多个视频帧中包括位于初始节点的初始视频帧;
9.根据权利要求3所述的方法,其特征在于,所述获取会议画面对应的画面特征向量,包括:
10.一种服务器系统,其特征在于,包括服务器,所述服务器用于执行权利要求1至9中任一项所述的方法。