基于图片和语音的短视频内容提取方法及存储介质、设备与流程

专利检索2025-05-05  9


本发明属于视频处理的,特别是涉及基于图片和语音的短视频内容提取方法及存储介质、设备。


背景技术:

1、随着自媒体行业的发展,网络上涌现了各种类型的短视频。我们需要对网络舆情进行监测,必然需要监测到短视频的内容。然而,短视频讲述的内容主要来源于两个方面:第一、短视频的音频信息;第二、短视频的图片ocr信息。

2、目前,对于短视频的内容提取,主要就是单纯的语音内容解析(asr)或者视频ocr内容提取。而且,针对视频ocr的内容,要么人工指定视频字幕的位置,以此去掉图片的背景信息,要么将ocr的结果进行简单的合并,而没有进一步对结果进行取舍,得到的内容存在很多背景噪音,对后续的分析带来很大的影响。

3、对于短视频的舆情监测,我们只关注每个短视频主要讲解的内容是什么,然而短视频的形式多种多样,短视频的音频信息和图片ocr信息都可能带来各种噪声。因此,提取短视频的主要内容是至关重要的。


技术实现思路

1、本发明为解决上述背景技术中存在的技术问题,提供了基于图片和语音的短视频内容提取方法及存储介质、设备。

2、本发明采用以下技术方案:基于图片和语音的短视频内容提取方法,包括以下步骤:

3、创建音频分类模型,利用音频分类模型对短视频进行分类,得到无人声音频、音乐声音频和人说话音频;获取每个音频类型的音频信息ts(v);

4、搭建自适应字幕提取模型,将所述短视频分割成n张图片,得到图片序列p1,p2,…,pn;提取每张图片的文字信息,所述文字信息表示为:其中,ti,j为图片pi的第j个文本框对应的文字内容;pointi,j为图片pi的第j个文本框的位置坐标,j∈[1,im],i∈[1,n],im表示图片pi一共得到的文本框数;

5、根据所述文本框的位置坐标将文字内容划分为横向文字ai和纵向文字bi,分别对横向文字ai和纵向文字bi进行聚类,得到关于图片的横向文本集合rowi和纵向文本集合coli;

6、按照时间轴,基于所述横向文本集合rowi和纵向文本集合coli对相邻帧的文本按照位置关系进行聚类,同时对横向文本和纵向文本进行有效保留与合并得到视频图片ocr结果f(m);

7、对所述音频信息ts(v)和视频图片ocr结果f(m)进行合并处理得到短视频内容。

8、在进一步的实施例中,所述音频分类模型的创建流程如下:

9、预先创建三个音频标签类型,分别为:无人声标签(0)、音乐声标签(1)、人说话声标签(2);将所述短视频按照预定时长进行分割得到若干条音频,将每条音频赋予对应的标签;

10、训练得到音频分类模型:p(v)=l;其中,v表示音频,l∈{0,1,2},p(v)为音频类型。

11、在进一步的实施例中,所述音频信息ts(v)的获取流程如下:

12、若音频类型为无人声音频或音乐声音频时,则直接跳过,音频信息为空;若音频类型为人说话音频时,则对人说话音频进行语音转写;则音频信息ts(v)的内容如下:

13、

14、在进一步的实施例中,所述横向文字ai和纵向文字bi的划分步骤如下:

15、以文本框的左上角的点为初始点,顺时针获取文本框的四个顶角的坐标点,得到位置坐标pointi,j(xi,j,0,yi,j,0,xi,j,1,yi,j,1,xi,j,2,yi,j,2,xi,j,3,yi,j,3);其中,xi,j,0,yi,j,0为图片pi内的文本框j的左上角的点坐标,xi,j,1,yi,j,1图片pi内的文本框j的右上角的点坐标,xi,j,2,yi,j,2图片pi内的文本框j的右下角的点坐标,xi,j,3,yi,j,3为图片pi内的文本框j的左下角的点坐标;

16、按照文本框的长度和宽度进行分类:若文本框的长度大于宽度,则将其内部的文字划分为横向文字ai,

17、反之,若文本框的长度小于宽度,则将其内部的文字划分为纵向文字bi,

18、在进一步的实施例中,对横向文字ai进行类聚的步骤如下:

19、按照文本框的左上角的yi,j,0从上到下进行文本框位置顺序排序,定义上、下两个相邻的文本框的位置坐标分别为pointi,j和pointi,k,k∈[1,im];如满足以下关系,则将文本框j和文本框k归为一类,反之则归为两类:

20、式中,thrh表示相邻文本上、下距离归为一类的距离阈值,为预先设定的值;θ为预先设定的比例阈值;

21、当文本框j和文本框k归为一类时,文本框j和文本框k的文字内容按照从上到下的顺序进行拼接,得到拼接文本表示图片pi中与文本框j在纵向上属于同类的文本框;并将文本框j和文本框ip的位置记录为两个文本框的最小外接矩形

22、基于拼接文本和最小外接矩形得到关于图片pi的横向文本集合rowi,其中,

23、在进一步的实施例中,对纵向文字bi进行类聚的步骤如下:

24、按照文本框的左上角的xi,j,0从左到右进行文本框位置顺序排序,定义左、右两个相邻的文本框的位置坐标分别为pointi,j和pointi,h,h∈[1,im];如满足以下关系,则将文本框j和文本框h归为一类,反之则归为两类:

25、式中,thrh表示相邻文本上、下距离归为一类的距离阈值,为预先设定的值;θ为预先设定的比例阈值;

26、当文本框j和文本框h归为一类时,文本框j和文本框h的文字内容按照从左到右的顺序进行拼接,得到拼接文本iq表示图片pi中与文本框j在横向上属于同类的文本框;并将文本框j和文本框iq的位置记录为两个文本框的最小外接矩形

27、基于拼接文本和最小外接矩形得到关于图片pi的纵向文本集合coli,其中,

28、在进一步的实施例中,基于横向文本集合rowi和纵向文本集合coli对相邻帧的文本按照位置关系进行聚类的具体流程如下:

29、定义相邻帧的图片分别为pi和pi+1,图片pi的对应的集合为横向文本集合rowi和纵向文本集合coli,图片pi+1的对应的集合为横向文本集合rowi+1和纵向文本集合coli+1;

30、集合rowi和集合rowi+1、集合coli和集合coli+1均采用以下方法聚类:当图片pi和图片pi+1中相同位置处的两个文本框的相交面积比超过面积比阈值,则认为两个文本框为一类;对同一类的两个文本框执行以下操作:计算两个文本框的编辑距离相似度,若编辑距离相似度超过第一相似度阈值δ,则保留文字相对多的文本框;反之,则两个文本框都保留,将同一位置的字幕进行合并,且文本数量相应文本数量加一,得到视频图片ocr结果:

31、f(m)=[(mtext1,num1),……(mtextf,numl)]

32、式中,mtextf为第f类文本按照时间轴拼接起来的内容;numf为第f类文本涉及到的时间轴变化数量;l为该短视频聚的类别数,f∈[1,l]。

33、在进一步的实施例中,所述短视频内容的得到流程如下:

34、若音频信息ts(v)和视频图片ocr结果f(m)均空,则对应的短视频内容为空;

35、若音频信息ts(v)为空,视频图片ocr结果f(m)为非空,则对应的短视频内容为ocr识别结果中发生变化次数最多的相应字幕t=f(m)max,其中f(m)max为f(m)中最大变化数量nummax对应的下标对应的文本内容;

36、若音频信息ts(v)为非空,视频图片ocr结果f(m)为空,则对应的短视频内容为t=ts(v);

37、若音频信息ts(v)和视频图片ocr结果f(m)均非空,则将音频信息ts(v)和视频图片ocr的每个结果f(m)进行文本编辑距离相似度计算:当语音转写结果与视频ocr最大编辑距离相似度结果大于第二相似阈值β时,则将视频ocr该类别的结果作为最终的视频内容;否则,将语音转写的结果作为最终的视频内容。

38、一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述基于图片和语音的短视频内容提取方法。

39、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述基于图片和语音的短视频内容提取方法。

40、本发明的有益效果:1、结合短视频的音频信息和视频信息来获取短视频的主要内容,做到了音频内容辅助寻找字幕位置,视频图片ocr内容纠正了一些同音字错误,使得结果更加的准确。2、字幕的提取做到了自适应各种位置,而不需要人工手动划分字幕位置。


技术特征:

1.基于图片和语音的短视频内容提取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于图片和语音的短视频内容提取方法,其特征在于,所述音频分类模型的创建流程如下:

3.根据权利要求2所述的基于图片和语音的短视频内容提取方法,其特征在于,所述音频信息ts(v)的获取流程如下:

4.根据权利要求1所述的基于图片和语音的短视频内容提取方法,其特征在于,所述横向文字ai和纵向文字bi的划分步骤如下:

5.根据权利要求4所述的基于图片和语音的短视频内容提取方法,其特征在于,对横向文字ai进行类聚的步骤如下:

6.根据权利要求4所述的基于图片和语音的短视频内容提取方法,其特征在于,对纵向文字bi进行类聚的步骤如下:

7.根据权利要求1所述的基于图片和语音的短视频内容提取方法,其特征在于,基于横向文本集合rowi和纵向文本集合coli对相邻帧的文本按照位置关系进行聚类的具体流程如下:

8.根据权利要求1所述的基于图片和语音的短视频内容提取方法,其特征在于,所述短视频内容的得到流程如下:

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8中任意一项所述基于图片和语音的短视频内容提取方法。

10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8中任意一项所述基于图片和语音的短视频内容提取方法。


技术总结
本发明公开了基于图片和语音的短视频内容提取方法及存储介质、设备,属于视频处理的技术领域。包括以下步骤:提取短视频的音频信息、提取短视频的图片文字信息、根据音频信息和图片文字信息合并得到短视频内容。结合短视频的音频信息和视频信息来获取短视频的主要内容,做到了音频内容辅助寻找字幕位置,视频图片OCR内容纠正了一些同音字错误,使得结果更加的准确。

技术研发人员:饶淑梅,王海荣,吕晓宝,王元兵,冯凯
受保护的技术使用者:中科曙光南京研究院有限公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1153440.html

最新回复(0)