本说明书的一个或多个实施例涉及计算机视觉和自然语言处理,具体涉及一种图像问答方法、系统、电子设备及介质。
背景技术:
1、视觉问答(visual question answering,vqa)为一类结合计算机视觉和自然语言处理的交互系统,用于提供一种交互式的问答模式,根据输入的图片和相应的问题,智能地预测出问题的相应答案。然而,借助移动端摄像头拍摄纸质文本打印件,在拍摄过程中,由于环境复杂会有纸张的弯度弧度、拍摄角度以及拍摄远近等的影响,导致真实图像文本识别效果比较差,进一步使得视觉问答的结果准确率比较低。
技术实现思路
1、本说明书实施例提供了一种图像问答方法、系统、电子设备及介质,其技术方案如下:
2、第一方面,本说明书实施例提供了一种图像问答方法,包括:获取图像以及图像对应的提问信息;通过图像等势位解析方法对图像进行版面识别,得到图像的文本版面信息;基于预训练模型,确定预训练模型对提问信息以及文本版面信息的模型响应,模型响应为提问信息对应的答案。
3、第二方面,本说明书实施例提供了一种图像问答系统,包括:图像获取模块,用于获取图像以及图像对应的提问信息;版面识别模块,用于通过图像等势位解析方法对图像进行版面识别,得到图像的文本版面信息;模型响应模块,用于基于预训练模型,确定预训练模型对提问信息以及文本版面信息的模型响应,模型响应为提问信息对应的答案。
4、第三方面,本说明书实施例提供了一种电子设备,包括处理器以及存储器;处理器与存储器相连;存储器,用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行上述实施例第一方面的图像问答方法的步骤。
5、第四方面,本说明书实施例提供了一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述实施例第一方面的图像问答方法的步骤。
6、本说明书一些实施例提供的技术方案带来的有益效果至少包括:
7、本说明书实施例可以先获取图像以及图像对应的提问信息;然后通过图像等势位解析方法对图像进行版面识别,得到图像的文本版面信息;再基于预训练模型,确定预训练模型对提问信息以及文本版面信息的模型响应,模型响应为提问信息对应的答案。本说明书实施例通过图像等势位解析方法对图像进行版面识别,解决了真实情况下拍摄的照片发生畸形导致版面解析准确率低的问题,提高了图像识别的准确性和可靠性,同时,本说明书实施例加入了预训练模型,可以智能地对图像做多轮问答,本说明书实施例图像文本版面识别效果好,且视觉问答的结果准确率比较高。
1.一种图像问答方法,包括:
2.根据权利要求1所述的方法,所述通过图像等势位解析方法对所述图像进行版面识别,得到所述图像的文本版面信息,包括:
3.根据权利要求2所述的方法,所述确定所述图像的消失点,包括:
4.根据权利要求3所述的方法,所述根据所述若干文字边缘线确定若干预设消失点,每一预设消失点具有相应的投票分数,包括:
5.根据权利要求4所述的方法,所述基于预设的投票模型,通过所述投票模型对每一预设消失点进行投票,得到每一预设消失点对应的投票分数,包括:
6.根据权利要求2所述的方法,所述通过所述消失点对所述若干像素点分别进行等势位解析,得到等势位图像,包括:
7.根据权利要求2所述的方法,所述对所述等势位图像进行识别处理,得到所述图像的文本版面信息,包括:
8.一种图像问答系统,包括:
9.根据权利要求8所述的系统,所述版面识别模块,包括:
10.根据权利要求9所述的系统,所述消失点确定模块,包括:
11.根据权利要求10所述的系统,所述预设消失点模块,包括:
12.根据权利要求11所述的系统,所述投票模块,包括:
13.根据权利要求9所述的系统,所述等势位解析模块,包括:
14.根据权利要求9所述的系统,所述识别模块,包括:
15.一种电子设备,包括处理器以及存储器;
16.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。