文字检测方法、装置、计算设备及计算机可读存储介质与流程

专利检索2025-02-01  31


本技术涉及人工智能(artificial intelligence,ai),具体涉及一种文字检测方法、装置、计算设备及计算机可读存储介质。


背景技术:

1、文字检测(text detection)是一种用于检查图像中是否存在文字,以及对图像中的文字进行定位的技术。目前,关于文字检测的方法主要包括两种:一种是对图像进行特征提取得到该图像的特征图像,在特征图像上预测可能出现文字的位置,然后由人工对上述预测出的位置进行校准,从而确定图像中文字的位置;另一种是在图像的特征图像上标记出可能存在文字的区域,然后使用例如寻找最小面积外界矩阵的算法来提取上述标记区域的轮廓,再由人工对上述标记区域的轮廓进行校准,从而确定图像中文字的位置。但上述方法存在以下问题:

2、1、第一种方法由于是在特征图像上预测可能出现文字的位置,因此相较于另一种方法而言,会产生大量的预测结果(如检测框),而且预测得到的很多检测框之间存在重叠,这会增加后续人工校准的工作量。另外,该方法难以对形状特殊的检测框(如长宽比大于10的矩形框)做出准确地预测,这也会增加后续人工校准的工作量。

3、2、第二种方法由于需要提取标记区域的轮廓,而这一过程较为耗时,因此该方法的检测效率低下。另外,该方法也需要人工进行校准,从而增加相关人员的工作量。

4、因此,如何高效且准确地实现文字检测是目前有待解决的问题。


技术实现思路

1、本技术提供了一种文字检测方法、装置、计算设备及计算机可读存储介质,能够高效且准确地实现文字检测。

2、第一方面,本技术实施例提供了一种文字检测方法,该方法包括:获取原始图像的特征图像,确定特征图像中的一个或多个热区,之后将同一个热区中的像素排列到一块连续的区间上,再根据排列结果计算得到每个热区对应的原始检测框,其中,热区是文字所在的区域,原始检测框指示原始图像中文字的位置。应理解,由于上述方法中将同一个热区中的像素排列到一块连续的区间上,因此后续可使用归约算法来确定热区对应的原始检测框,相较于现有技术中提取热区轮廓的算法(如寻找最小面积外界矩形算法)而言,归约算法的计算复杂度更低,计算效率更快,因此可更快地提取到热区对应的原始检测框,从而提高对原始图像进行文字检测的效率。

3、在第一方面的一种可能实现方式中,上述原始检测框包括矩形框,具体可以是旋转矩形框。应理解,在实际场景中,原始图像中通常会存在一些具有多种角度的文字,在这种情况下,使用旋转矩形框可以更好地贴合于这类文字,从而可以提高文字检测的精度。

4、在第一方面的一种可能实现方式中,上述根据排列结果计算得到每个热区对应的原始检测框,包括:根据排列结果对每个热区中的像素在特征图像中的位置坐标进行并行归约计算,得到每个热区对应的图像矩,然后根据每个热区对应的图像矩计算得到下述一个或多个参数:在特征图像中,每个热区的质心的位置坐标、每个热区对应的长轴旋转角、每个热区对应的短轴旋转角、每个热区对应的原始检测框的长、每个热区对应的原始检测框的宽,之后再根据上述计算得到的参数确定每个热区对应的原始检测框。应理解,上述实现方式中使用了并行归约算法来计算多个热区对应的图像矩,由于归约算法具有较低的计算复杂度,而且并行计算可进一步提高计算效率,因此通过上述实现方式可从整体上提高对原始图像进行文字检测的效率。

5、在第一方面的一种可能实现方式中,每个热区对应一个id,上述将同一个热区中的像素排列到一块连续的区间上,包括:根据每个热区的id和每个热区中的像素在特征图像中的位置坐标,将每个热区中的像素进行编码,之后根据每个热区中的像素的编码信息将属于同一个热区的像素排列到一块连续的区间上。应理解,当同一个热区的像素排列到一块连续的区间上时,热区可以看作一个连续的一维数组,那么,文字检测装置便可以使用归约算法来确定热区对应的原始检测框,从而提高对原始图像进行文字检测的效率。

6、在第一方面的一种可能实现方式中,上述热区中的像素的编码信息包括热区中的像素所属热区的id,以及热区中的像素在特征图像中的位置坐标,且上述热区的id所在的码位高于上述位置坐标所在的码位。

7、在第一方面的一种可能实现方式中,上述方法还包括:对原始检测框进行校准得到目标检测框。

8、在第一方面的一种可能实现方式中,上述对原始检测框进行校准得到目标检测框,包括:根据特征图像获得校准参数,然后根据校准参数对原始检测框对应的参数进行校准,得到目标检测框。

9、通过实施上述实现方式,可实现对原始检测框的自动校准,相较于现有技术中使用人工来校准文字检测框的方法而言,具有更高地文字检测的效率。

10、第二方面,本技术实施例提供了一种文字检测装置,该装置包括特征提取模块和采样模块。特征提取模块用于获取原始图像的特征图像。采样模块用于确定特征图像中的一个或多个热区,将同一个热区中的像素排列到一块连续的区间上,以及根据排列结果计算得到每个热区对应的原始检测框,其中,热区是文字所在的区域,原始检测框指示原始图像中文字的位置。

11、在第二方面的一种可能实现方式中,上述原始检测框包括矩形框。

12、在第二方面的一种可能实现方式中,上述采样模块用于根据排列结果对每个热区中的像素在特征图像中的位置坐标进行并行归约计算,得到每个热区对应的图像矩,以及根据每个热区对应的图像矩计算得到下述一个或多个参数:在特征图像中,每个热区的质心的位置坐标、每个热区对应的长轴旋转角、每个热区对应的短轴旋转角、每个热区对应的原始检测框的长、每个热区对应的原始检测框的宽,以及根据上述计算得到的参数确定每个热区对应的原始检测框。

13、在第二方面的一种可能实现方式中,每个热区对应一个id,上述采样模块用于根据每个热区的id和每个热区中的像素在特征图像中的位置坐标,将每个热区中的像素进行编码,以及根据每个热区中的像素的编码信息将属于同一个热区的像素排列到一块连续的区间上。

14、在第二方面的一种可能实现方式中,上述热区中的像素的编码信息包括热区中的像素所属热区的id,以及热区中的像素在特征图像中的位置坐标,且上述热区的id所在的码位高于上述位置坐标所在的码位。

15、在第二方面的一种可能实现方式中,上述装置还包括校准模块,校准模块用于对原始检测框进行校准得到目标检测框。

16、在第二方面的一种可能实现方式中,上述校准模块用于根据特征图像获得校准参数,以及根据校准参数对原始检测框对应的参数进行校准,得到目标检测框。

17、第三方面,本技术实施例提供了一种计算设备,该计算设备包括处理器和存储器,处理器执行存储器中的计算机程序代码以实现前述第一方面及第一方面的任一种实现方式所描述部分或全部方法。

18、第四方面,本技术实施例提供了一种计算机可读存储介质,该计算机存储介质存储有计算机程序代码,当该计算机程序代码被计算设备执行时,该计算设备执行前述第一方面及第一方面的任一种实现方式所描述部分或全部方法。

19、第五方面,本技术实施例提供了一种计算机程序产品,该计算机程序产品可以是包含指令的、能够运行在计算设备上或被储存在任何可用介质中的软件或程序产品。当该计算机程序产品在至少一个计算设备上运行时,使得至少一个计算设备执行前述第一方面及第一方面的任一种实现方式所描述部分或全部方法。


技术特征:

1.一种文字检测方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述原始检测框包括矩形框。

3.根据权利要求2所述的方法,其特征在于,所述根据排列结果计算得到每个热区对应的原始检测框,包括:

4.根据权利要求1-3任一项所述的方法,其特征在于,所述每个热区对应一个id,所述将同一个热区中的像素排列到一块连续的区间上,包括:

5.根据权利要求4所述的方法,其特征在于,所述热区中的像素的编码信息包括所述热区中的像素所属热区的id,以及所述热区中的像素在所述特征图像中的位置坐标,且所述热区的id所在的码位高于所述位置坐标所在的码位。

6.根据权利要求1所述的方法,其特征在于,还包括:

7.根据权利要求6所述的方法,其特征在于,对所述原始检测框进行校准得到目标检测框,包括:

8.一种文字检测装置,其特征在于,包括:

9.根据权利要求8所述的装置,其特征在于,所述原始检测框包括矩形框。

10.根据权利要求9所述的装置,其特征在于,

11.根据权利要求8-10任一项所述的装置,其特征在于,所述每个热区对应一个id,

12.根据权利要求11所述的装置,其特征在于,所述热区中的像素的编码信息包括所述热区中的像素所属热区的id,以及所述热区中的像素在所述特征图像中的位置坐标,且所述热区的id所在的码位高于所述位置坐标所在的码位。

13.根据权利要求8所述的装置,其特征在于,还包括:

14.根据权利要求13所述的装置,其特征在于,

15.一种计算设备,其特征在于,包括处理器和存储器,所述处理器执行所述存储器中的计算机程序代码以实现前述权利要求1-7任一项所述的方法。

16.一种计算机可读存储介质,其特征在于,存储有计算机程序代码,当所述计算机程序代码被计算设备执行时,所述计算设备执行前述权利要求1-7任一项所述的方法。


技术总结
本申请提供了一种文字检测方法、装置、计算设备及计算机可读存储介质,其中,该方法包括:获取原始图像的特征图像,确定特征图像中的一个或多个热区,之后将同一个热区中的像素排列到一块连续的区间上,再根据排列结果计算得到每个热区对应的原始检测框,其中,热区是文字所在的区域,原始检测框指示原始图像中文字的位置。应理解,由于利用上述方法可将同一个热区中的像素排列到一块连续的区间上,因此后续可使用归约算法来确定热区对应的原始检测框,而归约算法具有较低的计算复杂度,因此可更快地提取到热区对应的原始检测框,从而提高对原始图像进行文字检测的效率。

技术研发人员:张资殷,祁琦,卢宁
受保护的技术使用者:华为技术有限公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1149402.html

最新回复(0)