一种图像文字信息提取方法、系统及存储介质与流程

专利检索2022-05-10  5



1.本技术涉及图像识别技术领域,尤其涉及一种图像文字信息提取方法、系统及存储介质。


背景技术:

2.目前,电网公司处理业务系统针对图像文字信息进行提取需要进行大量繁杂的图像处理和识别计算,如果是海量数据一次性进入处理业务平台,其不能承受如此巨大的工作量,而在图像文字信息中也会存在无意义或偏离应用的文字信息,这就浪费了图像文字提取系统的容量,占用了图像文字提取的进程,进而导致图像文字信息提取效率低下,同时,其准确度也会有所降低。


技术实现要素:

3.本技术提供了一种图像文字信息提取方法、系统及存储介质,用于解决上述图像文字信息提取效率和准确度低下的技术问题。
4.有鉴于此,本技术第一方面提供了一种图像文字信息提取方法,包括以下步骤:
5.对图文数据集中每个图文数据进行文本转换,得到文本数据;
6.对所述文本数据进行预处理,得到预处理后的文本数据;
7.对所述预处理后的文本数据进行分词,得到多个词组;
8.计算各个词组与预设的主题特征词库中的各个主题特征词的相似度,将相似度大于预设相似度的词组作为关键特征词;
9.根据预设的权重赋值规则对所述关键特征词赋予权重,根据所述关键特征词的权重将所有词组划分为热词和非热词;
10.遍历所述图文数据集中所有图文数据,确定各个图文数据中包含的所述热词和所述非热词,统计所述非热词的数量;
11.通过所述非热词的数量与预设的非热词的数量阈值进行比较,根据比较结果判断相应的所述图文数据是否为关键图文数据,若判断所述图文数据不为关键图文数据,则将相应的所述图文数据进行图片压缩;若判断所述图文数据为关键图文数据,则对所述关键图文数据中的热词进行候选框标注;
12.调用预先建立的图形文字信息提取模型提取所述候选框标注内的热词。
13.可选地,所述对图文数据集中每个图文数据进行文本转换,得到文本数据的步骤具体包括:
14.利用ocr识别技术对图文数据集中每个图文数据进行文本转换,得到文本数据。
15.可选地,所述预处理的方式包括去停用词、词性过滤和同义词合并。
16.可选地,所述计算各个词组与预设的主题特征词库中的各个主题特征词的相似度,将相似度大于预设相似度的词组作为关键特征词的步骤具体包括:
17.将所述词组和所述预设的主题特征词库中的各个主题特征词映射到向量空间进
行向量化,从而得到所述词组和所述主题特征词分别对应的词组向量和主题特征词向量;
18.利用余弦相似度算法计算所述词组向量和所述主题特征词向量之间的相似度;
19.判断所述词组向量和所述主题特征词向量之间的相似度是否大于所述预设相似度,将所述词组向量和所述主题特征词向量之间的相似度大于所述预设相似度的相应的所述词组作为关键特征词,将所述词组向量和所述主题特征词向量之间的相似度不大于所述预设相似度的相应的所述词组进行筛除。
20.可选地,所述根据预设的权重赋值规则对所述关键特征词赋予权重,根据所述关键特征词的权重将所有词组划分为热词和非热词的步骤具体包括:
21.统计包含所述关键特征词的词组的数量,根据包含所述关键特征词的词组的数量的统计结果确定所述关键特征词的权重,其中,包含所述关键特征词的词组的数量越多,其相应的所述关键特征词的权重越高;
22.根据各个词组的所述关键特征词及其权重的总和计算各个词组的综合权重;
23.通过各个词组的综合权重与预设热词权重阈值进行比较,将词组的综合权重大于所述预设热词权重阈值的词组作为热词,将词组的综合权重不大于所述预设热词权重阈值的词组作为非热词。
24.第二方面,本发明提供了一种图像文字信息提取系统,包括:
25.文本转换模块,用于对图文数据集中每个图文数据进行文本转换,得到文本数据;
26.预处理模块,用于对所述文本数据进行预处理,得到预处理后的文本数据;
27.分词模块,用于对所述预处理后的文本数据进行分词,得到多个词组;
28.相似度模块,用于计算各个词组与预设的主题特征词库中的各个主题特征词的相似度,将相似度大于预设相似度的词组作为关键特征词;
29.热词划分模块,用于根据预设的权重赋值规则对所述关键特征词赋予权重,根据所述关键特征词的权重将所有词组划分为热词和非热词;
30.遍历模块,用于遍历所述图文数据集中所有图文数据,确定各个图文数据中包含的所述热词和所述非热词,统计所述非热词的数量;
31.热词比较模块,用于通过所述非热词的数量与预设的非热词的数量阈值进行比较,根据比较结果判断相应的所述图文数据是否为关键图文数据,若判断所述图文数据不为关键图文数据,则将相应的所述图文数据进行图片压缩;若判断所述图文数据为关键图文数据,则对所述关键图文数据中的热词进行候选框标注;
32.热词提取模块,用于调用预先建立的图形文字信息提取模型提取所述候选框标注内的热词。
33.可选地,所述文本转换模块具体用于利用ocr识别技术对图文数据集中每个图文数据进行文本转换,得到文本数据。
34.可选地,所述相似度模块具体包括:
35.向量化模块,用于将所述词组和所述预设的主题特征词库中的各个主题特征词映射到向量空间进行向量化,从而得到所述词组和所述主题特征词分别对应的词组向量和主题特征词向量;
36.余弦相似度模块,用于利用余弦相似度算法计算所述词组向量和所述主题特征词向量之间的相似度;
37.关键特征筛选模块,用于判断所述词组向量和所述主题特征词向量之间的相似度是否大于所述预设相似度,将所述词组向量和所述主题特征词向量之间的相似度大于所述预设相似度的相应的所述词组作为关键特征词,将所述词组向量和所述主题特征词向量之间的相似度不大于所述预设相似度的相应的所述词组进行筛除。
38.可选地,所述热词划分模块具体包括:
39.权重确定模块,用于统计包含所述关键特征词的词组的数量,根据包含所述关键特征词的词组的数量的统计结果确定所述关键特征词的权重,其中,包含所述关键特征词的词组的数量越多,其相应的所述关键特征词的权重越高;
40.综合权重计算模块,用于根据各个词组的所述关键特征词及其权重的总和计算各个词组的综合权重;
41.权重比较模块,用于通过各个词组的综合权重与预设热词权重阈值进行比较,将词组的综合权重大于所述预设热词权重阈值的词组作为热词,将词组的综合权重不大于所述预设热词权重阈值的词组作为非热词。
42.第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的图像文字信息提取方法的步骤。
43.从以上技术方案可以看出,本技术实施例具有以下优点:
44.本发明通过对图文数据集进行文本转换后,得到文本数据,并对文本数据进行预处理,过滤无意义的文本,以获得精确的文本数据,并通过对文本数据进行分词,计算各个词组与预设的主题特征词库中的各个主题特征词的相似度,将相似度大于预设相似度的词组作为关键特征词,从而过滤掉偏离主题的文本数据,同时,通过对关键特征词赋予权重将所有词组划分为热词和非热词,并确定各个图文数据中包含的热词和非热词,统计非热词的数量,根据非热词的数量过滤非关键图文数据,并对非关键图文数据,以缩小非关键图文数据的容量,降低其图像文字提取的进程的占用空间,同时,通过对关键图文数据中的热词进行候选框标注,调用图形文字信息提取模型提取候选框标注内的热词,从而可以提高图像文字信息提取效率和准确度。
附图说明
45.图1为本技术实施例提供的一种图像文字信息提取方法的流程图;
46.图2为本技术实施例提供的一种图像文字信息提取系统的结构框图。
具体实施方式
47.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
48.为了便于理解,请参阅图1,本技术提供的一种图像文字信息提取方法,包括以下步骤:
49.s1、对图文数据集中每个图文数据进行文本转换,得到文本数据;
50.需要说明的是,其图文数据集为电网业务平台获取到的电网图文数据。
51.s2、对文本数据进行预处理,得到预处理后的文本数据;
52.需要说明的是,在本实施例中,其预处理的方式包括去停用词、词性过滤和同义词合并。
53.s3、对预处理后的文本数据进行分词,得到多个词组;
54.s4、计算各个词组与预设的主题特征词库中的各个主题特征词的相似度,将相似度大于预设相似度的词组作为关键特征词;
55.s5、根据预设的权重赋值规则对关键特征词赋予权重,根据关键特征词的权重将所有词组划分为热词和非热词;
56.s6、遍历图文数据集中所有图文数据,确定各个图文数据中包含的热词和非热词,统计非热词的数量;
57.s7、通过非热词的数量与预设的非热词的数量阈值进行比较,根据比较结果判断相应的图文数据是否为关键图文数据,若判断图文数据不为关键图文数据,则将相应的图文数据进行图片压缩;若判断图文数据为关键图文数据,则对关键图文数据中的热词进行候选框标注;
58.s8、调用预先建立的图形文字信息提取模型提取候选框标注内的热词。
59.需要说明的是,本实施例提供的一种图像文字信息提取方法,通过对图文数据集进行文本转换后,得到文本数据,并对文本数据进行预处理,过滤无意义的文本,以获得精确的文本数据,并通过对文本数据进行分词,计算各个词组与预设的主题特征词库中的各个主题特征词的相似度,将相似度大于预设相似度的词组作为关键特征词,从而过滤掉偏离主题的文本数据,同时,通过对关键特征词赋予权重将所有词组划分为热词和非热词,并确定各个图文数据中包含的热词和非热词,统计非热词的数量,根据非热词的数量过滤非关键图文数据,并对非关键图文数据,以缩小非关键图文数据的容量,降低其图像文字提取的进程的占用空间,同时,通过对关键图文数据中的热词进行候选框标注,调用图形文字信息提取模型提取候选框标注内的热词,从而可以提高图像文字信息提取效率和准确度。
60.以下为本发明提供的一种图像文字信息提取方法的实施例的具体描述。
61.本发明提供的一种图像文字信息提取方法,包括以下步骤:
62.s100、利用ocr识别技术对图文数据集中每个图文数据进行文本转换,得到文本数据;
63.需要说明的是,其图文数据集为电网业务平台获取到的电网图文数据。
64.其中,ocr识别技术为现有技术,在此不再赘述。
65.s200、对文本数据进行预处理,得到预处理后的文本数据;
66.需要说明的是,在本实施例中,其预处理的方式包括去停用词、词性过滤和同义词合并。
67.s300、对预处理后的文本数据进行分词,得到多个词组;
68.s400、计算各个词组与预设的主题特征词库中的各个主题特征词的相似度,将相似度大于预设相似度的词组作为关键特征词;
69.在本实施例中,步骤s400具体包括:
70.s401、将词组和预设的主题特征词库中的各个主题特征词映射到向量空间进行向量化,从而得到词组和主题特征词分别对应的词组向量和主题特征词向量;
71.需要说明的是,预设的主题特征词库是预先自定义设定的,其中,各个主题特征词是通过大数据筛查得到的热门主题。
72.s402、利用余弦相似度算法计算词组向量和主题特征词向量之间的相似度;
73.s403、判断词组向量和主题特征词向量之间的相似度是否大于预设相似度,将词组向量和主题特征词向量之间的相似度大于预设相似度的相应的词组作为关键特征词,将词组向量和主题特征词向量之间的相似度不大于预设相似度的相应的词组进行筛除。
74.s500、根据预设的权重赋值规则对关键特征词赋予权重,根据关键特征词的权重将所有词组划分为热词和非热词;
75.在本实施例中,步骤s500具体包括:
76.s501、统计包含关键特征词的词组的数量,根据包含关键特征词的词组的数量的统计结果确定关键特征词的权重,其中,包含关键特征词的词组的数量越多,其相应的关键特征词的权重越高;
77.需要说明的是,通过分词可以得到多个词组,而多个词组可以包含不同的关键特征词,而针对同一关键特征词可以统计相应的包含其关键特征词的词组数量,其词组数量越多,则说明该关键特征词的频率越高,也即越重要,因此,包含关键特征词的词组的数量越多,其相应的关键特征词的权重越高。
78.s502、根据各个词组的关键特征词及其权重的总和计算各个词组的综合权重;
79.需要说明的是,各个词组可能包含多个关键特征词,因此,可以通过对每个词组的关键特征词及其权重的总和计算各个词组的综合权重。
80.s503、通过各个词组的综合权重与预设热词权重阈值进行比较,将词组的综合权重大于预设热词权重阈值的词组作为热词,将词组的综合权重不大于预设热词权重阈值的词组作为非热词。
81.需要说明的是,其预设热词权重阈值为自行设定的,而通过将词组筛选出热词和非热词,可以进一步确定有效词汇。
82.s600、遍历图文数据集中所有图文数据,确定各个图文数据中包含的热词和非热词,统计非热词的数量;
83.需要说明的是,前述已经划分出热词和非热词,而通过对所有图文数据中的热词和非热词进行统计,则可以确定图文数据的重要程度。
84.s700、通过非热词的数量与预设的非热词的数量阈值进行比较,根据比较结果判断相应的图文数据是否为关键图文数据,若判断图文数据不为关键图文数据,则将相应的图文数据进行图片压缩;若判断图文数据为关键图文数据,则对关键图文数据中的热词进行候选框标注;
85.需要说明的是,若图文数据不为关键图文数据,也即热词较少,则将相应的图文数据进行图片压缩,以免占用较大的容量。同时,其候选框的尺度可以为包含热词的最小尺度的框。
86.s800、调用预先建立的图形文字信息提取模型提取候选框标注内的热词。
87.需要说明的是,其图形文字信息提取模型可以为预先通过神经网络学习策略进行构建的。神经网络学习策略还包括,前馈神经网络、反馈神经网络和自组织网络;前馈神经网络包括,输入层,隐含层和输出层。
88.图形文字信息提取模型提取候选框标注内的热词过程中,可以先识别到候选框标注,再识别出候选框标注中的热词,从而输出热词的提取结果。
89.以上为本发明提供的一种图像文字信息提取方法的实施例的详细描述,以下为本发明提供的一种图像文字信息提取系统的实施例的详细描述。
90.为了方便理解,请参阅图2,本发明提供的一种图像文字信息提取系统,,包括:
91.文本转换模块100,用于对图文数据集中每个图文数据进行文本转换,得到文本数据;
92.预处理模块200,用于对文本数据进行预处理,得到预处理后的文本数据;
93.分词模块300,用于对预处理后的文本数据进行分词,得到多个词组;
94.相似度模块400,用于计算各个词组与预设的主题特征词库中的各个主题特征词的相似度,将相似度大于预设相似度的词组作为关键特征词;
95.热词划分模块500,用于根据预设的权重赋值规则对关键特征词赋予权重,根据关键特征词的权重将所有词组划分为热词和非热词;
96.遍历模块600,用于遍历图文数据集中所有图文数据,确定各个图文数据中包含的热词和非热词,统计非热词的数量;
97.热词比较模块700,用于通过非热词的数量与预设的非热词的数量阈值进行比较,根据比较结果判断相应的图文数据是否为关键图文数据,若判断图文数据不为关键图文数据,则将相应的图文数据进行图片压缩;若判断图文数据为关键图文数据,则对关键图文数据中的热词进行候选框标注;
98.热词提取模块800,用于调用预先建立的图形文字信息提取模型提取候选框标注内的热词。
99.进一步地,文本转换模块具体用于利用ocr识别技术对图文数据集中每个图文数据进行文本转换,得到文本数据。
100.进一步地,相似度模块具体包括:
101.向量化模块,用于将词组和预设的主题特征词库中的各个主题特征词映射到向量空间进行向量化,从而得到词组和主题特征词分别对应的词组向量和主题特征词向量;
102.余弦相似度模块,用于利用余弦相似度算法计算词组向量和主题特征词向量之间的相似度;
103.关键特征筛选模块,用于判断词组向量和主题特征词向量之间的相似度是否大于预设相似度,将词组向量和主题特征词向量之间的相似度大于预设相似度的相应的词组作为关键特征词,将词组向量和主题特征词向量之间的相似度不大于预设相似度的相应的词组进行筛除。
104.进一步地,热词划分模块具体包括:
105.权重确定模块,用于统计包含关键特征词的词组的数量,根据包含关键特征词的词组的数量的统计结果确定关键特征词的权重,其中,包含关键特征词的词组的数量越多,其相应的关键特征词的权重越高;
106.综合权重计算模块,用于根据各个词组的关键特征词及其权重的总和计算各个词组的综合权重;
107.权重比较模块,用于通过各个词组的综合权重与预设热词权重阈值进行比较,将
词组的综合权重大于预设热词权重阈值的词组作为热词,将词组的综合权重不大于预设热词权重阈值的词组作为非热词。
108.需要说明的是,本实施例提供的一种图像文字信息提取系统的工作过程与上述实施例提供的一种图像文字信息提取方法的流程一致,在此不再赘述。
109.本系统通过对图文数据集进行文本转换后,得到文本数据,并对文本数据进行预处理,过滤无意义的文本,以获得精确的文本数据,并通过对文本数据进行分词,计算各个词组与预设的主题特征词库中的各个主题特征词的相似度,将相似度大于预设相似度的词组作为关键特征词,从而过滤掉偏离主题的文本数据,同时,通过对关键特征词赋予权重将所有词组划分为热词和非热词,并确定各个图文数据中包含的热词和非热词,统计非热词的数量,根据非热词的数量过滤非关键图文数据,并对非关键图文数据,以缩小非关键图文数据的容量,降低其图像文字提取的进程的占用空间,同时,通过对关键图文数据中的热词进行候选框标注,调用图形文字信息提取模型提取候选框标注内的热词,从而可以提高图像文字信息提取效率和准确度。
110.本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的图像文字信息提取方法的步骤。
111.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
112.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
113.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
114.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文全称:read

only memory,英文缩写:rom)、随机存取存储器(英文全称:random access memory,英文缩写:ram)、磁碟或者光盘等各种可以存储程序代码的介质。
115.以上所述,以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
转载请注明原文地址:https://win.8miu.com/read-50419.html

最新回复(0)