一种基于图像生成中文文本的方法、系统及装置与流程

专利检索2022-05-10 63

1.本发明申请涉及计算机视觉领域和人工智能技术领域，尤其涉及一种基于图像生成中文文本的方法、系统及装置。

背景技术：

2.自然图像的文本提取具有非常广泛的应用。相关技术中利用生成式对抗网络模型实现由图像生成中文文本。生成式对抗网络模型是一种生成模型，包含生成器网络(generator network)和判别器网络(discriminator network)，生成器网络和判别器网络相互竞争，直至达到平衡。
3.目前采用生成式对抗网络模型生成描述图像的中文文本时，直接将整个图像输入至生成式对抗网络，这种方式对于较为复杂的图像，需要生成式对抗网络模型一次性学习较多的特征，有一定的网络训练难度。

技术实现要素：

4.本发明申请实施例的目的在于，提供一种基于图像生成中文文本的方法、系统及装置，通过将背景区域和前景区域分开生成相应的中文文本，减少了生成式对抗网络模型一次性学习的特征量，降低了生成式对抗网络模型的训练难度，能够适用于较为复杂的图像。
5.为达到上述目的，本发明采用如下技术方案：
6.本技术第一方面提供了一种图像生成中文文本方法，所述方法包括：
7.将待生成中文文本的的图像分割成前景区域和背景区域；
8.利用生成式对抗网络生成用于描述所述前景区域的第一中文文本，以及生成用于描述所述背景区域的第二中文文本；
9.根据所述第一中文文本和所述第二中文文本生成用于描述所述图像的中文文本。
10.根据本技术第一方面的一种能够实现的方式，基于训练好的第一生成式对抗网络模型生成所述第一中文文本，以及，基于训练好的第二生成式对抗网络模型生成所述第二中文文本。
11.根据本技术第一方面的一种能够实现的方式，在训练所述第一生成式对抗网络模型时，在所述第一生成式对抗网络模型中添加注意力机制，和/或，
12.在训练所述第二生成式对抗网络模型时，在所述第二生成式对抗网络模型中添加注意力机制。
13.根据本技术第一方面的一种能够实现的方式，根据所述第一中文文本和所述第二中文文本生成用于描述所述图像的中文文本，包括：
14.将所述第一中文文本和所述第二中文文本拼接成第三文本；
15.根据预预设表达句式结构对所述第三文本进行调整，以生成符合其中一个预设表达句式的调整文本，将所述调整文本作为所述用于描述所述图像的中文文本。
16.本技术第二方面提供了一种图像生成中文文本系统，所述系统包括：
17.图像分割模块，用于将待生成中文文本的的图像分割成前景区域和背景区域；
18.第一生成模块，用于利用生成式对抗网络生成用于描述所述前景区域的第一中文文本，以及生成用于描述所述背景区域的第二中文文本；
19.第二生成模块，用于根据所述第一中文文本和所述第二中文文本生成用于描述所述图像的中文文本。
20.根据本技术第二方面的一种能够实现的方式，所述第一生成模块包括：
21.第一中文文本生成单元，用于基于训练好的第一生成式对抗网络模型生成所述第一中文文本；
22.第二中文文本生成单元，用于基于训练好的第二生成式对抗网络模型生成所述第二中文文本。
23.根据本技术第二方面的一种能够实现的方式，所述系统还包括训练模块，所述训练模块包括：
24.第一训练单元，用于在训练所述第一生成式对抗网络模型时，在所述第一生成式对抗网络模型中添加注意力机制，和/或，
25.第二训练单元，用于在训练所述第二生成式对抗网络模型时，在所述第二生成式对抗网络模型中添加注意力机制。
26.根据本技术第二方面的一种能够实现的方式，所述第二生成模块包括：
27.拼接单元，用于将所述第一中文文本和所述第二中文文本拼接成第三文本；
28.调整单元，用于根据预预设表达句式结构对所述第三文本进行调整，以生成符合其中一个预设表达句式的调整文本，将所述调整文本作为所述用于描述所述图像的中文文本。
29.本技术第三方面提供了一种基于图像生成中文文本的装置，该装置包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一项实施例所述的一种图像生成中文文本方法。
30.本技术第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现如上述任一项实施例所述的一种图像生成中文文本方法。
31.本技术公开的实施例至少具有以下优点：
32.方法简单便捷，易于实施，通过将背景区域和前景区域分开生成相应的中文文本，减少了生成式对抗网络模型一次性学习的特征量，降低了生成式对抗网络模型的训练难度，能够适用于较为复杂的图像。
附图说明
33.图1是本发明申请提供的一种图像生成中文文本方法的一个优选实施例的流程示意图；
34.图2是本发明申请提供的一种图像生成中文文本系统的一个优选实施例的结构示意图。
35.附图标记：
36.图像分割模块1、第一生成模块2、第二生成模块3。
具体实施方式
37.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
38.图1所示为本发明申请提供的一种图像生成中文文本方法的一个优选实施例的流程示意图。
39.如图1所示，所述方法包括：
40.s1将待生成中文文本的的图像分割成前景区域和背景区域。
41.具体地，可根据图像像素的颜色信息、亮度信息来分辨图像中的前景区域及背景区域，从而实现对前景区域和背景区域的分割。
42.s2利用生成式对抗网络生成用于描述所述前景区域的第一中文文本，以及生成用于描述所述背景区域的第二中文文本。
43.在一种实施方式中，所述步骤s2包括：
44.基于训练好的第一生成式对抗网络模型生成所述第一中文文本和所述第二中文文本。
45.在另一种实施方式中，所述步骤s2包括：
46.基于训练好的第一生成式对抗网络模型生成所述第一中文文本，以及，基于训练好的第二生成式对抗网络模型生成所述第二中文文本。
47.其中，通过已知标准中文文本的训练图像对生成式对抗网络模型进行对抗优化训练，以得到训练好的生成式对抗网络模型。所述生成式对抗网络模型包括生成模型和判别模型，所述生成模型用于根据图像生成对应的中文文本，所述判别模型用于判别生成的中文文本是否为真实数据。
48.具体地，所述生成模型可以采用图像编码器
‑
文本解码器架构，所述图像编码器包括fasterr
‑
cnn神经网络，所述文本解码器包括双层lstm网络。
49.在基于该另一种实施方式的基础上，所述步骤s2还包括：
50.在训练所述第一生成式对抗网络模型时，在所述第一生成式对抗网络模型中添加注意力机制，和/或，
51.在训练所述第二生成式对抗网络模型时，在所述第二生成式对抗网络模型中添加注意力机制。
52.在本实施例中，注意力机制例如包括两个方面：决定需要关注输入的哪部分以及分配有限的信息处理资源给重要的部分。对第二图像特征矩阵引入注意力机制可以凸显出第二图像特征矩阵中更关键的图像部分。
53.本技术上述实施例通过引入注意力机制，能够使得网络在生成中文文本时更关注重要区域的信息，能够减少网络的冗杂度，提高中文文本生成的速度。
54.s3根据所述第一中文文本和所述第二中文文本生成用于描述所述图像的中文文本。
55.其中，所述步骤s3包括：
56.将所述第一中文文本和所述第二中文文本拼接成第三文本；
57.根据预预设表达句式结构对所述第三文本进行调整，以生成符合其中一个预设表达句式的调整文本，将所述调整文本作为所述用于描述所述图像的中文文本。
58.本技术实施例实现了根据第一中文文本和第二中文文本生成用于描述所述图像的中文文本，方法实施简单便捷。通过预预设表达句式结构对文本进行调整，能够使得所生成的文本更加符合中文语言表达习惯。
59.其中，可以按照预置的拼接机制来拼接该第一中文文本和第二中文文本。例如，该拼接机制为将第一中文文本排序在该第二中文文本之前。
60.其中，所述预设表达句式包括主谓结构句式、主谓宾结构句式、谓宾结构句式、主状谓结构句式、主状谓宾结构句式和状主谓宾结构句式。
61.具体的，由于语句中的组成可以包括：主语、谓语、宾语、状语、定语和补语等，不同结构顺序所组成的语句的语义可以相同也可以不相同，该步骤中，可根据描述图像的需求针对“主语、谓语、宾语、状语、定语和补语”内的组成成分进行任意数量和任意顺序的搭配，以构建该预设表达句式。
62.在具体的应用场景中，例如，第一中文文本为“船在航行”，第二中文文本为“大海”，可拼接该第一中文文本和第二中文文本为“船在航行大海”，此时需要对“船在航行大海”的文本进行调整，选取合适的表达句式结构，将文本调整为“船在大海航行”。
63.本技术上述实施例提供了一种图像生成中文文本的方法，该方法将要生成中文文本的图像划分为背景区域和前景区域，并利用生成式对抗网络分别生成对应前景区域的第一中文文本和对应于前景区域的第二中文文本，进一步基于第一中文文本和第二中文文本生成用于描述图像的中文文本。本技术方法简单便捷，易于实施，通过将背景区域和前景区域分开生成相应的中文文本，减少生成式对抗网络模型一次性学习的特征量，降低了生成式对抗网络模型的训练难度，能够适用于较为复杂的图像。
64.本技术第二方面实施例提供了一种基于图像生成中文文本的系统。
65.图2所示是本发明提供的一种图像生成中文文本系统的一个优选实施例的结构示意图，所述系统能够实现上述任一实施例所述的一种图像生成中文文本方法的全部流程。
66.如图2所示，该系统包括：
67.图像分割模块1，用于将待生成中文文本的的图像分割成前景区域和背景区域；
68.第一生成模块2，用于利用生成式对抗网络生成用于描述所述前景区域的第一中文文本，以及生成用于描述所述背景区域的第二中文文本；
69.第二生成模块3，用于根据所述第一中文文本和所述第二中文文本生成用于描述所述图像的中文文本。
70.根据本技术第二方面的一种能够实现的方式，所述第一生成模块包括：
71.第一中文文本生成单元，用于基于训练好的第一生成式对抗网络模型生成所述第一中文文本；
72.第二中文文本生成单元，用于基于训练好的第二生成式对抗网络模型生成所述第二中文文本。
73.根据本技术第二方面的一种能够实现的方式，所述系统还包括训练模块，所述训
练模块包括：
74.第一训练单元，用于在训练所述第一生成式对抗网络模型时，在所述第一生成式对抗网络模型中添加注意力机制，和/或，
75.第二训练单元，用于在训练所述第二生成式对抗网络模型时，在所述第二生成式对抗网络模型中添加注意力机制。
76.根据本技术第二方面的一种能够实现的方式，所述第二生成模块包括：
77.拼接单元，用于将所述第一中文文本和所述第二中文文本拼接成第三文本；
78.调整单元，用于根据预预设表达句式结构对所述第三文本进行调整，以生成符合其中一个预设表达句式的调整文本，将所述调整文本作为所述用于描述所述图像的中文文本。
79.本发明系统上述实施例各模块的功能及实现方式与上述一种图像生成中文文本方法的实施例相同，具体解析可以参照上述一种图像生成中文文本方法的实施例，为了避免重复，在此不再赘述。
80.本技术还提供了一种基于图像生成中文文本的装置，该装置包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一项实施例所述的一种图像生成中文文本方法。
81.本技术还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现如上述任一项实施例所述的一种图像生成中文文本方法。
82.所称处理器可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field
‑
programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述图像生成中文文本装置的控制中心，利用各种接口和线路连接整个图像生成中文文本装置的各个部分。
83.所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述图像生成中文文本装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smart media card,smc)，安全数字(secure digital,sd)卡，闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
84.其中，所述图像生成中文文本装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程
序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。
85.以上所述是本技术的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本技术的保护范围。

转载请注明原文地址:https://win.8miu.com/read-50072.html

专利

最新回复(0)