一种指读方法、装置、设备和计算机可读存储介质与流程

专利检索2022-05-11 25

1.本技术涉及图文识别技术领域，特别是涉及一种指读方法、装置、设备和计算机可读存储介质。

背景技术：

2.阅读辅助技术中包括指读技术，用户用手指在一些读物上指出相应的位置，指读技术能够将用户用手指指出的位置中包含的文字内容朗读出来，特别是在一些儿童学习的场景中，指读技术能够帮助用户进行阅读辅助，帮助用户理解，提高阅读效率。
3.本技术的申请人在长期的研发过程中发现，现有的指读技术中，仅能够对于底库中包含的一些书籍资料进行指读，且不能够地识别指读的区域，存在无法识别或错误识别等情况。

技术实现要素：

4.本技术主要解决的技术问题是提供一种指读方法、装置、设备和计算机可读存储介质，能够扩大指读识别的适用范围，提高指读识别的准确性。
5.为解决上述技术问题，本技术采用的一个技术方案是：提供一种指读方法，该方法包括：响应于用户在目标读物上的指读动作，获取目标读物在指读范围内的目标图像；获取对目标图像的文本识别结果；语音播放文本识别结果对应的音频。
6.其中，响应于用户在目标读物上的指读动作，获取目标读物在指读范围内的目标图像，包括：获取在用户的指读过程中的若干指读位置对应的若干待拼接图像，其中，每个指读位置对应的待拼接图像为目标读物在指读位置的预设方向上的预设范围内的图像；将若干待拼接图像进行拼接，得到目标图像。
7.其中，获取在用户的指读过程中的若干指读位置对应的若干待拼接图像，包括：在用户的指读过程中，每间隔第一时间判断指读动作是否停止；若否，则获取当前指读位置对应的待拼接图像；若是，则确定用户的指读过程已结束。
8.其中，每间隔第一时间判断指读动作是否停止，包括：每间隔第一时间检测目标读物上是否存在预设对象，其中，预设对象为用户用于实现指读动作的对象；若目标读物上存在预设对象，则确定指读动作未停止；若目标读物上不存在预设对象，则在第二时间内检测第一文本区是否存在预设对象，其中，第一文本区为目标读物上与上一次检测时预设对象位于的第二文本区不同行；若是，则确定指读动作未停止，否则确定指读动作停止。
9.其中，将若干待拼接图像进行拼接，得到目标图像，包括：提取若干待拼接图像的特征信息；利用特征信息，确定每相邻待拼接图像之间的匹配位置；基于匹配位置，将每相邻待拼接图像进行拼接。
10.其中，目标图像包括至少一个，每个目标图像是利用对应的指读位置位于同一文本行的待拼接图像拼接得到。
11.其中，在响应于用户在目标读物上的指读动作，获取目标读物在指读范围内的目
标图像之前，该方法还包括：采集目标读物的采集图像；利用采集图像检测目标读物是否存在预设对象，其中，预设对象为用户用于实现指读动作的对象；若是，则进入等待用户在目标读物上开始指读动作的状态。
12.其中，预设对象为手指；利用采集图像检测目标读物是否存在预设对象，包括：对采集图像进行手指识别，得到采集图像中的目标手指的位置信息；利用位置信息，确定目标手指与目标读物之间的距离；响应于距离满足预设距离要求，确定目标读物存在预设对象。
13.其中，获取对目标图像的文本识别结果，包括：将目标图像发送给服务器；接收服务器对目标图像进行文本识别得到的文本识别结果；和/或，语音播放文本识别结果对应的音频，包括：若文本识别结果为识别失败，则语音播放提示文本识别失败对应的音频；若文本识别结果为识别成功，则语音播放文本识别结果中的识别文本对应的音频，其中，识别文本对应的音频来自于本地或服务器的预存音频，或者利用从文本到语音技术对识别文本转换得到的。
14.为解决上述技术问题，本技术采用的一个技术方案是：提供一种指读装置，包括：第一获取模块、第二获取模块和播放模块，第一获取模块用于响应于用户在目标读物上的指读动作，获取目标读物在指读范围内的目标图像；第二获取模块用于获取对目标图像的文本识别结果；播放模块用于语音播放文本识别结果对应的音频。
15.为解决上述技术问题，本技术采用的一个技术方案是：提供一种指读设备，该指读设备包括处理器和存储器，存储器用于存储程序数据，处理器用于执行程序数据以实现上述任一项中的方法。
16.为解决上述技术问题，本技术采用的一个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质用于存储程序数据，程序数据能够被执行，用以实现上述任一项中的方法。
17.上述方案中，指读设备能够基于用户在目标读物上的指读动作，准确获取用户的指读范围，从而能够准确确定用户需要的指读范围，对该范围内的目标图像进行采集和处理，从而将用户需要的指读范围内的内容精准朗读，相比于通过确定用户的指定位置点并从预存文本中找出指定位置点对应的语句进行读取的点读方式，本技术直接对用户的指读范围内的图像进行文字识别，在文字识别过程中无需依赖预存文本，即使不存在目标读物的相关预存文本也能实现对目标读物进行文字识别，故不受预存文本资源的限制，能够扩大指读识别的适用范围，同时，直接根据用户的指读动作，能够准确确定指读范围，进而提高了指读识别的准确性。
附图说明
18.图1是本技术指读方式一实施例的流程示意图；
19.图2是本技术步骤s110另一实施例的流程示意图；
20.图3是本技术步骤s211另一实施例的流程示意图；
21.图4是本技术步骤s3111另一实施例的流程示意图；
22.图5是本技术步骤s212另一实施例的流程示意图；
23.图6是本技术指读方法再一实施例的流程示意图；
24.图7是本技术步骤s620另一实施例的流程示意图；
25.图8是本技术指读装置一实施例的框架示意图
26.图9是本技术指读设备一实施例的框架示意图；
27.图10是本技术计算机可读存储介质一实施例的框架示意图。
具体实施方式
28.为使本技术的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本技术进一步详细说明。
29.本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。
30.可以理解的是，本技术方法可以包含任一个下述方法实施例以及任意不冲突的下述方法实施例的组合所提供的方法。
31.可以理解的是，本技术中的指读方法由指读设备执行，指读设备可以为任意具有处理能力的设备，例如学习机等。指读设备可以包括有图像采集组件，可以用于采集目标读物的图像和预设对象的图像等，例如，图像采集组件可以为若干摄像头，指读设备还可以包括语音组件，可以用于播放音频。
32.请参阅图1，图1是本技术指读方式一实施例的流程示意图，该方法包括：
33.步骤s110：指读设备响应于用户在目标读物上的指读动作，获取目标读物在指读范围内的目标图像。
34.其中，目标读物可以为任意可供用户阅读的物品，例如，教科书、其他书籍、报纸以及杂志等，通常来说目标读物上包括有若干行文字内容。指读动作可以是划线、连续指或者圈等能够在目标读物上确定一定范围的动作。
35.具体地，用户可以在目标读物上的文字内容处进行指读，以供指读设备进行识别指读处对应的文字。指读设备可以识别用户在目标读物上的指读动作，并基于该指读动作确定指读范围，具体以指读动作为划线进行举例，指读设备可以通过压力感应确定用户在目标读物上的划线动作，如依据压力感应可以确定用户在目标读物的何处开始划线，以及划线位置等。并且指读设备在确定划线范围之后，可以利用图像采集组件获取目标读物在划线范围内的目标图像。
36.步骤s120：指读设备获取对目标图像的文本识别结果。
37.在获取目标图像后，指读设备即确定用户需要进行文本识别的图像，进入对目标图像进入文本识别的步骤。可以理解的是，对目标图像进行文本识别的过程可以由指读设备进行，也可以由与指读设备连接的其他设备进行识别，例如，指读设备可以将目标图像发送至服务器，由服务器对目标图像进行文本识别。
38.具体地，指读设备或者与指读设备连接的其他设备可以利用ocr(optical character recognition，光学字符识别)的方式对目标图像进行识别，得到文本识别结果，指读设备可以获取对目标图像的文本识别结果。
39.步骤s130：指读设备语音播放文本识别结果对应的音频。
40.可以理解的是，若指读设备或与指读设备连接的其他设备对目标图像进行文本识
别，无法得到对应的识别文本，则可以认为识别失败，那么指读设备即语音播放文本识别失败对应的音频，例如，文本识别失败对应的音频可以为，没有识别到对应的内容。
41.若识别得到了对应的识别文本，则可以认为识别成功。若识别成功，指读设备或与指读设备连接的其他设备可以获取该识别文本，并且基于该识别文本判断设备内是否预存有对应的音频，若有，则指读设备语音播放该对应的音频，若没有，则语音设备利用tts(文本到语音，text to speech)技术对该识别文本进行转换得到对应的音频，并播放该音频。
42.可以理解的是，在获取识别文本后，基于该识别文本判断是否预存有对应音频的步骤可以由指读设备或与指读设备连接的其他设备执行。指读设备或与指读设备连接的其他设备内可以预存有若干音频，对应于一些常见的目标读物，例如，教科书等，用于在指读设备识别到该读物内的文本内容时，由指读设备直接播放对应的音频，无需指读设备进行文本到语音的转换，提高指读效率。但是上述音频不会对指读产生限制，即便指读设备或与指读设备连接的其他设备中没有预存有目标读物对应的文本及音频，指读设备也可以通过文本到语音技术对识别文本进行转换，从而语音播报对应的内容。
43.上述方案中，指读设备能够基于用户在目标读物上的指读动作，准确获取用户的指读范围，从而能够准确确定用户需要的指读范围，对该范围内的目标图像进行采集和处理，从而将用户需要的指读范围内的内容精准朗读，相比于通过确定用户的指定位置点并从预存文本中找出指定位置点对应的语句进行读取的点读方式，本技术直接对用户的指读范围内的图像进行文字识别，在文字识别过程中无需依赖预存文本，即使不存在目标读物的相关预存文本也能实现对目标读物进行文字识别，故不受预存文本资源的限制，能够扩大指读识别的适用范围，同时，直接根据用户的指读动作，能够准确确定指读范围，进而提高了指读识别的准确性。
44.请参阅图2，图2是本技术步骤s110另一实施例的流程示意图，步骤s110可以包括：
45.步骤s211：指读设备获取在用户的指读过程中的若干指读位置对应的若干待拼接图像。
46.可以理解的是，用户的指读动作会持续一定时间，在用户指读动作从开始到结束的过程中，指读设备可以确定若干指读位置，指读设备可以分别获取该若干位置对应的若干待拼接图像，其中，每个指读位置对应的待拼接图像为目标读物在指读位置的预设方向上的预设范围内的图像，设备可以依照指读动作的不同确定对应的预设方向，例如，若指读动作为划线，那么对应的每个指读位置对应的待拼接图像可以为目标读物在划线位置的上方宽1cm，长3cm的图像，若指读动作为画圈，那么每个指读位置对应的待拼接图像可以为目标读物在画圈位置内的图像。每幅待拼接图像均为指读范围内的一部分图像，该若干位置对应的所有若干待拼接图像即对应为目标图像，包括了指读范围内的所有内容。
47.请结合参阅图2和图3，图3是本技术步骤s211另一实施例的流程示意图。可以理解的是，上述获取若干待拼接图像的过程伴随指读过程而进行，当指读动作停止时，指读设备也停止获取待拼接图像，因此，步骤s211可以包括：
48.步骤s3111：在用户的指读过程中，指读设备每间隔第一时间判断指读动作是否停止。
49.具体地，指读设备可以通过压力感应等方式确定用户开始指读，并且每间隔第一时间判断指读动作是否停止，从而确定是否继续获取待拼接图像，若没有停止，则继续获取
待拼接图像。其中，第一时间可以是依据实际需要而设置的时间，具体举例，可以为30m或者500ms。
50.请结合参阅图2、图3和图4，图4是本技术步骤s3111另一实施例的流程示意图。步骤s3111可以具体包括：
51.步骤s4111a：指读设备每间隔第一时间检测目标读物上是否存在预设对象。
52.其中，预设对象为用户用于实现指读动作的对象，可以是用户的手指、手掌或者是指读工具等。
53.在一具体应用场景中，若目标读物上存在多个可以作为预设对象的对象，那么从中选择一个作为预设对象，例如目标读物上存在多个手指，则可以优先选取某一手指作为预设对象，例如，优先识别右手食指作为预设对象。具体地，指读设备可以每间隔第一时间通过压力感应等方式，确定目标读物上是否存在预设对象。若指读设备判断目标读物上存在预设对象，则执行步骤s4111b，若指读设备判断目标读物上不存在预设对象则执行步骤s4111c。
54.步骤s4111b：指读设备确定指读动作未停止。
55.若指读设备间隔第一时间检测目标读物上是否存在预设对象，检测结果为是，则指读设备可以确定该第一时间内用户的指读动作未停止。
56.步骤s4111c：指读设备在第二时间内检测第一文本区是否存在预设对象。
57.可以理解的是，用户可以在目标读物上选择一部分文本内容，上述文本内容可以包括若干行文字，那么用户在进行指读的过程中会进行换行，进行换行时预设对象相应的会离开第一行而在第二行进行指读。
58.故指读设备在判断目标读物上不存在预设对象后，要确定该种情况是用户指读换行还是用户指读动作停止。指读设备在第二时间内，检测第一文本区是否存在预设对象，其中，第二时间可以为依据实际需要设置的时间，例如，第二时间可以为1s，第一文本区为目标读物上与上一次检测时预设对象处于的第二文本区不同行。若指读设备在第二时间内，检测第一文本区存在预设对象，那么指读设备可以确定用户指读换行，则执行步骤s4111d，若不存在，那么指读设备可以确定用户指读动作停止，则执行步骤s4111e。
59.可以理解的是，在一些实施例中，除了在换行时预设对象会离开目标读物以外，用户在进行指读的过程中，在对同一行文字进行的指读动作中还可以分为多个分动作，例如，指读动作为连续指时，每次指的动作即为分动作；或者指读动作为划线时，在一些情况中，在对同一行文字进行一次划线的过程中，中间可能有所间断，如划线过程中跳过标点符号等，那么也可以将该次划线动作分为多个分动作。上述分动作之间存在一定的时间间隔，在上一次分动作结束，下一次分动作开始之前，预设对象也会离开目标读物，离开的时间也可以能超过第一时间，此时设备还可以在一定时间内检测第二文本区是否存在预设对象，该一定时间可以与第二时间相同，若存在，则指读设备可以确定用户指读动作未停止。步骤s4111d：指读设备确定指读动作未停止。
60.步骤s4111e：指读设备确定指读动作已停止。可以理解的是，指读设备依据对指读动作的停止与否的判断，选择下一步执行的步骤，若指读设备判断指读动作未停止，则执行步骤s3112，若指读设备判断指读动作已停止，则执行步骤s3113。
61.步骤s3112：指读设备获取当前指读位置对应的待拼接图像。
62.可以理解的是，待拼接图像与指读位置一一对应，故在判断指读动作未停止后，指读设备首先确定当前指读位置，具体地，指读设备可以每间隔第一时间判断指读动作是否停止，确定未停止后，可以采用压力感应等方式确定当前指读位置。而后指读设备可以基于当前指读位置获取对应的待拼接图像，具体地，指读设备可以利用图像采集组件采集当前指读位置对应的待拼接图像。
63.指读动作尚未停止是指读设备持续获取待拼接图像的前提，指读设备在每次判断指读动作尚未停止之后，获取待拼接图像，从而在整个指读过程中，指读设备可以得到包含指读范围内所有内容的若干待拼接图像。指读设备获取当前指读位置对应的待拼接图像的步骤与指读设备间隔第一时间判断指读动作是否停止的步骤是同步进行的，指读设备获取待拼接图像的步骤不会中断第一时间的计时。若指读设备判断指读未停止，在间隔又一第一时间后再进行指读是否停止的判断并依据该判断执行后续步骤。
64.步骤s3113：指读设备确定用户的指读过程已结束。
65.在一具体应用场景中，经历若干第一时间间隔，指读设备判断用户指读仍未停止，间隔第一时间进行下一次判断，指读设备判断用户的指读动作停止，此时可以确定用户的指读过程已结束，则指读设备不继续进行待拼接图像的获取，并确定此时刻之前获取的若干待拼接图像为包含指读范围内所有内容的若干待拼接图像。
66.步骤s212：指读设备将若干待拼接图像进行拼接，得到目标图像。
67.可以理解的是，目标图像为至少一个，目标图像的数量与用户指读的文本行数所对应，若指读设备判断用户指读的文本行数不止一行，则分别对每一文本行对应的待拼接图像进行拼接，从而得到每一文本行对应的目标图像。待拼接图像为指读范围内的一部分图像。指读位置的确定取决于第一时间的长度，在同样的指读过程中，随着第一时间的缩短，指读设备确定的指读位置以及获取的对应待拼接图像的数量增加。若干待拼接图像对应的指读位置可能距离比较接近，故而不同的待拼接图像之间可能存在一定的重合，指读设备可以将一次指读过程中的每同一文本行的所有待拼接图像拼接起来，即能够得到该次指读过程中指读范围内对应的所有文本行的目标图像，也即得到全部目标图像。在文本识别的过程中，同样分别对每一文本行的目标图像进行识别，并依次将识别后的文本衔接起来，即能够得到目标图像的文本识别结果。
68.在一些实施例中，步骤s212也可以由与指读设备连接的其他设备执行，若该步骤由与指读设备连接的其他设备执行，那么指读设备在得到若干待拼接图像后，将该若干待拼接图像的原图发送至与其连接的其他设备，而后与其连接的其他设备执行步骤s212。执行该步骤s212的设备包括指读设备以及与指读设备连接的其他设备，以下简称为设备。
69.请结合参阅图2和图5，图5是本技术步骤s212另一实施例的流程示意图。步骤s212可以包括：
70.步骤s5121：提取若干待拼接图像的特征信息。
71.具体地，设备分别对于若干待拼接图像进行特征提取，得到每幅待拼接图像的特征信息，由于部分待拼接图像可能存在一定的重合，因此不同的待拼接图像的特征信息可能有部分是一致的。
72.步骤s5122：利用特征信息，确定每相邻待拼接图像之间的匹配位置。
73.具体地，利用每幅待拼接图像的特征值，基于不同待拼接图像的特征值中一致的
部分，可以确定每相邻的待拼接图像之间的匹配位置，即确定每相邻的待拼接图像之间如何进行匹配、叠加并拼接。
74.步骤s5123：基于匹配位置，将每相邻待匹配图像进行拼接。
75.具体地，对若干待拼接图像完成拼接后就可以得到目标图像，以用于进行图像文本识别。
76.可以理解的是，在执行步骤s5121之前，设备可以对若干待拼接图像进行预处理，以便于对该若干待拼接图像进行特征提取，其中预处理可以包括去噪、灰度图像等。
77.请参阅图6，图6是本技术指读方法再一实施例的流程示意图，该方法包括：
78.步骤s610：指读设备采集目标读物的采集图像。
79.可以理解的是，指读设备包括有图像采集组件，可以用于采集目标读物的图像。用户可以利用预设对象在目标读物上指读，在指读过程开始之前，指读设备需要先确定在目标读物上存在预设对象。具体地，指读设备可以利用图像采集组件采集目标读物的采集图像，并依据采集图像确定目标读物上是否存在预设对象。
80.步骤s620：指读设备利用采集图像检测目标读物是否存在预设对象。其中，预设对象的相关描述可以参考上述关于预设对象的相关内容。
81.请结合参阅图6和图7，图7是本技术步骤s620另一实施例的流程示意图，其中，预设对象为手指，步骤s620包括：
82.步骤s721：指读设备对采集图像进行手指识别，得到采集图像中的目标手指的位置信息。
83.具体地，指读设备可以通过判断采集图像中是否有目标手指特征，基于目标手指特征确定采集图像中是否包括目标手指，以及目标手指的位置信息。
84.步骤s722：指读设备利用位置信息，确定目标手指与目标读物之间的距离。
85.具体地，指读设备可以通过测距算法确定目标手指与目标读物之间的距离，其中测距算法包括但不限于单目图像深度估计算法以及双目摄像头测距算法。
86.步骤s723：指读设备响应于距离满足预设距离要求，确定目标读物存在预设对象。
87.具体地，指读设备获得目标手指与目标读物之间的距离后，可以依据该距离与预设距离条件进行比较。在一些实施例中，预设距离条件可以是，目标手指与目标读物之间的距离小于预设距离。预设距离可以依据实际需要而设置，预设距离可以为目标读物存在预设对象时，预设对象与目标读物之间的距离。当目标手指与目标读物的距离满足预设距离要求时，则可以确定目标读物存在目标手指。具体举例，预设距离可以是用户的右手食指在书本上时，右手食指与书本之间的距离。
88.在确定目标读物存在预设对象后，指读设备执行步骤s630。
89.步骤s630：指读设备进入等待用户在目标读物上开始指读动作的状态。
90.在指读设备确定目标读物存在预设对象后，指读设备入等待用户在目标读物上开始指读动作的状态，从而可以避免预设对象在空中划过，而指读设备错误地识别认为指读开始的情况，避免误识别，提高识别准确率。
91.步骤s640：指读设备响应于用户在目标读物上的指读动作，获取目标读物在指读范围内的目标图像。
92.步骤s640的具体描述可以参考前述关于步骤s110的相关内容，在此不再赘述。
93.可以理解的是，本实施例中以目标图像的识别步骤由服务器执行为例进行说明。
94.步骤s650：指读设备将目标图像发送给服务器。
95.步骤s660：指读设备接收服务器对目标图像进行文本识别得到的文本识别结果。
96.步骤s670：指读设备语音播放文本识别结果对应的音频。
97.步骤s120可以通过步骤s650和步骤s660实现，步骤s650、步骤s660和步骤s670的具体描述可以参考前述关于步骤s120和步骤s130的相关内容，在此不做赘述。
98.上述方案中，指读设备能够基于用户在目标读物上的指读动作，准确获取用户的指读范围，从而能够准确确定用户需要的指读范围，对该范围内的目标图像进行采集和处理，并获取服务器进行文本识别的结果，从而将用户需要的指读范围内的内容精准朗读，相比于通过确定用户的指定位置点并从预存文本中找出指定位置点对应的语句进行读取的点读方式，本技术直接对用户的指读范围内的图像进行文字识别，在文字识别过程中无需依赖预存文本，即使不存在目标读物的相关预存文本也能实现对目标读物进行文字识别，故不受预存文本资源的限制，能够扩大指读识别的适用范围，同时，直接根据用户的指读动作，能够准确确定指读范围，进而提高了指读识别的准确性。
99.请参阅图8，图8是本技术指读装置一实施例的框架示意图。
100.指读装置80包括第一获取模块81、第二获取模块82、播放模块83，第一获取模块81用于响应于用户在目标读物上的指读动作，获取目标读物在指读范围内的目标图像，第二获取模块82用于获取对目标图像的文本识别结果，播放模块83用于语音播放文本识别结果对应的音频。
101.在一些实施例中，第一获取模块81具体可以包括获取单元和拼接单元，其中，获取单元用于获取在用户的指读过程中的若干指读位置对应的若干待拼接图像，每个指读位置对应的待拼接图像为目标读物在指读位置的预设方向上的预设范围内的图像。拼接单元用于将若干待拼接图像进行拼接，得到目标图像。
102.在一些实施例中，获取单元具体可以用于在用户的指读过程中，每间隔第一时间判断指读动作是否停止，若是，则确定用户的指读过程已结束，若否，则获取当前指读位置对应的待拼接图像。
103.在一些实施例中，获取单元具体可以用于每间隔第一时间检测目标读物上是否存在预设对象，其中，预设对象为用户用于实现指读动作的对象，可以为手指、手掌或指读工具等；若目标读物上存在预设对象，则确定指读动作未停止；若目标读物上不存在预设对象，则在第二时间内检测第一文本区是否存在预设对象，其中，第一文本区为目标读物上与上一次检测时预设对象位于的第二文本区不同行；若是，则确定指读动作未停止，否则确定指读动作停止。若确定指读动作未停止，则获取当前指读位置对应的待拼接图像。
104.在一些实施例中，拼接单元具体用于提取若干待拼接图像的特征信息；利用特征信息，确定每相邻待拼接图像之间的匹配位置；基于匹配位置，将每相邻待拼接图像进行拼接，从而得到目标图像。
105.在一些实施例中，目标图像包括至少一个，每个目标图像是利用对应的指读位置位于同一文本行的待拼接图像拼接得到。
106.在一些实施例中，指读装置80还包括采集模块和检测模块，采集模块用于采集目标读物的采集图像，检测模块用于利用采集图像检测目标读物是否存在预设对象，其中，预
设对象为用户用于实现指读动作的对象，可以为手指、手掌或指读工具等，若是，则进入等待用户在目标读物上开始指读动作的状态。
107.在一些实施例中，预设对象为手指，检测模块具体可以用于对采集图像进行手指识别，得到采集图像中的目标手指的位置信息；利用位置信息，确定目标手指与目标读物之间的距离；响应于距离满足预设距离要求，确定目标读物存在预设对象。
108.在一些实施例中，第二获取模块82具体可以用于将目标图像发送给服务器；接收服务器对目标图像进行文本识别得到的文本识别结果。
109.在一些实施例中，播放模块83具体可以用于若文本识别结果为识别失败，则语音播放提示文本识别失败对应的音频；若文本识别结果为识别成功，则语音播放文本识别结果中的识别文本对应的音频，其中，识别文本对应的音频来自于本地或服务器的预存音频，或者利用从文本到语音技术对识别文本转换得到的。
110.上述方案，指读装置能够基于用户指读动作，将用户需要的指读范围内的内容精准朗读，提高了指读识别的准确性，此外，能够直接对指读范围内的图像进行文字识别，不受预存文本资源的限制，能够扩大指读识别的适用范围。
111.请参阅图9，图9是本技术指读设备一实施例的框架示意图。
112.本实施例中，指读设备90包括处理器91和存储器92，存储器92与处理器91连接。该指读设备90可以为具有处理能力的任意设备，例如计算机、平板电脑、手机、对讲机、学习机等。
113.存储器92用于存储获取到的信息，例如，待拼接图像、目标图像等，处理器91执行的程序数据以及处理器91在处理过程中的数据。其中，该存储器92包括非易失性存储部分，用于存储上述程序数据。
114.处理器91控制指读设备90的操作，处理器91还可以称为为cpu(central processing unit，中央处理单元)。处理器91可能是一种集成电路芯片，具有信号的处理能力。处理器91还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器91可以由多个成电路芯片共同实现。
115.处理器91通过调用存储器92存储的程序数据，用于执行指令以实现上述任一实施例中的指读方法。
116.在一些实施例中，指读设备90还包括图像采集组件93，采集目标读物的图像，存储器92和图像采集组件93分别耦接处理器91。在一些实施例中，指读设备90还包括语音组件94，用于播放文本识别结果对应的音频。具体地，指读设备90的各个组件可以通过总线耦合在一起，或者指读设备90的处理器91分别与其他组件一一连接。
117.上述方案中，指读设备能够基于用户在目标读物上的指读动作，准确获取用户的指读范围，从而能够准确确定用户需要的指读范围，对该范围内的目标图像进行采集和处理，从而将用户需要的指读范围内的内容精准朗读，相比于通过确定用户的指定位置点并从预存文本中找出指定位置点对应的语句进行读取的点读方式，本技术直接对用户的指读范围内的图像进行文字识别，在文字识别过程中无需依赖预存文本，即使不存在目标读物的相关预存文本也能实现对目标读物进行文字识别，故不受预存文本资源的限制，能够扩
大指读识别的适用范围，同时，直接根据用户的指读动作，能够准确确定指读范围，进而提高了指读识别的准确性。
118.请参阅图10，图10是本技术计算机可读存储介质一实施例的框架示意图。
119.本实施例中，该计算机可读存储介质100存储有处理器可运行的程序数据101，该程序数据101能够被执行，用以实现上述任一实施例中的指读方法。
120.该计算机可读存储介质100具体可以为u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等可以存储程序数据的介质，或者也可以为存储有该程序数据的服务器，该服务器可将存储的程序数据发送给其他设备运行，或者也可以自运行该存储的程序数据101。
121.在一些实施例中，计算机可读存储介质100还可以为如图9所示的存储器。
122.上述方案中，指读设备能够基于用户在目标读物上的指读动作，准确获取用户的指读范围，从而能够准确确定用户需要的指读范围，对该范围内的目标图像进行采集和处理，从而将用户需要的指读范围内的内容精准朗读，相比于通过确定用户的指定位置点并从预存文本中找出指定位置点对应的语句进行读取的点读方式，本技术直接对用户的指读范围内的图像进行文字识别，在文字识别过程中无需依赖预存文本，即使不存在目标读物的相关预存文本也能实现对目标读物进行文字识别，故不受预存文本资源的限制，能够扩大指读识别的适用范围，同时，直接根据用户的指读动作，能够准确确定指读范围，进而提高了指读识别的准确性。
123.以上所述仅为本技术的实施方式，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

转载请注明原文地址:https://win.8miu.com/read-1057958.html

专利

最新回复(0)