合同归档方法、装置、计算机设备及存储介质与流程

专利检索2025-02-03  5


本发明涉及数据处理领域,尤其涉及一种合同归档方法、装置、计算机设备及存储介质。


背景技术:

1、企业合同的管理流程主要包括合同编辑起草、合同审批签署和合同归档存储。一份纸质合同的归档存储过程需要经过扫描上传电子化、手动分类、合同号标识和合同要素人工审核等步骤,归档流程复杂,人工操作依赖度高,无法自动归档,同时无法保证人工审核的准确率。

2、现有的合同归档方法通过扫描仪得到电子合同图像,采用光学文字识别(ocr)得到合同图像内容,提取合同编号完成合同归档,借助于计算机视觉和自然语言处理技术实现了自动归档。但是面对多份合同文件混合的电子合同图像难以进行批量处理,仍然需要人工操作进行合并,对合并后的每份合同进行自动解析归档。此外,由于ocr的文字识别是基于“行”进行的,识别结果无法保留正文的段落结构,可能会出现信息错漏,例如对于跨行的合同编号,可能出现无法识别导致归档错误的情况;同时由于文件的排版形式多样,页眉、表格和印章等痕迹都会对ocr的识别结果产生干扰,导致识别的泛化能力差,准确度低。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种合同归档方法、装置、计算机设备及存储介质,以解决合同归档过程中难以批量化处理,归档准确度低,处理效率低的问题。

2、一种合同归档方法,包括:

3、通过合同首尾页分类网络对批量输入的合同图像进行首尾页分类,形成若干个合同图像集合;每个合同图像集合对应一个合同;

4、对所述合同图像集合中的各个合同图像进行版面分析,获得版面分析数据;所述版面分析数据包括若干个页面版块,以及与每个页面版块对应的版块坐标信息;

5、对所述合同图像进行文字检测和文字识别,获得包含文字坐标信息的页面文字信息;

6、根据所述版块坐标信息和所述文字坐标信息对所述页面文字信息进行页面还原,获得所述合同图像对应的合同文本信息;

7、对所述合同文本信息进行要素提取,获得与所述合同文本信息对应的合同要素,以根据所述合同要素完成合同归档。

8、一种合同归档装置,包括:

9、首尾页分类模块,用于通过合同首尾页分类网络对批量输入的合同图像进行首尾页分类,形成若干个合同图像集合;每个合同图像集合对应一个合同;

10、版面分析模块,用于对所述合同图像集合中的各个合同图像进行版面分析,获得版面分析数据;所述版面分析数据包括若干个页面版块,以及与每个页面版块对应的版块坐标信息;

11、文字识别模块,用于对所述合同图像进行文字检测和文字识别,获得包含文字坐标信息的页面文字信息;

12、页面还原模块,用于根据所述版块坐标信息和所述文字坐标信息对所述页面文字信息进行页面还原,获得所述合同图像对应的合同文本信息;

13、要素提取模块,用于对所述合同文本信息进行要素提取,获得与所述合同文本信息对应的合同要素,以根据所述合同要素完成合同归档。

14、一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述合同归档方法。

15、一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述合同归档方法。

16、上述合同归档方法、装置、计算机设备及存储介质,通过合同首尾页分类网络对批量输入的合同图像进行首尾页分类,形成若干个合同图像集合;每个合同图像集合对应一个合同;对合同图像集合中的各个合同图像进行版面分析,获得版面分析数据;版面分析数据包括若干个页面版块,以及与每个页面版块对应的版块坐标信息;对合同图像进行文字检测和文字识别,获得包含文字坐标信息的页面文字信息;根据版块坐标信息和文字坐标信息对页面文字信息进行页面还原,获得合同图像对应的合同文本信息;对合同文本信息进行要素提取,获得与合同文本信息对应的合同要素,以根据合同要素完成合同归档。本发明基于深度学习实现批量化处理,对扫描输入的合同图像自动分类、识别、校验和归档,简化了归档管理流程;基于版面分析和页面还原,更精确更快速地实现合同自动归档;基于要素提取实现合同信息结构化,提高了校验和归档效率。



技术特征:

1.一种合同归档方法,其特征在于,包括:

2.如权利要求1所述的合同归档方法,其特征在于,所述通过合同首尾页分类网络对批量输入的合同图像进行首尾页分类,形成若干个合同图像集合,包括:

3.如权利要求1所述的合同归档方法,其特征在于,所述对所述合同图像集合中的各个合同图像进行版面分析,获得版面分析数据,包括:

4.如权利要求3所述的合同归档方法,其特征在于,所述通过预设表格分析网络处理与所述表格版块对应的区域图像,生成表格分析数据,包括:

5.如权利要求1所述的合同归档方法,其特征在于,所述根据所述版块坐标信息和所述文字坐标信息对所述页面文字信息进行页面还原,获得所述合同图像对应的合同文本信息,包括:

6.如权利要求1所述的合同归档方法,其特征在于,所述对所述合同文本信息进行要素提取,获得与所述合同文本信息对应的合同要素,包括:

7.如权利要求1所述的合同归档方法,其特征在于,所述根据所述合同要素完成合同归档,包括:

8.一种合同归档装置,其特征在于,包括:

9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述合同归档方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至7中任一项所述合同归档方法。


技术总结
本发明涉及数据处理领域,公开了一种合同归档方法、装置、计算机设备及存储介质,其方法通过对批量输入的合同图像进行首尾页分类,形成若干个合同图像集合;每个合同图像集合对应一个合同;对合同图像集合中的各个合同图像进行版面分析,获得若干个页面版块,以及与每个页面版块对应的版块坐标信息;对合同图像进行文字检测和文字识别,获得包含文字坐标信息的页面文字信息;根据版块坐标信息和文字坐标信息对页面文字信息进行页面还原,获得合同图像对应的合同文本信息;对合同文本信息进行要素提取,获得与合同文本信息对应的合同要素,以根据合同要素完成合同归档。本发明实现了批量化合同归档,提高了合同归档的精准度和归档效率。

技术研发人员:闵武国,钟召昌,江杰
受保护的技术使用者:丰巢网络技术有限公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1149511.html

最新回复(0)