本发明涉及多式联运,尤其涉及一种基于人工智能ocr技术的多式联运单证识别方法及系统。
背景技术:
1、多式联运是指货物在不同运输方式之间进行灵活组合的物流运输模式,多式联运单证的准确识别对保证运输过程的顺利进行具有重要意义,但在多式联运单证领域,目前识别手段的识别精度有限,错误率高。
2、光学字符识别(ocr)是一种将图像中的字符转换为可编辑文本的技术。ocr技术已经在许多领域得到广泛应用,包括文字识别、身份证识别和车牌识别等。当前,深度学习是ocr中最为流行和有效的算法之一。深度学习模型通过大量的数据训练,可以自动学习和提取图像中的特征,从而提高ocr的准确性和鲁棒性。
3、传统的手工识别方法存在效率低下、误识别率高等问题,需要引入人工智能技术和深度学习算法的应用来提高单证识别的准确性和效率,提高多式联运单证识别率,提升准确度,并基于此形成多式联运垂直领域的单证智能识别模型。
技术实现思路
1、本发明的目的是为了解决上述现有技术中存在的缺点,提出一种基于人工智能ocr技术的多式联运单证识别方法及系统,通过识别和深度学习算法的应用,提高多式联运单证识别率,提升准确度。
2、一种基于人工智能ocr技术的多式联运单证识别方法,包括如下步骤:
3、步骤s1:采集大量多式联运单证的样本数据作为样本数据集并进行标注,对所述样本数据集的图像进行预处理,包括图像增强、图像去噪;
4、步骤s2:选择ocr模型,输入所述预处理后的样本数据集及其标注对所述ocr模型进行训练和优化,同时采用多样化特征融合的方式提升识别准确度;
5、步骤s3:建立数据库管理系统,输入新的多式联运单证图像,利用训练好的所述ocr模型识别所述多式联运单证图像,将识别出的所述多式联运单证内容匹配至所述数据库管理系统,输出高准确度的多式联运单证内容数据;
6、步骤s4:根据所述多式联运单证的业务需求对所述多式联运单证内容数据进行深层次的业务分析和优化。
7、进一步地,在步骤s1中,所述采集的样本数据集覆盖多种类型和格式的单证,同时保证所述标注的准确性和一致性,所述图像预处理具体包括:
8、步骤s11:将所述采集的样本数据集内的图像转成灰度图;
9、步骤s12:然后对所述灰度图使用高斯平滑滤波器卷积降噪来进行轮廓检测生成去噪图像;
10、步骤s13:提取所述去噪图像的最大轮廓,通过sobel算子计算所述去噪图像的梯度和方向,根据计算出的所述梯度和方向矫正所述去噪图像,所述sobel算子计算所述梯度和方向的方法如下:
11、
12、其中,g为所述去噪图像的梯度,θ为所述去噪图像的方向,gx指水平方向的掩码模板,gy是指垂直方向的掩码模板,具体的值为:
13、
14、进一步地,在步骤s2中,综合考虑模型的识别能力、鲁棒性和计算效率因素选择所述ocr模型,所述ocr模型为基于深度学习的端到端模型卷积循环神经网络crnn,所述卷积循环神经网络crnn包括三个部分:卷积层cnn、循环层rnn和转录层ctc loss。
15、优选地,所述ocr模型的训练过程具体包括:
16、步骤s21:在所述卷积层cnn对所述预处理后的样本数据集提取特征,得到特征图像;
17、步骤s22:根据所述特征图像提取特征向量序列;
18、步骤s23:将每个所述特征向量作为一个时间步输入所述循环层rnn,使用双向循环神经网络lstm每个所述时间步进行学习,并输出预测标签分布;
19、步骤s24:最后转录层ctc loss使用ctc损失函数对卷积层cnn和循环层rnn进行端到端的联合训练,把从所述循环层rnn获取的所述标签分布转换成最终的标签序列。
20、更优地,在步骤s2中,所述模型优化具体包括:
21、采用prompt形式建模,合并大量任务数据并使用同一个框架大一统多个不同任务,所述ocr模型使用所述大量任务数据抽取所述样本数据集的标注数据进行多任务训练,融合不同任务的底层抽取能力,结合所述样本数据集的标注数据以及后台自动调优提高所述多式联运单证识别的准确率。
22、此外,在步骤s2中,所述多样化特征融合的方式包括多模型融合方式和特征融合方式,将基于深度学习的模型和传统模板匹配算法相结合,根据所述建模更准确地识别标记区域再结合标记结果组装返回统一的数据标准格式。
23、进一步地,在步骤s3中,所述数据库管理系统包括行业专业术语库和业务数据库;
24、对所述数据库管理系统配置匹配参数,将经过所述ocr模型识别后的所述多式联运单证内容与所述行业专业术语库进行校验和适配,校验适配度达到预设的所述匹配参数即匹配输出所述高准确度的多式联运单证内容数据;
25、将输出的所述多式联运单证内容数据与所述业务数据库内的相关业务数据进行关联,准确地优化残缺的所述多式联运单证内容数据,并且实现查询和管理所述多式联运单证内容数据。
26、进一步地,在步骤s4中,所述业务分析和优化具体包括:
27、通过对识别到的所述多式联运单证内容数据的统计和分析来发现所述多式联运业务中的痛点和优化空间,为运输方案、货物跟踪、异常处理方面提供决策支持;同时,结合机器学习和大数据技术构建预测模型,提前发现潜在问题并采取相应措施。
28、优选地,所述数据库管理系统还对所述多式联运单证的业务进行智能审核和安全管理:
29、针对所述多式联运的特殊需求和业务敏感性,对识别到的所述多式联运单证内容数据进行审核和安全管理,通过结合规则引擎和人工智能技术自动判断所述多式联运单证内容数据的合规性和准确性,并根据预设规则和策略进行相应的操作和处理。
30、一种用于上述方法的基于人工智能ocr技术的多式联运单证识别系统,包括:数据准备与预处理模块、数据处理模块、业务分析与优化模块和安全管理与审核模块;
31、所述数数据准备与预处理模块包括数据采集单元、数据标注单元和数据预处理单元,所述数据采集单元用于采集所述多式联运单证的样本数据;所述数据标注单元用于对所述样本数据进行标注;所述数据预处理单元用于对采集的所述样本数据进行预处理;
32、所述数据处理模块包括智能识别单元、单证数据管理单元,所述智能识别单元利用训练优化后的所述ocr模型对输入的所述预处理后的样本数据及其标注进行识别和关键信息提取;所述单证数据管理单元将识别出的所述多式联运单证内容匹配至所述数据库管理系统,输出高准确度的多式联运单证内容数据,同时用于查询和管理所述多式联运单证内容数据。
33、所述业务分析与优化模块用于对所述多式联运单证的业务进行深入的分析和优化;
34、所述安全管理与审核模块用于对识别到的所述多式联运单证内容数据进行审核和安全管理。
35、与现有技术相比,本发明的有益效果是:
36、(1)采用深度学习算法进行多式联运单证的识别,相较传统的人工处理方法,可以显著提高处理速度和效率;深度学习算法可以并行化处理,加快了算法的运行速度,使得系统能够快速识别和提取关键信息;
37、(2)相较于传统的人工处理方法,基于人工智能ocr的多式联运单证识别方法可以将大量的人工劳动转移到计算机上完成,从而降低了人力资源的需求和相关的能耗;
38、(3)采用深度学习算法,系统可以学习多式联运单证的特征和结构。相较于传统的光学字符识别(ocr)方法,基于深度学习的ocr模型能够更好地处理单证中的文字、数字和其他关键信息,减少了错误识别的概率;
39、(4)通过建立数据库管理系统并配置匹配参数,将ocr模型识别后的所述多式联运单证内容与数据库管理系统进行检验和匹配,匹配输出高准确度的多式联运单证内容数据,提高了单证识别的准确性和鲁棒性。
1.基于人工智能ocr技术的多式联运单证识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于人工智能ocr技术的多式联运单证识别方法,其特征在于,在步骤s1中,所述采集的样本数据集覆盖多种类型和格式的单证,同时保证所述标注的准确性和一致性,所述图像预处理具体包括:
3.根据权利要求1所述的基于人工智能ocr技术的多式联运单证识别方法,其特征在于,在步骤s2中,综合考虑模型的识别能力、鲁棒性和计算效率因素选择所述ocr模型,所述ocr模型为基于深度学习的端到端模型卷积循环神经网络crnn,所述卷积循环神经网络crnn包括三个部分:卷积层cnn、循环层rnn和转录层ctc loss。
4.根据权利要求3所述的基于人工智能ocr技术的多式联运单证识别方法,其特征在于,所述ocr模型的训练过程具体包括:
5.根据权利要求1所述的基于人工智能ocr技术的多式联运单证识别方法,其特征在于,在步骤s2中,所述模型优化具体包括:
6.根据权利要求5所述的基于人工智能ocr技术的多式联运单证识别方法,其特征在于,在步骤s2中,所述多样化特征融合的方式包括多模型融合方式和特征融合方式,将基于深度学习的模型和传统模板匹配算法相结合,根据所述建模更准确地识别标记区域再结合标记结果组装返回统一的数据标准格式。
7.根据权利要求1所述的基于人工智能ocr技术的多式联运单证识别方法,其特征在于,在步骤s3中,所述数据库管理系统包括行业专业术语库和业务数据库;
8.根据权利要求1所述的基于人工智能ocr技术的多式联运单证识别方法,其特征在于,在步骤s4中,所述业务分析和优化具体包括:
9.根据权利要求8所述的基于人工智能ocr技术的多式联运单证识别方法,其特征在于,所述数据库管理系统还对所述多式联运单证的业务进行智能审核和安全管理:
10.一种执行如权利要求1-9中任意一项所述的基于人工智能ocr技术的多式联运单证识别系统,其特征在于,包括:数据准备与预处理模块、数据处理模块、业务分析与优化模块和安全管理与审核模块;