本发明涉及多模态文档解析,具体涉及基于rpa多模态文档解析与结构化处理系统。
背景技术:
1、rpa(robotic process automation),即机器人流程自动化,是一种技术应用,它能够模拟和执行基于规则的任务,帮助组织提升效率和减少成本。通过rpa,人类员工可以从重复性、高强度的任务中解放出来,进而投入到更需要人类判断和创造力的任务中。
2、智能文档解析系统是一种能够自动抽取文本数据并将其转换为结构化数据的软件系统。它能够处理各种类型的文档,如pdf、word、excel等,从中提取出有用的信息,如表格、图表、文本和图像。智能文档解析系统的需求来自于企业和组织需要处理大量的非结构化数据,例如合同、报告、发票等。
3、传统的文档处理方法通常依赖人工进行手动操作和分析,效率较低且容易出错。虽然现有技术中存在一些文档解析系统,但它们往往只针对单一形式的文档数据,无法灵活应对多种文档类型。
4、因此,需要一种能够同时处理多模态输入数据的文档解析系统。
技术实现思路
1、本发明的目的在于提供基于rpa多模态文档解析与结构化处理系统:解决现有方案中只针对单一形式的文档数据,无法灵活应对多种文档类型而导致处理文档数据效率低的技术问题。
2、本发明的目的可以通过以下技术方案实现:
3、基于rpa多模态文档解析与结构化处理系统,系统包括:
4、多模态输入模块,用于接收不同模态的文档数据;
5、数据预处理模块,用于对文档数据进行预处理;
6、多模态表示学习模块,用于基于深度学习算法对预处理后的文档数据进行特征提取、表示学习,得到特征表示;
7、多模态融合模块,用于采用不同的融合策略对特征表示进行融合,得到全面和准确的多模态表示;
8、解析模块,用于基于多模态表示对文档数据进行文档解析,得到解析结果;
9、应用模块,用于将解析结果应用于实际应用场景中。
10、进一步地,基于多模态表示对文档数据进行文档解析,得到解析结果包括以下步骤:
11、步骤一:基于γij=relationclasifier(ei,ej)结合同类型特征识别文档属性,基于文档属性提取文档数据中的实体之间关系特征标识,其中,ei,ej为两个实体的表示,γij表示两个实体之间关系的预测结果;
12、步骤二:基于实体之间关系特征标识选择解析模型,其中,解析模型可包括合同模型、表格提取模型、招标公告模型、重要文件模型、简历模型、发票模型、采购单模型;
13、步骤三:基于解析模型使用encoder对文档进行实体之间关系特征标识的选中;
14、步骤四:循环识别文档中选中的特征标识,并进行抽取,组建新建文档,将选中的特征标识写入新建文档中。
15、进一步地,在步骤三中,基于解析模型使用encoder对文档进行实体之间关系特征标识的选中,包括以下步骤:
16、基于ht=encoder(xt)使用注意力机制来加权组合不同模态的文档信息其中,ht是在语义空间中的表示,k是模态数量,αk是对第k个模态的注意力权重,ht,k是第k个模态在当前时刻的表示,st是综合所有模态的文档信息输出;
17、基于条件随机场和序列标注模型来识别文档信息输出的命名实体:
18、
19、其中,x是文档信息输出,y是预测的标签序列,t是序列长度,p(yt|y<t,x)是在给定历史标签y<t和文档信息输出x的条件下,生成当前标签yt的概率,y′是对比标签序列,p(y′|y′<t,x)是在给定历史标签y′<t和文档信息输出x的条件下,生成对比标签的概率。
20、进一步地,在步骤四中,循环识别文档中选中的特征标识,并进行抽取,组建新建文档,将选中的特征标识写入新建文档中,包括以下步骤:
21、在受限玻尔兹曼机中使用sigmoid激活函数:
22、
23、给定一个输入向量v和一组权重矩阵w、偏置向量a和b,能量函数定义为:
24、
25、其中,vi是第i个可见单元的值,hj是第j个隐藏单元的值,wij是从可见单元i到隐藏单元j的权值;
26、基于配分函数计算状态的概率:
27、z(w,a,b)=-σv-σhe-e(v,h;w,a,b);
28、根据能量函数,可以计算出可见单元和隐藏单元的条件概率:
29、p(hj=1|v;w,a,b)=σ(bj+σiwijvi);
30、p(vi=1|h;w,a,b)=σ(ai+∑jwijhj);
31、其中,训练rbm的目标基于最小化负对数似然函数:
32、-logp(v(n);w,a,b)=-σn[e(v(n),0;w,a,b)-logz(w,a,b)];
33、基于可见单元和隐藏单元的条件概率对特征标识进行抽取,组建新建文档,将选中的特征标识写入新建文档中。
34、进一步地,对文档进行解析包括:
35、基于自然语言处理对词进行双连词提取、同语境词提取,对句进行句法分析、相似度分析,对表格进行表格语义分析、表格对比。
36、进一步地,数据预处理模块用于对文档数据进行预处理包括:
37、使用ocr技术将文档数据的文本转换为计算机可读的格式,并利用计算机视觉技术提取文档中包含的表格和图像:
38、预处理文档图像:对文档图像进行去噪、增强、分割操作,以便将表格和图像从文档图像中分离出来;
39、表格区域提取:通过图像分割算法将表格与背景进行区分,得到表格的位置信息,采用目标检测算法精确提取出表格区域;
40、图像区域提取:通过图像分割算法将图像与背景进行区分,得到图像的位置信息;
41、表格内容识别:利用图像识别算法对表格中的内容进行识别和提取;
42、图像内容识别:对于提取出来的图像,利用图像识别算法进行内容识别,以实现图像分类、关键词提取任务;
43、后处理:对识别结果进行修正和优化,以提高识别准确率。
44、进一步地,不同模态的文档数据包文本、图像、音频。
45、相比于现有方案,本发明实现的有益效果:
46、本发明采用多模态方法,可以处理多种形式的文档数据,包括图像、文字和语音等。通过将不同形式的文档数据结合在一起,系统能够更全面地解析和理解各类文档。
47、结合rpa技术,该系统可以自动执行复杂的文档处理任务,无需人工干预,它能够自动进行文本抽取、信息标注、关联分析等操作,大大提高了文档处理的效率和准确性。
48、智能化解析:系统引入机器学习和自然语言处理算法,逐渐学习和优化解析过程。随着时间的推移,系统能够逐渐提高解析准确性和智能化程度,有效应对不同类型和格式的文档。
49、减少人工干预:传统文档处理方法常常需要大量的人工干预和配置,但该系统通过自动化和智能化的处理流程,减少了人工操作的需求。这样不仅节省了人力资源,还降低了错误和遗漏的概率。
50、提高工作效率:由于自动化和智能化的特性,该系统能够快速而准确地处理大量文档,从而大大提高了工作效率。它可以在短时间内完成复杂的文档解析和结构化处理任务,为用户提供快速且可靠的结果。
1.基于rpa多模态文档解析与结构化处理系统,其特征在于,系统包括:
2.根据权利要求1所述的系统,其特征在于,基于多模态表示对文档数据进行文档解析,得到解析结果包括以下步骤:
3.根据权利要求2所述的系统,其特征在于,在步骤三中,基于解析模型使用encoder对文档进行实体之间关系特征标识的选中,包括以下步骤:
4.根据权利要求2所述的系统,其特征在于,在步骤四中,循环识别文档中选中的特征标识,并进行抽取,组建新建文档,将选中的特征标识写入新建文档中,包括以下步骤:
5.根据权利要求1所述的系统,其特征在于,对文档进行解析包括:
6.根据权利要求1所述的系统,其特征在于,数据预处理模块用于对文档数据进行预处理包括:
7.根据权利要求1所述的系统,其特征在于,不同模态的文档数据包文本、图像、音频。
