一种适用于财税领域指标自定义和自动化运行的应用的制作方法

专利检索2022-05-11  1



1.本发明属于计算机技术领域,具体涉及一种适用于财税领域指标自定义和自动化运行的应用。


背景技术:

2.在财税领域,专业的业务人员制定一个针对企业税务风控的指标是一个需要不断制定和验证,多次反复的过程;在此过程中,业务人员需要对风控指标模型多次反复修改,验证后交付开发实现,此过程周期较长,难以满足企业生产的需要。
3.最短路径问题是图论研究中的一个经典算法问题,旨在寻找图(由结点和路径组成的)中两结点之间的最短路径。算法具体的形式包括:确定起点的最短路径问题:即已知起始结点,求最短路径的问题。确定终点的最短路径问题:与确定起点的问题相反,该问题是已知终结结点,求最短路径的问题。在无向图中该问题与确定起点的问题完全等同,在有向图中该问题等同于把所有路径方向反转的确定起点的问题。
4.专利号为cn202110518344.1a的专利公开了涉及一种基于机器学习对企业所得税风险评估的方法。具体包括:首先规划机器学习数据集的特征集合,根据企业所得税的管理特点从特征集中选择机器学习的290个目标集合;对数据分类抽取,按照不同特征所在的系统和表单进行分类各自抽取数据;再后数据按户归集形成机器学习最终的数据集;选择决策树和支持向量机算法模型进行集成和联接,形成适应于所得税的机器学习算法模型;最终运算输出结果和结果核实反馈。
5.其通过机器学习的方式来对税务的数据集进行分析和计算,其方法虽然能够提高税务风险评估的效率,但在面对数据量较大的企业时,其处理速度会显著降低,首先是因为无法在大量数据中找到税务数据,其次对税务数据的获取也因为没有找到较短路径,而增大处理的工作量。


技术实现要素:

6.有鉴于此,本发明的主要目的在于提供一种适用于财税领域指标自定义和自动化运行的应用,其通过将税务数据分解为多个数据群,再在数据群内部通过关联程度值进行关联,最后通过风险权值的计算的分散和整合来征程税务风险指标,大幅度提升了效率和准确率。
7.为达到上述目的,本发明的技术方案是这样实现的:
8.一种适用于财税领域指标自定义和自动化运行的应用,所述应用包括以下方法:
9.步骤1:将税务数据按照设定的特征划分为多个数据群;所述设定的特征包括:时间特征和/或款项特征;同时,统计每个数据群中可能存在的彼此交集部分;
10.步骤2:在每个数据群内部进行数据关联,具体包括:对数据群中的每个数据均进行分析,以计算该数据与其他数据的关联程度值,并将关联的数据进行连接;
11.步骤3:在每个数据群内部使用预设的数据分析模型进行数据风险分析,得到该数
据群对应的风险权值;再对每个交集部分进行数据风险分析,得到交集部分对应的风险权值;基于数据群对应的风险权值和交集部分对应的风险权值,求出非交集部分的风险权值;
12.步骤4:当接收到风险指标生成命令时,对风险指标生成命令进行分析,以获得风险指标生成命令的税务数据群;筛选出税务数据群后,使用判别器判断筛选出的税务数据群是否存在交集的部分,若存在,则将所有交集的部分所对应的风险权值进行累加,再计算所有非交集部分的风险权值,基于计算出的非交集部分的风险权值的大小,按照从大到小的顺序将非交集部分进行排序,筛选出风险权值排列在前三的非交集部分;
13.步骤5:在非交集部分和交集部分中,基于风险指标生成命令,找到入口值,基于入口数据,在每个交集部分和非交集部分中,开始数据搜寻,具体包括:从入口数据开始,找到与前一数据的关联成都值最高的数据,作为下一数据,直到遍历到数据的终点;
14.步骤6:基于每个非交集部分和交集部分中进行数据搜寻找到的所有数据在每个非交集部分或交集部分中的占比,求取最终的风险权值,作为生成的风险指标。
15.进一步的,所述步骤1中,所述时间特征包括:税务数据产生的时间和/或被记录的时间;所述款项特征包括:税务数据的来源和/或用途。
16.进一步的,所述步骤2中对数据群中的每个数据均进行分析,以计算该数据与其他数据的关联程度值的方法执行以下步骤:将数据群中的每个数据的特征进行分类处理,得到组成所述特征的分类;所述特征为设定的特征的一种或多种;对各分类进行隶属标注,得到各分类的隶属类型;按照预设的隶属类型优先级顺序,从各分类中选择隶属类型与预设的隶属类型相同且优先级最高的分类作为关联特征;从数据群中中,获取特征中包含所述关联特征的数据;从获取到的数据中,确定与所述数据群中待关联数据的关联的数据。
17.进一步的,从获取到的数据中,确定与所述数据群中待关联数据的关联的数据具体包括:根据待关联数据与各获取到的数据的特征信息,确定待关联数据与各获取到的数据的相似度;根据各数据的相似度,确定与待关联数据关联的数据。
18.进一步的,若数据的特征包含数据产生的时间、被记录的时间、税务数据的来源和用途,则所述根据待关联数据与获取到的数据的特征信息,确定待关联数据与各获取到的数据的相似度,具体包括:根据待关联数据与数据的数据产生的时间,确定待关联数据与该数据的数据产生的时间的相似度;根据待关联数据的被记录的时间与该数据的被记录的时间,确定待关联数据与该数据的被记录的时间相似度;根据待关联数据与该数据的来源,确定待关联数据与该数据的来源相似度;根据待关联数据与该数据的用途,确定待关联数据与该数据的用途相似度;根据所述产生的时间相似度、被记录的时间相似度、来源相似度以及用途相似度,确定待关联数据与该数据的相似度。
19.进一步的,所述步骤3中在每个数据群内部使用预设的数据分析模型进行数据风险分析的方法执行以下步骤:所述数据分析模型使用如下公式进行表示:其中,r为风险权值;dm为风险阈值,为一个设定值;d为数据群的风险值;当通过计算得到数据群的风险值后,再将风险值代入到数据分析模型中,则可以得到风险权值。
20.进一步的,所述数据群的风险值的计算方法执行以下步骤:从数据群中选出一个
数据作为起始值,使用如下公式计算该起始值的风险值:数据作为起始值,使用如下公式计算该起始值的风险值:其中,t为数据值,k为该数据与其他关联的数据的关联程度值的均值;得到起始值的风险值后,再从与该起始值的关联程度值最高的其他数据值开始,重复计算风险值,直到数据群中所有的数据的风险值都计算完毕后;计算所有风险值的平均值作为数据群的风险权值。
21.进一步的,所述方法还包括在对数据按照设定的特征划分为多个数据群之前,对税务数据进行数据预处理的步骤;具体包括:对待预处理的税务数据进行结构化处理,得到结构化的税务数据;所述税务数据中包括需要预处理的数据字段;确定各数据字段对应的属性以及从属于各属性的预处理规则;利用从属于各属性的预处理规则形成预处理规则集;基于所述预处理规则集对所述税务数据进行预处理。
22.进一步的,所述基于所述预处理规则集对所述税务数据进行预处理,包括:获取所述税务数据的数据量;当所述数据量超出预设阈值时,按照所述数据量生成多个数据预处理任务;所述数据清洗任务中包括需要预处理的数据字段列子集和/或数据字段行子集;从所述预处理规则集中为每个数据预处理任务配置对应的预处理规则子集;分布式执行所有的数据预处理任务。
23.本发明的一种适用于财税领域指标自定义和自动化运行的应用,具有如下有益效果:
24.1.效率更高:本发明通过最短路径的方式来实现数据搜寻,以此提升风险指标生成的效率;主要通过两个方面来实现:1.最短路径的天然实现:本发明在实现最短路径获取数据时,没有每一次都通过算法来找寻,而是通过固定的模式对每一次进行数据搜寻进行规范,换而言之,本发明没有通过一个算法来每次进行数据搜寻,而是通过从入口数据开始,找到与前一数据的关联成都值最高的数据,作为下一数据,直到遍历到数据的终点;这样即用最少的资源和最短的时间实现了基于最短路径的数据搜寻,大幅度提升效率;2.最短路径算法提升数据获取效率:本发明通过最短路径来将实现指标生成所需要的数据筛选,在筛选过程中,使用最短路径的方法可以大幅度提升数据获取的效率。
25.2.准确率更高:本发明在计算生成风险指标时,没有单纯的直接基于分类的数据群进行计算,而是考虑了数据群之间的交集部分,这样做的好处,在于避免数据重复导致的数据不准确,因为交集部分的数据如果在计算指标时进行了重复利用,则会导致指标数据的不准确,本发明将两种数据分离开分别进行计算,可以显著提升准确率。
附图说明
26.图1为本发明实施例提供的一种适用于财税领域指标自定义和自动化运行的应用的方法流程示意图;
27.图2为本发明实施例提供的一种适用于财税领域指标自定义和自动化运行的应用的连接的关联数据的结构示意图;
28.图3为本发明实施例体统的一种适用于财税领域指标自定义和自动化运行的应用筛选出风险权值排列在前三的非交集部分后进行连接的结构示意图;
29.图4为本发明实施例提供的一种适用于财税领域指标自定义和自动化运行的应用进行数据搜寻的原理示意图。
具体实施方式
30.下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
31.实施例1
32.如图1所示
33.一种适用于财税领域指标自定义和自动化运行的应用,所述方法执行以下步骤:
34.步骤1:将税务数据按照设定的特征划分为多个数据群;所述设定的特征包括:时间特征和/或款项特征;同时,统计每个数据群中可能存在的彼此交集部分;
35.步骤2:在每个数据群内部进行数据关联,具体包括:对数据群中的每个数据均进行分析,以计算该数据与其他数据的关联程度值,并将关联的数据进行连接;
36.步骤3:在每个数据群内部使用预设的数据分析模型进行数据风险分析,得到该数据群对应的风险权值;再对每个交集部分进行数据风险分析,得到交集部分对应的风险权值;基于数据群对应的风险权值和交集部分对应的风险权值,求出非交集部分的风险权值;
37.步骤4:当接收到风险指标生成命令时,对风险指标生成命令进行分析,以获得风险指标生成命令的税务数据群;筛选出税务数据群后,使用判别器判断筛选出的税务数据群是否存在交集的部分,若存在,则将所有交集的部分所对应的风险权值进行累加,再计算所有非交集部分的风险权值,基于计算出的非交集部分的风险权值的大小,按照从大到小的顺序将非交集部分进行排序,筛选出风险权值排列在前三的非交集部分;
38.步骤5:在非交集部分和交集部分中,基于风险指标生成命令,找到入口值,基于入口数据,在每个交集部分和非交集部分中,开始数据搜寻,具体包括:从入口数据开始,找到与前一数据的关联成都值最高的数据,作为下一数据,直到遍历到数据的终点;
39.步骤6:基于每个非交集部分和交集部分中进行数据搜寻找到的所有数据在每个非交集部分或交集部分中的占比,求取最终的风险权值,作为生成的风险指标。
40.参考图2,图2中被关联的数据之间的数据关联度的取值范围为从1到4。根据计算出的数据关联度,将数据进行关联。图中每个字母均代表一个数据。
41.参考图3,图3中的判别器用于判断应该从那个群中进行数据搜寻。在筛选出的三个交集部分和非交集部分中,通过判别器可以找到入口数据。图中的每个数字均代表每个数据的风险权值。
42.参考图4,图4中a为起始数据,b为数据的终点。中间的每个数字均代表每个数据群的风险权值。
43.实施例2
44.在上一实施例的基础上,所述步骤1中,所述时间特征包括:税务数据产生的时间和/或被记录的时间;所述款项特征包括:税务数据的来源和/或用途。
45.实施例3
46.在上一实施例的基础上,所述步骤2中对数据群中的每个数据均进行分析,以计算该数据与其他数据的关联程度值的方法执行以下步骤:将数据群中的每个数据的特征进行分类处理,得到组成所述特征的分类;所述特征为设定的特征的一种或多种;对各分类进行隶属标注,得到各分类的隶属类型;按照预设的隶属类型优先级顺序,从各分类中选择隶属类型与预设的隶属类型相同且优先级最高的分类作为关联特征;从数据群中中,获取特征中包含所述关联特征的数据;从获取到的数据中,确定与所述数据群中待关联数据的关联
的数据。
47.实施例4
48.在上一实施例的基础上,从获取到的数据中,确定与所述数据群中待关联数据的关联的数据具体包括:根据待关联数据与各获取到的数据的特征信息,确定待关联数据与各获取到的数据的相似度;根据各数据的相似度,确定与待关联数据关联的数据。
49.具体的,数据(data)是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后,便成为信息。数据处理(data processing)是对数据的采集、存储、检索、加工、变换和传输。
50.数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。
51.数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响了人类社会发展的进程。
52.实施例5
53.在上一实施例的基础上,若数据的特征包含数据产生的时间、被记录的时间、税务数据的来源和用途,则所述根据待关联数据与获取到的数据的特征信息,确定待关联数据与各获取到的数据的相似度,具体包括:根据待关联数据与数据的数据产生的时间,确定待关联数据与该数据的数据产生的时间的相似度;根据待关联数据的被记录的时间与该数据的被记录的时间,确定待关联数据与该数据的被记录的时间相似度;根据待关联数据与该数据的来源,确定待关联数据与该数据的来源相似度;根据待关联数据与该数据的用途,确定待关联数据与该数据的用途相似度;根据所述产生的时间相似度、被记录的时间相似度、来源相似度以及用途相似度,确定待关联数据与该数据的相似度。
54.具体的,关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。
55.或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。
56.实施例6
57.在上一实施例的基础上,所述步骤3中在每个数据群内部使用预设的数据分析模型进行数据风险分析的方法执行以下步骤:所述数据分析模型使用如下公式进行表示:其中,r为风险权值;dm为风险阈值,为一个设定值;d为数据群的风险值;当通过计算得到数据群的风险值后,再将风险值代入到数据分析模型中,则可以得到风险权值。
58.具体的,关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。
59.关联分析是从大量数据中发现项集之间有趣的关联和相关联系。关联分析的一个典型例子是购物篮分析。该过程通过发现顾客放入其购物篮中的不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。其他的应用还包括价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。
60.可从数据库中关联分析出形如“由于某些事件的发生而引起另外一些事件的发生”之类的规则。如“67%的顾客在购买啤酒的同时也会购买尿布”,因此通过合理的啤酒和尿布的货架摆放或捆绑销售可提高超市的服务质量和效益。又如
“‘
c语言’课程优秀的同学,在学习

数据结构’时为优秀的可能性达88%”,那么就可以通过强化“c语言”的学习来提高教学效果。
61.实施例7
62.在上一实施例的基础上,所述数据群的风险值的计算方法执行以下步骤:从数据群中选出一个数据作为起始值,使用如下公式计算该起始值的风险值:其中,t为数据值,k为该数据与其他关联的数据的关联程度值的均值;得到起始值的风险值后,再从与该起始值的关联程度值最高的其他数据值开始,重复计算风险值,直到数据群中所有的数据的风险值都计算完毕后;计算所有风险值的平均值作为数据群的风险权值。
63.实施例8
64.在上一实施例的基础上,所述方法还包括在对数据按照设定的特征划分为多个数据群之前,对税务数据进行数据预处理的步骤;具体包括:对待预处理的税务数据进行结构化处理,得到结构化的税务数据;所述税务数据中包括需要预处理的数据字段;确定各数据字段对应的属性以及从属于各属性的预处理规则;利用从属于各属性的预处理规则形成预处理规则集;基于所述预处理规则集对所述税务数据进行预处理。
65.实施例9
66.在上一实施例的基础上,所述基于所述预处理规则集对所述税务数据进行预处理,包括:获取所述税务数据的数据量;当所述数据量超出预设阈值时,按照所述数据量生成多个数据预处理任务;所述数据清洗任务中包括需要预处理的数据字段列子集和/或数据字段行子集;从所述预处理规则集中为每个数据预处理任务配置对应的预处理规则子集;分布式执行所有的数据预处理任务。
67.所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
68.需要说明的是,上述实施例提供的系统,仅以上述各功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能单元来完成,即将本发明实施例中的单元或者步骤再分解或者组合,例如,上述实施例的单元可以合并为一个单元,也可以进一步拆分成多个子单元,以完成以上描述的全部或者单元功能。对于本发明实施例中涉及的单元、步骤的特征,仅仅是为了区分各个单元或者步骤,不视为对本发明的不当限定。
69.所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
70.本领域技术人员应能够意识到,结合本文中所公开的实施例描述的各示例的单元、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件单元、方法步骤对应的程序可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介
质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
71.术语“第一”、“另一部分”等是配置用于区别类似的对象,而不是配置用于描述或表示特定的顺序或先后次序。
72.术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者单元/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者单元/装置所固有的要素。
73.至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术标记作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
74.以上所述,仅为本发明的较佳实施例而已,并非配置用于限定本发明的保护范围。
转载请注明原文地址:https://win.8miu.com/read-950105.html

最新回复(0)