本发明涉及数据获取,具体为一种基于数据对比的数据获取方法。
背景技术:
1、数据分析中,不可或缺“数据获取”这一环节。数据获取是通过借助数据分析工具利用一定的收集方法,将想要利用的数据信息收集起来用于后面的数据分析、数据挖掘,所以数据获取也是数据分析的基础和上限。数据获取对于数据的分析具有至关重要的作用。
2、目前,随着互联网技术的高速发展以及信息的爆发,各种数据充斥于网络之中,这就为基于互联网进行数据的获取操作带来了很大的不便。如传统的如使用网页浏览器进行数据的获取方式,其使用网页浏览器提供的api获取需要的数据,数据获取的效率较低,且网页信息获取不全面,对于大型数据集的抓取可能需要很长时间;还有使用编程语言的数据获取方式,其虽然具有灵活性强、可以根据需要实现各种复杂的数据抓取需求的优点,但是对于其的使用需要一定的编程知识,提高了数据获取的门槛。基于以上的原因,本发明提出一种基于数据对比的数据获取方法。
技术实现思路
1、(一)解决的技术问题
2、针对现有技术的不足,本发明基于软件的形式实现,在使用时通过将基于数据对比的数据获取软件安装到服务器中,根据实际的需要新建任务或新媒体任务,并根据软件界面之中的提示完成基础的配置操作,即可实现对本软件的直接使用,并通过对已有的关键对比库进行对获取到的信息对比,得到需要的数据,具体包括数据比对库、信息数据比对、url比对和更新比对,即可高效且便捷的实现对数据的获取操作,有效的优化了数据获取的效率以及降低了数据获取操作的难度,方便使用。
3、(二)技术方案
4、为实现上述目的,本发明提供如下技术方案:一种基于数据对比的数据获取方法,基于软件的形式实现,包括以下步骤:
5、s1:将基于数据对比的数据获取软件安装到服务器之中,并完成对基于数据对比的数据获取软件的配置操作;
6、s2:在软件主界面,工具栏,根据实际的需要点击新建任务或新媒体任务按钮,完成新建任务或新媒体任务操作,并根据软件提示,完成对各项数据的配置;
7、s3:进行基于数据对比的数据获取操作,通过对已有的关键对比库进行对获取到的信息对比,得到需要的数据,具体包括数据比对库、信息数据比对、url比对和更新比对;
8、s4:在软件运行界面之中,通过运行历史项目,查看历史记录以及详细的运行信息,在软件运行界面之中,通过查看运行状态项目,记录当前设置的所有计划任务、最后运行时间、下次运行时间、请求量和拼写错误数据量;
9、s5:将获取到的数据进行导出操作,完成基于数据对比的数据获取操作。
10、优选的,所述基于数据对比的数据获取软件基于windows系统进行安装,运行的环境为.net framework 4,并基于mysql数据库实现。
11、优选的,所述步骤1中对于基于数据对比的数据获取软件的安装和配置,具体包括以下的步骤:
12、s11:软件安装和启动,在服务器端直接解压程序zip到本地目录,spider.manager.exe为启动程序;
13、s12:对比库安装,在服务器端直接解压程序zip到本地目录,spellcheckerfront.exe为启动程序;
14、s13:采集端初始配置,包括服务器设置、导出报告设置、邮件服务设置、短信接口设置和第三方域名黑名单的配置操作。
15、优选的,所述步骤13包括以下具体操作:
16、服务器设置,打开spider.manager.exe后,首先需要配置mysql数据库、在主界面、设置窗口、设置mysql数据库的相关信息,包含服务器地址、端口、用户名、密码、编码,数据库编码需要设置为utf8mb4_bin;
17、导出报告设置,具体包括单个word记录数量和单个excel记录数量的设置;
18、邮件服务设置,具体包括smtp服务器、发送邮箱地址及密码的输入操作,并设置有测试收件邮箱端口;
19、短信接口设置,具体包括短信接口账号和短信密码账号的设置;
20、第三方域名黑名单,具体为需要屏蔽的第三方外链的输入操作。
21、优选的,所述步骤2中对于新建任务的配置,包括以下的步骤:
22、s21:网址设置,设置需采集的网址、可以添加多个网址,包括内容页url和分页设置;
23、s22:告警设置,可以按照邮件、短信、电话语音3种方式告警;
24、s23:其它设置,包括采集线程、请求间隔时间、校验线程数、最大采集深度、请求超时设置、网页编码、最大分页数和外链检测;
25、s24:计划任务,通过设置计划任务来实现定时采集,也可以通过右击编辑,来实现分组的计划任务。
26、优选的,所述步骤21中的内容页url,可以通过通配符、正则来匹配内容页url,其中通配符模式:*号,正则表达式:/regex/,表达式前后需要加/;
27、分页设置,通过正则表达式来匹配分页按钮,以抓取分页中的内容。
28、优选的,所述步骤23中采集线程:线程越大,采集的速度越快;
29、请求间隔时间:每次请求的间隔时间,用来控制请求速度用;
30、校验线程数:线程越大,处理速度越快;
31、最大采集深度:限制采集的向下采集层级深度;
32、请求超时设置:用来定义长时间没有返回结果的请求,减少会加快处理速度;
33、网页编码:主要防止采集回来的信息内容乱码,造成无法处理的情况发生;
34、最大分页数:控制下翻的栏目页数;
35、外链检测:启动外链检测开关。
36、优选的,所述步骤3中数据比对库,包含错误、敏感、禁用、涉密、涉隐私等信息内容,并可以通过设定条件、规则自定义新的对比库内容,其中自定义规则中支持添写过滤规则,防止在自定义中命中正确的信息,支持命中问题的前后距离段内过滤,过滤功能,添加过滤词,直接过滤掉不想要的问题信息;
37、信息数据比对,有无错误、敏感、禁用、涉密、涉隐私、自定意义内容、效率控制,其中效率控制通过采集线程数、请求时间间隔、校验线程数、采集深度、请求超时时间设置采集翻页数;
38、url比对,即时检查url地址,通过定义的返回状态码、信息内容和异常地址库比较,得出是否为失效地址,是否为异常地址;
39、更新比对,目标地址下的发文比对,通过解析识别,差异比对判定是否有新增的发文数据。
40、(三)有益效果
41、与现有技术相比,本发明提供了一种基于数据对比的数据获取方法,具备以下有益效果:本发明基于软件的形式实现,在使用时通过将基于数据对比的数据获取软件安装到服务器中,根据实际的需要新建任务或新媒体任务,并根据软件界面之中的提示完成基础的配置操作,即可实现对本软件的直接使用,并通过对已有的关键对比库进行对获取到的信息对比,得到需要的数据,具体包括数据比对库、信息数据比对、url比对和更新比对,即可高效且便捷的实现对数据的获取操作,有效的优化了数据获取的效率以及降低了数据获取操作的难度,方便使用。
1.一种基于数据对比的数据获取方法,基于软件的形式实现,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于数据对比的数据获取方法,其特征在于,所述基于数据对比的数据获取软件基于windows系统进行安装,运行的环境为.net framework 4,并基于mysql数据库实现。
3.根据权利要求1所述的一种基于数据对比的数据获取方法,其特征在于,所述步骤1中对于基于数据对比的数据获取软件的安装和配置,具体包括以下的步骤:
4.根据权利要求3所述的一种基于数据对比的数据获取方法,其特征在于,所述步骤13包括以下具体操作:
5.根据权利要求1所述的一种基于数据对比的数据获取方法,其特征在于:所述步骤2中对于新建任务的配置,包括以下的步骤:
6.根据权利要求5所述的一种基于数据对比的数据获取方法,其特征在于,所述步骤21中的内容页url,可以通过通配符、正则来匹配内容页url,其中通配符模式:*号,正则表达式:/regex/,表达式前后需要加/;
7.根据权利要求5所述的一种基于数据对比的数据获取方法,其特征在于,所述步骤23中采集线程:线程越大,采集的速度越快;
8.根据权利要求1所述的一种基于数据对比的数据获取方法,其特征在于,所述步骤3中数据比对库,包含错误、敏感、禁用、涉密、涉隐私等信息内容,并可以通过设定条件、规则自定义新的对比库内容,其中自定义规则中支持添写过滤规则,防止在自定义中命中正确的信息,支持命中问题的前后距离段内过滤,过滤功能,添加过滤词,直接过滤掉不想要的问题信息;