一种基于数据对比的数据获取方法与流程

专利检索2025-04-09  5


本发明涉及数据获取,具体为一种基于数据对比的数据获取方法。


背景技术:

1、数据分析中,不可或缺“数据获取”这一环节。数据获取是通过借助数据分析工具利用一定的收集方法,将想要利用的数据信息收集起来用于后面的数据分析、数据挖掘,所以数据获取也是数据分析的基础和上限。数据获取对于数据的分析具有至关重要的作用。

2、目前,随着互联网技术的高速发展以及信息的爆发,各种数据充斥于网络之中,这就为基于互联网进行数据的获取操作带来了很大的不便。如传统的如使用网页浏览器进行数据的获取方式,其使用网页浏览器提供的api获取需要的数据,数据获取的效率较低,且网页信息获取不全面,对于大型数据集的抓取可能需要很长时间;还有使用编程语言的数据获取方式,其虽然具有灵活性强、可以根据需要实现各种复杂的数据抓取需求的优点,但是对于其的使用需要一定的编程知识,提高了数据获取的门槛。基于以上的原因,本发明提出一种基于数据对比的数据获取方法。


技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本发明基于软件的形式实现,在使用时通过将基于数据对比的数据获取软件安装到服务器中,根据实际的需要新建任务或新媒体任务,并根据软件界面之中的提示完成基础的配置操作,即可实现对本软件的直接使用,并通过对已有的关键对比库进行对获取到的信息对比,得到需要的数据,具体包括数据比对库、信息数据比对、url比对和更新比对,即可高效且便捷的实现对数据的获取操作,有效的优化了数据获取的效率以及降低了数据获取操作的难度,方便使用。

3、(二)技术方案

4、为实现上述目的,本发明提供如下技术方案:一种基于数据对比的数据获取方法,基于软件的形式实现,包括以下步骤:

5、s1:将基于数据对比的数据获取软件安装到服务器之中,并完成对基于数据对比的数据获取软件的配置操作;

6、s2:在软件主界面,工具栏,根据实际的需要点击新建任务或新媒体任务按钮,完成新建任务或新媒体任务操作,并根据软件提示,完成对各项数据的配置;

7、s3:进行基于数据对比的数据获取操作,通过对已有的关键对比库进行对获取到的信息对比,得到需要的数据,具体包括数据比对库、信息数据比对、url比对和更新比对;

8、s4:在软件运行界面之中,通过运行历史项目,查看历史记录以及详细的运行信息,在软件运行界面之中,通过查看运行状态项目,记录当前设置的所有计划任务、最后运行时间、下次运行时间、请求量和拼写错误数据量;

9、s5:将获取到的数据进行导出操作,完成基于数据对比的数据获取操作。

10、优选的,所述基于数据对比的数据获取软件基于windows系统进行安装,运行的环境为.net framework 4,并基于mysql数据库实现。

11、优选的,所述步骤1中对于基于数据对比的数据获取软件的安装和配置,具体包括以下的步骤:

12、s11:软件安装和启动,在服务器端直接解压程序zip到本地目录,spider.manager.exe为启动程序;

13、s12:对比库安装,在服务器端直接解压程序zip到本地目录,spellcheckerfront.exe为启动程序;

14、s13:采集端初始配置,包括服务器设置、导出报告设置、邮件服务设置、短信接口设置和第三方域名黑名单的配置操作。

15、优选的,所述步骤13包括以下具体操作:

16、服务器设置,打开spider.manager.exe后,首先需要配置mysql数据库、在主界面、设置窗口、设置mysql数据库的相关信息,包含服务器地址、端口、用户名、密码、编码,数据库编码需要设置为utf8mb4_bin;

17、导出报告设置,具体包括单个word记录数量和单个excel记录数量的设置;

18、邮件服务设置,具体包括smtp服务器、发送邮箱地址及密码的输入操作,并设置有测试收件邮箱端口;

19、短信接口设置,具体包括短信接口账号和短信密码账号的设置;

20、第三方域名黑名单,具体为需要屏蔽的第三方外链的输入操作。

21、优选的,所述步骤2中对于新建任务的配置,包括以下的步骤:

22、s21:网址设置,设置需采集的网址、可以添加多个网址,包括内容页url和分页设置;

23、s22:告警设置,可以按照邮件、短信、电话语音3种方式告警;

24、s23:其它设置,包括采集线程、请求间隔时间、校验线程数、最大采集深度、请求超时设置、网页编码、最大分页数和外链检测;

25、s24:计划任务,通过设置计划任务来实现定时采集,也可以通过右击编辑,来实现分组的计划任务。

26、优选的,所述步骤21中的内容页url,可以通过通配符、正则来匹配内容页url,其中通配符模式:*号,正则表达式:/regex/,表达式前后需要加/;

27、分页设置,通过正则表达式来匹配分页按钮,以抓取分页中的内容。

28、优选的,所述步骤23中采集线程:线程越大,采集的速度越快;

29、请求间隔时间:每次请求的间隔时间,用来控制请求速度用;

30、校验线程数:线程越大,处理速度越快;

31、最大采集深度:限制采集的向下采集层级深度;

32、请求超时设置:用来定义长时间没有返回结果的请求,减少会加快处理速度;

33、网页编码:主要防止采集回来的信息内容乱码,造成无法处理的情况发生;

34、最大分页数:控制下翻的栏目页数;

35、外链检测:启动外链检测开关。

36、优选的,所述步骤3中数据比对库,包含错误、敏感、禁用、涉密、涉隐私等信息内容,并可以通过设定条件、规则自定义新的对比库内容,其中自定义规则中支持添写过滤规则,防止在自定义中命中正确的信息,支持命中问题的前后距离段内过滤,过滤功能,添加过滤词,直接过滤掉不想要的问题信息;

37、信息数据比对,有无错误、敏感、禁用、涉密、涉隐私、自定意义内容、效率控制,其中效率控制通过采集线程数、请求时间间隔、校验线程数、采集深度、请求超时时间设置采集翻页数;

38、url比对,即时检查url地址,通过定义的返回状态码、信息内容和异常地址库比较,得出是否为失效地址,是否为异常地址;

39、更新比对,目标地址下的发文比对,通过解析识别,差异比对判定是否有新增的发文数据。

40、(三)有益效果

41、与现有技术相比,本发明提供了一种基于数据对比的数据获取方法,具备以下有益效果:本发明基于软件的形式实现,在使用时通过将基于数据对比的数据获取软件安装到服务器中,根据实际的需要新建任务或新媒体任务,并根据软件界面之中的提示完成基础的配置操作,即可实现对本软件的直接使用,并通过对已有的关键对比库进行对获取到的信息对比,得到需要的数据,具体包括数据比对库、信息数据比对、url比对和更新比对,即可高效且便捷的实现对数据的获取操作,有效的优化了数据获取的效率以及降低了数据获取操作的难度,方便使用。


技术特征:

1.一种基于数据对比的数据获取方法,基于软件的形式实现,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于数据对比的数据获取方法,其特征在于,所述基于数据对比的数据获取软件基于windows系统进行安装,运行的环境为.net framework 4,并基于mysql数据库实现。

3.根据权利要求1所述的一种基于数据对比的数据获取方法,其特征在于,所述步骤1中对于基于数据对比的数据获取软件的安装和配置,具体包括以下的步骤:

4.根据权利要求3所述的一种基于数据对比的数据获取方法,其特征在于,所述步骤13包括以下具体操作:

5.根据权利要求1所述的一种基于数据对比的数据获取方法,其特征在于:所述步骤2中对于新建任务的配置,包括以下的步骤:

6.根据权利要求5所述的一种基于数据对比的数据获取方法,其特征在于,所述步骤21中的内容页url,可以通过通配符、正则来匹配内容页url,其中通配符模式:*号,正则表达式:/regex/,表达式前后需要加/;

7.根据权利要求5所述的一种基于数据对比的数据获取方法,其特征在于,所述步骤23中采集线程:线程越大,采集的速度越快;

8.根据权利要求1所述的一种基于数据对比的数据获取方法,其特征在于,所述步骤3中数据比对库,包含错误、敏感、禁用、涉密、涉隐私等信息内容,并可以通过设定条件、规则自定义新的对比库内容,其中自定义规则中支持添写过滤规则,防止在自定义中命中正确的信息,支持命中问题的前后距离段内过滤,过滤功能,添加过滤词,直接过滤掉不想要的问题信息;


技术总结
本发明公开了一种基于数据对比的数据获取方法,本发明基于软件的形式实现,在使用时通过将基于数据对比的数据获取软件安装到服务器中,根据实际的需要新建任务或新媒体任务,并根据软件界面之中的提示完成基础的配置操作,即可实现对本软件的直接使用,并通过对已有的关键对比库进行对获取到的信息对比,得到需要的数据,具体包括数据比对库、信息数据比对、URL比对和更新比对,即可高效且便捷的实现对数据的获取操作,有效的优化了数据获取的效率以及降低了数据获取操作的难度,方便使用。

技术研发人员:尚桐颖,周宣,赵婧
受保护的技术使用者:广州富莱星科技有限公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1152204.html

最新回复(0)