一种基于数据对比的数据获取方法与流程

专利检索2025-04-09 38

本发明涉及数据获取，具体为一种基于数据对比的数据获取方法。

背景技术：

1、数据分析中，不可或缺“数据获取”这一环节。数据获取是通过借助数据分析工具利用一定的收集方法，将想要利用的数据信息收集起来用于后面的数据分析、数据挖掘，所以数据获取也是数据分析的基础和上限。数据获取对于数据的分析具有至关重要的作用。

2、目前，随着互联网技术的高速发展以及信息的爆发，各种数据充斥于网络之中，这就为基于互联网进行数据的获取操作带来了很大的不便。如传统的如使用网页浏览器进行数据的获取方式，其使用网页浏览器提供的api获取需要的数据，数据获取的效率较低，且网页信息获取不全面，对于大型数据集的抓取可能需要很长时间；还有使用编程语言的数据获取方式，其虽然具有灵活性强、可以根据需要实现各种复杂的数据抓取需求的优点，但是对于其的使用需要一定的编程知识，提高了数据获取的门槛。基于以上的原因，本发明提出一种基于数据对比的数据获取方法。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足，本发明基于软件的形式实现，在使用时通过将基于数据对比的数据获取软件安装到服务器中，根据实际的需要新建任务或新媒体任务，并根据软件界面之中的提示完成基础的配置操作，即可实现对本软件的直接使用，并通过对已有的关键对比库进行对获取到的信息对比，得到需要的数据，具体包括数据比对库、信息数据比对、url比对和更新比对，即可高效且便捷的实现对数据的获取操作，有效的优化了数据获取的效率以及降低了数据获取操作的难度，方便使用。

3、(二)技术方案

4、为实现上述目的，本发明提供如下技术方案：一种基于数据对比的数据获取方法，基于软件的形式实现，包括以下步骤：

5、s1：将基于数据对比的数据获取软件安装到服务器之中，并完成对基于数据对比的数据获取软件的配置操作；

6、s2：在软件主界面，工具栏，根据实际的需要点击新建任务或新媒体任务按钮，完成新建任务或新媒体任务操作，并根据软件提示，完成对各项数据的配置；

7、s3：进行基于数据对比的数据获取操作，通过对已有的关键对比库进行对获取到的信息对比，得到需要的数据，具体包括数据比对库、信息数据比对、url比对和更新比对；

8、s4：在软件运行界面之中，通过运行历史项目，查看历史记录以及详细的运行信息，在软件运行界面之中，通过查看运行状态项目，记录当前设置的所有计划任务、最后运行时间、下次运行时间、请求量和拼写错误数据量；

9、s5：将获取到的数据进行导出操作，完成基于数据对比的数据获取操作。

10、优选的，所述基于数据对比的数据获取软件基于windows系统进行安装，运行的环境为.net framework 4，并基于mysql数据库实现。

11、优选的，所述步骤1中对于基于数据对比的数据获取软件的安装和配置，具体包括以下的步骤：

12、s11：软件安装和启动，在服务器端直接解压程序zip到本地目录，spider.manager.exe为启动程序；

13、s12：对比库安装，在服务器端直接解压程序zip到本地目录，spellcheckerfront.exe为启动程序；

14、s13：采集端初始配置，包括服务器设置、导出报告设置、邮件服务设置、短信接口设置和第三方域名黑名单的配置操作。

15、优选的，所述步骤13包括以下具体操作：

16、服务器设置，打开spider.manager.exe后，首先需要配置mysql数据库、在主界面、设置窗口、设置mysql数据库的相关信息，包含服务器地址、端口、用户名、密码、编码，数据库编码需要设置为utf8mb4_bin；

17、导出报告设置，具体包括单个word记录数量和单个excel记录数量的设置；

18、邮件服务设置，具体包括smtp服务器、发送邮箱地址及密码的输入操作，并设置有测试收件邮箱端口；

19、短信接口设置，具体包括短信接口账号和短信密码账号的设置；

20、第三方域名黑名单，具体为需要屏蔽的第三方外链的输入操作。

21、优选的，所述步骤2中对于新建任务的配置，包括以下的步骤：

22、s21：网址设置，设置需采集的网址、可以添加多个网址，包括内容页url和分页设置；

23、s22：告警设置，可以按照邮件、短信、电话语音3种方式告警；

24、s23：其它设置，包括采集线程、请求间隔时间、校验线程数、最大采集深度、请求超时设置、网页编码、最大分页数和外链检测；

25、s24：计划任务，通过设置计划任务来实现定时采集，也可以通过右击编辑，来实现分组的计划任务。

26、优选的，所述步骤21中的内容页url，可以通过通配符、正则来匹配内容页url，其中通配符模式：*号，正则表达式：/regex/，表达式前后需要加/；

27、分页设置，通过正则表达式来匹配分页按钮，以抓取分页中的内容。

28、优选的，所述步骤23中采集线程：线程越大，采集的速度越快；

29、请求间隔时间：每次请求的间隔时间，用来控制请求速度用；

30、校验线程数：线程越大，处理速度越快；

31、最大采集深度：限制采集的向下采集层级深度；

32、请求超时设置：用来定义长时间没有返回结果的请求，减少会加快处理速度；

33、网页编码：主要防止采集回来的信息内容乱码，造成无法处理的情况发生；

34、最大分页数：控制下翻的栏目页数；

35、外链检测：启动外链检测开关。

36、优选的，所述步骤3中数据比对库，包含错误、敏感、禁用、涉密、涉隐私等信息内容，并可以通过设定条件、规则自定义新的对比库内容，其中自定义规则中支持添写过滤规则，防止在自定义中命中正确的信息，支持命中问题的前后距离段内过滤，过滤功能，添加过滤词，直接过滤掉不想要的问题信息；

37、信息数据比对，有无错误、敏感、禁用、涉密、涉隐私、自定意义内容、效率控制，其中效率控制通过采集线程数、请求时间间隔、校验线程数、采集深度、请求超时时间设置采集翻页数；

38、url比对，即时检查url地址，通过定义的返回状态码、信息内容和异常地址库比较，得出是否为失效地址，是否为异常地址；

39、更新比对，目标地址下的发文比对，通过解析识别，差异比对判定是否有新增的发文数据。

40、(三)有益效果

41、与现有技术相比，本发明提供了一种基于数据对比的数据获取方法，具备以下有益效果：本发明基于软件的形式实现，在使用时通过将基于数据对比的数据获取软件安装到服务器中，根据实际的需要新建任务或新媒体任务，并根据软件界面之中的提示完成基础的配置操作，即可实现对本软件的直接使用，并通过对已有的关键对比库进行对获取到的信息对比，得到需要的数据，具体包括数据比对库、信息数据比对、url比对和更新比对，即可高效且便捷的实现对数据的获取操作，有效的优化了数据获取的效率以及降低了数据获取操作的难度，方便使用。

技术特征：

1.一种基于数据对比的数据获取方法，基于软件的形式实现，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于数据对比的数据获取方法，其特征在于，所述基于数据对比的数据获取软件基于windows系统进行安装，运行的环境为.net framework 4，并基于mysql数据库实现。

3.根据权利要求1所述的一种基于数据对比的数据获取方法，其特征在于，所述步骤1中对于基于数据对比的数据获取软件的安装和配置，具体包括以下的步骤：

4.根据权利要求3所述的一种基于数据对比的数据获取方法，其特征在于，所述步骤13包括以下具体操作：

5.根据权利要求1所述的一种基于数据对比的数据获取方法，其特征在于：所述步骤2中对于新建任务的配置，包括以下的步骤：

6.根据权利要求5所述的一种基于数据对比的数据获取方法，其特征在于，所述步骤21中的内容页url，可以通过通配符、正则来匹配内容页url，其中通配符模式：*号，正则表达式：/regex/，表达式前后需要加/；

7.根据权利要求5所述的一种基于数据对比的数据获取方法，其特征在于，所述步骤23中采集线程：线程越大，采集的速度越快；

8.根据权利要求1所述的一种基于数据对比的数据获取方法，其特征在于，所述步骤3中数据比对库，包含错误、敏感、禁用、涉密、涉隐私等信息内容，并可以通过设定条件、规则自定义新的对比库内容，其中自定义规则中支持添写过滤规则，防止在自定义中命中正确的信息，支持命中问题的前后距离段内过滤，过滤功能，添加过滤词，直接过滤掉不想要的问题信息；

技术总结
本发明公开了一种基于数据对比的数据获取方法，本发明基于软件的形式实现，在使用时通过将基于数据对比的数据获取软件安装到服务器中，根据实际的需要新建任务或新媒体任务，并根据软件界面之中的提示完成基础的配置操作，即可实现对本软件的直接使用，并通过对已有的关键对比库进行对获取到的信息对比，得到需要的数据，具体包括数据比对库、信息数据比对、URL比对和更新比对，即可高效且便捷的实现对数据的获取操作，有效的优化了数据获取的效率以及降低了数据获取操作的难度，方便使用。

技术研发人员：尚桐颖,周宣,赵婧
受保护的技术使用者：广州富莱星科技有限公司
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1152204.html

专利

最新回复(0)