本申请涉及信息处理,尤其涉及一种动态调整发送速度的爬虫方法、装置、设备及产品。
背景技术:
1、在执行爬虫抓取页面时,可能会给访问网站带来巨大压力,造成对方网站响应变慢甚至服务崩溃。这时也可能触发网站的限流阀值。造成最后抓取结果不正确及抓取速率慢的问题。
技术实现思路
1、有鉴于此,本申请的目的在于提出一种动态调整发送速度的爬虫方法、装置、设备及产品,通过动态调整爬虫任务的发送速度解决爬虫低效运行及抓取错误的问题。
2、基于上述目的,本申请的第一方面提供了一种动态调整发送速度的爬虫方法,包括:
3、根据执行任务列表确定爬虫任务的执行成功率;
4、根据所述执行成功率和预设的成功率阈值进行限流额度的调整,得到限流额度集合;
5、根据待执行任务的任务识别码和所述限流额度合集确定目标限流额度;
6、根据所述目标限流额度和所述目标限流额度的额度种类执行所述待执行任务。
7、本申请的第二方面提供了一种动态调整发送速度的爬虫装置,包括:
8、成功率计算模块,被配置为:根据执行任务列表确定爬虫任务的执行成功率;
9、发送速度调整模块,被配置为:根据所述执行成功率和预设的成功率阈值进行限流额度的调整,得到限流额度集合;
10、任务发送模块,被配置为:根据待执行任务的任务识别码和所述限流额度合集确定目标限流额度;
11、任务执行模块,被配置为:根据所述目标限流额度和所述目标限流额度的额度种类执行所述待执行任务。
12、本申请的第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本申请第一方面提供的所述的方法。
13、本申请的第四方面提供了计算机程序产品,包括计算机程序指令,当所述计算机程序指令在计算机上运行时,使得所述计算机执行如本申请第一方面提供的所述的方法。
14、从上面所述可以看出,本申请提供的动态调整发送速度的爬虫方法、装置、设备及产品,能够根据执行任务列表确定爬虫任务的执行成功率;根据执行成功率和预设的成功率阈值进行限流额度的调整,得到限流额度集合;根据待执行任务的任务识别码和限流额度合集确定目标限流额度;根据目标限流额度和目标限流额度的额度种类执行待执行任务。根据爬虫任务的执行执行成功率确定爬虫任务的执行状态,并根据执行状态进行限流额度的动态调整,实现对爬虫任务的发送速度的动态调整,实现对爬虫的限制,避免触发网站的限流阀值,提高抓取结果的正确概率,并提高抓取速率。
1.一种动态调整发送速度的爬虫方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据执行任务列表确定爬虫任务的执行成功率,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述执行成功率和预设的成功率阈值进行限流额度的调整,得到限流额度集合,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述执行成功率和所述成功率阈值之间的大小关系对所述待调整限流器进行限流额度的调整,得到调整后的修正限流器集合,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据待执行任务的任务识别码和所述限流额度合集确定目标限流额度,包括:
6.根据权利要求5所述的方法,其特征在于,所述根据所述目标限流额度和所述目标限流额度的额度种类执行所述待执行任务,包括:
7.根据权利要求6所述的方法,其特征在于,还包括:
8.一种动态调整发送速度的爬虫装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
10.一种计算机程序产品,包括计算机程序指令,其特征在于,当所述计算机程序指令在计算机上运行时,使得所述计算机执行如权利要求1-7中任一项所述的方法。