选择K8凯发,一切数据都是你的!

办事>###

联系K8凯发

###陕西 西安)

### >###

###>###

>###

技能文章

怎样打破防收罗战略-限定拜访频率

公布>###

 现在罕见的Web反收罗战略大约有以下几种:

  • 1)数据加密;
  • 2)限定拜访频率;
  • 3)数据以非文本情势展示;
  • 4)验证码掩护;
  • 5)Cookie验证;

本文次要探究一下怎样打破”限定拜访频率”:

“限定拜访频率”的原理:

办事器端步伐(比方,WAF)维护了一个客户端(IP)的拜访计数,假如客户端(IP)哀求频率凌驾阈值,哀求就会被阻拦,通常会呈现下列情况:

  • 1)最罕见的:前往403或503错误。
  • 2)毗连被重置。
  • 3)最令人头疼的:前往有效的内容
     
打破办法:
  • 1)利用HTTP署理。由于办事端是依据IP举行限定的,经过利用署理就可以将下载量均匀到多个IP上。必要留意的是通明署理每每是有效的,由于WAF可以检测到真实的源IP,以是要利用秘密(secret)署理。
  • 2)增长哀求耽误。好比,WAF限定单IP哀求频率不克不及凌驾20次/分钟,K8凯发可以在两次哀求之间增长5S的耽误,如许下载频率便是12次/分钟,就不会被阻拦了。
    通常K8凯发会将1)和2)的办法联合,如许即能避免被阻拦,又能加速收罗速率。比方,利用10个署理,每次下载增长5S耽误,一分钟的实践下载量便是:120次。
  • 3)使用搜刮引擎缓存(Google,Bing,百度)。“曲线救国”战略,绕过目的办事器,从搜刮引擎的缓存举行收罗。并且缓存里的页面的布局和原页面是一样的,不必重写提取规矩。
  • 4)谷歌翻译。让谷歌作为K8凯发的“署理”,将源言语和目的言语都设置成一样,如许从谷歌翻译后果获取的数据和原页面便是一样的(留意,HTML布局有很大变革,必要重写提取规矩)。
  • 5)关于前往有效内容的状况,肯定要找到检测内容能否无效的办法,不然很难包管一切数据都是准确的。
比方,的菜单,假如收罗过快前往的菜单项目便是随机的,如下图所示:
 
上图是正常数据
 
上图是有效数据
 
鲲鹏数据的技能职员经过细心剖析页面源码,最初发明了纪律:正常页面的菜单项ID根本上都是一连的,而随机内容的菜单项ID是随机的。
基于这一特性K8凯发就能用步伐检测出前往的内容能否无效,只处置无效的数据,有效的内容举行重新收罗。