丰满放荡岳乱妇91ww-免费激情av-精品久久国产老人久久综合-午夜激情视频网站-日韩一级特黄-亚洲人天堂-性夜剧场久久久-欧美日韩在线精品-免费av网址大全-草草草av-国产一级视频播放-亚洲最新网址-午夜视频网站在线观看-精品中文视频-91亚洲精品丁香在线观看-久久久亚洲精品石原莉奈-91aaa在线观看

充分了解一下反爬策略

jj 2022-07-27

網(wǎng)絡(luò)爬蟲技術(shù)已經(jīng)成為一種非常流行的網(wǎng)絡(luò)技術(shù),對于一個內(nèi)容驅(qū)動的網(wǎng)站來說,不可避免的會受到網(wǎng)絡(luò)爬蟲技術(shù)的光顧。優(yōu)秀的爬蟲技術(shù)不會干擾網(wǎng)站的正常運行,而糟糕的爬蟲技術(shù)會帶來很多麻煩,因為他們的頁面抓取能力差,經(jīng)常會有幾十個或者上百個重復請求,增加了網(wǎng)絡(luò)站點的訪問壓力,導致站點訪問緩慢甚至無法訪問。
 


為了避免這種情況,網(wǎng)站會使用反抓取技術(shù),一般從一般用戶請求的頭、一般用戶行為、網(wǎng)站目錄、數(shù)據(jù)加載方式三個方面來實現(xiàn)反爬蟲。
 
1.穿越報頭反爬蟲技術(shù)
 
普通用戶要求的頭反爬蟲技術(shù)是最常見的反爬蟲技術(shù)策略。很多網(wǎng)站會檢測Headers的User-Agent,有些網(wǎng)站會檢測Referer(有些資源網(wǎng)站的防盜鏈就是檢測Referer)。如果遇到這種反爬蟲技術(shù)機制,可以直接給爬蟲技術(shù)添加頭,把瀏覽器的User-Agent復制到爬蟲技術(shù)頭;或?qū)eferer值修改為目標網(wǎng)絡(luò)站點的域名。對于檢測報頭的反爬蟲技術(shù),在爬蟲技術(shù)中修改或添加報頭可以很好的繞過它。
 
2.基于一般用戶行為的反爬蟲技術(shù)
 
還有一些網(wǎng)站會檢測到一般的用戶行為,比如同一個IP在短時間內(nèi)多次訪問同一個頁面,或者同一個賬號在短時間內(nèi)多次做同樣的操作。
 
大部分網(wǎng)點都是前一種情況,對于這種情況可以使用IP代理,精靈ip代理適用于多個平臺,在全國各地都有自營的服務(wù)器節(jié)點,有大量的IP地址,就可以每隔幾個請求就換一個IP,這在requests或者urllib2中很容易做到,所以可以很容易的繞過第一道反爬蟲技術(shù)。
 
在第二種情況下,下一個請求可以在每次請求后隨機間隔幾秒鐘發(fā)出。一些存在邏輯漏洞的網(wǎng)站,可以通過多次請求、注銷、再次登錄、繼續(xù)請求的方式,繞過同一賬號不能在短時間內(nèi)多次發(fā)出相同請求的限制。
 
3.動態(tài)頁面的反爬蟲技術(shù)
 
以上情況大多出現(xiàn)在靜態(tài)頁面,以及一些網(wǎng)站上。我們需要抓取的數(shù)據(jù)是通過ajax請求獲取的,或者是Java生成的。首先,使用Firebug或HttpFox來分析網(wǎng)絡(luò)請求。如果能找到ajax請求,分析出具體的參數(shù)和響應的具體含義,就可以采用上面的方法,直接用requests或者urllib2模擬ajax請求,分析響應的json,得到需要的數(shù)據(jù)。
 
反爬蟲和爬蟲是相輔相成的,遵守目標站點的規(guī)則才是利人利己的好爬蟲。

掃一掃,咨詢微信客服
德化县| 临汾市| 绍兴市| 汾阳市| 柳江县| 天水市| 茌平县| 石渠县| 定边县| 仁布县| 武乡县| 阿鲁科尔沁旗| 乳山市| 深圳市| 铜山县| 中宁县| 那曲县| 中阳县| 泸水县| 岢岚县| 绥化市| 增城市| 吐鲁番市| 外汇| 高青县| 上杭县| 西城区| 沅江市| 马关县| 霍邱县| 敦煌市| 西畴县| 工布江达县| 南江县| 清新县| 龙山县| 林西县| 山阴县| 尉氏县| 西峡县| 岳阳市|