丰满放荡岳乱妇91ww-免费激情av-精品久久国产老人久久综合-午夜激情视频网站-日韩一级特黄-亚洲人天堂-性夜剧场久久久-欧美日韩在线精品-免费av网址大全-草草草av-国产一级视频播放-亚洲最新网址-午夜视频网站在线观看-精品中文视频-91亚洲精品丁香在线观看-久久久亚洲精品石原莉奈-91aaa在线观看

爬蟲采集被封怎么辦?

jj 2022-04-19

網(wǎng)絡(luò)爬蟲使用代理ip軟件爬取信息的過程中,如果爬取頻率過高或者使用多線程,很容易被禁止訪問。通常,網(wǎng)站的反爬蟲機(jī)制根據(jù)IP和用戶代理來識別爬蟲,所以爬蟲開發(fā)者通常需要采取兩種措施來解決這個(gè)問題:
 


1.減緩抓取速度,減輕目標(biāo)網(wǎng)站壓力。但這樣會減少單位時(shí)間的類抓取量。
 
2.第二種方法是通過設(shè)置代理IP等手段,突破反爬蟲機(jī)制,繼續(xù)高頻爬行。但這需要大量穩(wěn)定的代理IP軟件。
 
IP代理軟件可以免費(fèi)搜索,但是可能不穩(wěn)定。也有收費(fèi)的,比如閃電IP。
 
下面介紹兩種方式:基于ADSL撥號的常見解決方案。通常在抓取過程中禁止訪問時(shí),可以再次撥打ADSL獲取新的IP,這樣就可以繼續(xù)抓取了。但這樣一來,在多站點(diǎn)多線程抓取的時(shí)候,如果禁止了某個(gè)網(wǎng)站的抓取,同時(shí)也影響了其他網(wǎng)站的抓取,那么整體的抓取速度也會降低。一種可能的解決方案也是基于ADSL撥號。不同的是需要兩臺能夠ADSL撥號的服務(wù)器,這兩臺服務(wù)器在捕獲過程中作為代理使用。假設(shè)有兩臺服務(wù)器A和B可以撥打ADSL。爬蟲運(yùn)行在C服務(wù)器上,使用A作為代理訪問外部網(wǎng)絡(luò)。如果在爬行過程中禁止訪問,它會立即將代理切換到B,然后再次撥打A。如果再次禁止訪問,切換到A作為代理,B再次撥號,以此類推。

綜上所述,最簡單的方法就是購買現(xiàn)成的代理IP軟件產(chǎn)品。

掃一掃,咨詢微信客服
来安县| 黄陵县| 西华县| 峨眉山市| 防城港市| 新竹县| 望江县| 获嘉县| 崇信县| 布尔津县| 延庆县| 墨竹工卡县| 江山市| 景东| 和顺县| 汨罗市| 金昌市| 巧家县| 确山县| 大港区| 伽师县| 靖远县| 三河市| 宽甸| 高要市| 九寨沟县| 阿克| 保德县| 营山县| 西乌珠穆沁旗| 扎赉特旗| 中西区| 晋中市| 江西省| 清水河县| 汝城县| 麦盖提县| 瑞金市| 凯里市| 奎屯市| 青冈县|