在互聯(lián)網(wǎng)上進(jìn)行自動(dòng)數(shù)據(jù)抓取這件事和互聯(lián)網(wǎng)存在的時(shí)間差不多一樣長(zhǎng)。今天大眾好像更傾向于稱之為“網(wǎng)絡(luò)數(shù)據(jù)采集/網(wǎng)頁(yè)數(shù)據(jù)抓取”,有時(shí)也會(huì)把網(wǎng)絡(luò)數(shù)據(jù)采集程序稱為網(wǎng)絡(luò)爬蟲(chóng)(蜘蛛)。采集常用到的方法是寫(xiě)一個(gè)自動(dòng)化程序向網(wǎng)絡(luò)服務(wù)器請(qǐng)求數(shù)據(jù),但大多數(shù)不擅長(zhǎng)寫(xiě)程序的朋友則是使用現(xiàn)成的通用網(wǎng)頁(yè)抓取工具,然后對(duì)數(shù)據(jù)進(jìn)行解析,提取需要的信息。
然而許多網(wǎng)頁(yè)也會(huì)對(duì)自己的數(shù)據(jù)進(jìn)行保護(hù),那么就會(huì)遇到數(shù)據(jù)抓取困難的悲劇,還有更令人沮喪的事情,那就是根本不能抓取,也許是向服務(wù)器提交自認(rèn)為已經(jīng)處理得很好的表單卻被拒絕,也許是自己的 IP 地址被定義為網(wǎng)絡(luò)機(jī)器人或不知道什么原因被網(wǎng)站封殺,無(wú)法繼續(xù)訪問(wèn)。
但是是不是就真的無(wú)法抓取了呢?火車采集器告訴你:NO!克服網(wǎng)站對(duì)部分防采集的阻止或是采集困難,網(wǎng)頁(yè)抓取工具火車采集器還是很有方法的,前方高能來(lái)襲,請(qǐng)大家自行g(shù)et。
國(guó)外網(wǎng)站采集
有用戶提到國(guó)外網(wǎng)站采集很慢,數(shù)據(jù)也無(wú)法直接利用等,這類采集時(shí)其實(shí)可以使用國(guó)外的代理服務(wù)器,采集速度上可以得到有效提升,對(duì)于需要將數(shù)據(jù)轉(zhuǎn)換為中文的,可以使用翻譯插件來(lái)翻譯采集。
網(wǎng)站請(qǐng)求不通過(guò)
目標(biāo)網(wǎng)站通常會(huì)在收到請(qǐng)求時(shí)校驗(yàn)Headers中的User-Agent字段,如果不是攜帶正常的User-Agent信息的便無(wú)法通過(guò)請(qǐng)求。所以我們要把User-Agent屬性設(shè)置成不容易引起懷疑的內(nèi)容。還有一部分網(wǎng)站為了防盜鏈,還會(huì)校驗(yàn)請(qǐng)求Headers中的Referer字段,那么需要通過(guò)對(duì)請(qǐng)求的抓包分析,將Referer值修改為目標(biāo)網(wǎng)站域名,這些在火車采集器的“其他設(shè)置”里直接修改就可以了。另外在火車采集器中是可以自定義列表頁(yè)、多頁(yè)、分頁(yè)Headers的。
頻繁訪問(wèn)封鎖
總是遇到403錯(cuò)誤?對(duì)于同一IP或同一cookie的頻繁訪問(wèn)行為,網(wǎng)站會(huì)將其識(shí)別為爬蟲(chóng)進(jìn)行封鎖,這類反爬蟲(chóng)在火車采集器中,可以通過(guò)切換cookie、控制采集速度(盲目求快可不是明智做法,合理控制速度是不該破壞的規(guī)則,火車采集器支持進(jìn)程中調(diào)速,實(shí)時(shí)生效)、二級(jí)代理更換ip,使用撥號(hào)服務(wù)器等方式有效解決。
cookie登錄
有些網(wǎng)站需要輸入合法的登錄信息或是持續(xù)保持登錄狀態(tài)才能訪問(wèn)全部?jī)?nèi)容,網(wǎng)頁(yè)抓取工具火車采集器的應(yīng)對(duì)是多樣的,一是通過(guò)采集器內(nèi)置的微型瀏覽器獲取登錄信息,二是通過(guò)抓包分析設(shè)置登錄信息。
需要輸入驗(yàn)證碼
對(duì)于需要頻繁輸入驗(yàn)證碼才能繼續(xù)訪問(wèn)的網(wǎng)站,該怎么應(yīng)對(duì)呢?簡(jiǎn)單的數(shù)字驗(yàn)證碼可以使用火車采集器中的OCR識(shí)別,不過(guò)現(xiàn)在有的驗(yàn)證碼已經(jīng)沒(méi)那么簡(jiǎn)單了,所以如果確實(shí)復(fù)雜可以用可視化的火車瀏覽器實(shí)現(xiàn)接入平臺(tái)自動(dòng)打碼。
加密網(wǎng)頁(yè)采集
對(duì)于內(nèi)容進(jìn)行了網(wǎng)頁(yè)腳本加密的情況,可以通過(guò)模擬加密算法還原運(yùn)行腳本,或是編寫(xiě)插件進(jìn)行擴(kuò)展等。這類對(duì)于技術(shù)小白白來(lái)說(shuō)可能有難度,但可以聯(lián)系我們火車采集器的技術(shù)支持獲得幫助。
大概就列出以上這些了,如果大神有碰到其他防采集的類型,可以反饋給我們,以便我們程序猿為您開(kāi)發(fā)出更加強(qiáng)大的功能~