點(diǎn)擊關(guān)注▲火車采集器
導(dǎo)讀:每周一數(shù)活動(dòng)是小采贈(zèng)送給所有商業(yè)版本用戶的一個(gè)福利,每周都會(huì)篩選用戶需求選擇網(wǎng)站進(jìn)行爬取數(shù)據(jù),并會(huì)附帶采集規(guī)則,讓用戶舉一反三,在更多場(chǎng)景中更好的使用小采。領(lǐng)取范圍:火車采集器、火車瀏覽器、觸控精靈三款軟件的商業(yè)用戶,軟件需在服務(wù)期限內(nèi)。領(lǐng)取規(guī)則:添加文章內(nèi)火車運(yùn)營微信后,將會(huì)被拉入“每周一數(shù)福利群”,加群后私聊 客服·雅 就可。領(lǐng)取內(nèi)容:網(wǎng)站旅游文章數(shù)據(jù)以及采集規(guī)則,如下圖
輸入網(wǎng)址 m.zxsww.com 進(jìn)入火車官網(wǎng),隨后點(diǎn)擊下載來獲取火車采集器最新版本
在網(wǎng)站進(jìn)行注冊(cè),注冊(cè)好賬號(hào)直接登錄即可。采集字段: 城市、標(biāo)題、內(nèi)容(前兩頁樓主發(fā)布的內(nèi)容)點(diǎn)擊下一頁地址,可以發(fā)現(xiàn)變化的只有最后一個(gè)數(shù)字,所以分頁設(shè)置可以使用批量網(wǎng)址功能按Ctrl+U查看源碼,城市和標(biāo)題可以在列表頁標(biāo)簽采集因?yàn)樘酉旅孢€有其他網(wǎng)友的回答,為了方便只采集作者發(fā)布的內(nèi)容,我們可以點(diǎn)擊只看作者這個(gè)的鏈接我們?cè)诙?jí)列表里采集,只看該作者的鏈接提取第一個(gè)就可以,可以在寫提取規(guī)則時(shí)多寫一部分來讓它只能匹配到一個(gè),如下圖所示列表頁設(shè)置的城市標(biāo)簽 內(nèi)容沒做處理,會(huì)采集到a標(biāo)簽,這里在數(shù)據(jù)處理里將標(biāo)簽過濾這里需要采集前兩頁的內(nèi)容,需要設(shè)置內(nèi)容分頁,也是從源碼中查看分頁地址
因?yàn)橹徊杉皟身搩?nèi)容,所以需要設(shè)置下,點(diǎn)擊內(nèi)容分頁設(shè)置下面的其他設(shè)置,可以修改采集的內(nèi)容分頁數(shù)量內(nèi)容頁提取規(guī)則,這里我們選擇的是使用 xpath 提取(關(guān)于xpath的寫法,大家百度下就可以找到),數(shù)據(jù)來源記得要改成從默認(rèn)頁和內(nèi)容分頁源碼中獲取然后使用數(shù)據(jù)處理功能清洗數(shù)據(jù),將一些不需要的內(nèi)容刪除,內(nèi)容里圖片可以點(diǎn)擊下面的文件下載,如圖設(shè)置,即可將圖片下載到本地,由于網(wǎng)址中圖片太多,本次實(shí)際沒有勾選下載6、最后我們將采集的數(shù)據(jù)導(dǎo)出到本地HTML文件里,可以根據(jù)需要修改模板文件
本次每周一數(shù)贈(zèng)送的依然是數(shù)據(jù)+采集規(guī)則,僅限火車軟件的商業(yè)版本用戶哦!領(lǐng)取時(shí)間:2019年11月14 日發(fā)文后5個(gè)工作日內(nèi)(節(jié)假日除外)領(lǐng)取方式:掃碼加運(yùn)營微信,運(yùn)營會(huì)拉您進(jìn)每周一數(shù)群,群內(nèi)加:【火車數(shù)據(jù)咨詢客服.雅】,經(jīng)驗(yàn)證為商業(yè)用戶后,即可領(lǐng)取。