2. 內(nèi)容頁采集字段:標題,內(nèi)容,關(guān)鍵詞語,來源
那么我們接下來看如何用火車采集器來獲取法律法規(guī)數(shù)據(jù)。
第二步:打開軟件中列表頁面,使用fiddler抓包獲取數(shù)據(jù)包并分析,得到實際的數(shù)據(jù)請求(多抓取幾個分頁進行對比)通過分析可以看出,分頁的加載方式是POST請求,POST表單中有控制分頁的變量,內(nèi)容頁地址在源碼當(dāng)中的格式清晰可見。
第三步:在采集器中新建規(guī)則,按照Fiddler抓包得到的信息編寫列表頁的獲取規(guī)則POST請求地址填寫到起始地址欄中填寫POST表單,將分頁控制參數(shù)用[分頁]變量替換,然后設(shè)置分頁范圍第四步:分析源碼后,在網(wǎng)址獲取選項中設(shè)置內(nèi)容頁地址的獲取規(guī)則,并測試采集列表將抓包獲取的頭信息依次填寫到HTTP請求設(shè)置中第五步:以上全部設(shè)置好后,可測試運行列表的獲取,獲取成功后可以繼續(xù)制作內(nèi)容采集規(guī)則第六步:瀏覽器中打開一個內(nèi)容頁,找到需要采集的字段位置,和源碼的對應(yīng)關(guān)系找到數(shù)據(jù)的前后位置就可以通過前后截取或者正則提取得到內(nèi)容
第七步:由于”關(guān)鍵詞語”字段有多個值,建議使用循環(huán)獲取,以下是處理方法設(shè)置關(guān)聯(lián)多頁并保存
從關(guān)聯(lián)多頁中進行循環(huán)提取
總結(jié):通過Fiddler抓包分析數(shù)據(jù)請求信息,按照要求填寫相應(yīng)設(shè)置,編寫內(nèi)容字段的獲取規(guī)則即可。注意:1.該網(wǎng)站采集存在封IP的問題,需要使用代理后才能長時間采集,每周一數(shù)數(shù)據(jù)以及采集規(guī)則領(lǐng)取時間為2019/10/24日發(fā)文后5個工作日內(nèi)。采集規(guī)則涉及到商業(yè)版本功能,建議用戶登錄商業(yè)版本使用此規(guī)則。
數(shù)據(jù)領(lǐng)取資格:火車采集器/火車瀏覽器/觸控精靈商業(yè)版軟件用戶(服務(wù)年限內(nèi)),如果您不是商業(yè)用戶或者已經(jīng)過了服務(wù)年限,但也想?yún)⑴c活動的話,可以新購軟件或者升級續(xù)費,這樣就能參與活動啦!通知一下哦,雙11火車活動優(yōu)惠折扣很大呢!
數(shù)據(jù)領(lǐng)取方式:
第一步:掃碼添加火車運營微信號,火車運營助手會拉你進入活動群。
第二步:進群后添加數(shù)據(jù)咨詢客服.雅的微信號,經(jīng)客服驗證為服務(wù)年限內(nèi)商業(yè)用戶身份后,即可領(lǐng)取。
好啦,本期的“每周一數(shù)”就到這里了。如果您還有想要獲取更多的數(shù)據(jù)資源以及采集器規(guī)則的話,可以在文章下方或是公眾號后臺留言,小采會綜合大家的意見選擇下一期贈送數(shù)據(jù)的主題哦!