我們?cè)谑褂没疖?chē)采集器進(jìn)行數(shù)據(jù)抓取的時(shí)候,會(huì)需要將采集內(nèi)容包含某個(gè)字段的所有內(nèi)容都替換為某個(gè)固定的內(nèi)容。使用場(chǎng)景如:我們從某網(wǎng)站上采集城市名稱(chēng),然后城市名稱(chēng)示例為:浙江省杭州市,但我們需要將這個(gè)內(nèi)容替換為杭州,這時(shí)就可以使用自動(dòng)分類(lèi)功能。
下面以百度為例介紹下用法,首先在火車(chē)采集器V9建立規(guī)則,內(nèi)容采集規(guī)則的標(biāo)簽編輯如下:
如上圖,我們想要將包含百度的標(biāo)題 內(nèi)容更替換為“常用搜索網(wǎng)站”,則寫(xiě)成如下格式:
運(yùn)行結(jié)果為:
上述就是數(shù)據(jù)抓取時(shí)將某字段所有內(nèi)容自動(dòng)分類(lèi)的使用方法,在操作中還需要注意的是:
1、一行一個(gè)分類(lèi),可以寫(xiě)多個(gè)分類(lèi)。若是一個(gè)關(guān)鍵詞符合多個(gè)分類(lèi),則優(yōu)先替換上面的分類(lèi),火車(chē)采集器中是按照從上至下的原則替換。
2、若是所有分類(lèi)不符合的情況下,你想要將關(guān)鍵詞賦予為一個(gè)默認(rèn)值,按下圖操作:
學(xué)會(huì)數(shù)據(jù)抓取的自動(dòng)分類(lèi)操作,對(duì)包含同類(lèi)字段的內(nèi)容進(jìn)行分類(lèi)就方便多了,大家也操作試試吧。