97人妻人人做人碰人人爽台湾_无码精品久久久久久98久久_品人妻无码区二区三区_51午夜精品免费视频

文章采集器——火車采集器V9數(shù)據(jù)處理功能詳解

2016-04-06 11:21:16 瀏覽:7968

用過火車采集器的朋友都知道,火車采集器是所有文章采集器里數(shù)據(jù)處理功能最為全面的,也因此被用戶譽(yù)為最經(jīng)典的采集軟件,這里為大家詳細(xì)的介紹一下文章采集器——火車采集器V9十一項(xiàng)強(qiáng)大的數(shù)據(jù)處理功能。

什么是數(shù)據(jù)處理?在火車采集器中,數(shù)據(jù)處理是對(duì)從內(nèi)容頁面提取到的信息數(shù)據(jù)進(jìn)行進(jìn)一步的加工處理,譬如替換、過濾等,火車采集器中可以同時(shí)添加多個(gè)操作,多個(gè)操作是按照從上到下的順序來執(zhí)行。也就是說,上個(gè)步驟的結(jié)果會(huì)作為下個(gè)步驟的參數(shù)。下面依次說明:


001.png

1、提取內(nèi)容為空:即如果提取內(nèi)容為空,則使用正則匹配內(nèi)容從原始頁面中再次提取。
2、內(nèi)容替換/排除:顧名思義,表示對(duì)采集到的內(nèi)容進(jìn)行字符串替換,如需排除,則替換為空字符串即可。

002.png




3
、html標(biāo)簽過濾:過濾指定html標(biāo)簽,比如<a ,<font
4、字符截?。和ㄟ^開始和結(jié)束字符串對(duì)內(nèi)容進(jìn)行截取
5、純正則替換:通過強(qiáng)大的正則表達(dá)式進(jìn)行復(fù)雜的內(nèi)容替換。
6、數(shù)據(jù)轉(zhuǎn)換:包括將結(jié)果簡(jiǎn)轉(zhuǎn)繁、將結(jié)果繁轉(zhuǎn)簡(jiǎn)、自動(dòng)轉(zhuǎn)化為拼音和時(shí)間修正轉(zhuǎn)化



003.png


7
、智能提?。喊ㄌ崛〉谝粡垐D片、智能提取時(shí)間、智能提取郵箱、智能提取手機(jī)號(hào)碼、智能提取電話號(hào)碼



004.png


8
、高級(jí)功能:包括自動(dòng)摘要、自動(dòng)分詞、Http請(qǐng)求、字符編碼轉(zhuǎn)換、同義詞替換、空內(nèi)容缺省值、內(nèi)容加前后綴、隨機(jī)插入、運(yùn)行C#代碼、批量?jī)?nèi)容替換,統(tǒng)計(jì)標(biāo)簽字符串長(zhǎng)度等一系列功能。  



9
、補(bǔ)全單網(wǎng)址:將當(dāng)前內(nèi)容作為一個(gè)網(wǎng)址進(jìn)行補(bǔ)全。
10、文件下載:可以自動(dòng)探測(cè)并下載文件,可設(shè)置下載路徑和文件名樣式。

005.png

11、內(nèi)容過濾:對(duì)于一些不符合條件的記錄,可以通過設(shè)置內(nèi)容過濾來刪除或標(biāo)記為未采。

    我們采集文章時(shí)有了這十一項(xiàng)強(qiáng)大的數(shù)據(jù)處理功能,就能應(yīng)對(duì)各類網(wǎng)站并將數(shù)據(jù)輕松處理成自己需要的形式,省時(shí)省力?;疖嚥杉鱒9作為功能最全面的文章采集器,更夠?yàn)槲覀兊墓ぷ鞔蠓嵘剩嬲悄芑姆?wù)于用戶。


掃碼關(guān)注微信