伴隨著以提倡個性化為主的“web2.0”概念的興起,UGC讓我們從下載為主的網(wǎng)絡(luò)時代演變?yōu)橄螺d和上傳并重的交互時代。這意味著互聯(lián)網(wǎng)的信息量變得更加豐富了,所帶來的數(shù)量增長也是我們難以預(yù)估的,面對海量、豐富的“大數(shù)據(jù)”,國內(nèi)外都衍生出了網(wǎng)頁抓取工具這一經(jīng)典利器。
首先讓我們將視線投向國外,熟悉互聯(lián)網(wǎng)和大數(shù)據(jù)領(lǐng)域的朋友一定對import.io有所耳聞了,因獲得種子加A輪共計一千多萬美金的融資而引起國內(nèi)人士的關(guān)注。Import.io的與眾不同在于用戶只需在想要抓取數(shù)據(jù)的網(wǎng)站上進行幾次簡單的點擊操作,就可根據(jù)你的操作推算出你想要抓取的數(shù)據(jù),進而創(chuàng)建一個與這些數(shù)據(jù)的實時連接,接下來你只需選擇想要的導(dǎo)出形式,就可以獲得一份指定內(nèi)容、實時更新的數(shù)據(jù)了。
聽起來確實很有魔力,也恰如其對產(chǎn)品的命名一樣“magic”。感興趣的朋友可以體驗一下,但是需要注意的是,import.io比較適用于一些列表類的數(shù)據(jù),像是微博,店鋪網(wǎng)頁這些類型往往并不適用,因為它抓取的字段并非全部字段,而是基于一種特殊的選擇性推算,所以用戶需要根據(jù)需求去選擇使用。
那么國內(nèi)最經(jīng)典的網(wǎng)頁抓取工具,想必你們都已經(jīng)想到了,當(dāng)屬行業(yè)資歷最深的火車采集器。它研發(fā)于2005年,目前已經(jīng)擁有四十多萬免費用戶,與Import.io不同,火車采集器更注重精確性,它需要得到用戶的明確指令也就是采集規(guī)則,之后再去執(zhí)行操作,因此能夠適用的網(wǎng)頁類型會更多,甚至全網(wǎng)通用。
因為火車采集器的操作原理是web結(jié)構(gòu)的源代碼提取,所以只要是網(wǎng)頁上能夠看到的內(nèi)容,無論以何種排布形式展現(xiàn)都可以被快速提取出來。并且最終抓取的數(shù)據(jù)支持導(dǎo)入到任一目標(biāo)數(shù)據(jù)庫中,或者導(dǎo)出為想要的格式。在網(wǎng)頁抓取的過程中,還可以選擇不同的線程數(shù)來控制火車采集器采集的速度快慢??傮w上來說,火車采集器適用于對抓取需求很明確,對速度有要求,對完整性要求也較高的用戶。
在程序員們驚為天人的高智商開發(fā)下,對網(wǎng)頁信息數(shù)據(jù)的抓取已經(jīng)不再讓我們感到抓狂。市面上現(xiàn)在還有許多其他新興的或是仿寫的網(wǎng)頁抓取工具,但真正值得用戶稱贊的才是最好的,因此在這里就不一一列舉了。相比國外的import.io,中國本土的網(wǎng)頁抓取工具火車采集器研發(fā)的更早,功能上也毫不遜色,看來國內(nèi)的大數(shù)據(jù)技術(shù)發(fā)展未來值得我們拭目以待!