97人妻人人做人碰人人爽台湾_无码精品久久久久久98久久_品人妻无码区二区三区_51午夜精品免费视频

快速采集中文期刊網(wǎng)站丨數(shù)據(jù)、規(guī)則一起送

2019-12-18 16:57:51 瀏覽:5515

采集地址:

http://lib.cqvip.com/Qikan/Search/Index?from=Qikan_Search_Index

QQ截圖20191218165226.png

采集字段:

標題,摘要、作者、出處、作者簡介、郵箱。

采集結(jié)果:

使用“互聯(lián)網(wǎng)”作為關鍵詞進行搜索,采集搜索結(jié)果,并保存到Excel。


1、下載火車采集器
輸入網(wǎng)址 m.zxsww.com 進入火車官網(wǎng),隨后點擊下載來獲取火車采集器最新版本

QQ截圖20191218165301.png

2、注冊并登錄火車采集器
在網(wǎng)站進行注冊,注冊好賬號直接登錄即可。
3、打開爬取網(wǎng)站,確定真實地址

首先先點擊下一頁,發(fā)現(xiàn)網(wǎng)址沒有改變,說明這個網(wǎng)址需要通過抓包來獲取真實地址。

打開fiddler,點擊下一頁進行抓包,使用Ctrl + F 查找有數(shù)據(jù)的網(wǎng)址,點擊進去發(fā)現(xiàn)確實是我們需要的真實網(wǎng)址。


QQ截圖20191218165337.png

QQ截圖20191218165356.png

4、網(wǎng)址是POST類型的,查看POST提交的數(shù)據(jù)發(fā)現(xiàn)是編碼過的,可以用工具轉(zhuǎn)碼,再點擊下一頁,進行抓包,對比兩次抓包的數(shù)據(jù),只有PageNum發(fā)生了變化,也就是分頁,所以網(wǎng)址采集規(guī)則可如下設置。

QQ截圖20191218165418.png



5接下來開始采內(nèi)容,要采集的幾個字段內(nèi)容源碼中都存在,直接從源碼獲取即可,這里標題標簽可以先用h1截取,然后用內(nèi)容替換和HTML標簽過濾將不需要的內(nèi)容去除,其他幾個標簽設置方法類似。

QQ截圖20191218165436.png



6、值得一提的是,郵箱是從作者簡介里提取的,這里可以使用組合標簽來獲取作者簡介的內(nèi)容,在數(shù)據(jù)處理里使用智能提取郵箱功能來自動獲取內(nèi)容里的郵箱信息。

QQ截圖20191218165620.png


7、最后,保存到本地Excel。

QQ截圖20191218165540.png





本次每周一數(shù)贈送的是中文期刊數(shù)據(jù)+采集規(guī)則,僅限火車軟件的商業(yè)版本用戶。不符合領取條件的可參加正在進行的火車雙十二年終回饋活動,活動還剩最后兩天。消費達到1500元更是可以領取2019年整年每周一數(shù)的所有數(shù)據(jù),趕緊參加吧!

最后兩天.png

本周每周一數(shù)領取時間:2019年12月18 日發(fā)文后5個工作日內(nèi)(節(jié)假日除外)
領取方式:掃碼加運營微信,運營會拉您進每周一數(shù)群,群內(nèi)加:【火車數(shù)據(jù)咨詢客服.雅】,經(jīng)驗證為商業(yè)用戶后,即可領取。

微信圖片_20191024173419.jpg



掃碼關注微信