97人妻人人做人碰人人爽台湾_无码精品久久久久久98久久_品人妻无码区二区三区_51午夜精品免费视频

每周一數(shù)丨送你一份國(guó)家藥品數(shù)據(jù)(附采集教程)

2019-12-03 13:11:03 瀏覽:5738
采集網(wǎng)址:

https://www.drugfuture.com/cndrug/national.aspx?ApprovalNumber=&ApprovalNumberOld=&NDCNumber=&ProductName=&EnglishName=&TradeName=&Manufacturer=&Dosage=&Form=&Category=&ApprovalDateStart=1970-06-26&ApprovalDateEnd=&Restriction=fuzzy

QQ截圖20191203130546.png

采集目標(biāo):

1. 獲取網(wǎng)站里表格的下全部?jī)?nèi)容

 

2. 內(nèi)容頁(yè)采集字段批準(zhǔn)文號(hào)、藥品本位碼、產(chǎn)品名稱、生產(chǎn)廠家、產(chǎn)品地址、規(guī)格、劑型、類別、批準(zhǔn)日期。


使用工具:
1. 火車采集器
2. Fidder抓包軟件
采集成果:

QQ截圖20191203130613.png



第一步:打開火車官網(wǎng) m.zxsww.com 下載最新版火車采集器并安裝

QQ截圖20191203130637.png

第二步: 確定采集器思路

需要采集的字段都在列表頁(yè)中,那么就可以列表頁(yè)標(biāo)簽采集。

在桌面瀏覽器中打開可以看到,這個(gè)網(wǎng)址中的內(nèi)容分成兩塊,我們今天采集的是上面的這塊,而且點(diǎn)擊下一頁(yè)的時(shí)候,網(wǎng)址是不變化的,那么就需要抓包獲取真實(shí)網(wǎng)址,請(qǐng)求真實(shí)網(wǎng)址,在真實(shí)網(wǎng)址的源碼中采集。

QQ截圖20191203130658.png


第三步:fiddler抓包分析
可以看出是post類型的網(wǎng)址采集,獲取兩個(gè)分頁(yè)的數(shù)據(jù)包,對(duì)比兩個(gè)post值,看看不同的地方,可以用&進(jìn)行分塊查詢分析(一個(gè)等于號(hào)和一個(gè)&中間是一個(gè)值)

QQ截圖20191203130725.png

 

分析后



QQ截圖20191203130744.png

第四步:把分析后的數(shù)據(jù)包中對(duì)應(yīng)的值填寫到采集器中

QQ截圖20191203130817.png


根據(jù)網(wǎng)頁(yè)上的編碼,填寫網(wǎng)頁(yè)編碼,post類型采集,一定要填寫網(wǎng)頁(yè)編碼:


QQ截圖20191203130834.png


第五步: 現(xiàn)在需要獲取采集的數(shù)據(jù),前面已經(jīng)提到,需要采集的數(shù)據(jù)都是在列表頁(yè)中,那么我們就可以想獲取內(nèi)容頁(yè)網(wǎng)址一樣,在抓包的post數(shù)據(jù)包的源碼中分析需要獲取的數(shù)據(jù)

QQ截圖20191203130906.png


拼接網(wǎng)址那邊使用的是[標(biāo)簽:批準(zhǔn)文號(hào)],實(shí)際獲得的內(nèi)容頁(yè)網(wǎng)址不是正確的網(wǎng)址(https://www.drugfuture.com/cndrug/國(guó)藥準(zhǔn)字H20060422),現(xiàn)在開始測(cè)試請(qǐng)求,看采集器是否出現(xiàn)報(bào)錯(cuò)情況


QQ截圖20191203130928.png

第六步: 測(cè)試請(qǐng)求報(bào)404的錯(cuò)誤,那么可以在其他設(shè)置中的其他配置,設(shè)置忽略404報(bào)錯(cuò):

QQ截圖20191203130957.png


使得不正確的內(nèi)容頁(yè)網(wǎng)址可以正常請(qǐng)求,因?yàn)闆]有設(shè)置內(nèi)容頁(yè)標(biāo)簽,所以只是請(qǐng)求,不會(huì)采集內(nèi)容頁(yè)標(biāo)簽,數(shù)據(jù)都在列表頁(yè)標(biāo)簽中采集到了。


總結(jié):

采集過程中有的客戶會(huì)想到,既然數(shù)據(jù)都在列表頁(yè)標(biāo)簽中采集了,那么就不要采集內(nèi)容頁(yè)就是了或者直接使用起始頁(yè)就是內(nèi)容頁(yè)進(jìn)行采集。

第一,因?yàn)槭莗ost類型的網(wǎng)址,若是用內(nèi)容頁(yè)采集的話,需要使用插件進(jìn)行處理內(nèi)容頁(yè)post,但是使用列表頁(yè)post就不用插件了。

第二,可以不采集內(nèi)容頁(yè),只采集網(wǎng)址(就是列表頁(yè)),退出編輯任務(wù)窗口,選中任務(wù),只勾選,采網(wǎng)址,其他兩個(gè)不勾選,采集結(jié)束后,需要選中任務(wù),右鍵編輯本地?cái)?shù)據(jù),使用sql語(yǔ)句更新語(yǔ)句,更新所有數(shù)據(jù)為已采,這樣才能進(jìn)行發(fā)布數(shù)據(jù).


每周一數(shù)數(shù)據(jù)以及采集規(guī)則領(lǐng)取時(shí)間為2019/11/28日發(fā)文后5個(gè)工作日內(nèi)。采集規(guī)則涉及到商業(yè)版本功能,建議用戶登錄商業(yè)版本使用此規(guī)則。


數(shù)據(jù)領(lǐng)取資格:火車采集器/火車瀏覽器/觸控精靈商業(yè)版軟件用戶(服務(wù)年限內(nèi)),如果您不是商業(yè)用戶或者已經(jīng)過了服務(wù)年限,但也想?yún)⑴c活動(dòng)的話,可以新購(gòu)軟件或者升級(jí)續(xù)費(fèi),這樣就能參與活動(dòng)啦!


數(shù)據(jù)領(lǐng)取方式:

第一步:掃碼添加火車運(yùn)營(yíng)微信號(hào),火車運(yùn)營(yíng)助手會(huì)拉你進(jìn)入活動(dòng)群。

微信圖片_20191024173419.jpg


第二步:進(jìn)群后添加數(shù)據(jù)咨詢客服.雅的微信號(hào),經(jīng)客服驗(yàn)證為服務(wù)年限內(nèi)商業(yè)用戶身份后,即可領(lǐng)取。


好啦,本期的“每周一數(shù)”就到這里了。如果您還有想要獲取更多的數(shù)據(jù)資源以及采集器規(guī)則的話,可以在文章下方或是公眾號(hào)后臺(tái)留言,小采會(huì)綜合大家的意見選擇下一期贈(zèng)送數(shù)據(jù)的主題哦!



每周一數(shù)丨生病如何快速確定病因并及時(shí)治療?小采送你一份健康數(shù)據(jù)(附帶教程)

速看|火車采集器V9.11版本更新

旅游網(wǎng)站數(shù)據(jù)爬取(贈(zèng)送數(shù)據(jù)+規(guī)則)

雙十一優(yōu)惠券采集(附送數(shù)據(jù)+規(guī)則)

觸控精靈功能講解之微信通訊錄的備份

觸控精靈實(shí)戰(zhàn)教程——微信公眾號(hào)文章的采集與發(fā)布

觸控精靈實(shí)戰(zhàn)教程——網(wǎng)站發(fā)布篇



掃碼關(guān)注微信