通過采集網(wǎng)頁抓取工具火車采集器官網(wǎng)的faq為例來說明采集器采集的原理和過程。
本例以 http://faq.locoy.com/qc-12.html 演示地址，以火車采集器V9為工具進(jìn)行示例說明。

（1）新建個(gè)采集規(guī)則

選擇一個(gè)分組上右擊，選擇“新建任務(wù)”，如下圖：

圖片1.png

分析網(wǎng)址變量規(guī)律（2）添加起始網(wǎng)址
在這里我們需要采集 5頁數(shù)據(jù)。

第一頁地址：http://faq.locoy.com/qc-12.html?p=1

第二頁地址：http://faq.locoy.com/qc-12.html?p=2

第三頁地址：http://faq.locoy.com/qc-12.html?p=3

由此我們可以推算出p=后的數(shù)字就是分頁的意思，我們用[地址參數(shù)]表示：

所以設(shè)置如下:

圖片2.png

數(shù)字變化：從1開始，即第一頁；每次遞增1，即每次分頁的變化規(guī)律數(shù)字；共5項(xiàng)，即一共采集5頁。地址格式：把變化的分頁數(shù)字用[地址參數(shù)]表示。

預(yù)覽：采集器會(huì)按照上面設(shè)置的生成一部分網(wǎng)址，讓你來判讀添加的是否正確。

然后確定即可

（3）[常規(guī)模式]獲取內(nèi)容網(wǎng)址
常規(guī)模式：該模式默認(rèn)抓取一級(jí)地址，即從起始頁源代碼中獲取到內(nèi)容頁A鏈接。

在這里給大家演示用自動(dòng)獲取地址鏈接 +設(shè)置區(qū)域的方式來獲取。

查看頁面源代碼找到文章地址所在的區(qū)域：

圖片3.png

注：更詳細(xì)的分析說明可以參考本手冊(cè)：設(shè)置如下：

操作指南 > 軟件操作 > 網(wǎng)址采集規(guī)則 > 獲取內(nèi)容網(wǎng)址

圖片4.png

點(diǎn)擊網(wǎng)址采集測(cè)試，看看測(cè)試效果

圖片5.png

（3）內(nèi)容采集網(wǎng)址以 http://faq.locoy.com/q-1184.html 為例講解標(biāo)簽采集

注：更詳細(xì)的分析說明可以下載參考官網(wǎng)的用戶手冊(cè)。

操作指南 > 軟件操作 > 內(nèi)容采集規(guī)則 > 標(biāo)簽編輯

我們首先查看它的頁面源代碼，找到我們“標(biāo)題”所在位置的代碼：

<title>導(dǎo)入Excle是跳出對(duì)話框~打開Excle出錯(cuò) - 火車采集器幫助中心</title>

分析得出：開頭字符串為：<title>
結(jié)尾字符串為：</title>
數(shù)據(jù)處理——內(nèi)容替換/排除：需要把- 火車采集器幫助中心給替換為空

圖片6.png

圖片7.png

分析得出：開頭字符串為：<div id="cmsContent">內(nèi)容標(biāo)簽的設(shè)置原理也是類似的，找到內(nèi)容所在源碼中的位置

結(jié)尾字符串為：</div>
數(shù)據(jù)處理——HTML標(biāo)簽排除：把不需要的A鏈接等過濾

圖片8.png

再設(shè)置個(gè)“來源”字段

圖片9.png

這樣一個(gè)簡單的文章采集規(guī)則就做好了，使用通用的網(wǎng)頁抓取工具火車采集器并按照這個(gè)示例的步驟就可以進(jìn)行其它類型數(shù)據(jù)采集的擴(kuò)展啦。

97人妻人人做人碰人人爽台湾_无码精品久久久久久98久久_品人妻无码区二区三区_51午夜精品免费视频