采集提取時間-來源-作者及入庫的方法
以http://www.scbz.hrss.gov.cn:81/disp.asp?ID=3187這個頁面為例進行說明,目標將時間信息轉化為國微的時間格式 2015-03-09 17:55:26
一、采集時間方法
1、打開http://www.scbz.hrss.gov.cn:81/disp.asp?ID=3187這個頁面,點擊右鍵查看代碼,在頁面中,時間的特征代碼如下:

2、在火車頭采集器中,使用“正則提取”的方式來編輯標簽,如下所示:

圖1
在“發布日期:”后面,將原來的時間信息2015/3/9 17:55:26分成四段來進行提取,將年、月、日和后面的小時分鐘秒數分開提取,由于每個頁面中來源也是變化的,所以來源后面也需要用一個參數,具體的設置如下所示:
<td height="28" align="center" valign="middle" bgcolor="#E6EEF9" class="font32"> 來源:[參數] 發布日期:[參數]/[參數]/[參數] [參數] 點擊數:[參數] 【字體:(*)
圖2
對應地在組合結果當中,我們只需要發布日期信息,所以我們只需要使用上圖紅色[參數]中的第2、3,4,5幾個參數,第一個參數不使用,將參數組合變成國微的時間格式,如下所示:

圖3
注意:[參數4] [參數5]中間有一個空格
3 如果你想要采集來源的方法采集時間一樣,只是右邊組合結果參數名字不同如下圖所示

(采集作者或者其他的方法類似,只要把想要的第幾個參數的名字對應的填在右邊就行了)
4、最后,測試是否能采集到時間,來源 類似如下:

圖4
二、入庫發布時間,作者或者其他參數的方法
要使用發布時間能采集后放入數據庫中保留原來的發布時間,必須在發布模塊中進行配置時間。
1、點擊“第三步:發布內容設置“中的”Web發布配置管理“鏈接,如下圖所示:

圖5
2、第一步從國微采集壓縮包中找到國微php168發布模塊導入,第二步選擇下圖中的紅框中的發布模塊“國微PHP168“模塊,第三步點擊“編輯”按鈕。

圖6
3、點擊“編輯”按鈕后,彈出的編輯對話框如下圖所示,選擇“內容發布參數”,雙擊timestamp,進行編輯。

圖7
4、在彈出的框中,表單值中寫入[標簽:時間],并保存,list_order也類似,如下圖所示。

圖8
5 來源跟作者的發布模塊配置也是一樣(source代表來源,author代表作者),如下圖所示



6 最后一步就是保存入庫,如下所示


提醒注意:以上圖中[標簽:時間][標簽:來源][標簽:作者]并不是隨意寫的,是與圖2中采集內容規則中的標簽名“時間,來源,作者”是對應的。如下圖所示。

圖9