時間:2015-08-05 來源:互聯網 瀏覽量:
具體方法如下:
1點擊軟件上的新建項目(標準)
2給項目取一個名字,名字可以隨意,也可以不填,不填的話軟件會自動生成一個名字。其他地方保留默認設置就可以了,然後點擊下一步設置。
3軟件會直接跳過數據庫設置,來到標題列表頁及其翻頁設置,標題列表頁就是包含我們要采集的鏈接的網址。這地方我們以華聲在線網站作為演示,隨便選擇一個新聞欄目,複製標題欄中的網址到軟件的相應位置即可。
4然後軟件中點擊開始進行預分析。
5然後軟件會詢問是否需要自動分析翻頁設置,這地方我們為了完整演示,我們選擇否,手動設置翻頁。這地方的翻頁設置目的是要告訴軟件當本頁麵采集完了怎麼跳到下一頁進行采集。
6選擇翻頁方式1:直接指定翻頁的鏈接,在這種模式下,我們隻需要在軟件的左邊找到下一頁的鏈接並點擊就可以了,然後填上我們一共需要采集多少頁,這地方我們填了5,就表示要采集5頁,然後點擊下一步設置。
7這是我們設置的第四步,選擇內容頁,就是要告訴我們的軟件,每個列表頁裏麵哪些鏈接下的內容使我們需要采集的內容,一般情況下軟件軟件會自動判斷,並把入選的鏈接用紅框框選。如果不是我們要采集的鏈接我們可以手動調整。顯然我們這裏軟件默認判斷是正確的,保持原樣,直接點擊下一步設置。
8來到內容頁麵模板管理,這裏有兩種方式,自定義模板和係統自動分析,如果是選擇方式二由係統自動分析抽取網頁的標題和正文,那我們的整個配置就到此完成,點擊確定即可。
9點擊立即運行該項目,試著采集一下。
10這裏為了演示,我們再使用方式一使用自定義模板來設置一下。雙擊項目名稱打開剛才的項目,選擇內容頁麵模板管理,方式一使用自定義模板,點擊添加新模板。
11點擊開始分析,然後軟件會詢問你是否需要軟件自動分析,這裏為了演示,我們選擇否,然後會出來像下圖中的界麵,右邊頁麵中的內容會經分析後顯示在左邊,我們隻需要針對左邊的內容設置采集就可以了。
12在左邊找到和右邊新聞標題相同的內容,點擊一下,右邊會用紅框框選,以便確認我們選擇的位置是否正確。然後選擇采集該項,選擇采集存儲表—>標題,標題的采集就完成了,下麵是正文的采集。
13和標題一樣,首先在左邊找到正文的開始部分,設置采集,如下圖所示。但由於正文一般比較長,一次無法全部選擇完整,我們還需要對正文的尾部再設置一下采集。
14同樣的在左邊找到新聞正文的尾部,再次采集,注意這地方的字段要和采集新聞開頭的保持一致,這樣軟件就會明白你是要采集從開頭到結尾整個的內容。
15這時軟件會詢問你是否把整個文字當做一個整體來采集,選擇是,會發現整個新聞會被框選中。
16一路點擊確定完成設置,然後運行一下,看看采集的效果是否達到自己的要求。
17運行效果