酷知百科網

位置:首頁 > 智慧生活 > 生活常識

房源資訊如何採集

隨着物聯網的發展,現在出現越來越多生活服務類的網站,這類網頁有許多的房源資訊,但這些資訊數據量很大,一個個去翻閱會浪費很多時間,今天我們就藉助數據採集器,來查找我們需要房源資訊。

建立採集任務

(01)找到要採集的房源網站,選擇你要查找的房源資訊,將選擇好的房源網站地址複製下來

房源資訊如何採集

(02)開啟採集器,並登陸

房源資訊如何採集 第2張

(03)建立採集任務,完成採集任務及任務組名稱編輯,點擊下一步

採集規則編輯

(01)將複製的網頁地址粘貼在八爪魚採集器內置瀏覽器的地址欄中,點擊跳轉,採集的網頁會在下方瀏覽器中開啟,流程設計器中會生成一個“開啟網頁”步驟

房源資訊如何採集 第3張

(02)將網頁下拉到底部,找到翻頁的按鈕,右鍵點擊,選擇執行“循環點擊這個元素

房源資訊如何採集 第4張

(03)完成後流程設計器會生成一個翻頁循環,點擊自訂進行設定

(04)選擇“元素文字=下一頁”這個選項,點擊確定,完成翻頁循環的創建

創建提取數據列表

(01)完成後上述操作後,右鍵點擊頁面中第一個房源資訊的方框,在跳出的操作框中,選擇下圖紅色方框的選項“創建一個元素列表”

房源資訊如何採集 第5張

(02)將第一個房源的資訊”添加到列表“中

房源資訊如何採集 第6張

(03)點擊第二個方框中的房源資訊,同樣將其”添加到列表“中

房源資訊如何採集 第7張

(04)八爪魚會將具有相似特徵的元素抓取到列表中,如下圖,所有的羣組資訊被添加到列表,接着點擊“創建列表完成“,

房源資訊如何採集 第8張

(05)再點擊“循環”,完成列表的創建

房源資訊如何採集 第9張

(06)創建列表完成後流程圖,如左側所示,接着我們需要對採集的房源資訊進行抓取

提取要採集的文字資訊

(01)如圖點擊房源中的標題,在跳出的執行框中,選擇執行”抓取這個元素文字”方框其他數據的資訊抓取,重複同樣的步驟即可

房源資訊如何採集 第10張

(02)抓取到的內容會顯示在右上方的操作框中,這裏可以修改採集字段的名稱,到這裏我們就完成了房源資訊提取

(03)由於每一頁都需要循環採集數據,所以我們需要將這個循環列表拖入到翻頁循環裏面。

(04)注意:流程是從上網頁執行的,所以這個循環列表需要放到點擊翻頁的前面,否則會漏掉第一頁的數據。最終流程圖如下圖所示:點擊儲存,進入下一個採集步驟

開始採集

(01)選擇採集方式,開始房源資訊的採集

(02)採集完成,有多個匯出格式可供選擇,可以根據需要點選,採集到的重複數據八爪魚採集器會自動識別出來,匯出時可以選擇是否去重,完成房源資訊的採集

房源資訊如何採集 第11張

特別提示

這裏採集的網頁,只是其中的一個網站例子,其他網頁的採集,可以參考這個教程的步驟去進行採集規則的編輯

標籤:房源