Growise AI

Scrapers 擷取器

擷取清單 vs 擷取文字 #

從網站上擷取資料主要有兩種方法:擷取清單和擷取文字。我們將介紹這兩種方法的區別,以及如何選擇適合您情境的方法。

 

定義
– 擷取清單:當您需要擷取頁面上重複出現的相同類型資料時,即可使用此方法,例如:從類別頁面上的所有產品中收集每一個產品的名稱和價格。
– 擷取文字:當您需要從詳細頁面中擷取特定資訊時使用此選項,例如從單一產品詳細頁面取得該產品的完整的描述、規格、價格。

如果您希望取得網站清單頁面的每個頁面網址與其頁面資料(例如:搜尋結果和單一頁面的資料),可以結合這兩種方法來取得所需的資料集。

 

以下是使用 Scraper Chain 連接兩個 Scraper 的方法:
1. 建立 Scraper A (擷取清單):建立一個 Scraper,用於從列出產品的分類頁面收集所有產品的 URLs。
2. 建立 Scraper B (擷取文字):利用 Scraper A 擷取到的產品 URL,建立 Scraper B 來擷取其產品詳細資訊。
3. 當利用 Scraper Chain 建立完成後,就代表已經將這兩個 Scraper 連接起來,幫助我們從所有頁面中自動化擷取資料。

我是否需要為每個網站訓練一個 Scraper? #

是的,您需要為每一個網頁結構建立訓練一個 Scraper; 接著,您就可以在相同到網頁結構上重複使用此 Scraper。

為什麼需要不同的 Scraper?
由於每個網站都有其獨特的撰寫方式與數據呈現方式。例如,MOMO 的產品頁面與 PChome 的產品清單顯示資訊的方式不同。您的 Scraper 需要理解這些各別特定的模式才能準確地擷取資料。

訓練一個 Scarper 非常簡單
您別擔心,Growise 是專為不懂程式語言的您所設計的,訓練一個新 Scraper 既快速又簡單:
1. 輸入您想要擷取資料的網址
2. 讓 AI 幫您分析網頁與展示擷取的數據
3. 測試您的 Scraper,確保它擷取的資訊正確

 

我可以對頁面進行分頁嗎? #

Growise AI 協助使用者可以透過點擊「Next」按鈕、「Load more」按鈕或「捲動頁面」來處理分頁,以自動從多個頁面或無限滾動清單收集資料。設定方式很簡單,當您完成資料擷取設定後,先將頁面拉到執行分頁的位置,接著點擊預覽上的分頁下拉選單,選取此頁面的分頁方式後,請將滑鼠移至分頁按鈕上方 (例如下一頁、載入更多),點擊該分頁按鈕,就會出現彈跳視窗詢問要分頁幾頁,您可以輸入 10 頁,即可完成設定。

 

如何設定螢幕截圖?

您可以透過 Growise AI 擷取畫面,例如選取範圍、整個頁面或頁面的可見部分。
設定方式於預覽的右側邊欄中,點擊“截取螢幕截圖”,出現下拉選單選擇:
1.整個頁面:截取整個網頁的螢幕截圖
2.可見部分:截取頁面載入之時可見的部分

查看/下載螢幕截圖
您可以透過 Scraper 的任務查看已擷取的螢幕截圖。