Growise AI

Scrape Webpage

Scrape Webpage Action 讓您僅需提供網址(URL),即可自動擷取網頁的文字內容或完整 HTML 原始碼。支援排程執行或隨需觸發,並可自訂輸出格式與行為。

常見應用場景包括:

  • 分析網頁資料
  • 監控內容變動
  • 重新利用網頁內容於其他自動化流程

 

使用範例

  1. 即時或排程抓取網頁
    在 Workflow 中新增 Scrape Webpage Action,輸入特定 URL 或從 Input Action 提供 URL 後自動執行抓取,可重複、程式化或定時運行。適用於:
    – 偵測價格變動、產品說明更新
    – 提取 <h1>、<h2>、<a> 等標籤,優化 SEO 與內容策略
    – 從 LinkedIn 公開個人檔案提取工作經歷
    – 抓取商品評論,分析客戶情緒
  2. 結合資料擷取,取得 SEO 元資訊
    搭配 Extract Data Action,快速從 URL 中取出網頁標題、描述、關鍵字等 SEO 關鍵欄位。
  3. 生成網頁摘要或報告
    搭配 Generate Text 動作,將抓取內容轉為精簡摘要或結構化報告。

 

輸入參數
網址:要抓取的網頁完整網址,必須為單一公開網址,格式例如 https://example.com
匿名:主要確保擷取任務不被偵測到,從而防止被目標網站封鎖。此做法代表需要更多的 credits 以因應高品質擷取任務。

  • Standard: The scraper’s activities in standard anonimization level.
  • Medium: The scraper’s activities in medium anonimization level.
  • Best: The scraper’s activities in best anonimization level.

輸出格式:選擇輸出純文字或完整 HTML
輸出訊息:當擷取失敗時,允許使用者自訂輸出訊息。

 

抓取失敗常見原因

  1. URL 不正確或需登入:請確認為公開網址,無需帳密即可瀏覽。
  2. 抓不到預期內容:可能輸出類型錯誤,需文字選 text only;需圖片連結或結構選 html。
  3. 輸出類型錯誤:部分內容由 JavaScript 動態載入,可以採用 Best 模式; 若仍遺漏屬技術限制,建議改用 No-code Scraper AI 處理複雜動態網站。
  4. 抓取失敗導致整個 Workflow 中斷:這是因為未啟用「失敗時繼續執行」,建議啟用此選項,避免後續Actions(如生成圖片)無法執行。

 

常見搭配 Actions

  1. Generate Text Action:將抓取內容轉為摘要、翻譯、行銷文案
  2. Extract Data Action:結構化解析 HTML 或文字中的特定欄位(如價格、日期)
  3. Loop Through Data Action:批量處理多個 URL 的抓取結果