或許,你是一個熱愛運動的粉絲,想要隨時掌握最新的中華職棒、美國職棒大聯盟或 NBA 籃球賽事討論,看看網友對球隊表現的看法。或者,你是一個有在投資股票的人,時刻關注股票版,希望第一時間獲取網友分享的各種頭條,不錯過任何一個影響投資決策的可能。又或者,你是品牌行銷人員,希望透過批踢踢 PTT 八卦版了解最近市場熱議的產品趨勢,看看消費者對於特定品牌的評價; 如果跟自己的品牌有關,就能夠即時回應重塑品牌形象。
無論是哪種情境,你都需要即時、準確的資訊,而不是每天花費數小時手動搜尋 PTT 文章、爬文回覆,結果可能有些重要的文章或網友回文沒有追蹤到,還影響了決策。這時候,只需要一個 No-Code Scraper 工具來幫你自動擷取 PTT 內容,大幅節省時間,讓你能專注在分析和決策,而不是困在資料蒐集的繁瑣過程…
透過 Growise AI,你可以在幾分鐘內使用 No-code 的方式,從 PTT 論壇抓取各種文章與回覆資料。
方法 1 – 設定爬蟲機器人
您可以在 Growise AI 上建立一個爬蟲機器人來抓取 PTT 資訊,完全無需人工操作。具體做法如下:
- Step 1:在 Growise AI 註冊帳號
前往 Growise AI 的網站註冊免費帳戶,並獲得 500 個 scraper credits (無需信用卡)。
或是點擊聯絡專人,就會有專員與您聯繫建立帳號。 - Step 2:安裝 Google Chrome 擴充功能
當您進入「Growise Scraper」時,您將看到直接安裝 Growise AI Chrome 插件的選項。此時只需按照提示完成插件安裝於瀏覽器上即可。 - Step 3:輸入來源 URL
輸入您想要抓取的 URL。例如抓取 PTT 八卦版為例。 - Step 4:訓練你的爬蟲機器人
爬蟲機器人會開啟一個新視窗,詢問你想要擷取的資料類型是單頁文字(Single Page)還是清單表格(List or Table)。接著就能點擊你希望爬蟲機器人擷取的網頁項目,例如文章標題、日期、作者與網址,同時也需要幫他們命名欄位名稱。 - Step 5:查看資料擷取預覽
完成設定時,下方可以查看資料擷取預覽,此時就能驗證擷取的資料是否準確。 - Step 6:設定換頁
如果是列表資料,可能需要換頁後繼續擷取,此時可以設定換頁。 - Step 7:執行擷取並匯出
儲存設定後就可執行爬蟲機器人,並查看擷取成果並可匯出成 csv 或同步到 Google Sheet。如果你想調整擷取項目,你也可以選擇重新修改爬蟲機器人的設定。
方法 2 – 列表抓完再抓文章全文
你也可以連接兩個或多個爬蟲機器人來抓取關聯的不同頁面。
- Step 1:選擇建立爬蟲工作流程
新增爬蟲工作流程,選擇取出既有的爬蟲機器人,將列表機器人與文章詳細頁機器人都選出來。 - Step 2:設定文章詳細頁機器人的來源
將第一個列表機器人的截取清單,提供給第二個文章詳細頁機器人。 - Step 3:確認爬蟲機器人工作流程是否正確
儲存之後即可執行爬蟲機器人工作流程,完成擷取後就能取得所需要的 PTT 資料了。
如果你想定期擷取資料或是監控資料,可以設定時程來讓爬蟲機器人自動執行。因此,無論是單頁擷取、清單擷取,或是多種頁面關聯擷取,你都可以用最簡單的方式從 PTT 擷取資訊,而無需編寫任何程式碼,讓你從重複低效的困境中釋放出來!
要了解有關 Growise AI 如何幫助你實現最佳生產力,請與我們聯繫!