(圖解) 網路爬蟲 API 常見的 3 種「翻頁」方式

前言

之前時不時有網友在詢問有關網路爬蟲"翻頁"的問題：

我發覺可能之前 Python 網路爬蟲實例系列內沒有說明清楚。
因此這篇文章，將整理目前我遇過的網路爬蟲 API 中，常遇見的三種「翻頁」方式，並且搭配簡易圖示，希望讓剛進此領域的網友能更容易理解。

想要爬取某個網站，也順利找出網頁是使用動態載入請求 API 的方式，但遇到像 Dcard 這種的文章列表或留言列表，它是往下滾，就會送出新請求來取得下一頁資料。

那麼，它是如何達成「翻頁」的呢？

底下會依照這三種常遇到的「翻頁」方式來分別說明：

第一種最容易理解、最直覺的是頁數，這就跟我們一般瀏覽網頁一樣，你想要看第幾頁，就給它第幾頁的頁數即可。

不過缺點是不能彈性調整每次抓取的量，假如此 API 一頁是 30 則留言，就算我只想取前 5 則留言，一樣一次請求還是會抓到 30 則留言，除了會占用較多流量，也可能花費較多時間。

舉例來說：
想抓第一頁 page=1，想抓第二頁是 page=2，同理第99頁就是 page=99。

實際網站範例：
「 PChome 線上購物」"商品搜尋"中的 page。
「聯合新聞網」"文章列表"中的 page。

第二種翻頁方式就解決了第一種的問題，變成可「彈性調整抓取量」。
它藉由兩個參數來達成，分別為"limit"與"offset" (不同 API 參數名稱可能不同)

* offset(foodpanda)參數在不同網站的 API 有不同名稱，例如 newest(蝦皮購物)、after(Dcard)。

舉例來說：
抓前三筆資料是 limit=3 offset=0。
想取得第六、七筆資料，將資料偏移 5 (從第一筆資料開始往下加五筆的意思)、限制一次 2 筆，就是 limit=2 offset=5。

實際網站範例：
「 foodpanda 」"搜尋餐廳"中的 limit 和 offset。
「蝦皮購物」"搜尋商品"中的 limit 和 newest。
「 Dcard API 」"留言列表"中的 limit 和 after。

第三種翻頁方式感覺像是第二種的改版，有些網站一樣有"limit"來限制最大資料筆數，但"offset"換成了"pid"參數，"pid"參數需要帶入上一頁最後一筆資料的數值。
但它就限制了你，不能直接跳到後面的頁數，例如我想看第 100 筆資料，你還是要請求一頁才知道下一頁的網址。

* pid(NOWnews)參數在不同網站的 API 有不同名稱，例如 before(Dcard)、pageToken(YouTube Data API)。而 NOWnews 不需要 limit 參數，它 API 已經有限制一次的資料量了。

舉例來說：
抓前三筆資料是 limit=3 pid=，因為這是最前面的資料，pid 就不需要給值。
而取得第四、五筆資料，因為只要兩筆，limit 帶入 2，前一頁最後一筆資料 ID 為 003，因此 pid 帶入 003，結果就是 limit=2 pid=003。

實際網站範例：
「 NOWnews今日新聞」"新聞列表"中的 pid。
「 Dcard API 」"文章列表"中的 limit 和 before。
「 YouTube Data API 」"留言列表"中的 maxResults 和 pageToken。

注意：YouTube Data API 的 pageToken 有點不太一樣，它是帶入上一頁回傳的的 nextPageToken，而不是最後一筆資料的 ID。

我進一步將以上三種翻頁方式放在一起比較，如下圖範例所示。

假如左邊是此 API 可以獲取的全部資料，可以看到共有五篇文章，各自有 ID(id) 和標題(title) 欄位，同樣要取得綠色區塊(第三和第四篇文章)，以上三種翻頁方式實際會需要帶入這些數值。

不知道透過上面的說明與比較，是不是讓你對於 API 常見的幾種翻頁方式更了解了呢？
提醒各網站 API 本身可能有些微差異，詳細規則還是要查看 API 文件。

歡迎追蹤『 IT空間』FB 粉專，取得最新發文通知🔔

Stay hungry. Stay foolish
求知若飢，虛心若愚。
—— 史蒂夫·賈伯斯

🔻 如果覺得喜歡，歡迎在下方獎勵我 5 個讚~