爬行一個 2000 萬頁的網站

搜尋引擎優化項目
亨利·達爾齊爾 | SEO香港專業人士
Tech SEO
技術 SEO 是搜尋引擎優化的重要組成部分

不用說,技術搜尋引擎優化是整個優化過程的重要組成部分。

我去年參與的這個計畫帶來了一些挑戰和有益的發現。

定義技術搜尋引擎優化

爬蟲需要能夠理解您的網站的全部內容,這就是「技術搜尋引擎優化」發揮作用的地方。

你可以擁有地球上最好的內容,但如果你的網站建設得很糟糕,它會讓谷歌或任何其他搜尋引擎感到困惑,那麼你的努力就會白費。

事實證明,對於技術 SEO 最需要理解的是…抓取預算…

在任何人說話之前——是的,有一個叫做「抓取預算」的東西。

Google 沒有無限的資源,也不想絕對抓取 每一頁 在您的網站上,以便 GoogleBot(以其所有不同的風格)將根據您提供的路線圖確定它需要去的位置。

高效率的網路爬行至關重要

抓取目標

最重要的是,爬行的目的是確定網站的健康狀況。

我想說,以下是您需要抓取網站的原因:

  • 給自己做一次全面的“健康檢查”
  • 尋找快速獲勝的機會
  • 了解您的網站架構,包括:
    • 孤兒頁面
    • 獲得名目流量的頁面
    • 距離主頁點擊次數過多的頁面
  • 您的核心網路生命週期速度

我在下面更清楚地概述了目標。

抓取效率

  • 當機器人遍歷網站時發現錯誤
  • 發現禁止真正不可索引的頁面(與 GSC 交叉引用這些頁面)
  • 發現任何分頁問題嗎?
  • 確保規格按預期工作
  • 如果產品頁面的流量很低,請考慮取消索引並專注於更重要的類別頁面
  • 發現流量非常低的類別(並與收入進行交叉檢查)並“阻止”

內部連結

  • 視覺化工具,看看我們是否可以將權益重新導向到重要頁面
  • 重新調整內部連結
  • (與尖叫青蛙交叉比較)

結構數據

  • 確保我們的產品架構增強,以改善電子商務結果

記錄數據

  • 將低 GoogleBot 命中率與 GSC 交叉引用以獲得低流量(並排除這些頁面)

內容密度

  • 發現內容較多的頁面(類別、產品頁面)是否有更多點擊量

語言

  • 如果來自特定歐盟國家/地區的所有流量的流量少於 5%,則考慮阻止機器人在更低級別的類別中浪費資源
「邏輯」網站結構至關重要

谷歌搜尋控制台

Google Search Console (GSC) 非常出色,但常常被低估。

從字面上看,GSC 為您提供了大部分測驗的答案,而 GSC 最好的事情之一就是您可以將其連接到 Google Studio 以進行更好的研究。

GSC 本質上是一個儀表板,可以向您顯示 GoogleBot 在造訪您的網站時的行為。我使用 GSC 來調查錯誤,它還有一個非常簡單的方法來過濾掉 CTR 的 URL 以及與 Google 如何抓取您的網站相關的其他重要資料。

與 Google Analytics 搭配使用,使用 Search Console(兩者都是免費的)是所有技術 SEO 專案的必備條件。

Google Analytics (GA) 和 Google Seach Console (GSC) 之間有什麼區別?

  • GA用於流量分析
  • GSC用於爬行分析(並報告錯誤)

我研究的技術 SEO 工具

我為這個專案研究了一些工具:

  • 深度爬行
  • 爬行時
  • 尖叫青蛙

精選工具:OnCrawl 和 Screaming Frog

爬行時

我決定使用 OnCrawl 是因為他們的支援以及其他我非常尊敬的 SEO 強烈推薦該工具的事實。另外,我總是看到該公司在 SEO Brighton 等活動和其他類似會議上發表演講。

我決定 OnCrawl 而不是 Deep Crawl 的另一個原因是,它們提供了一個名為「Crawl-on-Crawl」的功能,這是一個很棒的功能。

尖叫青蛙

尖叫青蛙不需要太多介紹。

這個技術SEO 工具已經存在很長時間了- 它有一個非常忠實的追隨者,主要是我確信,因為有一個相當慷慨的免費版本,雖然它的抓取配額有限,但對於精益網站來說應該足夠了。

與 OnCrawl 不同,Screaming Frog 是一款應用程序,因此它會佔用相當多的 RAM。

所以——無論如何——這些就是我所使用的工具。

我的目標

我已經接觸過 為什麼我們需要爬行, 然而,為了證明投資的合理性,我必須對整個技術 SEO 專案要實現的目標有一套明確的目標。

總之,該計畫的目的當然是獲得有意義且可操作的數據,能夠證明所採取的抓取後行動具有明確的投資報酬率。

設定抓取

機器人.txt 檔案

OnCrawl 使用各種不同的機器人使用者代理程式來爬網您的網站。

你的 機器人.txt 文件可能允許所有 GoogleBot 抓取工具(例如),只要您的機器人檔案允許抓取工具自由通過,則無需對該文件進行任何調整。

雲耀

但是,如果您使用 Cloudflare,請務必小心。

如果您使用 Cloudflare,請務必執行以下一項或兩項操作:

  1. 將 OnCrawl 使用的 IP 範圍列入白名單;
  2. 確保您的抓取封鎖(「機器人封鎖」)規則放寬或針對 OnCrawl 掃描進行自訂。
    • 對於上述 #2,請聯絡客戶支持,他們會為您處理

結果

抓取結果向我們表明抓取預算確實有問題。

在不涉及太多技術性和分享太多敏感資訊的情況下,我可以分享我們發現了以下內容:

  • 這些是產生超過 200K 404 的惡意 JSON 文件 每天!
  • 不必要的分類 URL 被抓取
  • 我們有數千個孤兒頁面
  • 我們將重要的頁面深埋在網站架構中

如何提高點擊率?

阻止「壞」機器人

發表評論

zh_HK香港中文