標題浮誇請忽略,主要是這兩邊蟲子最近都有人有新觀察。國外這篇文章「Googlebot’s Javascript random() function is deterministic」,作者觀察到 Google 爬蟲執行 JavaScript 有一個自己的「道理」,這塊有興趣自己看文章便知一二,而我的想法滿偏向作者提出的可能面:效能!

原因是如果要讓爬蟲轉型,可以運作 JavaScript 並分析 DOM 資料的話,是很吃資源的。這點跑過 HeadlessChrome 就可以感受到。

現階段你不會想用 HeadlessChrome 來當爬蟲的,速度太慢也太耗資源了!只有開始針對資源限縮來達到加速外,其他自然是硬體資源能高就高。而 Google 說會執行 JS 來爬網站也不是今天才說,只是到底發展到哪了是一個大問號?

畫面轉向 Facebook ,最近因為處理到文章排程發佈系統才發現, Facebook 的爬蟲居然會觸發 GA pageview 事件,這不就是頁面中的 JavaScript 被執行了嗎!!

在說「太神啦~」之前也想到,他面對外部資源的解析量並沒有要像 Google 一樣如此廣泛,自然可以較低成本這麼做。

但,第二個發現是,只要你頁面中有安插裝設 Facebook JS SDK 並啟用分享外掛功能的話,還會因為有人瀏覽這網站,觸發 Facebook 「主動」來爬網站,不知道對不對?現在知道了XD

爬蟲行為絕對是研究 SEO 最根本的觀念。

到底能幹嘛!?能幹的事可多了。後面可以牽扯到網站系統架構可以怎麼搭配,相關文章 2015 年寫過「Dcard – 前端框架網站( AngularJS )的搜尋引擎優化( SEO )挑戰」,絕對是又硬又實在的內容了~ 哈

#SEO #關鍵字 #行銷 #Googlebot #Facebookbot #爬蟲 #JavaScript #技術相關

這篇文章也拖好久了,還有好多文章債要慢慢還...

- Powered by Mxp.TW -FB2WP-

Facebook 外掛功能


Share:

作者: Chun

資訊愛好人士。主張「人人都該為了偷懶而進步」。期許自己成為斜槓到變進度條 100% 的年輕人。[//////////____30%_________]

參與討論

1 則留言

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *