本篇文章更新時間:2019/02/16
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知。
一介資男的 LINE 社群開站囉!歡迎入群聊聊~
如果本站內容對你有幫助,歡迎使用 BFX Pay 加密貨幣 或 新台幣 贊助支持。
標題浮誇請忽略,主要是這兩邊蟲子最近都有人有新觀察。國外這篇文章「Googlebot’s Javascript random() function is deterministic」,作者觀察到 Google 爬蟲執行 JavaScript 有一個自己的「道理」,這塊有興趣自己看文章便知一二,而我的想法滿偏向作者提出的可能面:效能!
原因是如果要讓爬蟲轉型,可以運作 JavaScript 並分析 DOM 資料的話,是很吃資源的。這點跑過 HeadlessChrome 就可以感受到。
現階段你不會想用 HeadlessChrome 來當爬蟲的,速度太慢也太耗資源了!只有開始針對資源限縮來達到加速外,其他自然是硬體資源能高就高。而 Google 說會執行 JS 來爬網站也不是今天才說,只是到底發展到哪了是一個大問號?
畫面轉向 Facebook ,最近因為處理到文章排程發佈系統才發現, Facebook 的爬蟲居然會觸發 GA pageview 事件,這不就是頁面中的 JavaScript 被執行了嗎!!
在說「太神啦~」之前也想到,他面對外部資源的解析量並沒有要像 Google 一樣如此廣泛,自然可以較低成本這麼做。
但,第二個發現是,只要你頁面中有安插裝設 Facebook JS SDK 並啟用分享外掛功能的話,還會因為有人瀏覽這網站,觸發 Facebook 「主動」來爬網站,不知道對不對?現在知道了XD
爬蟲行為絕對是研究 SEO 最根本的觀念。
到底能幹嘛!?能幹的事可多了。後面可以牽扯到網站系統架構可以怎麼搭配,相關文章 2015 年寫過「Dcard – 前端框架網站( AngularJS )的搜尋引擎優化( SEO )挑戰」,絕對是又硬又實在的內容了~ 哈
#SEO #關鍵字 #行銷 #Googlebot #Facebookbot #爬蟲 #JavaScript #技術相關
這篇文章也拖好久了,還有好多文章債要慢慢還...
![[Crawler] Google 與 Facebook 爬蟲觀察進度 - 它會叫了!(誤)](https://www.mxp.tw/wp-content/uploads/2018/02/28168409_1915520841851686_8362528540397580548_n.png)
- Powered by Mxp.TW -FB2WP-