爬蟲 – 一介資男

[WordPress] 搭配 Cloudflare WAF 規則減少網站被攻擊的幾個做法

昨天網站開始大量收到一組來自中國 IP 的請求，請求時間都很短，實屬惡意爬蟲的砍站行為。收到警示通知後就把那整組 IP 丟給 Cloudflare WAF 防火牆功能給設定封鎖。直到今天都還在很努力地爬，完全沒發現自己已經被封鎖了。更多類似的資安防護操作筆記可以參考： [Fail2ban] 同 …

閱讀全文〈[WordPress] 搭配 Cloudflare WAF 規則減少網站被攻擊的幾個做法〉

[WordPress] 外掛庫分析統計資訊（截至 2022/08/27）

最近寫了個爬蟲，把 WordPress 外掛庫爬完後，統計資訊如下：外掛庫總數：96293 筆還在架上的：59041 筆還在架上，但沒有 readme.txt 宣告檔案的： 6799 筆不在架上，也沒有 readme.txt 宣告檔案的： 14437 筆啟用安裝數大於一百萬的外掛 Slug …

閱讀全文〈[WordPress] 外掛庫分析統計資訊（截至 2022/08/27）〉

[Nginx] 阻擋惡意請求來源（User-Agent）的方法

現在只要一開站，就有無數的「機器人（爬蟲、Bot）」來光臨，而一個內容網站機器人通常應該要比真人瀏覽來得少，如果這比例失衡，滿有可能「網站正在被攻擊」。面對這種「可能的」攻擊，就要做出防範，以免問題擴大。後果：因為太多機器人請求網站，導致網站主機資源不足，停止服務（DDoS攻擊）。網站已經有 …

閱讀全文〈[Nginx] 阻擋惡意請求來源（User-Agent）的方法〉

[PHP] 不用 Instagram API 取得照片列表的方法（爬蟲）

有鑒於 Instagram 發了個公告，表示 2020/06/29 後就要取消所有舊版本 API 存取，都移轉至 Facebook Graph API 的方式整合進 Facebook 中。 Instagram 其實 2019 年就已先公告過，所以近期很多 WordPress 裡原本使用好好的方法都開 …

閱讀全文〈[PHP] 不用 Instagram API 取得照片列表的方法（爬蟲）〉

[AMP] 零開發零負擔的 AMP 頁面產生方式

51934328 2541235439280220 7671234391531585536 N

是 Postlight 這家公司的一個爬蟲解析應用之一。 AMP Converter 這隻爬蟲程式前陣子開源了：Mercury Web Parser 很強大～回到這個 AMP 轉換方式也好有創意，畢竟本來就沒說一定要同一個網域來吐 AMP 資料，過這個 API 方法先把網站內容分析完後再轉為 AM …

閱讀全文〈[AMP] 零開發零負擔的 AMP 頁面產生方式〉

[Crawler] Google 與 Facebook 爬蟲觀察進度 – 它會叫了！（誤）

28168409 1915520841851686 8362528540397580548 n

標題浮誇請忽略，主要是這兩邊蟲子最近都有人有新觀察。國外這篇文章「Googlebot’s Javascript random() function is deterministic」，作者觀察到 Google 爬蟲執行 JavaScript 有一個自己的「道理」，這塊有興趣自己看文章便知一二，而我的 …

閱讀全文〈[Crawler] Google 與 Facebook 爬蟲觀察進度 – 它會叫了！（誤）〉

[筆記] 沒有 API 也能自造的暴力做法：爬蟲 Crawler

說實在會搞到要寫爬蟲也是下下策，不是個方便的解法。對於用法我就不多做介紹了，工具玩法不是筆記中要傳達的～（等等被說教壞人怎辦！？ＸＤ）平時要寫爬蟲時，會先使用 CURL 命令列工具測試一次： curl -b cookie -c cookie https://www.mxp.tw/login -d …

閱讀全文〈[筆記] 沒有 API 也能自造的暴力做法：爬蟲 Crawler〉

[轉貼] Headless Chrome 使用 Puppeteer NodeJS API 實作爬蟲

22814043 1747644405305998 341408037801848392 n

剛看到這篇「A Guide to Automating & Scraping the Web with JavaScript (Chrome + Puppeteer + Node JS)」爬蟲實作指南，寫得很詳細，值得收藏筆記一下！透過 Puppeteer 這套件能將瀏覽器行為程式模組化， …

閱讀全文〈[轉貼] Headless Chrome 使用 Puppeteer NodeJS API 實作爬蟲〉

[PHP] 使用正規表示法（RegEx）解析 HTML 文件時，移除特殊字元的陷阱

這幾天都在用 NodeJS 寫爬蟲去測試解析資料，然後昨天要改用 PHP 實作的時候就發生一個詭異問題：抽出來的文件是正常，但一經過移除斷行的解析時，整個文件編碼就走山了！ preg_replace(‘/s+/’, ‘ ‘, $content); 怎麼想都是 preg_replace 這方法幫我加 …

閱讀全文〈[PHP] 使用正規表示法（RegEx）解析 HTML 文件時，移除特殊字元的陷阱〉

[PHP] CURL 跟隨301、302轉址實現 Google 雲端硬碟檔案下載

這個題目在寫爬蟲的時候算滿常見會要解決的問題。正好這次因為要爬的對象把資料改放到 Google 雲端硬碟上，所以就來紀錄一下這段程式吧！是說指令版的 curl 實在是超好物，一跨到程式上就麻煩不少了ＸＤ <?php //Ref: http://php.net/manual/en/ref.c …

閱讀全文〈[PHP] CURL 跟隨301、302轉址實現 Google 雲端硬碟檔案下載〉

標籤彙整: 爬蟲