[Crawler] Google 與 Facebook 爬蟲觀察進度 – 它會叫了!(誤)

標題浮誇請忽略,主要是這兩邊蟲子最近都有人有新觀察。國外這篇文章「Googlebot’s Javascript random() function is deterministic」,作者觀察到 Go […]

[筆記] 沒有 API 也能自造的暴力做法:爬蟲 Crawler

說實在會搞到要寫爬蟲也是下下策,不是個方便的解法。對於用法我就不多做介紹了,工具玩法不是筆記中要傳達的~ (等等被說教壞人怎辦!?XD) 平時要寫爬蟲時,會先使用 CURL 命令列工具測試一次: cu […]

[PHP] 使用正規表示法(RegEx)解析 HTML 文件時,移除特殊字元的陷阱

這幾天都在用 NodeJS 寫爬蟲去測試解析資料,然後昨天要改用 PHP 實作的時候就發生一個詭異問題: 抽出來的文件是正常,但一經過移除斷行的解析時,整個文件編碼就走山了! preg_replace […]

[PHP] CURL 跟隨301、302轉址實現 Google 雲端硬碟檔案下載

這個題目在寫爬蟲的時候算滿常見會要解決的問題。 正好這次因為要爬的對象把資料改放到 Google 雲端硬碟上,所以就來紀錄一下這段程式吧! 是說指令版的 curl 實在是超好物,一跨到程式上就麻煩不少 […]

[PHP] 爬蟲使用 DOMDocument 解析網站時 UTF-8 亂碼

如果你用這方法去解析網站時發現亂碼,那你絕對不孤單XD 至今這問題都還沒被原生解決,不過網路上的解法很有用: $dom = new DOMDocument(); $dom->loadHTML(m […]