有鑒於 Instagram 發了個公告,表示 2020/06/29 後就要取消所有舊版本 API 存取,都移轉至 Facebook Graph API 的方式整合進 Facebook 中。 Insta […]
標籤彙整: 爬蟲
[AMP] 零開發零負擔的 AMP 頁面產生方式
是 Postlight 這家公司的一個爬蟲解析應用之一。 AMP Converter 這隻爬蟲程式前陣子開源了:Mercury Web Parser 很強大~ 回到這個 AMP 轉換方式也好有創意,畢 […]
[Crawler] Google 與 Facebook 爬蟲觀察進度 – 它會叫了!(誤)
標題浮誇請忽略,主要是這兩邊蟲子最近都有人有新觀察。國外這篇文章「Googlebot’s Javascript random() function is deterministic」,作者觀察到 Go […]
[筆記] 沒有 API 也能自造的暴力做法:爬蟲 Crawler
說實在會搞到要寫爬蟲也是下下策,不是個方便的解法。對於用法我就不多做介紹了,工具玩法不是筆記中要傳達的~ (等等被說教壞人怎辦!?XD) 平時要寫爬蟲時,會先使用 CURL 命令列工具測試一次: cu […]
[轉貼] Headless Chrome 使用 Puppeteer NodeJS API 實作爬蟲
剛看到這篇「A Guide to Automating & Scraping the Web with JavaScript (Chrome + Puppeteer + Node JS)」爬蟲 […]
[PHP] 使用正規表示法(RegEx)解析 HTML 文件時,移除特殊字元的陷阱
這幾天都在用 NodeJS 寫爬蟲去測試解析資料,然後昨天要改用 PHP 實作的時候就發生一個詭異問題: 抽出來的文件是正常,但一經過移除斷行的解析時,整個文件編碼就走山了! preg_replace […]
[PHP] CURL 跟隨301、302轉址實現 Google 雲端硬碟檔案下載
這個題目在寫爬蟲的時候算滿常見會要解決的問題。 正好這次因為要爬的對象把資料改放到 Google 雲端硬碟上,所以就來紀錄一下這段程式吧! 是說指令版的 curl 實在是超好物,一跨到程式上就麻煩不少 […]
[PHP] 爬蟲使用 DOMDocument 解析網站時 UTF-8 亂碼
如果你用這方法去解析網站時發現亂碼,那你絕對不孤單XD 至今這問題都還沒被原生解決,不過網路上的解法很有用: $dom = new DOMDocument(); $dom->loadHTML(m […]