UTF8 – 一介資男

[PHP] 使用 filter_var 方法 FILTER_VALIDATE_URL 驗證連結的 Unicode 編碼問題

PHP 裡驗證連結的方法自己寫可能就是使用 parse_url 方法拆結構來判斷。另一個我常用的是 filter_var('https://www.mxp.tw', FILTER_VALIDATE_URL) 這方法。今天突然測試到 FILTER_VALIDATE_URL 方法怎 …

閱讀全文〈[PHP] 使用 filter_var 方法 FILTER_VALIDATE_URL 驗證連結的 Unicode 編碼問題〉

[PHP] 使用正規表示法（RegEx）解析 HTML 文件時，移除特殊字元的陷阱

這幾天都在用 NodeJS 寫爬蟲去測試解析資料，然後昨天要改用 PHP 實作的時候就發生一個詭異問題：抽出來的文件是正常，但一經過移除斷行的解析時，整個文件編碼就走山了！ preg_replace(‘/s+/’, ‘ ‘, $content); 怎麼想都是 preg_replace 這方法幫我加 …

閱讀全文〈[PHP] 使用正規表示法（RegEx）解析 HTML 文件時，移除特殊字元的陷阱〉

[PHP] 爬蟲使用 DOMDocument 解析網站時 UTF-8 亂碼

如果你用這方法去解析網站時發現亂碼，那你絕對不孤單ＸＤ至今這問題都還沒被原生解決，不過網路上的解法很有用： $dom = new DOMDocument(); $dom->loadHTML(mb_convert_encoding($data, ‘HTML-ENTITIES’, ‘UTF-8’ …

閱讀全文〈[PHP] 爬蟲使用 DOMDocument 解析網站時 UTF-8 亂碼〉

2016 年第 44 週 Facebook 同步週報 (5 篇)

本文引用圖文皆取自[來信]告知。 1. (圖片描述：Telepat is an API centric real…) 當有一個服務（Firebase）被 Google 給擁有（買走）的時候，其他類似的產品似乎吸引力就沒這麼大了！？這新創直接寄信來推薦，標題叫「Alternative to Fi …

閱讀全文〈2016 年第 44 週 Facebook 同步週報 (5 篇)〉