本篇文章更新時間:2019/02/16
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知。
一介資男的 LINE 社群開站囉!歡迎入群聊聊~
如果本站內容對你有幫助,歡迎使用 BFX Pay 加密貨幣 或 新台幣 贊助支持。
如果你用這方法去解析網站時發現亂碼,那你絕對不孤單XD 至今這問題都還沒被原生解決,不過網路上的解法很有用:
$dom = new DOMDocument();
$dom->loadHTML(mb_convert_encoding($data, 'HTML-ENTITIES', 'UTF-8'));
上面這串就是在載入爬蟲爬到的網站原始碼要匯入解析前都直接先轉成 HTML-ENTITIES
格式,如此被轉譯回來時就會正常。
註:如果你爬的資料不是 UTF-8 格式就記得替換上面的參數,避免結果輸出不正確哦!
另還有網友去做評測方法執行速度,可以參考這篇Gist
#爬蟲 #PHP #分析 #網站 #DOMDocument #UTF8 #HTMLENTITIES #亂碼 #技術相關
- Powered by Mxp.TW -FB2WP-
發佈留言