操作網頁中修改 HTML 元素屬性的需求時,從單純字元取代到正規表達式(Regex)找字串取代到最後是使用 DOMDocument 方法來找元素操作都可以。 不過除了 DOMDocument 方法,其他方式都有機會把網頁 HTML 結構破壞掉,所以我大多都會採取 DOMDocument 方法來處理。 …
標籤彙整: DOMDocument
[PHP] 使用 DOMDocument 方法存取 HTML 片段,發生異常解法
寫爬蟲不是撈回來就行,還有一系列整理的功夫。 其中 PHP 使用 DOMDocument 也是比較好的解法! 這幾天再把爬回來的 HTML 片段資料做屬性置換時發生一些問題,又以下面這個問題最離奇! 一段
…
[PHP] 爬蟲使用 DOMDocument 解析網站時 UTF-8 亂碼
如果你用這方法去解析網站時發現亂碼,那你絕對不孤單XD 至今這問題都還沒被原生解決,不過網路上的解法很有用: $dom = new DOMDocument(); $dom->loadHTML(mb_convert_encoding($data, ‘HTML-ENTITIES’, ‘UTF-8’ …