2013年1月28日 星期一

[野人獻曝] 用Phantomjs來抓網站圖

嗯,因為某個專案的需要.......
(我會跟妳說我其實是要做anti22k.org這個專案嗎?)
我又要開始弄網頁截圖的事了。

原本我想取巧,
用以前用過的html2image試試看,
不過很糟的是:
我忘記當初是怎麼設定的了Orz
雖然按照網站教學試著去裝,不過似乎不能用。
因此第一個選項立刻放棄!

接著又Google到一個wkhtmltoimage
他是wkhtmltopdf下的一個子專案,
看起來好像頗讚。
(因為好像只要解壓縮檔案就能用......)
但是解壓縮後執行又跟我哭么「error while loading shared libraries: libXrender.so.1: cannot open shared object file: No such file or directory」,
所以又放棄了......
(其實是不想花時間解.......)

最後找到本文要講的Phantomjs
這東西在linux只要解壓縮後,
再搭配一段script就可以對網頁截圖。
實際的使用方法,這裡有篇中文的文章可以看
照著作就可以抓圖了。

不過要注意一下,
如果抓的網頁不是單純英文字的話,
(就是有中日韓文等文字時......)
要確認系統上有沒有安裝相應的字型,
否則抓出來的圖可能就是一堆方塊。

另外網頁編碼也需要注意一下,
如果不是utf-8的話,可能會碰到亂碼的問題。
如果是對岸gb編碼的話,只要有安裝相應的簡體中文字型應該是可以正常顯示。
張貼留言