網頁

2011年12月21日 星期三

[野人獻曝] Facebook Comment Plugin

這次使用不同方式來寫文章,所以內容不放在 blogger 上。

[野人獻曝] 某個WebProxy的......使用方法?

這一篇來告訴各位ProxyPy這個Web Proxy的......嗯......使用方法?

首先,可以確定一點的是,
ProxyPy載入網頁的uri格式是:
http://xxx.appspot.com/u?purl={query_string}

這個query_string就是代表你要瀏覽的網頁,
看起來可能蠻亂七八糟不知所云,
但說穿了也不過是經過一些處理過程而已。
主因當然是避免有人知道這串query_string所代表的網址是什麼。

不過本篇文章不是要來解釋怎麼解開那串query_string,
而是要解釋一下ProxyPy是怎麼處理那串query_string的(雖然看完以後你也會解就是了(汗))。

簡單來說,這串query_string經過了以下的處理步驟:
  • 把網址文字反轉,如 http://tw.yahoo.com/ 反轉成 /moc.oohay.wt//:ptth
  • 再將上述反轉的字串用 base64 重新編碼過,所以會得到 L21vYy5vb2hheS53dC8vOnB0dGg= 這組字串
  • 接著再把上述字串處理過,使其符合RFC1738的規則
經過這些步驟你就可以得到以下的url:
http://xxx.appspot.com/u?purl=L21vYy5vb2hheS53dC8vOnB0dGg%3D

知道了這個編碼規則以後,
相信搭配前一篇文章後(還有某一篇關於爬資料的文章),
你應該就知道可以作些什麼事了吧(笑)。

文章最後再提一下,
很多Web Proxy也是使用類似的方法來處理,
所以在踹的時候也可以把這些步驟拿來試試看喔^.<

2011年12月5日 星期一

[野人獻曝] 利用Google來找出架在appengine上的Web Proxy

因為大人的原因,
所以我要透過很多Web Proxy去代替我爬資料,
不過由於我手上根本沒這麼多Proxy可用,
又加上有人把Google Appengine當成一種Proxy來用,
所以......我就毫不知恥的直接寫程式讓Google幫我爬這些資料了(心虛)。

原始碼在這,有興趣想玩的請參考。

解釋一下原理好了,
基本上只是利用Google幫我查詢「Powered by ProxyPy v1.4 site:appspot.com」這個字串,
我再把裡面的網址用正規式爬出來而已,
算是個相當簡單的小工具。

不過要注意一下,
由於Google對於頻繁的查詢是會有ban掉的措施,
所以使用時請自重,
否則弄到同一區域網路的其他人不能用就好笑了。