(/ω\)ハズカシーィ

今日は今日とて、TinyHTTPProxy を参考にしつつ、にしきへびさん (python) と戯れておりました。


やろうとしている事は単純で、ブラウズしたページのhtmlを、ちょっとした付加情報と共にHTTP proxy 上に保存しておきたいだけだったりします。(研究の種として後ほど活用)



…が、しかし。なぜかうまく html が保存できません(泣)



てか、まったく取得ができないならまだ状況はクリアなのですが、いやらしいことに80%ぐらいのサイトについては、ちゃんと保存ができちゃったりします。
でも、残りの20%については、なんかうまく保存できない。


(例)
 http://www.asahi.com/ はOK
 http://mixi.jp/ はNG


仕組みは単純で…



お外の世界 ---> (お手製proxy) ---> ブラウザ

               | html っぽいデータストリーム
               | のみを fetch
               ↓
           ログにつらつら



こんな感じです(わかりにくいかもw)
で、おいらが作成したのは fetch部分のみなんですが、なぜかうまく取れないページがあるっぽいのです(泣)


おかしいなぅ…
なんでかなぅ…
しょうがないから、うまく表示できないページの時、どんなストリームなのか覗いてみよう…



                                                                • -
ほげほげ…
ほげほげ…
Content-Encoding: gzip


Σ(゜Д゜)





すっかり gzip圧縮転送 のことを、忘れてたYO!


えと。
おいら、すっかり、さーばからは、いつも、なまの、えいちてぃーえむえるが、ちょくせつおくられてくるもんだと、おもいこんでいたよ…


てか、gzip圧縮転送って、かつて2ちゃんねるが崩壊の危機を迎えた時に、転送量削減の決定打になった、アレじゃないですか(← ということで、知ってたのにド忘れしてたw)



(/ω\)おはずかすぃ…



参考:
モナジェクトX 巨大掲示板を救え 〜2ちゃんねる・UNIX板の挑戦〜
関連フラッシュ