（/ω＼）ハズカシーィ - ねごとと、たわごとと、もうそうと（別館）

今日は今日とて、TinyHTTPProxy を参考にしつつ、にしきへびさん (python) と戯れておりました。

やろうとしている事は単純で、ブラウズしたページのhtmlを、ちょっとした付加情報と共にHTTP proxy 上に保存しておきたいだけだったりします。（研究の種として後ほど活用）

…が、しかし。なぜかうまく html が保存できません（泣）

てか、まったく取得ができないならまだ状況はクリアなのですが、いやらしいことに80%ぐらいのサイトについては、ちゃんと保存ができちゃったりします。
でも、残りの20%については、なんかうまく保存できない。

(例)
　http://www.asahi.com/　はOK
　http://mixi.jp/ はNG

仕組みは単純で…

お外の世界 ---> (お手製proxy) ---> ブラウザ

　　　　　　　　　　　　　　　｜ html っぽいデータストリーム
　　　　　　　　　　　　　　　｜ のみを fetch
　　　　　　　　　　　　　　　↓
　　　　　　　　　　　ログにつらつら

こんな感じです（わかりにくいかもｗ）
で、おいらが作成したのは fetch部分のみなんですが、なぜかうまく取れないページがあるっぽいのです（泣）

おかしいなぅ…
なんでかなぅ…
しょうがないから、うまく表示できないページの時、どんなストリームなのか覗いてみよう…

































































-

































    
     ほげほげ…
    
    
     ほげほげ…
    
    
    
    
     Content-Encoding: gzip

Σ(゜Д゜)

すっかり gzip圧縮転送のことを、忘れてたＹＯ！

えと。
おいら、すっかり、さーばからは、いつも、なまの、えいちてぃーえむえるが、ちょくせつおくられてくるもんだと、おもいこんでいたよ…

てか、gzip圧縮転送って、かつて2ちゃんねるが崩壊の危機を迎えた時に、転送量削減の決定打になった、アレじゃないですか（← ということで、知ってたのにド忘れしてたｗ）

（/ω＼）おはずかすぃ…

参考：
モナジェクトX　巨大掲示板を救え〜２ちゃんねる・UNIX板の挑戦〜
関連フラッシュ