(/ω\)ハズカシーィ
今日は今日とて、TinyHTTPProxy を参考にしつつ、にしきへびさん (python) と戯れておりました。
やろうとしている事は単純で、ブラウズしたページのhtmlを、ちょっとした付加情報と共にHTTP proxy 上に保存しておきたいだけだったりします。(研究の種として後ほど活用)
…が、しかし。なぜかうまく html が保存できません(泣)
てか、まったく取得ができないならまだ状況はクリアなのですが、いやらしいことに80%ぐらいのサイトについては、ちゃんと保存ができちゃったりします。
でも、残りの20%については、なんかうまく保存できない。
(例)
http://www.asahi.com/ はOK
http://mixi.jp/ はNG
仕組みは単純で…
お外の世界 ---> (お手製proxy) ---> ブラウザ | html っぽいデータストリーム | のみを fetch ↓ ログにつらつら
こんな感じです(わかりにくいかもw)
で、おいらが作成したのは fetch部分のみなんですが、なぜかうまく取れないページがあるっぽいのです(泣)
おかしいなぅ…
なんでかなぅ…
しょうがないから、うまく表示できないページの時、どんなストリームなのか覗いてみよう…
- -
ほげほげ… ほげほげ… Content-Encoding: gzip
Σ(゜Д゜)
すっかり gzip圧縮転送 のことを、忘れてたYO!
えと。
おいら、すっかり、さーばからは、いつも、なまの、えいちてぃーえむえるが、ちょくせつおくられてくるもんだと、おもいこんでいたよ…
てか、gzip圧縮転送って、かつて2ちゃんねるが崩壊の危機を迎えた時に、転送量削減の決定打になった、アレじゃないですか(← ということで、知ってたのにド忘れしてたw)
(/ω\)おはずかすぃ…