シンポジウム「インターネット検索の未来」 - ねごとと、たわごとと、もうそうと（別館）

本日、早稲田大学にて開催されたインターネット検索の未来シンポジウムを聴講してきました。

以下、かなり大雑把（かつ投げやり）にメモしておいたものを公開します。

（ちなみに公演の様子は、一部を除き、後ほどオンライン公開（動画？）されるとのことでしたので、そちらをﾜｸﾜｸﾃｶﾃｶしながら待つのも手かと…）

基調講演「ヤフーサーファーによるインターネット検索のノウハウ」

講師は初代「検索の鉄人」こと関祐司さん。

現在の肩書きは「ヤフー株式会社検索事業部サーファー部部長」。部署名が(・∀・)ｶｺｲｲ!!
（検索結果を人手でチェックしつつ、検索エンジンの性能評価等を行う部隊なんだそうです）

検索の５原則はＲＣＦＰＴ

R: Relevancy (関連性、検索精度)

C: Comprehensiveness (網羅性、包括性)

F: Freshness (更新性、情報鮮度)

P: Presentation (閲覧性、表示訴求)

T: Trust (信頼性、信用度)　← これは上の４つにより実現される

Web検索エンジンの仕組みの説明
（学生さん向けの簡単な説明でした。詳細は略）

検索テクニック

ロングテール的考え方。ヘッドを狙うのか、テールを狙うのかで、検索テクは異なってくる

ヘッド（有名どころのページ）を狙う→シンプルなキーワード（e.g. 「ゴールデンウィーク」）

テール（ニッチなページ）を狙う→キーワードを組み合わせる。
この際、確実に検索対象ページに存在しそうなキーワードを組み合わせるのがコツ。
（e.g. タバコに含まれるニコチン量を調べる場合「タバコニコチン量」ではダメで、
「タバコマイルドセブンピースニコチン mg」とかにする）

特殊なフレーズの活用（e.g. 求人情報を探しているなら「当社規定により優遇」で検索）

除外するキーワードの活用（e.g. 「ゴールデンウィーク -海外 -イベント」)

オプションの利用（ドメイン限定、ファイルタイプ限定、表記ゆれ、言語限定）

Virtical Search

いろいろあるので使ってね（登録サイト、画像、知恵袋など）

最近スタートしたブログ検索がオススメ。キーワードの注目度がグラフ表示される。
例えば「食中毒」でブログ検索した際に表示される注目度グラフを見ると、実は梅雨時よりも秋の方が「食中毒」というキーワードを含むブログが書かれていることがわかる。ちなみにグラフ上でマウスをドラッグすると、選択した期間に検索結果を絞り込むことができる。

ページの吟味 (サーファー部ではこんな感じにページを吟味しています、的なtips)

ドメイン・URLの確認

誰（どの団体）の情報であるか？

いつの情報か？

サイト内の他のコンテンツの確認？

ドメイン内での再検索

そのページにリンクしているページの確認

アーカイブの確認（with Internet Archive: Digital Library of Free & Borrowable Books, Movies, Music & Wayback Machine)

ページのトラフィック（with Keyword Research, Competitive Analysis, & Website Ranking | Alexa）

パネルディスカッション「検索の未来を語る」

参加者は

井上俊一さん（ヤフー株式会社検索事業部事業部長）
→ 井上俊一 / エッセンシャル・サーチエンジン - CNET Japan

国枝学さん (NTTレゾナント株式会社ポータル事業部本部メディア事業部長

徳末哲一さん (ファストサーチ＆トランスファ株式会社代表取締役社長)

八尋俊英さん（経済産業省商務情報政策局情報経済企画調査官）

橋本大也さん（データセクション株式会社代表取締役）
→ 情報考学 Passion For The Future

山名早人教授（早稲田大学理工学研究科教授）
→Yamana Lab. – Yamana Laboratory, Waseda University.

山名先生（イントロ）

増加を続けるWebページ → 全体で375億ページ？

検索エンジンのインデックスは42億〜81億といったところ。これでいいんだっけ？網羅性は？インデックスすべきページの取捨選択は？

一般ユーザに使いにくい現在の検索エンジン。

検索エンジンの面白い活用方法はいろいろある（ありそう）

"IMG_0001.jpg" で画像検索すると、キャノンのデジカメで一番最初に撮った（と思われる）写真一覧が取得できる（Google Hacks のネタ？）

翻訳サポートシステムの構築。例えば前置詞に悩んだら、検索エンジンに問い合わせ。
(e.g. "run * gasoline" で検索 → "on" と "by" の検索結果 → "run on gasoline" と "run by gasoline" で検索 → Hit数の多い "run on gasoline" が正解っぽい )

八尋さん

「情報大航海時代」→ 詳しくは経済産業省のサイトの資料を参照してほしい

第1回研究会　議事要旨・配布資料

第2回研究会　議事要旨・配布資料

未来の検索：映像と言語情報の紐付けとか、感性・概念への拡張とか…

検索対象も、実世界・ユビキタスネットワーク上のものになるのでは
→検索解析共通プラットフォーム構想

日本は情報大航海時代における「強国」となるためには、今から正しい方向に舵取りをする必要がある

参考までにヨーロッパにおいても Quaero（クエロ）プロジェクトが発足している。
（参考：仏政府が「検索エンジン」開発計画、グーグルに対抗)

非直線系なランキング？（概念ベース？）KartOOちっくな方向？

検索・映像配信・広告の統合？

フランスがかなり乗り気。フランステレコム等が参加。
一応エスカルゴ研究所の社員なんですが、ぜんぜん知らなかったよ (ﾟ∀ﾟ)ｱﾋｬﾋｬﾋｬﾋｬ

井上さん

「人々が相互をつながり知識共有できる世界最大のプラットフォームの提供」が目的

現状「Webページ＝知識」なので検索サービスを提供しているが、今後は他のコンテンツに移っていく可能性も大いにある

現状の検索サービスの問題点

評判・意見の抽出ができない（esp 人によって解釈が違う問い「女性が乗りやすい車？」）

個人の趣味・嗜好が反映されない（e.g 車のゴルフ vs スポーツのゴルフ）

キーワードを入れないと何もでない（笑）
→ １クエリあたりのキーワード数：1.36 word (2005/2), 1.45 word (2006/2)

ソーシャル・サーチ

コミュニティにたまっている知識をいかに共有するか？

ソーシャルサーチの要素：コンテンツ、ソーシャルネットワーク、アカウント（他サービス連携のため）、マイ・ランク

国枝さん

消費行動モデル：AISCEAS

A: Attention

I: Interest

S: Search ← ここよりSearch

C: Comparison

E: Explanation ← ここより CGM

A: Action

S: Share

インターネットを利用する理由

調べ物 ← やっぱりこれが多い。従来型（目的があってwebを使う）

暇つぶし、なんとなく ← 何気にけっこういるらしい（目的がなくwebを使う）

「Web検索で問題が解決するか？」というアンケート（５万人対象）

約４割の人が、解決できていないと回答

「複数サイト/専門サイトを利用」という回答を加えると85%がWeb検索単独での解決に失敗

徳末さん

エンタープライズ向け検索ソリューションの提供がメイン。

エンタープライズ・サーチのキーワードは「Mission Critical」

取り扱う情報のサイズはEB。ここでEとは(1000兆のこと）。
G(giga:10^9)→T(tera:10^12→P(peta:10^15)→E(exa: 10^18)

膨大かつunstructuredなデータをどう処理するか？

意味論的なインデクシング

検索サービスはむしろ始まったばかり。「理想的な」検索エンジンが実現されるには、まだあと１０年〜２０年は必要なのでは？

橋本さん

「といえばサーバ」：共起情報から連想関係を抽出し「○○といえば、××」的な情報を提示

コンテンツマッチ：情報内の地名 → 近いホテルの広告を出す

ブログマイニングASP: 格安価格でマイニングサービスを実現（辞書メンテ、クローリング等すべてお任せ）

テレビブログ

地上波の番組に対して、人手でメタデータを付与

ソニーの VAIO Type X ビデオステーションを持つユーザは、このメタデータを用いたナビゲーションを利用可能

プログラムに対するトラックバックができる

TVBlogPlayerを使うと、字幕のようにメタデータを見ることができる。またユーザがメタデータを付与することができる

ネット検索の今後

インデックスのアルゴリズムの時代 → インタフェースとコミュニケーションの時代
情報を「引き出す」技術が鍵となる

インタフェース：
Google Maps (「藤沢市のラーメン屋」と検索した際でも、ちょっとドラッグすると隣町（鎌倉市）のラーメン屋情報（元のキーワードと直接リンクしないrelevantな結果）が表示される）
Google Suggest（ド忘れした単語をユーザより引き出す）

コミュニケーション：対話の中から引きだす。

検索力＝アルゴリズム × インタフェース × コミュニケーション

Webを、データベース以上の知識創造と共有のプラットフォームに作り変える次世代検索エンジンが求められているのでは？