diary/20070724

google検索精度低下の考察

2年前にも述べたようにgoogleの検索精度が（私にとって<-ここが重要）悪くなっている．もはや他の検索エンジンと精度的には大差なく一般検索エンジンとしてgoogleを選ぶ理由はなくなった．それでもgoogle scholar等は存在価値があるとは思うが．googleのアルゴリズムはPageRank（ここに詳しい）に基づくもので，それに対して常に改良を加え続けている．そのような努力をしているにも関わらず検索精度が落ちる原因は何か．私はwebページ数の増大とそれに伴うページ内容の普遍化が原因ではないかとの仮説を立てている．世界にどれくらいのwebページがあるかは検索エンジンで「webページ数」「世界」として引いてみるといくつかデータが得られるが，2000年までの統計が多い．21世紀になってwebページ数の総数を正確にカウントするのが不可能なくらいに増えているのだろう．これら増えたページは企業や学校のページではなく，個人のwebページやブログであることは想像に難くない．最近の個人ページの作者は理科系のコンピューターに詳しい人とは限らず，ごく普通の人々であることもwebサーフィンをしていれば分かる．このごく普通の人々が作るページが増えることがページ内容の普遍化に繋がっている．内容普遍化とはページに書かれている内容は理科系やコンピューター関係に留まらないということだ．これらの状況の中でPageRankを計算すると何が起こるか．各ページのPageRankの値が広く薄く分散してしまうだろう．ここが検索精度を（私にとって）悪くしている原因だ．私にとって何の興味もない（がPageRankは高い）ページが検索結果の上位に来てしまう．googleがサービスを始めた1998年からしばらくの間はインターネットユーザーは理科系でコンピューターが好きな人（＝私と価値観が似ている人）が一般的だった．それらのユーザーが作るページ，リンクを張るページから作るPageRankは私の興味度と上手い具合に一致するのは当然だ．だから当時はgoogleの検索は精度が高いと感心して愛用したのだ．だが，今はそうではなくなっている．
googleの検索精度低下問題を解決するには「協調フィルタリング」の考えを導入すると良いかもしれない．現在のgoogleでは誰が検索しても同じキーワードなら同じ結果が出る（検索時刻がずれれば結果は違うが）．これは協調フィルタリングではユーザーの興味や嗜好が画一的な場合に相当する．現実にはユーザーの嗜好はばらばらなのでgoogleの方法ではうまくいかない．協調フィルタリングでは興味や嗜好の似ているユーザー同士を上手にクラスタリングするメカニズムを提供している．ユーザーのクラスタリングが上手くいけば，1998年当時の同じ嗜好を持ったユーザーで構成されたインターネット空間と同じ状況を作れるかもしれない．googleラボでも同じような問題意識の基で研究が進んでいると期待している．実は協調フィルタリングの計算処理はPageRankを求めるときの巨大粗行列の固有値計算と通じる工夫が必要だ．まさにgoogle向きの技術と言える．ぜひ昔のような検索精度の良いgoogleに戻って欲しい．

MENU

日記

新着

diary/20070724

google検索精度低下の考察