2006年11月26日

次世代検索はキーワードいらず〜「見えざる関係」の可視化がカギ

 旧来のキーワード検索は、必要なことがすべて記述されていることを前提にしている。用語の統制が取れている新聞記事や論文ならよいが、多様な人々が思い思いの言葉で綴るカジュアルなブログやBBSには太刀打ちできない。

 次世代の検索技術では、文章の特徴を抽出して似ている記事を探す機能や、個々の記事ではなく筆者を単位として検索する機能などが注目される。

 「見えざるキーワード」とでも呼ぶべき語句がある。より頻繁に使われるキーワードに隠れてしまって意識されないが実は一意性がより高く、より検索に向いたキーワードのことである。検索対象の分野について予備知識がないと、それがキーワードであるとも気づかない。以前に書いた専門用語の難しさと根は同じだ。

 このようなキーワードを使った検索を、そのキーワードを知らなくても実行できるようにしたい。というわけで、私のサイトのBBSでキーワードの自動分類と一覧表示ができるようにしてみた。ただ、これではユーザーにとって「見えざる」キーワードはやはり「見えざる」ままである。ユーザーにキーワードの入力を要求するよりは親切であるが、まだまだ不親切である。

 記事の概要を見てユーザーが記事を選ぶ、あるいは記事のグループを選ぶことにより、内部でキーワードが選ばれていき、次に出てくる記事やグループほどユーザーの探しているものに近づくという仕組みがよいのではないか。これは、書店や図書館の書棚に関連する本が順に並んでいて、その前を行ったり来たりする感覚に近い。

・雑誌富士通「電子図書館システムのためのブラウジング検索機能」(1998年11月)
 http://magazine.fujitsu.com/vol49-6/paper03.pdf
 http://magazine.fujitsu.com/vol49-6/

 電子図書館の実現に必要と考えられて開発されてきたものが既にいろいろある。3DやらVRやらを使おうというところには時代を感じるが、基本的な部分では電子図書館という狭いフィールドに留まらず、インターネット上のあらゆる情報に対して広く適用できるものになっている。

・BroadBand Watch「【CEATEC JAPAN 2006】情報大航海プロジェクト、次世代検索技術の先行調査結果を展示」(2006年10月6日)
 http://bb.watch.impress.co.jp/cda/event/15690.html

 富士通は今でもマルチメディアっぽいのが好きなようだ。それはともかく、ソフトバンクのデモにあるような、ブックマーク、リンク、トラックバックという明示的な関係に基づいて情報を提示するというのは、今すぐできることである。既にあるYahoo!の機能やユーザーを活用(動員ともいう?)できるのだから、なかなかのものになりそうである。

 ただ、これではキーワード検索における「見えざるキーワード」と同じ問題が起きてしまう。いわば「見えざるリンク」とでもいうべきもの、つまり、諸々の理由でリンクやトラックバックをしないまま他のブログの記事に言及(反論)している場合、その関係性を反映させることはできない。

 例えば、同じ時期に同じ話題があちこちで書かれている時には、どこかに元となる記事があるのが常であるが、大方の記事においては「ここを見る人なら知っているはずだから改めて書くまでもないだろう」と、元記事を挙げることなく反応だけが書かれていたりする。さらに、元記事の出どころが有名であればあるほど、出どころが書かれないことが多くなる。つまり、リンクやトラックバックがされていない記事の量は、その話題の展開している範囲の広さを知るための指標になる。

 あるいは、よほど敏感な話題である場合、フレーミング(いわゆる「炎上」)を防ぐためにリンクもトラックバックもしないということもある。こういう場合には、リンクしないということが逆に強い関係性を示すことになる。

 膨大な情報を速く正確に俯瞰するには、情報と情報の「見えざる関係」を読み解くのが近道だ。「見えざるキーワード」のような核心的なキーワード、記事同士の類似性、暗黙の関係性など、従来のキーワード検索が取りこぼしてきた情報をもれなく活用することが必要になる。

 以下は余談だが、インターネット上の情報を探すための検索システムが一枚岩である必要はどこにもない。こういう情報はこちらで、ああいう情報はあちらで、そういう情報はそちらで…という、検索サイトの住み分けがあっていい。また、よりローカルな情報や専門的な情報は、より小さなサイトの中で探すといった階層化も有効だろう。これまでよりも相対的に「サイト内検索」の機能が重要になってくることも考えられる。

 これからは情報を発信する側が、情報の検索性や保存について大きな責任を持たなければならなくなってくるのは確かだ。まともな検索のできないサイトはそれだけで評判を落とし、古い情報をきちんと保存できないサイトはそれだけで信用を失う…という時代になるかも知れない。あるいは、サイトの運営ができなくなったところからコンテンツを買い取って公開し続けるような、ウェブ版ナショナルトラストのような活動も成立していくのかも知れない。

 アクセス性が保証され質も高いコンテンツがいろいろな方法で蓄積されていけば、わざわざ電子図書館など作らなくてもいいではないか、という気もする。むしろ、いかにして一刻も早くコンテンツの保存に目を向けていくかが問われているのではないか。未来から見た時に、コンテンツの保存が途絶えている「空白の10年」になるような時代をみすみす作ってはならない。インターネットに関わるすべての人が、もっと危機感を持つべきではないだろうか。
posted by tht at 18:16 | コメント (0) | トラックバック (0) | imolist!
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。
この記事へのTrackBack URL
http://blog.sakura.ne.jp/tb/1838694
※ブログオーナーが承認したトラックバックのみ表示されます。