6.1  ネットワークを利用した情報検索

                      東洋大学社会学部助教授  海野 敏


1.はじめに
 インターネットの急速な発展と爆発的な普及によって、情報検索をとりまく情勢は大きく転換しつつある。本講義においては、いままでの情報検索研究の枠組みを確認したうえで、その枠組みがどのように転換しつつあるのかを論じ、さらに、いまネットワークを利用した情報検索をめぐってどのような研究課題が提示されているのかを概観する。

2.インデクシングとリトリーバル
 一般に、巨大な情報空間から役に立つ情報を引き出すための処理は、個別の情報要求が発生する以前の「予備的処理」と発生した時点での「探索的処理」に分けられる。
 いま、情報空間Sが「単位をなす情報」dの集合であるとすると、従来の情報検索の基本的なプロセスは次のようなモデルによって表現することができる。
 (1)一次情報diの属性群を標準化して記述することで二次情報di'を生成する
 (2)di'を手がかりにして、diの情報空間Sにおける位置が検索できるようにする
 (3)ユーザの情報要求qiを標準化して記述することで質問表現qi'を生成する
 (4)qi'とすべてのdi'を照合し、適合性(relevance)の高いdi'のみを識別する
 (5)di'を手がかりにしてSからdiを入手する
 これらは、(1)〜(2)が予備的処理で、巨大な情報空間に厳密な構造を与えておくプロセスであり、(3)〜(5)が探索的処理で、その構造を用いて情報要求に合致する情報を抽出するプロセスである。予備的処理は広義の「索引」、探索的処理は狭義の「検索」と考えられる。ここでは前者をインデクシング(indexing)、後者をリトリーバル(retrieval)と呼ぶことにする。このモデルは、19世紀以来の「資料」(とりわけ印刷物)に対する情報検索の実践において、暗黙のうちに培われてきたものである。
 いままでの情報検索研究の中心的課題は、インデクシングとリトリーバルの手法を改善することによって検索効率を向上させることであった。例えば、目録作成やメタデータ生成、分類やクラスタリング、キーワード抽出やディスクリプタ付与、語彙コントロール、索引語の重み付けなどは、インデクシングに関連する研究課題であり、ブール検索やファジィ検索、ランキング出力やレレバンスフィードバック、検索語の重み付けなどは、リトリーバルに関連する研究課題である。

3.ネットワーク情報資源の検索
 インターネットで流通しているネットワーク情報資源(networked information resources)は、物理的な実体や地理的な所在から自由であり、情報の発信、入手、加工、改変などに要するコスト(時間×費用×労力)が、印刷物を中心とする従来の情報資源に比べて非常に小さい。そのために、ネットワーク情報資源の検索においては、以下のような理由で、いままでのインデクシング+リトリーバルの手法が必ずしも適当ではなくなってきている。
 (a)情報空間Sの膨張と変容が急激なため、Sに、逐次厳密な構造を与えている時間的余裕がない
 (b)情報加工の低コスト化により、二次情報di'を一次情報diから分離して操作する必要がない
 (c)ハイパーテキスト(hypertext)の浸透により、情報の断片化と癒着が進み、単位をなす情報diが明確に識別できない
 (d)無益無用な情報が氾濫しているため、はじめから効率のよい検索を行うことがきわめてむずかしい
 (e)検索時の試行錯誤が低コストになったため、はじめから効率のよい検索をする必要がない
 (f)ノービスユーザの割合が高く、専門的な知識を必要とする検索手法が適当でない
 以上のような理由で、ネットワーク情報資源の検索においてはインデクシング+リトリーバル以外の手法も求められている。

4.ブラウジングとスクリーニング
 ネットワーク情報資源の検索においては、インデクシング+リトリーバルの枠内のみで処理を行っていたのでは、ある程度以上の検索効率をあげることがむずかしい。そこで注目すべきなのは、インデクシング+リトリーバルの枠外に位置づけられることができる二つの処理である。それらがすなわち予備的処理としてのスクリーニング(screening)と、探索的処理としてのブラウジング(browsing)である(図1を参照)。
 スクリーニングとは、役に立ちそうな情報だけ選別することであり、情報空間に厳密な構造を与えることはせず、ユーザの情報要求を予測して情報をおおざっぱにすくいあげておく作業である。
 印刷物の時代には、生産・流通にコストがかかったため、編集、出版などの活動を通して生産・流通する情報は自然と限定され、スクリーニングは潜在化していた。しかし、ネットワーク情報資源の時代になって、スクリーニングはまだ社会的水準で安定的に機能していない。インターネットの空洞化が指摘される大きな理由はここにあると考えられる。
 一方、ブラウジングとは、役に立ちそうな情報を明確な方略を持たないまま探すことであり、情報要求に合致する情報のみを精確に抽出することはせず、ユーザが試行錯誤を繰り返しながら情報を探し歩く作業である。
 印刷物の時代には、ブラウジングは一次情報あるいは二次情報に対して個人的に行う作業であり、リトリーバルを補足する作業に過ぎなかった。ネットワーク情報資源の時代になってWWW(World Wide Web)の仕組みがハイパーテキストを実現し、ブラウジングは一気に一般的な情報検索の作業に組み込まれるようになった。そもそもハイパーテキストは、連想に基づくブラウジングを支援する仕組みと考えることができる。

図1 情報検索の新しい枠組み

5.新しい研究課題
 ネットワーク情報資源の検索においても、インデクシング+リトリーバルが重要な研究課題であることに変わりはない。ネットワーク情報資源をめぐる新しい課題としては、次のようなものがある。
  ・ランキング出力(ranking output)の性能向上
  ・インデクシングロボット(indexing robot)の性能向上
  ・画像・音声データへの言語または非言語によるインデクシング
  ・メタデータの標準化(Dublin Core, Resource Description Framework, etc.)
 一方、スクリーニングに関しては、次のような新しい課題が登場している。
  ・ソーシャルフィルタリング(social filtering/collaborative filtering)
  ・プロファイリング(profiling)に基づく情報提供サービス
  ・ホームページ評価の標準化
  ・プッシュ型システムの応用
 さらに、ブラウジングに関しては、次のような新しい課題が登場している。
  ・情報空間の視覚化(visualization)
  ・データマイニング(data mining)
  ・ハイパーテキストの多種化/多重化
  ・「迷子問題」の解消

6.情報をめぐる認知と思考の変容
 ここまで、新しい時代に対応しうる情報検索の仕組みについて展望してきた。ネットワーク情報資源という新しい情報メディアによって情報検索の仕組みは組み変わり、それゆえに情報検索研究は新しい課題に取り組まなければならないのである。
 しかし、ネットワーク情報資源という新しい情報メディアが更新するのは、情報を扱う仕組みだけではない。新しい情報メディアの登場は、そのメディアを通じて情報をやりとりする人間の認知と思考のパターン自体を必ず変容させるからである。かつてマクルーハン(Marshall McLuhan)は、この現象を「メディアはメッセージである」という命題によって表現した。
 来るべき高度情報化社会における情報検索環境を考えるにあたっては、情報を検索する人間の認知・思考パターンがどのように変化し、それによって情報検索行動がどのような影響を受けるかも視野に入れなければならない。なぜなら、効率的な検索システムの設計のためには、人間の理解が不可欠だからである。

7.まとめ
 いままで情報検索研究の中心的な課題は、インデクシングと、それに基づくリトリーバルであった。しかし、ネットワーク情報資源を対象とした検索では、いままで周辺的な課題であったスクリーニングとブラウジングの重要性に注目しなければならない。

参考文献
"From 'storage and retrieval systems' to 'search engines': Text retrieval in evolution" Bulletin of the American Society for Information Science. vol. 24, no. 4, April/May 1998. p.6-20.