6.情報検索サービス

6.1  情報検索の理論と技法

                          学術情報センター教授  根岸 正光


 本講では、いわゆる情報検索サービス、あるいはデータベース・サービスの現況全般について 概括するとともに、これらと大学図書館との関連性について検討することとしたい。近時、「イ ンターネット」の急激な普及とともに、データベース・サービスの世界も様変わりしつつあるか にみえる。これをとらえて、既存の「伝統的」なサービスが全く不要になるかのごとき皮相な理 解もあるようであるが、状況はまさしく「様変わり」、すなわち見かけ上の変革という側面が強 く、本質的部分は不変であると考えられる。しかしながら、情報・通信技術の高度化とそれらの 急速な普及という趨勢の中で、情報の生産と流通の構造的な変革が予期されるような状況になっ ていることも事実であり、これはデータベース・サービスを含めた、情報サービスあるいはコン テンツ・ビジネス一般の変容として、検討してゆく必要がある。

1.データベースと電子化資料
 「データベース」は、元来「データの補給基地」といういみで作られた言葉である。その後の 発展経過の中で、データベースについては、図書館情報学、計算機科学、経営学等々において、 ソフトウエア製品、データ・ファイル、情報サービスなど、異なった対象を想定した議論がなさ れている。また、ワープロなど、何らかの方法で電子化された文書の類を、すべて安易に『デー タベース』と呼称することも多くなっている。さらに昨今は、インターネット上に氾濫する各種 の無料の『情報』へのアクセスをもって、情報検索の主体と考える向きも多くなっており、デー タベースの世界も多様化が進んでいる。
 ここではとりあえず、原資料、原文書の類がそのまま電子化されて流通するものは、これを『 電子化資料』として、データベースとは区別して考えてみたい。ここで両者の相違は、組織化と いう観点にあり、原資料の著者、出版社等とは原則として別の機関・組織によって、収集・蓄積 ・編集・索引付けなど、組織化の工程を経たものをデータベースと考えることにし、単に電子化 された個々の資料や、それらの単なる集合体とは区別してゆく必要があろう。

2.データベースの種別
 データベースに関しては、従来から、内容データの形式に即して、文字、数値、画像型等の区 分、また内容の性格に即して、参照型《目録、索引、抄録》と事実型《全文、数値、画像》、配 信方法に関してはオンライン型とパッケージ型、対象利用者の範囲に即して、商用データベース とインハウス・データベースの区分、さらにデータ内容の分野・利用目的に応じて、ビジネス、 学術、トランザクションといった区分がなされてきた。そして最近は、各種形式のデータを複合 させたマルチメディア型データベースや、無料公開の広告・広報型データベース(商用とインハ ウスの中間形)なども急成長している。

3.データベース・システムの種別
 データベースを維持管理し、検索サービスを提供する仕掛けとしての、データベース・システ ムには、いわゆるデータベース管理システム(DBMS)、情報検索(IR)システムの2系統が存在して きた。前者は基本的に、数値データからなる帳簿類の機械化から発展したものであるのに対して、 後者は、当初から文献抄録データベース等の検索用ソフトウエアとして開発されたものである。 近年では、DBMSの機能を拡張して、文献情報検索へも適用可能にしようとするものが多くなって いる。また、これらとは別に、無構造・無形式の文書ファイルの集積(文書データベース)を高 速に走査して検索するための全文検索用ソフトウエアがあるが、コンピュータ能力の向上に起因 して、この種のソフトウエアで、大型の本格的データベースを実用的速度で検索できるようなも のが現れており、全文データベースへの適用をはじめとして、今後の普及が期待される。
 情報検索システムの機能−−−−情報検索システムは、検索、集合演算、トランケーション指 定、走査、隣接演算、索引通覧、シソーラス、複数データベース同時検索、各様の表示機能、原 報発注等々の機能をもつものである。これらを理解して使いこなすには、相当の知識、訓練を要 する。これに比べると、昨今 WWW上に多くみられる検索システムでは、一般の利用者が特段の予 備知識なしに検索できることを前提に、ごく基本的な機能しか用意していない。

4.データベースの作成・流通過程とその変容
   原材料 (原データ生産者:出版社、著者)
           ↓     0次情報:公刊・公表前資料、データ
           ↓     1次情報:著書、雑誌論文、記事、統計書
           ↓     2次情報:抄録誌、索引誌
           ↓     3(高)次情報:総説、展望
   製造卸  プロデューサー
           ↓→→CR-ROM出版(パッケージ型データベース)→書籍流通経路
                     ↓
   小売   ディストリビューター(ベンダー、ホスト)
           ↓
   二次小売 ゲートウェイ、パソコン通信
           ↓
   運送   ネットワーク
           ↓  回線業者/VAN業者/IPプロバイダー(VAN業者の一種)
   取次   エージェント
           ↓  販売代理、講習、国際専用回線提供
   代行   ブローカー(サーチャー《代行検索業者》)
           ↓
   消費者  エンド・ユーザー
プロデューサーのデータベース直売運動−−−−データベースの作成から流通・利用に至る経 路は上図のとおりで、これに対応した業種・業界が成立してきた。通信網としてのインターネッ トと、安価なオーブン・システム系コンピュータにより、安価・安直にデータベース・ホストが 開設できるようになり、昨今は、従来のデータベース・プロデューサーが自らベンダー業を運営 する事例もでてきている。すなわち、ディストリビューターを介さない直売方式である。同様に、 出版社・学会などが、その出版物をインターネット経由でオンライン・サービスする事例も多く なっているが、これは先の区分に従えば、データベース・サービスではなく、電子化資料サービ スということになる。
 国際通信経路としてのインターネット−−−−また、海外ベンダーのために、国内の販売代理 店業務を行うエージェントがあるが、ここでは、低廉な国際アクセスのために国際専用回線を用 意するのが普通であった。しかし、インターネットの普及により、利用者が直接海外ベンダーの システムに安価に接続できるようになったので、エージェントにおけるこの種の機能の意味は薄 くなった。
 ゲートウェイとしてのパソコン通信−−−−数年来、パソコン通信でのゲートウェイ・サービス が広がっている。これは、個人利用者を中心とする臨時的、間欠的利用に対応するもので、アク セス単価は割高であるが、これによりデータベースの利用者層が広がった。いまや、こうしたパ ソコン通信経由の利用高は、ベンダーの売り上げの相当部分を占めるまでに成長したようである。

5.全文データベース・電子図書館・電子出版
 コード化データと画像データ−−−−全文データベースは、原資料の全文を収容したもので、 米国の判例データベースや新聞記事データベースなどにおいて、古い歴史のあるものである。こ れらは、コード化データからなるもので、通信容量は極小であるが、図表、数式など、画像的配 信に頼らざるを得ない部分は省略されており、この点では『全文』といいがたい。
 画像型データベース−−−−高速通信技術の進展に呼応して、画像形式での配信も非現実的で はなくなってきたので、むしろ画像情報を主体とするデータベース構成も発展しつつある。現在、 電子図書館と称されるサービスでは、既存の出版物のページ版面や写真を画像として蓄積・配信 する形態が主流である。そこで、コード化データからなり、本文の検索ができる全文データベー スとは、一応の区分が可能である。もっとも将来的には、コード化データと画像を包含したデー タベースが進展すると予想され、全文データベースと電子図書館の区分けは消失するものと思わ れる。
 電子出版−−−−電子出版とは電子化資料の生成方式である。電子的な出版・印刷はいわゆる 電算写植の適用の形ですでに普及しているが、これは印刷物を能率的に編集・作成するシステム であり、成果物は紙媒体の印刷物のみである。一方、原稿執筆時にワープロを使うのはもはや普 通になったが、これも同じく印刷物の作成を目的にしたものである。文書を紙媒体を前提にせず 、電子的形態で流通させるには、何らかの標準的な形式が必要である。その最も原始的な形態は ASCIIテキストのファイルであり、確実な交換形式として定着している。しかしこの場合、文字 データだけが収容されるだけで、活字の種類、大きさ、ページの配置といった体裁情報や、さら に表題、著者、章立て等、文書の構成にかかる情報などは交換できない。
 紙媒体モデルと電子文書モデル−−−−電子化資料の作成において、一つの方向は、あくまで 印刷物的な構成と体裁に主眼をおくものであり、そこでは送信先における版面の正確な再現性が 重大な関心となる。一方これとは趣を異にする文書構成として、いわば電子文書モデルといった ものが現れている。これは、具体的には WWWやCD-ROMなどにみられる、文書内、文書間のリンク 結合を主軸に据えた構成法で、ハイパーテキストともいわれる。ここではまた、動画、音声をも 含めたマルチメディア的な志向も重要である。こうした電子化資料の交換、流通においては、標 準的な形式が必要であり、現状では種々の方式が試みられている。
 電子化資料の標準化形式:SGML・HTML・PDF・TeX −−−−紙媒体モデルに属するもので歴史も ある記述形式にTeX がある。一方、WWW とともににわかに普及したHTMLは、電子文書モデルの典 型であろう。そして、昨今は両者の性格を併せて実現可能なものとして、PDF が注目されるよう になっている。
 実際、WWW を見ている限り、当然ながらすべての文書がHTMLで記述されおり、HTMLですべてこ と足りるような印象を受けがちであるが、データ源は必ずしもHTMLで記述されていないことも多 い。すでに、動画・音声の再生には各種の形式に即したPlug-In を介在させる必要があり、PDF もこの方式で表示される。WWW の世界は、目新しい表現を求めて、今やPlug-In の全盛となり、 こうしてHTMLの空洞化とか、あるいはOS化がいわれるようになっているのは周知のとおりである。 もっとも、これに対してHTML自体の拡張を唱える向きもあり、この辺はコンテンツ・ビジネスの 激戦場裏のこととて、まさに予断を許さないという状況ではなかろうか。
 データ蓄積形式(データベース)としてのSGML−−−−ところで、出版社等における本格的な 電子出版に関連する場面では、最近特に海外では、ISO規格に制定されたSGML (Standard Gener alized Markup Language) を適用した、印刷物とデータベースの一貫同時作成方式が採用される という動向がみられる。SGMLはわが国でも1992年にJIS 化が行われたが、最近、わが国でもにわ かにCALS (Continuous Acquisition and Lifecycle SupportあるいはCommerce At Light Speed) が多く語られるようになり、これに伴って、その電子文書規格であるSGMLに対する一般の認識も 深まりつつある。
 WWW で検索できる全文データベースや電子図書館的サービスでは、原データあるいは原データ ベースをSGML形式で作成・維持管理し、WWW での表示の際に、HTMLに動的に変換して送信すると いう方式が、組織的、商業的なサービスでは広まりつつあるようである。これはSGMLの汎用性、 安定性に着目した選択であるといえる。

6.電子化資料のデータベース化
 現今、いわゆるサーチエンジンが各種開発・運用され、その多くは無料で公開されていること から、従来型のデータベースとか、ましてやその有料サービスなどはすでに無用になっていると いった論調も見受けられる。サーチエンジンは、各種のディレクトリーを元に、そこに登録され ているWWW サイトをロボットが巡回し、各ページについて機械的に全文索引を生成して、全文検 索ができるようにしたもので、有用な場面も多い。すなわち、企業、機関あるいは個人の広告・ 広報などの公開情報を一括して検索するには便利である。しかし、これで従来からのデータベー スがすべて代替、駆逐されるというのが、短絡的に過ぎるのは当然である。ここでは、情報の組 織化不要論と情報無料論とがセットになっているのが特徴であるが、この両者とも、一部の状況 を一般化したものに過ぎないことは明らかであろう。
 電子化資料の総合目録データベース−−−−各所に無数に散在する種々雑多な情報から、有用 なものを効率的に検索するには、安直なサーチエンジンだけでは無理で、それなりの工程を要す る。すなわち、電子化資料の総合目録データベース的なものが必要であるが、その編成方法には 二通り考えられる。一つは、公開者(著者など)が、自ら検索用の項目(著者名、表題等々)を 一定の形式でデータに付加した上でインターネット上に公開することにし、これらに対して、こ の方式に特化したサーチエンジンを走らせて、効率的な索引を生成しようという方法である。つ まり、目録情報の分担入力を著者自らに任せようとする方式である。この場合、上記の標準形式 の設定と普及が問題であるが、これに向けた動きがある。一方、目録データベースの作成者が、 各種のサイトに実際にアクセスし、その内容を点検・評価して、抄録型のデータベースを作成し てゆくという方式があり、これは一部のデータベース作成機関や図書館連合体ですでに試みられ ている。こうした総合目録データベースの必要性はすでに痛感されるに至っており、その動向に は今後とも注目してゆく必要があろう。

7.エンドユーザー・コンピューティングと図書館の役割
 LAN 接続だけでなく、モデム接続でも28.8kbpsが普通になり、また、NTT の方針転換によって ISDNの普及も著しく、こうして身近に利用可能な通信速度は急速に向上した。こうした高速通信 環境のもとで、WWW のような、いわゆるGUI (Graphical User Interface)での情報アクセスが普 通になってきている。これは、初心者でもマニュアルをみたりすることなく、一応のアクセスが できるという状況で、情報検索は、実用化後20年にして、大きな変革の時期にさしかかっている と考えられる。すなわち、エンド・ユーザー自身による情報検索の一層の普及であり、情報検索 やデータベースの利用者層が従来に比して爆発的に拡大しつつあるという状況にある。
 もっとも、その大多数は、既存のサーチエンジンや企業や個人の宣伝・広報情報などを『検索 』しているだけである。こうして、従来のデータベース・サービスには全く無知・無縁な利用者 層の大量の参入に応じて、『データベース』そのものが再定義されるといった風潮があり、かく して、先にふれたような従来型の有料データベース無用論などがいわれるわけであろう。反面、 インターネットのビジネス利用の進展とともに、インターネット上の有料情報サービスが急速に 拡大しているのも事実で、無料の情報はやはりそれなりのものでしかないといった認識も広まり つつある。
 こうした流動的な状況下、図書館におけるデータベースに関わる利用者支援の方法については、 あらためて検討してゆく必要があるであろう。