6.1 情報検索の理論と技法

       学術情報センター教授 根岸 正光 

  
 本講では、情報検索において重要な、書誌・文献情報型データベースのオンライン検索につい
て、一般的なシステムの構成、機能および利用法を解説する。同時に検索の対象たるデータベー
ス自体についても、それらの内容的、形態的な区分・特性を理解して、有意な検索を行い得るよ
う、データベースの作成、流通、オンライン化等、一連の過程を解説する。また、インターネッ
ト上での『データベース』など、最近の動向についても検討する。

1.「データベース」の意義・とらえ方の諸相

 「データベース」は、元来「データの補給基地」といういみで作られた言葉である。その後の
発展経過の中で、「データベース」については、図書館情報学、計算機科学、経営学等々におい
て、ソフトウエア製品、データ・ファイル、情報サービスなど、異なった対象を想定した議論が
なされている。また、ワープロなど、何らかの方法で電子化された文書の類を、すべて安易に
『データベース』と呼称することも多くなっている。さらに昨今は、インターネット上に氾濫す
る各種の無料の『情報』へのアクセスをもって、情報検索の主体とみる向きも多くなっており、
データベースの世界も多様化が進んでいる。そこで、それらの比較を試みた上、あらためて、情
報サービスの対象としての「データベース」とはどのようなものであるべきかを検討しておく。

2.データベースの種別と特性

 種々の観点からのデータベースの特徴付けと区分について解説する(データ形式:文字、数値、
画像等;内容:参照型《目録、索引、抄録》、事実型《全文、数値、画像》;配信方法:オンラ
イン、パッケージ;利用対象:商用、インハウス;利用目的:ビジネス、学術、トランザクショ
ンなど)。最近は、各種形式のデータを複合させたマルチメディア型データベースや、無料公開
の広告・広報型データベース(商用とインハウスの中間か)が急成長している。

3.DBMS・IRシステム・全文検索システム

 1に関連して、具体的ソフトウエア製品にもデータベース管理システム(DBMS)と情報検
索(IR)システムの区分が生じているので、両者を比較、検討する。前者は基本的に、数値デ
ータからなる帳簿類の機械化から発展したものであるのに対して、後者は、当初から文献抄録集
ファイルの検索ソフトウエアとして開発されたものである。最近に至って、DBMSの機能を拡
張して、文献情報検索へも適用可能にしようとするものや、全文検索用ソフトウエア製品で、大
型のデータベースを実用的速度で検索できるようにするものなどが現れており、今後の普及が期
待される。

4.IRシステムの機能

 検索、表示、補助機能等、IRシステム一般が持つ諸機能について、解説する(検索、集合演
算、トランケーション指定、走査、隣接演算、索引通覧、シソーラス、複数データベース同時検
索、原報発注等)。

5.データベースの作成・流通過程

   原材料 (原データ生産者)
             │  0次情報   公刊・公表前資料、データ                        
             │ 1次情報   著書、雑誌論文、記事、統計書                    
             │ 2次情報   抄録誌、索引誌                                  
             │  3(高)次情報 総説、展望                                    
                    │ いずれもデータベース<公刊機械可読ファイル>になる              
                    │                                                                
   製造卸  プロデューサー
                    │                                                                
                    │〔磁気テープ、通信回線〕                                        
                    │                                                                
   小売   ディストリビューター(ベンダー)
                    │                                                                
                    │〔オンライン〕                                                  
                    │                                                                
   二次小売 ゲートウェイ、パソコン通信
                    │                                                                
                    │〔オンライン〕                                                  
                    │                                                                
   運送   ネットワーク
             │ ┌─回線業者  NTT、NCC                                
                    │  │  VAN業者                                                
                    │ └─IPプロバイダー(VAN業者の一種)                      
                    │                                                                
   取次   エージェント
                    │                                                                
                    │                                                                
   代行   ブローカー(サーチャー《代行検索業者》)
                    │                                                                
                    │〔調査報告〕                                                    
                    │                                                                
   消費者  エンド・ユーザー


 データベースは、ベンダーの運用するIRシステム(サービス)を通じてオンライン利用され
る。同じデータベースでも、各サービスにおけるオンライン化の方式によって、利用者には各々
異なった見え方をする。そこで利用者は、各サービスの特性を十分理解し、それを活かした検索
を行なうことが必要になる。なお昨今は、インターネットとオープン・システムにより、比較的
安価にディストリビューター事業が行えるようになったため、プロデューサーによる「直売」方
式も増加しつつある。

6.代行検索

 所要機器・設備(端末、パソコン+通信ソフトウエア、モデム、回線等)の設置→インタビュ
ー→データベース、サービスの選択(サーチエイドの利用)→検索実施→結果とりまとめ、報告
というのが代行検索の過程であるが、ここでインタビューの重要性が指摘される。なお、インタ
ーネット時代において、「ネットワーク情報資源」などと称される『情報』があふれる中で、図
書館の役割について再考する必要があろう。

7.全文データベース・電子出版

 データベース・サービスに関連する最近の動向である全文データベース、電子出版等について
解説する。

(1)コード化データ型と版面イメージ型

(2)Full Text Dababase,  Complete Text Database,  Multimedia Database

(3)オンラインとCD-ROM

(4)電算写植 (Computer Type-Setting) ファイルの変換・転用方式

(5)印刷物・データベース一貫作成方式
 最近、海外では、ISO規格に制定されたSGML (Standard Generalized Markup Language)を
適用した、出版とデータベースの一貫作成方式が採用される動向にある。わが国でも1992年に
JIS化が行われたが、とくに昨年来、わが国でもにわかにCALSが多く語られるようになり、
これに伴ってSGMLに対する一般の認識も深まりつつある。学術情報センターでは、「センター
紀要」(1992年〜)の作成にSGMLを適用した。これら、センターでの全文データベース作
成における、この種方式の適用について解説する。

8. インターネットとデータベース・サービスの将来

(1) データベース機関の役割
 インターネットの要点は、高速の国内および国際回線が、個々の利用者にとっては無料で利用
できるということにあるが、これは、厳密な従量制を基本とする通信料金の常識をおよそ覆す事
態である。もっとも、近頃普及が著しい、一般個人向けIPサービスでは時間比例制が多いが、
それでも通信距離比例制はなく、国際接続も安価にできる。こうした環境下、gopher、wais 
(Wide Area Information Server)などのデータ公開方式が開発されたが、今やWWW (World Wide 
Web)一色となり、これはインターネットの同義語として通用するに至っている。
 インターネットは研究者の自主運営から発祥したため、その初期には無料の情報しかなかった。
しかし、この世界へのビジネスの参入に伴って、課金、セキュリティー・システムの整備が進め
られつつあり、無料の広告・広報情報ばかりでなく、有料情報サービスも急速に増加している。
ただし学術情報についてみると、研究者自身による、ネットワーク上での自家発行、自主流通が
技術的、経費的に容易になっており、これらをクローラー、サーチ・エンジンなどと称する自動
索引ロボットにより検索することにより、従来風のデータベースそれ自体が不要となるといった
考え方もありうる。
 データベースの形成とサービスは情報組織化の一形態であり、これは、図書館を含めたデータ
ベース機関が組織的に取り組んできたところである。インターネット環境において、これがにわ
かに不要になるとは考えにくいとしても、この際、データベース機関の役割について再検討する
必要があろう。

(2) GUIと図書館の役割
 LAN接続だけでなく、モデム接続でも28.8bpsが普通になり、通信速度は急速に向上した。こ
うした高速通信環境のもとで、WWWのような、いわゆるGUI (Graphical User Interface)での情報
アクセスが普通になってきている。これは、初心者でもマニュアルをみたりすることなく、一応
のアクセスができるという状況で、情報検索は、実用化後20年にして、大きな変革の時期にさし
かかっていると考えられる。これに関連して、図書館における利用者支援の方法についても、検
討してゆく必要があろう。

<参 考>

根岸正光、石塚英弘編著「SGMLの活用」オーム社、1994.12. 168p.

根岸正光「日本情報の海外提供 ―― インターネット時代への展開」、情報の科学と技術、
Vol.45, No.12, p.600-606 (1995.12)p.

根岸正光「NACSIS-IRの歴史・現況・新展開」情報の科学と技術、Vol.44, No.8 (1994.8).