5.1   国文学とコンピュータ

    (電子資料館システムへの取り組み)

                    国文学研究資料館助教授  原 正一郎
                                hara@nijl.ac.jp


1.まえがき
 国文学研究の対象となる資料は、国初から明治初期までの写本や版本で、200万点を越えると言われている。これらは日本国内のみならず世界中に散在しているため、資料の発掘・調査・研究および収集・整理・保存、更に研究者への情報提供は組織的に行わざる得ない。国文学研究資料館は、このような目的のために設立され、国文学研究上の様々な支援活動を行っている。
 国文学研究資料館が行っている情報支援の一つに、オンライン検索サービスがある。これは、収集された資料や研究情報に関する2次情報の提供である。一方、国文学のように思弁的かつ人間の在り方を問う学問分野において、情報システムは多様な学術情報の多角的な活用を支援できなければならない。具体的には、目録に加えて原本画像・電子化テキスト・動画・音声などの、質的に異なるデータベースを渡り歩き、発見的知見を支援できるシステムでなければならない。これを実現するためには、マルチメディア技術を駆使したシステムが不可欠である。そのため国文学研究資料館では、設立当初から様々なデータベースの研究を行ってきた。残念ながら、殆どの研究が大型計算機上で行われ、また当時はインタフェースやネットワークなどの環境も未整備であったため、これらの成果を実際のサービスに結びつけるには至らなかった。しかしコンピュータのダウンサイジング化とマルチメディアへの対応、更にインターネットの普及により、情報システムの環境は大きく変わりつつある。
 本稿では、最初に国文学研究資料館の従来の情報システムについてまとめる。次いで、情報システムのダウンサイジング化とインターネット対応を基盤とした、国文学研究資料館の新しい取り組みである「電子資料館システム」について述べる。

2.従来の情報サービス
 従来の国文学研究資料館の情報システムについて簡単にまとめる。国文学研究資料館では、第一期の大型計算機システム導入に際して、1)資料の検索、2)論文などの文献の検索、3)主要語彙の検索、4)定本の作成、の4点を計画した。これに従い、先ず資料検索システムの開発に着手し、次いで文献検索システム、さらに本文や画像用のデータベースシステムへと対象を広げつつ今日に至っている。
 国文学研究資料館が公開しているデータベースは3種類あり、これらは大型計算機上のデータベースシステムを利用している。公開データベースには、公衆電話回線、大学間コンピュータネットワーク(N-1)およびインターネット経由によりアクセス可能である。

 2.1 資料(史料)目録データベース
 国文学研究資料館の資料(史料)目録には、館蔵資料用の「館蔵資料目録」、国文学に関する全資料を対象とした「古典籍総合目録」、および歴史史料の所在情報をまとめた「史料所在目録」がある。
 館蔵資料目録には、写真資料の目録である「マイクロフィルム資料目録」と、館蔵原本の目録である「和古書目録」がある。これらの目録は、書誌情報と所在情報に加えて、閲覧のためのサービス情報やアクセス情報から構成され、探した本の入手と閲覧を可能にしている。マイクロフィルム資料目録には約15万件、和古書目録には約7千件のデータが蓄積されている。館蔵目録の利用法は、冊子とオンライン検索である。冊子体目録は累積版と年度版を、独自に開発した版下作成システム(CTS)で作成し、出版している。またオンライン検索は1987年より開始している。
 古典籍総合目録[1]は国書総目録[2]に準拠し、国書総目録のデータ採取が1960年に打ち切られた以降に刊行された、全国の図書館や文庫などの所蔵目録データを採録したものである。国書総目録(約60万件収録)に未収録の諸本のうち、約30万件程度を蓄積する計画である。現在、約12万件(1995年)程を蓄積した。この目録は書誌情報と所在情報とから構成され、どんな資料がどこにあるかを知る手懸かりを与える。
 史料所在目録は、全国レベルでの史料所在情報のデータベース化をねらったものである。史料館が収集した史料に加え、各地の史料保存機関が作成した史料目録に基づいて調査・収集を行い、データの補充を行っている。収集・整理されたデータは史料館内の史料所在データベースグループにより、パーソナルコンピュータを用いて電子化されつつある。この目録データは、大型計算機上のデータベースに登録され、評価中である。このデータベースは館内でのみ利用可能である。

 2.2 研究文献目録データベース
 研究文献目録には、雑誌用の「逐次刊行物目録」と、研究論文用の「論文目録」がある。逐次刊行物目録は、国文学研究資料館が収集している約3000種(国文学分野の大半をカバー)の逐次刊行物の目録である。このデータベースは学術情報センターによる共同目録システムが稼働する前に開発されたものであり、BIBLION-OPACと重複した機能を持っている。逐次刊行物目録データベースは雑誌管理システムとしても機能し、また年度ごとに冊子体目録の出版も行っている。このデータベースは公開されていない。
 論文目録は国文学年鑑[3]に採録された研究論文の書誌を集めたものである。国文学年鑑は毎年発表される研究論文の目録索引誌で、国文学研究資料館で作成・出版している。国文学年鑑の作業はCTS化されている。論文目録のデータは、国文学年鑑のCTSファイルから書誌部分を切り出し、用語の統一・ヨミの付加・キーワードの調整などを経て作成される。1941年から現在までの発表論文約27万件について整備中であり、現時点では1969年から1994年までの約21万件がオンラインで公開されている。

 2.3 原文献資料データベース
 原文献資料データベースは原本の画像データベースであり、国文学研究における電子資料館を指向した初期の実験システムと位置付けられている。ここには館蔵の徒然草(約80点)・伊勢物語(約140点)などの全異本が作品単位に電子化されている。これは異本の比較研究などに役立つ。同様に、井原西鶴(約50作品)・松尾芭蕉(約40点)などの作家に対する全作品も電子化されている。これは作家研究や作品研究に役立つ。
 利用者は館蔵資料目録データベースから所望の本を知り、原文献資料データベースからファクシミリを通して本の複製を入手することができる。つまり目録データベースから画像データベースへの渡り検索が可能となっている。本データベースは、大型計算機の構成が変更されたため、現在は稼働していない。

 2.4 本文データベース
 岩波書店刊行旧版「日本古典文学大系」全100巻(約600作品)、東京堂出版刊行「噺本大系」全20巻(約2万話)が電子化されている。これらの電子化テキストは、KOKINルールと呼ばれる方法でマークアップされている[4]。電子化されたデータは、大型計算機上で試験的に運用されているが、一般には公開されていない。

3.情報システムの再開発
 国文学はテキストのみならず画像や音声などを含む本質的にマルチメディアの世界である。そのため「国文学情報システムは、目録・テキスト・画像などを統合したマルチメディア型の電子図書館として再構築されるべきであると」の認識が確立しつつある。また情報交換・論文投稿・情報検索などの研究活動におけるインターネットの比重が大きくなるにつれて、情報システムのインターネットへの早急な対応が迫られている。
 このようなニーズの変化に加え、インターネット、特にWWW(World Wide Web)の普及は情報提供の方法に大きな影響を与えている。前述のように国文学研究資料館では多くのシステムを開発してきたが、その多くは公開に至らなかった。その理由として、予算、スタッフ、著作権問題などが挙げられるが、利用者環境の未整備も大きな原因であった。例えば、ORIONなどのデータベースシステムの検索操作はコマンドによるものであるが、これが多くの人文系研究者にとって、計算機を敷居の高いものにしていた。グラフィカル・ユーザインタフェース(Graphical User Interface:GUI)は一つの解決法であった。しかしユーザへの対応を誠実に行うとすると、MS-DOS用(しかもNEC用とIBM互換機用の2種類)、Mackintosh用、UNIX用の少なくとも4種類のプラットフォームに対応したGUIを作らねばならず、さらにOSのバージョンへアップやユーザからの要求への対応も必要不可欠である。このようなことは、国文学研究資料館の情報系スタッフの人員や予算では不可能であった。
 WWWとHTML(Hyper Text Markup Language)は、このような閉塞状況への大きなブレークスルーとなった。HTMLは、その記述能力が貧弱であるとはいえ、テキストのみならず、画像・音声・動画などマルチメディアデータの記述法に一つの標準的な枠組みを提供している。つまりHTMLによって記述されたデータは、Windows、Mackintosh、UNIXを問わず、殆どのプラットフォームで利用することが可能である。したがって、データをHTMLに適合して作成すれば、GUIに必要な機能の殆どはWWWのビュアに任せることができるので、前述のようなGUI作成の負担は大幅に軽減される。
 このような背景から、国文学研究資料館ではインターネット対応とマルチメディア対応を軸とした、新しい情報システムの再開発に着手した。図1は現在進行中のシステム再開発の状況である。この再開発におけるキーワードは、システムのダウンサイジング化とデータ記述の標準化である。メディアをテキストに限定しても、データ形式はデータベース・冊子・CD-ROMなど、目的に適したものに容易に変換できなければならない。目録の場合、データベース用のデータ形式は表構造である。冊子体ではさらにレイアウト情報が必要である。WWWを利用したサービスを目指すならば、当面はHTMLに従ったマークアップを施さなければならない。しかしデータ形式は研究者の利用しているハードウェアやソフトウェアに依存しているので、異なったシステム間でのデータ交換は一般に困難である。このような理由から、電子化テキスト利用の共通基盤として、データ交換のための標準的データ記述法の確立が注目されるようになった。データ交換規約としては、流通業界におけるEDI(Electronic Data Interchange)、オフィス文書用のODA(ISOでは事務文書体系:Office Document Architecture、またはCCITTでは開放型文書体系:Open Document Architecture)、または出版業界を中心とした文書記述言語SGMLなどがある。このような標準の中で、ISOあるいはJISに定められ、しかも多数のアプリケーションが流通しているのはSGMLである。そのため、本再開発におけるデータ記述は、可能な限りSGMLに準拠させている。

 3.1 資料(史料)目録データベース
 マイクロフィルム資料目録と和古書目録はともに館蔵資料目録であるが、資料形態が違うこと、異なった時期にシステム化された、といった理由から個別のシステムとして運用されてきた。しかし館蔵資料目録は古典資料のOPACであり、資料形態によって検索システムが分かれていては、利用者にとって不便この上ないことである。そこで再開発では、両データベースを館蔵資料目録データベースとして改めて統合することにした[5]。新しいデータベースは今年度中の試験公開を目指している。なお、将来的には次の古典籍総合目録に統合される予定となっている。
 古典籍総合目録は、データのダウンロードとデータ構造の変換が終了した。古典籍総合目録はデータ構造が複雑な上に、新しいシステムでは作品名→書誌→所在あるいは著者名→作品名→書誌などのように、関連するデータ間の渡り歩きを実現しようとしている。これを従来の関係データモデルのデータ記述能力の範囲内で実現することは困難であり、オブジェクト指向データベース(OODB:Object Oriented Database)の導入を図っている[6]。現在、西暦2000年までに冊子体あるいはCD-ROMによる出版を目指して、データの校正を行っている。
 史料所在目録は、データチェック、SGML変換および検索用の各プログラムの開発が終了した。現在、データ校正とシステム評価の段階にあり、今年度中の試験公開を目指している。

 3.2 研究文献目録データベース
論文目録データベースは再設計の段階にある。前述のように、現在のシステムでは、国文学年鑑用のCTS用データから目録データを生成している。これは国文学年鑑の出版が当初の目的であったためである。新しいシステムでは、この順序を逆にして、論文目録データの作成を主、国文学年鑑のCTSデータ作成を従とする。新しい目録システムは西暦2000年ころの公開を目指している。
 逐次刊行物目録データベースはBIBLION-OPACに統合することを考えているが、最終的な結論には至っていない。

 3.3 国文学研究画像データベース
 原文献資料データベースは国文学研究画像データベースとして再構築中である[7]。画像データは、原文献資料データの一部を受け継いでいるが、館蔵原本のマイクロフィルムから新たに電子化したものが大部分である。平成8年度に約40万コマ、平成9年度に約13万コマの電子化が終了した。平成10年度にも15万コマ程度の電子化が計画されており、これで館蔵原本の約70パーセントが電子化されることになる。
 原本からの直接撮影ではなく、マイクロフィルムからの撮影とした理由は、全資料の電子化を優先したためである。マイクロフィルムを用いているので、電子化は白黒2値、精度は600 dpiで行った。なお、画像フォーマットはTIFF、データ圧縮にはG4を利用している(図5参照)。画像データは、前述の新しい館蔵資料目録データベースとリンクされる。利用者は目録データベースから所望の資料を知り、この画像データベースへリンクして画像を入手する。本システムも今年度中の試験公開を目指している。

 3.4 本文データベース
 大型計算機上で運用されている、前記の岩波書店刊行旧版「日本古典文学大系」は、平成10年度から館内のWebに登録された。現在、一般公開に向けてシステムの評価を行っている。これと平行して、KOKINルールによるマークアップから、標準のSGMLによるマークアップへの変換を進めている[8,9]。しかし大系本のテキスト構造は複雑である上に、作品やジャンルごとに構造が微妙に異なっているため、SGML化は一部に限られている。
 ところで岩波書店刊行旧版「日本古典文学大系」と東京堂出版刊行「噺本大系」の本文データは、校訂定本からの電子化であった。これに対して、翻刻から校訂を経て電子化された本文データも作成されつつある。正保版本歌集「二十一代集」などがこれに相当する。

4.インターネットを利用した実験
 国文学研究資料館のホームページは試行段階であり、本運用に向けての体制作りを行っている最中である。国文学研究資料館ホームページのURLは http://www.nijl.ac.jp
である(図2)。ホームページでは以下の内容を提供している。
 ・国文学研究資料館の紹介
 ・展示案内、閲覧室・史料館の利用案内、研究集会等の案内
 ・各研究セクションの紹介
 ・公開データベース・OPACへのリンク
 ・人文学系ホームページへのリンク集
 ・電子資料館実験
 このうち「公開データベース・OPACへのリンク」からは、第2章で述べた国文学研究資料館の公開データベースとOPACが利用できる。ただし、検索方法は従来通りのコマンドモードである。なお公開データベースは有料であるため、利用申請により、IDとパスワードを取得する必要である。
 「電子資料館実験」では、公開・非公開を含めて、インターネットを利用した様々な実験が行われている。ここでは、全文データベースシステム、画像データベースおよび史料所在データベースを事例的に紹介する。

 4.1 全文データベース
 全文データとして「日本古典文学大系」、「噺本大系」、「二十一代集」、「演能記録」、「連歌」などが利用可能である。図3は日本古典文学大系データベースの検索例、図4は検索結果例である。

 4.2 国文学研究画像データベース
 国文学研究画像データベースは試験公開へ向けて準備中であり、現時点では非公開である。本システムはCD-ROMチェンジャ、画像サーバ(検索および画像形式変換)、およびキャッシュからなっている(図5)。現在CD-ROMチェンジャには2台のCD-ROMドライバが付いており、CD-ROM500枚(約30万コマ)が収容されている。検索された画像データを収容しているCD-ROMがドライバ上にない場合、CD-ROMの交換から画像の表示までに20〜40秒ほどかかる。該当するCD-ROMが既にドライバ上にあれば、20秒程度で表示される。画像データの検索には新しい館蔵資料目録データべースを用いる予定であるが、現時点では暫定的なインデクスデータで代用している。検索された画像データは、フォーマット変換(デフォルトではTIFFからGIFへ)と精度変換(デフォルトでは600dpiから100dpiへ)を経てホームページへ転送される。検索→変換→転送のスピードアップを図るため、一度検索されたデータをアレイディスク上に蓄積する画像キャッシュを試作中である。
 画像の検索には、資料番号・請求番号・書名の3種類の方法が用意されている(図6)。資料番号は画像データよりも物品としてのアクセスに適している。請求番号を用いれば画像データを一意に選択できる。ここでは書名による検索例を示す。書名検索には正規表現が利用できる。例えば「源氏」で検索すると、「源氏物語」、「偐紫田舎源氏」などがヒットする(図7)。ここで「偐紫田舎源氏」を選択すると全部で38巻あるので、第1巻を選ぶ(図8)。第1巻は全部で28ページ(コマ)あるので、ここでは10ページ目を選ぶと(図9)、画像を得ることができる(図10)。通常の大きさの原本であれば100dpi程度でも文字を読むことができるが、本例のような場合は150〜200dpi程度の精度が必要である(図11)

 4.3 史料所在目録データベース
 史料所在目録データベースも試験公開に向けて準備中である。図12は評価用に試作したビュアである。ここでは史料出所の旧地名が「下総」、史料の支配関係が「天領」、史料の出所が「千葉県」である史料の検索を行っている。

5.今後の課題
 これまで述べてきたように、国文学研究資料館では電子資料館に向けての様々な取り組みを開始しており、そのうちの幾つかは公開の目途が立ってきた。しかし、実用レベルのシステムを構築するためには、幾つかの解決しなければならない問題がある。

 5.1 外字
 古典原本の目録作成や電子的翻刻を行う場合、どうしても漢字が不足する。標準漢字で代用できればよいが、そうでない場合は外字を作る以外に方法はない。国文学研究資料館では目録などのために約2,000文字の外字(字形は10,000を越える)を作成した。外字コードは目録システムが稼働しているコンピュータに併せて旧JISに準拠している。目録データをワークステーションへ移行する作業において、ワークステーションのコード系がEUCであるため、外字の扱いが問題となった。そこで採用した解決法は、目録データをSGMLデータに変換し、外字コードは実体参照にするものであった。
 例えば、旧JISの外字領域にある文字のコードが"0xF5C7"であった場合、これをEUCの側では"&kF5C7;"という可読文字列で表現する。これにより、外字コードをワークステーションの取り込むことが可能となった。冊子体を作る場合、"&kF5C7;"が参照する実体は外字のフォントデータであり、SGMLから見ると外部データである。具体的には、印刷工程においてLaTeXデータをPostScriptデータに変換する際に参照されるフォントデータを示している。フォントの識別(正しくはグリフの識別)とフォントデータは別の事柄であるから、ここで示した方法により、外字を含んでいても交換可能なデータを作成する事ができる。現在、この方法をホームページに適用する方法を開発中である。

 5.2 状態非保存の問題
 WWWではビュアが要求をサーバに送るごとにサーバとの間にコネクションを確立し、サーバから情報を入手するとコネクションを切断する。したがってサーバがクライアントの要求履歴や状態を保存するようなことはしない。これにより、WWWシステムは高い負荷に耐えることができる反面、検索を何回か行った後に複数の検索集合に論理演算を施すこすような、対話的処理を行うことは難しくなる。
 CGI(Common Gateway Interface)に工夫を凝らして、擬似的にコネクションを維持することもできるが、セキュリティなどの点に問題がある。JAVAの利用などが考えられる。

 5.3 電子資料館システムの展開
 国文学研究資料館の情報システムに対する期待は、近年急速に強まっている。学術審議会学術情報資料分科会学術情報部会による「学術情報データベース整備の推進方策について(中間まとめ)」において、国文学研究資料館は国文学・国史学分野におけるデータベース整備に対して一層の努力をするように求められている。また、「平成9年度国文学研究資料館外部評価委員会報告書(情報システム)」においても、国文学・国史学領域ならではの特色のある情報を積極的に発信をすることが求められている。さらに、国内外の研究者からは、原本画像やテキストなど、国文学・国史学研究に必要な1次データへのアクセスをインターネットで行えるようにして欲しい、などの要求が強くなっている。
 国文学研究資料館では、このような期待を先取りする形で、各種のデータベースシステムを開発してきた。また平成10年度補正予算では館内LANのATM化が実現する予定である。これらの結果、国文学研究資料館の情報システムの基盤は整備されつつある。今後の課題は、整備されつつある基盤の上に、国文学・国史学領域ならではの特色のあるコンテンツやシステムあるいはアプリケーションを構築し、各方面からの期待に応えることである。電子資料館システムは、そのための基盤と位置づけられる(図13:電子資料館システムのコンテンツにはビデオ画像のようなアナログデータも含まれているため、「電子」資料館と呼んでいる)。
 電子資料館システムは単なるデータベースシステムではない。電子資料館システムは、他施設の情報システムと協調してデータの効率的作成や共有化を図ったり、異種のデータベースと連携して渡り検索等の高度な検索機能を実現する、いわゆるデータウェアのためのプラットホームを目指している。この機能は電子式協調作業方式(コラボレーション:collaboration)と呼ばれるものであるが、ネットワークの国際化とオープン化が急速に進行しつつある今日、その実現は焦眉の急となりつつある。また様々なメタデータを利用してデータを有機的に結合したり知的検索を行う、いわゆるデータマイニング(data mining)の実現も、研究支援の視点からは実現しなければならない機能である。さらに、コラボレーションの主体となるネットワークを介して授受されるデータについても、データに対する知的財産権の保護、データの履歴管理による正当性を保証、などは必須である。このように、電子資料館システムは、国文学・国史学用に構成されたシステムや機能の集合体として実現される予定である。

6.まとめ
 国文学に関わる学術情報システムについて、国文学研究資料館の現状と新たな取り組みについて整理し、WWWを利用したデータベースについて具体的に概観した。なお本稿の作成においては当館情報処理室の安永教授および情報メディア室の丸山教授より有益な助言をいただいた。また図面などの作成には情報処理係の皆さんには大変お世話になった。記して感謝する。

<参考文献>
1) 国文学研究資料館編:古典籍総合目録,第一巻〜第三巻,岩波書店,1990.
2) 市古貞治(編):国書総目録,岩波書店,1972.
3) 国文学研究資料館編:国文学年鑑,各年度版,至文堂.
4) 安永尚志(編著):テキスト処理(講座 人文科学研究のための情報処理 第3巻),第2章,
 pp.17-66,尚学社,1998.
5) 原,土田,山田:国文学研究資料館蔵マイクロ資料目録データベースの再構築,国文研紀要,
 vol.22,pp.1/36,1996.
6) 丸山:国文学研究のための電子図書館の試み,文部省科学研究費補助金重点領域
 「人文科学とコンピュータ」1996年度研究成果報告書(第4号),pp.227/236,1997.
7) 原:古書目録のSGML記述と画像データベース,文部省科学研究費補助金重点領域
 「人文科学とコンピュータ」1996年度研究成果報告書(第4号),pp.111/224,1997.
8) 原:人文科学におけるテキスト処理,人文科学と情報処理,No.13,pp.18/32,1997.
9) Hara,S., Yasunaga,H.: SGML Markup of Japanese Classical Text: Case Study,
 Conference Abstract of ALLC/ACH97, pp.131-134,1996.