5.3 国文学とコンピュータ

                              中村康夫

                          国文学研究資料館

                             研究情報部

                         nakamura@nijl.ac.jp

1.はじめに

 国文学がなにゆえ特別にコンピュータとの協調について語られなければならないか。それは、国文学国・文学ではなく国文・学と意識された場合に明確に理解される。すなわち、国文とは我が国に関わる日本語で書かれた文献全般を意味するからであり、書籍や文書をも含んだその資料の網羅性を意識するからこそコンピュータが有効に利用されるとの展望を持つに至るのである。

 情報の整理・活用にコンピュータ利用が有効であることは、そもそもコンピュータそのものを発想し始めた頃から予想されていたことではないだろうか。しかし、コンピュータがいかに期待の大きいものであったとはいえ、その性能が、用に堪えるほどのものになるには、CPUの性能が上がり、ハードディスクの容量がギガ・バイト単位になった今日の状況でも未だ十分ではない。

 なぜかといえば、全文献の網羅的な情報を蓄積すること自体と、蓄積された情報を検索すること自体はクリアされたといってもそう過言とはいえないけれども、蓄積する方法や、情報構造の解析手法などが、いまだマンパワーに依っている部分が多大であり、その分、判断にバリエーションも残ってしまう。少なくとも、コンピュータに全文献の網羅的な情報の処理を期待したときには、コンピュータは人知のかなりの部分まで装備し、したがって、人間は時間をもっと有効に使えるようになると考えていたはずなのである。ところが、今日の状況は、データをコンピュータに食わせるために、人間はひたすらそのための前処理に追われている。学術情報センタのOPACの方式は、その次の処理を自動化したが、筆者は、もっと人間に近いところを自動化していかなければならないと考えている。

2.国文学研究資料館・整理閲覧部の国書データベース

 どういうデータベースを構想しても、そのシソーラス的機能を期待する以上は似たような側面を持ってくる。

 筆者は、国文学研究資料館のデータベース室にいて、自前で作りつつあるデータベースについて語っても良いのであるが、それよりも何年も早くから取り組まれ、今日、相当な規模で構築されていて実用化を待っているデータベースがあることに気がついたので、まず、そのデータベースについて語ろうと思う。

 国文学研究資料館・整理閲覧部では、岩波書店刊行の『国書総目録』の項目と主要関連部分を階層化してデータベースとし、書名の典拠ファイルとして使っている。書名の典拠とだけいうとかなりおとなしい物言いになってしまうが、それは直ちに自動分類機能をも装備しうる壮大な情報のベースであり、ここに機能情報を付加すればいかようにも次の展開ができる。例えば、『国書総目録』に書かれている刊年などの刊行記録や、何冊本などの形状記録を付加するだけで、目の前の典籍が何であるかを決めることを一気に加速する。

 整理閲覧部では、『国書総目録』に対して、所蔵各所の蔵書目録から情報を付加し続け、『古典籍総合目録』を作成し、『国書総目録』に続くものとして刊行した。それら情報の総合力は、目的を固定せずに多様な工夫をすることによって、コンピュータに巨大な人知を付与することは間違いない。こういう取り組みを語らずに、コンピュータの性能が上がったことを語っても仕方がないのである。

3.データベース室の古典人名データベース

 国文学研究資料館・研究情報部・データベース室では、古典人名データベースを平成3年度から作成してきた。それは歴史上の人物のうち、特に江戸時代までの全人物情報について、次のように情報を階層化して蓄積するものである。

【人名情報群】

 A0 姓

 A1 名

 A2 姓よみ

 A3 名よみ

 A4 出自

 A5 別姓

 A6 別称

 A7 名称の別表記

 A8 予備

 A9 別項目参照指示

【年時情報群】

 B0 生年月日

 B1 生年西暦

 B2 没年月日

 B3 没年西暦

 B4 活躍年(歳)

 B5 活躍年西暦

 B6 享年

 B7 死因

 B8 予備

【系図情報群】

 C0 父

 C1 母

 C2 養父

 C3 養母

 C4 特記すべき祖先

 C5 子供

 C6 兄弟姉妹

 C7 妻・夫

 C8 予備

【地縁・交友情報群】

 D0 生地・出身地

 D1 死没地

 D2 活躍地

 D3 所属藩(主家)

 D4 師

 D5 交友

 D6 予備

【業績情報群】

 E0 業種

 E1 著書

 E2 著述

 E3 書写書(年/月/日)

 E4 演目

 E5 結社・屋号

 E6 その他の業績

 E7 備考

【その他】

 F0 身分\階級

 G0 履歴

    〈年号  年/ 月/ 日/西暦/履         歴〉

 H0 資料名

 I0 索引情報

 J0 索引資料名

 K0 宗派

 K1 流派

 これらは、どの項目からでも検索ができるので、例えば、地名で検索するとその土地で活躍した人物が集合して時代順に整列する。その土地の歴史がさながらに髣髴とすることも期待できるはずである。

 現在すでに100,000件を越えるデータの蓄積があるが、時代の幅が広いことと身分階層が広いために、個別の人物についてはまだまだ十分な情報量とはいえない。利用に堪え、評価されるべきレベルになれば、何らかの形で利用されるべく取り組むつもりである。

 いうまでもなく、人物には同姓同名が少なからずあり、一人物あたりの情報量が少ないと同一人物か別人かの判断ができない。だから、項目が多く情報量も多ければ多いほどよいのである。

 こうした情報はシソーラス情報として機能することが期待できるが、その場合は、完全一致では期待できるような機能は持ちえない。情報量が全く同じということはありえないからである。そうすると、どう使えるかといえば、必須情報が部分的に含まれているとか、年時情報の幅が矛盾しないとか、より人間の思考に近い処理を検索機能に盛り込む必要が出てくる。その思考の幅を検索に盛り込むために重要な働きをするのが仮名や西暦などの標準表記情報であり、年号などには、例えば「元禄頃の人」というような情報しかない場合もあるので、別のテーブルをかませるなどして知的支援を考える必要もある。

 そうした総合的な組立がコンピュータに取り込まれて初めて、コンピュータを知的支援の機材として位置づけることができるのである。

4.フルテキストデータベース

 岩波書店刊・日本古典文学大系全100巻をデータベースフォーマットで電子化するという壮大な実験を実行したのは、国文学研究資料館・研究情報部・情報処理室の安永尚志教授である。

 世は未だ昭和の時代であり、コンピュータがどのレベルであったかは今日から回顧すれば恐ろしいほど貧弱な時代だったことは、どなたも反論のないところであろう。

データベースといえば、簡単な表の作成をいうのが常識の時代だったといっても差し支えない。世の中にあるデータベースソフトは全て表形式であり、自然な言語表現全般をそのままにデータベース化しようなどとは、ごく一部の専門家以外は誰も考えられなかった時代だったといってもよい。

 この壮大な実験は、後にSGMLと呼ばれる世界標準のデータベースフォーマットともドッキング可能なものを目指し、部分的な成功を数多く積み重ねて、今年四月から試験公開に入った。

 その取り組みの流れを一部特化して軽装にし、誰でも作りやすく、誰でも使いやすいデータベースとして構想して、平成八年度から、国文学研究資料館・研究情報部・データベース室では原本テキストデータベース事業を起こした。この事業は、三年で2,000,000字程度の規模のデータベースを完成し、公開することを基本スケジュールとしており、この平成十一年の六月には、岩波書店から、『二十一代集データベース』と『絵入源氏物語データベース』がCD_ROM出版されることになっている。

 誰でも作りやすいデータベースの構想は、コンピュータとのつきあいに後ろ向きであった研究者がデータベースの構築に参加することを可能にし、作品ごとに専門の研究者を監修員として迎えてデータベースを作成する手法を作り出した。

 こうして、専門家の参加、そしてこだわりの実現を実装したデータベースは、利用して快適であり、応用性も高く、また、データベースの機能としてさまざまな横断的利用をも可能にしていることもあって、ユーザの利用如何によって多様に成長するデータベースという企画になっている。

 このデータベースは、データベースの仕様を公開しており、そのフォーマットが軽装なものであることから、だれでもデータベースの自作に取り組めるように考えられている。そうして個別に作られたデータベースは、同梱の検索システムにロードして、市販されるデータベースと合体して使っていくことができるようにもなっている。

 書き込みができる。その書き込みを生かすべくデータを更新することができる。そうしておくと、次からその書き込みを検索することもできるようになる。一つのテーマを決めてどんどん書き込みを続け、完了すれば、それはもう、新たな研究価値が付加されたデータベースに成長している。研究者の書斎は、この行為を日常的に積み重ねており、それが、今まではカードであったり、ノートであったりしたということなのである。前に登録した情報が間違いだったと気づくことも多い。こんな時、カードやノートではなかなか見つからなくて訂正できないということも多いものである。データベースは、そういう日常の時間を一気に効率よくするようにも使っていけるのである。

5.展望など

 筆者は、京都女子大学教授の加納重文教授と共著で『日本古代文学人名索引』散文編五冊と韻文編一冊を刊行した。これはコンピュータを駆使したものであり、そのデータはこれからの利用に向けて可能性に富んでいる。

 例えば、その底本には岩波書店刊の日本古典文学大系を多く採用しているから、人物を検索すれば、単にどの本の何ページと見るのではなく、日本古典文学大系のデータベースとドッキングさせて、直ちに、その該当個所を本文としてみることができるように作っていくことができるのである。

 また、こんなことも夢見ている。

 成田山仏教研究書の湯浅吉美氏は暦日データベースの大家であり、古代からの暦情報をデータベースにして持っておられる。これに、例えば、古記録上に実際に記事のあるところを情報として付加しておくのである。本文まで入力するのは大変で間違いも多くなるから敬遠しても良いのではないか。ただ、何月何日の記事は『○○日記』に記事があるとだけ分かればよいのである。東京大学史料編纂所が大変な労力をかけて刊行している『大日本史料』に辿り着くための方途であっても良いし、古記録を通読するための入り口になっても良いだろう。

 データベース室の原本テキストデータベース事業は、次々のメニューとして『吾妻鏡』『栄花物語』『大鏡』『今鏡』『水鏡』『増鏡』『古事記』『出雲風土記抄』があがっている。暦情報が周辺の多様な情報とのリンク情報として機能すれば、歴史がどれほど立体的に検索できることになるだろうか。

 こういう楽しい夢想が、少しずつ現実化してきたのが今日なのである。