2.7 国文学とコンピュータ
国文学研究資料館研究情報部助教授
中 村 康 夫 1 出版される古典作品本文データベース
『二十一代集』のCD-ROM
底本:正保版本。紺地の表紙が付いていて、全五十三冊。
CD-ROMにはあの五十三冊の画像が全部入っている。テキスト入力もしていて検索もできる。検索した結果
もいろいろ使えるという形で仕上がっている。諸本の異同も参照・検索ともにできるようになっている。CDは二枚。
絵入『源氏物語』のCD−ROM
底本:承応版本で六十冊。六十冊のすべての画像が全部入っている。テキスト入力もしてあって検索ができるこ
ととか、検索した結果が便利に利用できることなど、『二十一代集』と同じ。
市販されない学術出版も登場
『物語史研究の方法と展望』について
実践女子大学文芸資料研究所が出版した電子叢書の第一号。ケースの中に本とは別にCD-ROMが入っている。
このCD-ROMには、実践女子大学で持っている『狭衣物語』関係の貴重な写本類の画像がいっぱい入っている。
2 様々なデータベースをどう使うと便利か
われわれ研究者の周りには、研究の素材として実に重要な資料がいっぱいある。インターネット上には有用な
ホームページがたくさん見られる。青空文庫ではテキストがいろいろ見られ、東京大学史料編纂所のホームページ
は研究者に必須といってよい。他にも、京都大学、大阪大学、福井大学などなど大学のホームページにも感動させ
られるものがたくさん見られる。これらの中には、ダウンロードできるものもある。ダウンロードできないものは、
基本的にその都度ホームページを開いて検索しながら利用することになる。
電子化データそのものが公刊されたり、ホームページからダウンロードできたりする場合は楽でいいが、加えて、
一人一人ができるだけ簡単にデータベースが作れるような仕掛けを作って、誰でも使える状態にできれば、一人一
人の書斎に、必要な文献が、検索できるデータベースの形で、豊かに蓄積されていくことになる。
そこで、その仕掛けと基本的な文献についてのデータベースとを初めから用意できないかと考えたのが、岩波書店
からCD-ROM出版した国文学研究資料館データベースの古典コレクションシリーズである。
書店に並んでいる形は、書籍と並べてもつりあいがとれるように大きさやケースの彩りなども考えられている。
ケースの中には「取扱説明書」が入っているが、「取扱説明書」の最初は、『二十一代集』と『源氏物語(絵入)』
のどちらも共通。共通の部分は「刊行の辞」と「基本構想」。次に、それを掲げる。
国文学研究資料館
新しい言語メディアが誕生し普及するとき、人はこれを単なる実務の用途に限定せず、これに広く知識の料、また精神の糧を盛り込んで活用しようと、智慧を傾け取り組んで来た。古くは写本然り、木版・活版等の印刷も然り、ラジオ・テレビ等の放送また然り。
データベース室長 中村康夫
平成8年度から新規事業として発足した国文学研究資料館の“原本テキストデータベース”事業が、いよいよその初発の部分を公開していく段取りになった。“国文学研究資料館データベース 古典コレクションシリーズ”は、その完成版を次々に公刊していくものである。
3 データベースならば“参加型”にできるはず
データベースというのは、基本的に同じルールを守ることによって、同じ性質の情報が蓄積されていくというもの。
国文学研究資料館の情報処理室長安永尚志教授は、古典文献のデータベース化というテーマで実験しようとして『日本古典文学大系』全百巻のデータベース化を行い、現在、試行サービス中。インターネットから国文学研究資料館のホームページ(http://www.nijl.ac.jp/)に入って利用者登録をし、許可を受けてIDを取得して『日本古典文学大系』のデータベースを作品検索し、ダウンロードして自分のコンピュータ環境の中で自分の研究目的に合うように加工することができる。それはいろいろな意味で実験的であり、使う人の力量によってちょっとてこずる面もある。
しかし、データベースならば、一つのシステムで統合的に利用していけないのはおかしい。
国文学研究資料館データベースの古典コレクションシリーズの企画で最も拘ったことは「参加型」のデータベースに作るということ。
“参加型”とは何か。データベースが検索できるということだけでは“参加型”ではない。一つには、検索をして、検索をした結果に対して自分が新しい判断を書き込んでいける、あるいはデータを書き変えることができることをいう。つまり、データベースを使わせてもらうという使い方ではなくて、自分のデータベースを育てていくという使い方である。
自分自身がデータベースのデータを新しくする、あるいはより重要なデータを追加していくことで、より豊かな情報内容にしていく。そうすることで、データベースそのものを自分なりに育てていける。“参加型”というのはそういうデータベースを意味している。データの中には、「メモ領域」というデータ領域もあり、そこは何でも自由に書ける。例えば歌の現代語訳をずっとやっていこうということで現代語訳を書いていくこともでき、他にも自分だけのテーマを立てて、いろいろ自分なりに必要なデータをその領域に書き込んでいくことができる。
“参加型”にはもうひとつの意味がある。それは、自分で簡単にデータベースが作れること。作ったデータベースはこの検索システムに登録でき、『二十一代集』が検索できるだけではなくて、『二十一代集』と一緒に、自分が作成して追加登録した新しい和歌のデータベースも検索できる、ということ。
『万葉集』のデータベースが必要、あるいは『古今和歌六帖』が絶対必要と思う場合には、自分でそのデータベースが作れ、そしてここのデータベースのシステムに登録しておきましょうということを、大々的に謳っている。作ったデータベースが同じシステムに登録できるということは、登録できるための前提として、このデータベースの仕様(作り方)を公開している必要がある。そのルールを守ってデータを記述していけば、登録できるデータベースができる。広く“参加型”を謳うためには、仕様を公開する“公開型”であることが前提になる。
“参加型”であることを成功させようとすると、仕様がわかりやすく、シンプルにできていることが条件になる。この古典コレクションのシリーズはそこを最重要課題にして企画・設計した。
4 シンプルな仕様とは−和歌について考える−
勅撰集ということで考えていいならば、歌集の和歌データというのはどういう情報構造になっているか。まず“作品名”がある。その次に“序”がある場合もあるし、“序”がない場合もあって、その次にいよいよ“和歌”が始まろうという時には、まず“巻”が立っている。“巻”が立っていて、その次に“部立”というのが書いてある。“巻”の中に“部立”というのはたいてい一つだけれども複数立っている場合もある。それでいよいよ歌データが始まるが、歌データは“詞書”があって“作者名”があって“和歌”があって、場合によっては“和歌”のあとに“左注”が書かれていることがある。“詞書”はある場合もない場合もあって、ない場合は一つ前の歌の“詞書”をそのまま引き継ぐ場合が多い。“作者名”も同じ。
『古今集』の歌部分の冒頭を見る。情報の構造が今説明したようになっているのがわかる。
古今和歌集巻第一
春歌上
ふるとしに春たちける日よめる
在原元方
年の内に春はきにけり一とせをこそとやいはんことしとやいはん
春たちける日よめる
紀貫之
袖ひちてむすひし水のこほれるを春たつけふの風やとくらん
「古今和歌集巻第一」と“巻”が立っている。次に「春歌上」と“部立”が書いてある。歌データは「ふるとしに春たちける日よめる」と“詞書”があって、次に「在原元方」と“作者名”が書いてある。そして「年の内に春はきにけり一とせをこそとやいはんことしとやいはん」と“和歌”が書いてある。次の貫之の歌も詞書・作者名・和歌の順に書かれている。
“巻”情報というのは、次の巻が立つまではずっと同じ巻です。ですから、二首目の歌三首目の歌にも巻第一というのが構造上は引き継がれているわけで、どの歌が表示される場合にも、その歌が属している“巻”情報と、その歌が所属している“部立”情報の二つは、常に表示されている必要がある。
次に問題なのは“歌番号”。“歌番号”というのは原本に書かれていない。つまり、情報の根幹は底本に書かれていることを翻刻してテキストデータに起こし、それを仮名に開くとか、標準化したりしてデータを作るが、歌番号というのは原本に書かれていない。けれども、歌の配列は重要な要素であって、順番が狂うと歌集としての意味を崩してしまう。ということは、歌の順番というものをどこかできっちり記述しておいてやらなければならない。そのため歌一首ずつに番号を振っていってやるということが必要になってくる。これさえしておけば、順番が狂うことはない。
順番が狂わなければよいということであれば、何巻何ページ何行目を記述しておいてやることで狂うことは防ぐことができる。しかし、その行が、前の歌の左注なのか、次の歌の詞書なのかがわからない。歌番号の方式だと、そういうことまで狂うことなく情報管理ができる。
勅撰集の中にもちょっと変形がある。例えば二首でセットになって一つというのがある。つまり連歌などがそうだが、連歌の場合にはどう書いたらいいだろうか。連歌というのはやはり五七七の部分だけで“歌番号”を一つ持っているよりは、七七と最初に作られた部分と、それに対してつけた五七五、これをセットで見えないとまずい。歌として引用に堪えるレベルの情報量にならない。あるいは読んで評価するだけの情報量にならない。そうすると、“歌番号”一つの中には、“詞書”や“歌”などのタグが複数可能であることが必要。七七の部分とか五七五の部分それぞれには、それぞれの“詞書”の部分があったりするわけで、“作者名”もそれぞれに当然違うので、“詞書”や“作者名”も一つの“歌番号”の中には複数立てることが可能になっていなければならない。
歌合はどうか。連歌に準じて考えよう。
5 シンプルな仕様とは−散文について考える−
散文諸作品の場合、どういう情報構造をもっているか。
まず、作品の本文がある。これをデータの「本文領域」に記述する。
本文には、漢字の読みなどの傍記がある。この傍記は、実際には、多種多様であることが予想される。注釈のような長い文章がかかれていることもあれば、ほんのちょっとした符号のようなものがあるだけという場合もある。ここを情報の意味によってすべて階層を分けると、たちまちデータ構造は複雑になる。複雑どころか、作品によってどういう構造になるか定まらないということにもなりかねない。そこで、傍記はすべて「注記領域」に記述することにする。情報の意味の違いは傍記の中で書き分けることにする。底本にある注釈情報はすべてこの「注記領域」で記述することにしたから、頭注や脚注なども本文との関係を定めてその位置の情報として「注記領域」に記述する。問題は割書きだが、これは作品本文ならば「本文領域」、注記情報ならば「注記領域」に記述する。以上が原本に書かれている情報。
因みに、『源氏物語(絵入)』桐壺の巻冒頭の一行について、四層のテキスト情報を示すと次のようになっている。以下を読み進むときにも参考にされたい。
本文領域 いづれの御時にか女御更衣あまたさふらひ給ける
標準領域 いつれのおんときにか。にようこかういあまたさふらひたまひける
注記領域 (1)#源氏誕生より十二才まて有/(5)おほんとき/(9)ねうご/
(11)かふい
メモ領域 大成【5・1】目案【一いづれの御時にか△此發端の辞甚深也。先作者を
あらはさず。聞つたへたるやうに書たり。卷々の始終にもその趣あり傍
人$の難をおはざる故也。延喜の御門の御時の事也。伊勢集始にも。い
づれの御時にか有けん。此詞をとれり】【一更衣△四位△給女の惣名也。
御門の御服をめしかふる時。あつかひ給ふ人なるによりて。更衣といふ
なり】【一女御△二位三位にいたる。后のつぎ也。常の上臈の御方など云
位成べし】
検索のことを考えると、底本通りの表記で検索するのでは多様に検索しなければならず、利用者の負担が一気に大きくなる。気が付かなければ、検索漏れをいっぱいしたままになる可能性がある。これはなんとしても防がなければならない。そこで、通常の漢字仮名交じりでかかれているような作品については、すべて歴史的仮名遣いの仮名で開くことにして、その仮名を「標準領域」に記述する。「標準」という名称はしばしば誤解を生むが、表記を揃える、つまり標準化するということ。仮名に開けばいいというのでは表記は揃わないので、基準をきっちり決めないといけない。
実際に古語辞典を並べて引き比べて見ると、同じ語彙でありながら仮名遣いで異なるというような事例も見つかる。ここは基準にする古語辞典を一冊に決めるしかない。そこで、岩波の古語辞典を採用した。古語辞典は、ずいぶん工夫して作られている面はあるが、ひとつの語彙に対して複数の表記を立てていることがある。それは編集者の親切心だが、どれも同じレベルで記述されていたりすることもあり、どの表記がよるべき表記なのか定まらないことがあって、データベースのほうの事情とぶつかる場合も出てきます。主項目があって、他はそこを参照せよとなっていると一通りに寄せることも可能になるが、そうはいかない場合もずいぶんと多い。そういうこともあって、岩波の古語辞典によるといっても、聖典のごとく崇め奉るのではなくて、主たる参考文献という位置付けになる。
研究者は、データベースを利用して語彙の用例を一覧し、紙に印刷するか、あるいは画面で眺めてすぐに判断をしていきたいもの。ここから急に目と手の作業に移行するというのでは、その判断の一つ一つが残らない。せいぜい紙切れの端に走り書きされて、いずれ忘れ去られるのが落ち。残したい判断は残る、そして、残した判断は次から検索できる、こうすることによって、研究者は個別にこのデータベースを育てていけることになる。そこで「メモ領域」を設定した。この領域は、原本にはない必要な記述すべてを引き受けるところ。校異情報、他の文献への案内、大事なコメントなどなど、多様に記述していける領域である。
以上で、一行の本文は四層に記述されることになりました。もうひとつ何があるか。それは原本の画像。微妙な墨跡が読みを分けるというようなことは、国文学ではあたりまえのこと。それでどれが正しいという考証が必要になったりもするが、原本の墨跡を見れば、考証するまでもないという場合も実際に出くわされた方が多い。そういう意味では、原本の画像は欠かせない情報である。