2.7 国文学とコンピュータ

国文学研究資料館研究情報部助教授

                        中 村 康 夫

1 出版される古典作品本文データベース
   ・『新編国歌大観』のCD-ROM
    歌言葉の用例探しには必須。角川書店から出版。定価二十八万円。
    書籍の『新編国歌大観』は全十巻二十冊。
    CD−ROMは、索引では検索できない詞書や作者名でも検索してその該
    当個所を表示。
   ・『群書類従』のCD-ROM
    正篇だけで、画像のみ。『続群書類従』は入っていない。定価五万円
    本文検索もできない。CD二枚なので持ち運びできる。
   ・ “国文学研究資料館データベース古典コレクション”
    岩波書店から刊行。『二十一代集』と『源氏物語(絵入)』の二種類同時。
    定価は各一万二千円。
   ・ 『源氏物語』データベースCD−ROM
    角川書店から刊行。定価二十六万円。大島本の画像をかなり取り込んでいるほか、諸本、辞書的検索
    の工夫など、魅力的。
   ・ 『源氏物語』データベースCD−ROM
    勉誠出版から刊行。定価九千八百円。品詞分解がしてある。
   ・ 『吾妻鏡』『玉葉』データベースCD−ROM
    吉川弘文館から出版。定価は五万八千円。
   ・ 『吾妻鏡』データベース
    古典コレクションの第三。寛永版本を底本にして年内刊行の予定。
    版本の仮名情報をすべてデータベース化し、読みやすくなっている。
    暦日データベースと一緒に使えて、他出の同日記事の所在が調べられる。

 『二十一代集』のCD-ROM
 底本:正保版本。紺地の表紙が付いていて、全五十三冊。
 CD-ROMにはあの五十三冊の画像が全部入っている。テキスト入力もしていて検索もできる。検索した結果
 もいろいろ使えるという形で仕上がっている。諸本の異同も参照・検索ともにできるようになっている。CDは二枚。
 絵入『源氏物語』のCD−ROM
 底本:承応版本で六十冊。六十冊のすべての画像が全部入っている。テキスト入力もしてあって検索ができるこ
 ととか、検索した結果が便利に利用できることなど、『二十一代集』と同じ。

 市販されない学術出版も登場
『物語史研究の方法と展望』について
 実践女子大学文芸資料研究所が出版した電子叢書の第一号。ケースの中に本とは別にCD-ROMが入っている。
 このCD-ROMには、実践女子大学で持っている『狭衣物語』関係の貴重な写本類の画像がいっぱい入っている。

2 様々なデータベースをどう使うと便利か
 われわれ研究者の周りには、研究の素材として実に重要な資料がいっぱいある。インターネット上には有用な
ホームページがたくさん見られる。青空文庫ではテキストがいろいろ見られ、東京大学史料編纂所のホームページ
は研究者に必須といってよい。他にも、京都大学、大阪大学、福井大学などなど大学のホームページにも感動させ
られるものがたくさん見られる。これらの中には、ダウンロードできるものもある。ダウンロードできないものは、
基本的にその都度ホームページを開いて検索しながら利用することになる。
 電子化データそのものが公刊されたり、ホームページからダウンロードできたりする場合は楽でいいが、加えて、
一人一人ができるだけ簡単にデータベースが作れるような仕掛けを作って、誰でも使える状態にできれば、一人一
人の書斎に、必要な文献が、検索できるデータベースの形で、豊かに蓄積されていくことになる。 そこで、その仕掛けと基本的な文献についてのデータベースとを初めから用意できないかと考えたのが、岩波書店
からCD-ROM出版した国文学研究資料館データベースの古典コレクションシリーズである。
 書店に並んでいる形は、書籍と並べてもつりあいがとれるように大きさやケースの彩りなども考えられている。
ケースの中には「取扱説明書」が入っているが、「取扱説明書」の最初は、『二十一代集』と『源氏物語(絵入)』
のどちらも共通。共通の部分は「刊行の辞」と「基本構想」。次に、それを掲げる。

刊行の辞

国文学研究資料館

 新しい言語メディアが誕生し普及するとき、人はこれを単なる実務の用途に限定せず、これに広く知識の料、また精神の糧を盛り込んで活用しようと、智慧を傾け取り組んで来た。古くは写本然り、木版・活版等の印刷も然り、ラジオ・テレビ等の放送また然り。
 今や不動の技術基盤として広範囲の計算と制御に応用されるに至ったコンピュータも、その汎用性のうちに、普遍的な言語メディアとしての優れた側面を有する。この新しいメディアに、日本の心の表現であり日本語を育んだ土壌であるところの我が古典作品を盛り込んで、古典研究の用に供することが、現在より将来にわたって国の内外から求められているのである。
 今般、国文学研究資料館原本テキストデータベース事業の成果を「国文学研究資料館データベース・古典コレクション」シリーズの名で、扱いやすい CD-ROM として順次刊行することとした所以は、研究者の書斎での利用、研究上不可欠な版(バージョン)の確立のほかに、信頼できる古典作品データベースを学生・一般読者に広く提供しようとする意図の実現にほかならない。
 本データベースは、全データの閲覧・再利用を可とし、データ記述仕様を公開する開放型のデータベースとして、また、利用者によるデータの改変・追加、任意の作品データの搭載利用を許容する参加型のデータベースとして企画された。年々続刊する作品データベース、あるいは利用者の作成し搭載した作品データベースを統合的に検索することが可能であり、将来、コンピュータで読む「二十一世紀の群書類従」を目指すものである。  幸い岩波書店の理解を得て、可能な限り安価に提供することが出来ることとなった。これは、大勢の利用者が本シリーズを引続き支持してくださることを前提にしている。個人研究に、共同研究に、読書会にこの「古典コレクション」が広く活用されることを期待し、さらに古典データベース構築に多数の方が参加されることを念願して止まない。
                       1999年の春

基本構想

データベース室長 中村康夫

 平成8年度から新規事業として発足した国文学研究資料館の“原本テキストデータベース”事業が、いよいよその初発の部分を公開していく段取りになった。“国文学研究資料館データベース 古典コレクションシリーズ”は、その完成版を次々に公刊していくものである。
 本事業は、全国の研究者から委嘱した原本テキストデータベース委員会と同監修員会議によって支えられており、メニューの選定からデータベース構築の手法に至るまで、きわめて大がかりな仕掛けによって成り立っている。
 データベース構築というものが、個人の趣味・嗜好に大きく左右された時代がしばらく続いていたことはご存じの通りであり、データベースはその個人のこだわりを前提にすることによってしか完成しないものであるという思いもあった。こんな大がかりな仕掛けによらない方が結果を出しやすいという意見もある一方で、国文学研究資料館では、この事業が始まるかなり前から“世界標準”を睨んだ開発実験を続けており、その発想と開発手法によって、多数の研究者が同時に関わって完成していくデータベース構築が可能な段階になっていた。本事業も当然、その成果をそれなりにふまえて進めるべきであると考えたのである。その意味で、この成果に対して何らかの評価が与えられるならば、それは個別の作品に関わった個人の業績というレベルにとどまるものではないことを断っておかなければならない。
 そうはいっても、個別のデータ群を完成にまで持っていくには、監修員として関わった研究者個々人の真剣な取り組みがあり、それがまず評価されなければならないことはいうまでもないところである。
 ここに、今まで、本事業に関わられた委員の名前を掲げさせていただく。監修員の名前は作品毎に示されるのでそちらをご覧いただきたい。
 青木周平   池上洵一   今西裕一郎  岩下武彦   上野洋三
 大西 廣   岡 雅彦   小池一行   後藤祥子   佐藤恒夫
 沢井耐三   新藤協三   鈴木 淳   武井協三   立川美彦
 中村康夫   中山右尚   野村精一   原正一郎   松村雄二
 丸山勝巳   安永尚志   ロバート・キャンベル
◆古典が楽しくなる
 古典作品を読むことを楽しもうと思うと、なかなかパソコンを選ぼうということにならない。どうも“読む”行為をパソコンの情報は支えないようであるが、それはなぜか。
 “読む”行為は、作品世界にのめり込むことを必要とする。作品世界に入るためには、表記の美しさとか、行間の余裕とか、理解を補助するための簡潔な情報とかが求められる。表記の美しさは縦書きであることとセットで求められることが多く、漢字に読みが振られているととりあえずホッとする。注も読みづらいものならばいっそ無い方がましではないか。そういう要求を実現するために、各出版社は様々な工夫をしてきた。“読書”はそういう工夫とともに人々のものであり続け、進化してきた。コンピュータは、まだ、その工夫の歴史を十分には持っていない。たぶん、この差異は時間とともに解消されていくだろうが、光の中に認識する文字が印刷文字ほどに目に馴染むためには、今後の工夫が必要になるだろう。
 さて、そういう人の感性の問題から離れて、情報の本質についてだけ考えればどうだろうか。
 先ほど作品に入り込むための条件として掲げた“理解を補助するための簡潔な情報”は、実は、印刷物よりもコンピュータの方が得意なのではないだろうか。要領を得ているし、読む側の要求に沿って変化する自在さは本には求めようがない。データベースでは、本文を読み進めていると、その都度、その箇所の注釈が見え、また、その都度抱く問題意識に対して、そのまま内容検索に入って解決に向かおうとすることができる。索引という別の本を用意する必要もないし、探す語彙の前後を広く眺めようとする場合にも、コンピュータの自在感はかなり評価できるものである。プリンタで印刷すれば、必要な情報は容易に冊子体にもなる。“読書”の疲労がかなり軽減するだけではなく、必要なことが次々に展開していくので、その分楽しくなるはずなのである。電子ブックとかいって検索など他の用途への応用が利かないものにはこの楽しさが求められない。原本テキストデータベースはそのあたりを解決しようとする。
◆データベース化される作品群について
 国文学研究資料館が本シリーズに用意している古典作品としては、すでに次の5つのメニューが確定している。その先は毎年の原本テキストデータベース委員会によって決められる。
 1)二十一代集
 2)絵入源氏物語
 3)吾妻鏡
 4)古事記・出雲風土記抄
 5)栄花物語・大鏡・今鏡・水鏡・増鏡
 委員会は、時代・ジャンルをできるだけ網羅するように構成されており、任期二年で半数が入れ替わるのが基本であるので、今後どういうメニューが立つかは予測できない。楽しみにしていただきたい。
◆底本について
 古典作品の本文を扱う以上、どの本文を採用し、どの本を底本とするかは、最初の大問題である。そして、そこをどう考え、どう実現していくかが、その企画の性格を大きく決定づける。
 しかし、大方の国文学者が直ちに了解されるように、底本として何を選ぶかは、その所蔵者の理解と協力がどう得られるかという伝統的な課題とセットになっている。
 従来の出版物については、それぞれそれなりに許可を求める場合も許可する場合も前例があり、方法も大体のところ確定したものがあった。ところが、全文(フルテキスト)のみならず、さまざまな付加情報及び全冊全見開きの画像をもリンクさせる本シリーズは、電子出版物ならではの構想に支えられており、書籍体でものを考えていた頃にはなかった魅力を引き出している。
 この新しい企画について、大方の所蔵者の理解を得るためには、まず、それがどういうものであり、世の中にどう受け止められていくかを見ていただく必要がある。
 そういう意味で底本の選定にはいると、スタート時点では、本文としての評価をある程度重視しつつ、所蔵権の問題等で躓かないようにとの配慮も手伝って、館所蔵の近世版本群が底本として選ばれやすい位置になることはご理解いただけるものと思う。
 しかし、本データベースは、さまざまな付加情報を盛り込むことが可能な構造になっており、本文異同にも配慮することによって、研究環境を応援するものとしての質の高さは、維持すべく工夫している。
 そのような努力が続けられていたこともあって、第一巻が出版されるのを待たず、所蔵者からの温かいご理解と声援が得られるようになってきた。すでに次々のメニューの中に盛り込まれたものもある。この流れが持続すれば、やがて壮大な全体像が見えてくるであろう。
 本データベースは“原本テキストデータベース”であり、作品単位ではなく、一本一本を基本としているので、同じ作品のまた別の一本がデータベース化の候補になることもあり得る。委員の慧眼にかかったどういう一本が次にデータベース化されるか、ご期待いただきたい。
◆お目当ての作品がデータベース化されるのはいつか
 本データベース事業は、作品の大きさや複雑さにもよるが、源氏物語程度のものであれば、三年の基本作業を終えて、四年目には公開できるようにしたいと考えている。
 三年の基本作業とは次の通りである。
 1)底本からのテキスト入力
 2)専門の研究者による監修作業
 3)総監修=各監修員間の調整及びデータベースとしての仕上げ
 もちろん、初年度の前には作品及び底本の決定がなければならず、直ちに業者による入力に入れない底本が選ばれた場合には、文字興し作業も初年度の前に予定される必要が出てくる。
 また、このデータベース作りと並行して進めているものに利用システムの開発がある。世の中で広く使われているコンピュータのOSの変化に対応する必要がでてきたり、新たな発想が必要になったりする場合は、総監修を終えて後も四年目の公開の前に若干の期間が必要になる場合も予想される。
 それではなかなかお目当ての作品がデータベース化されないではないかとの心配も漏れ聞こえてくる。
 そのことに対応するためということではないが、本データベースは利用者参加型であることを謳っており、緊急度の高いものは、ユーザの方で個別にお作りいただき、本利用システム上でお使いいただきたい。大きいものは、共同研究で作られるようお勧めする。また、当然、そのように作られた個別のデータベースは、個別に出版社から刊行されてもよい。
 何かご質問があれば、国文学研究資料館データベース室までお尋ねいただきたい。

3 データベースならば“参加型”にできるはず
 データベースというのは、基本的に同じルールを守ることによって、同じ性質の情報が蓄積されていくというもの。
 国文学研究資料館の情報処理室長安永尚志教授は、古典文献のデータベース化というテーマで実験しようとして『日本古典文学大系』全百巻のデータベース化を行い、現在、試行サービス中。インターネットから国文学研究資料館のホームページ(http://www.nijl.ac.jp/)に入って利用者登録をし、許可を受けてIDを取得して『日本古典文学大系』のデータベースを作品検索し、ダウンロードして自分のコンピュータ環境の中で自分の研究目的に合うように加工することができる。それはいろいろな意味で実験的であり、使う人の力量によってちょっとてこずる面もある。
 しかし、データベースならば、一つのシステムで統合的に利用していけないのはおかしい。
 国文学研究資料館データベースの古典コレクションシリーズの企画で最も拘ったことは「参加型」のデータベースに作るということ。
 “参加型”とは何か。データベースが検索できるということだけでは“参加型”ではない。一つには、検索をして、検索をした結果に対して自分が新しい判断を書き込んでいける、あるいはデータを書き変えることができることをいう。つまり、データベースを使わせてもらうという使い方ではなくて、自分のデータベースを育てていくという使い方である。
 自分自身がデータベースのデータを新しくする、あるいはより重要なデータを追加していくことで、より豊かな情報内容にしていく。そうすることで、データベースそのものを自分なりに育てていける。“参加型”というのはそういうデータベースを意味している。データの中には、「メモ領域」というデータ領域もあり、そこは何でも自由に書ける。例えば歌の現代語訳をずっとやっていこうということで現代語訳を書いていくこともでき、他にも自分だけのテーマを立てて、いろいろ自分なりに必要なデータをその領域に書き込んでいくことができる。
 “参加型”にはもうひとつの意味がある。それは、自分で簡単にデータベースが作れること。作ったデータベースはこの検索システムに登録でき、『二十一代集』が検索できるだけではなくて、『二十一代集』と一緒に、自分が作成して追加登録した新しい和歌のデータベースも検索できる、ということ。
 『万葉集』のデータベースが必要、あるいは『古今和歌六帖』が絶対必要と思う場合には、自分でそのデータベースが作れ、そしてここのデータベースのシステムに登録しておきましょうということを、大々的に謳っている。作ったデータベースが同じシステムに登録できるということは、登録できるための前提として、このデータベースの仕様(作り方)を公開している必要がある。そのルールを守ってデータを記述していけば、登録できるデータベースができる。広く“参加型”を謳うためには、仕様を公開する“公開型”であることが前提になる。
 “参加型”であることを成功させようとすると、仕様がわかりやすく、シンプルにできていることが条件になる。この古典コレクションのシリーズはそこを最重要課題にして企画・設計した。

4 シンプルな仕様とは−和歌について考える−
 勅撰集ということで考えていいならば、歌集の和歌データというのはどういう情報構造になっているか。まず“作品名”がある。その次に“序”がある場合もあるし、“序”がない場合もあって、その次にいよいよ“和歌”が始まろうという時には、まず“巻”が立っている。“巻”が立っていて、その次に“部立”というのが書いてある。“巻”の中に“部立”というのはたいてい一つだけれども複数立っている場合もある。それでいよいよ歌データが始まるが、歌データは“詞書”があって“作者名”があって“和歌”があって、場合によっては“和歌”のあとに“左注”が書かれていることがある。“詞書”はある場合もない場合もあって、ない場合は一つ前の歌の“詞書”をそのまま引き継ぐ場合が多い。“作者名”も同じ。
 『古今集』の歌部分の冒頭を見る。情報の構造が今説明したようになっているのがわかる。

 古今和歌集巻第一

   春歌上
     ふるとしに春たちける日よめる
                       在原元方

年の内に春はきにけり一とせをこそとやいはんことしとやいはん

    春たちける日よめる
                       紀貫之

袖ひちてむすひし水のこほれるを春たつけふの風やとくらん

 「古今和歌集巻第一」と“巻”が立っている。次に「春歌上」と“部立”が書いてある。歌データは「ふるとしに春たちける日よめる」と“詞書”があって、次に「在原元方」と“作者名”が書いてある。そして「年の内に春はきにけり一とせをこそとやいはんことしとやいはん」と“和歌”が書いてある。次の貫之の歌も詞書・作者名・和歌の順に書かれている。
 “巻”情報というのは、次の巻が立つまではずっと同じ巻です。ですから、二首目の歌三首目の歌にも巻第一というのが構造上は引き継がれているわけで、どの歌が表示される場合にも、その歌が属している“巻”情報と、その歌が所属している“部立”情報の二つは、常に表示されている必要がある。
 次に問題なのは“歌番号”。“歌番号”というのは原本に書かれていない。つまり、情報の根幹は底本に書かれていることを翻刻してテキストデータに起こし、それを仮名に開くとか、標準化したりしてデータを作るが、歌番号というのは原本に書かれていない。けれども、歌の配列は重要な要素であって、順番が狂うと歌集としての意味を崩してしまう。ということは、歌の順番というものをどこかできっちり記述しておいてやらなければならない。そのため歌一首ずつに番号を振っていってやるということが必要になってくる。これさえしておけば、順番が狂うことはない。
 順番が狂わなければよいということであれば、何巻何ページ何行目を記述しておいてやることで狂うことは防ぐことができる。しかし、その行が、前の歌の左注なのか、次の歌の詞書なのかがわからない。歌番号の方式だと、そういうことまで狂うことなく情報管理ができる。
 勅撰集の中にもちょっと変形がある。例えば二首でセットになって一つというのがある。つまり連歌などがそうだが、連歌の場合にはどう書いたらいいだろうか。連歌というのはやはり五七七の部分だけで“歌番号”を一つ持っているよりは、七七と最初に作られた部分と、それに対してつけた五七五、これをセットで見えないとまずい。歌として引用に堪えるレベルの情報量にならない。あるいは読んで評価するだけの情報量にならない。そうすると、“歌番号”一つの中には、“詞書”や“歌”などのタグが複数可能であることが必要。七七の部分とか五七五の部分それぞれには、それぞれの“詞書”の部分があったりするわけで、“作者名”もそれぞれに当然違うので、“詞書”や“作者名”も一つの“歌番号”の中には複数立てることが可能になっていなければならない。
 歌合はどうか。連歌に準じて考えよう。

5 シンプルな仕様とは−散文について考える−
 散文諸作品の場合、どういう情報構造をもっているか。
 まず、作品の本文がある。これをデータの「本文領域」に記述する。
本文には、漢字の読みなどの傍記がある。この傍記は、実際には、多種多様であることが予想される。注釈のような長い文章がかかれていることもあれば、ほんのちょっとした符号のようなものがあるだけという場合もある。ここを情報の意味によってすべて階層を分けると、たちまちデータ構造は複雑になる。複雑どころか、作品によってどういう構造になるか定まらないということにもなりかねない。そこで、傍記はすべて「注記領域」に記述することにする。情報の意味の違いは傍記の中で書き分けることにする。底本にある注釈情報はすべてこの「注記領域」で記述することにしたから、頭注や脚注なども本文との関係を定めてその位置の情報として「注記領域」に記述する。問題は割書きだが、これは作品本文ならば「本文領域」、注記情報ならば「注記領域」に記述する。以上が原本に書かれている情報。
 因みに、『源氏物語(絵入)』桐壺の巻冒頭の一行について、四層のテキスト情報を示すと次のようになっている。以下を読み進むときにも参考にされたい。

 本文領域 いづれの御時にか女御更衣あまたさふらひ給ける
 標準領域 いつれのおんときにか。にようこかういあまたさふらひたまひける
 注記領域 (1)#源氏誕生より十二才まて有/(5)おほんとき/(9)ねうご/
      (11)かふい
 メモ領域 大成【5・1】目案【一いづれの御時にか△此發端の辞甚深也。先作者を
      あらはさず。聞つたへたるやうに書たり。卷々の始終にもその趣あり傍
      人$の難をおはざる故也。延喜の御門の御時の事也。伊勢集始にも。い
      づれの御時にか有けん。此詞をとれり】【一更衣△四位△給女の惣名也。
      御門の御服をめしかふる時。あつかひ給ふ人なるによりて。更衣といふ
      なり】【一女御△二位三位にいたる。后のつぎ也。常の上臈の御方など云
      位成べし】

 検索のことを考えると、底本通りの表記で検索するのでは多様に検索しなければならず、利用者の負担が一気に大きくなる。気が付かなければ、検索漏れをいっぱいしたままになる可能性がある。これはなんとしても防がなければならない。そこで、通常の漢字仮名交じりでかかれているような作品については、すべて歴史的仮名遣いの仮名で開くことにして、その仮名を「標準領域」に記述する。「標準」という名称はしばしば誤解を生むが、表記を揃える、つまり標準化するということ。仮名に開けばいいというのでは表記は揃わないので、基準をきっちり決めないといけない。
 実際に古語辞典を並べて引き比べて見ると、同じ語彙でありながら仮名遣いで異なるというような事例も見つかる。ここは基準にする古語辞典を一冊に決めるしかない。そこで、岩波の古語辞典を採用した。古語辞典は、ずいぶん工夫して作られている面はあるが、ひとつの語彙に対して複数の表記を立てていることがある。それは編集者の親切心だが、どれも同じレベルで記述されていたりすることもあり、どの表記がよるべき表記なのか定まらないことがあって、データベースのほうの事情とぶつかる場合も出てきます。主項目があって、他はそこを参照せよとなっていると一通りに寄せることも可能になるが、そうはいかない場合もずいぶんと多い。そういうこともあって、岩波の古語辞典によるといっても、聖典のごとく崇め奉るのではなくて、主たる参考文献という位置付けになる。
 研究者は、データベースを利用して語彙の用例を一覧し、紙に印刷するか、あるいは画面で眺めてすぐに判断をしていきたいもの。ここから急に目と手の作業に移行するというのでは、その判断の一つ一つが残らない。せいぜい紙切れの端に走り書きされて、いずれ忘れ去られるのが落ち。残したい判断は残る、そして、残した判断は次から検索できる、こうすることによって、研究者は個別にこのデータベースを育てていけることになる。そこで「メモ領域」を設定した。この領域は、原本にはない必要な記述すべてを引き受けるところ。校異情報、他の文献への案内、大事なコメントなどなど、多様に記述していける領域である。
 以上で、一行の本文は四層に記述されることになりました。もうひとつ何があるか。それは原本の画像。微妙な墨跡が読みを分けるというようなことは、国文学ではあたりまえのこと。それでどれが正しいという考証が必要になったりもするが、原本の墨跡を見れば、考証するまでもないという場合も実際に出くわされた方が多い。そういう意味では、原本の画像は欠かせない情報である。