表紙へ     次の記事

歴史史料データベース化に思うこと

松本浩一

 昨年10ヶ月の間、台湾の中央研究院に、訪問学人として籍を置ける機会を得た。台北市の東のはずれにあるこの中央研究院は、台湾の最高研究機関と目されており、理系から文系にわたる様々な研究所が集まっている。私が所属したのはその中の近代史研究所というところであった。そろそろ台北での生活になれだしたころ、かなり大量の漢文史料が、ここ中央研究院でデータベース化されていることを知った。ここでは計算機センターと歴史語言研究所、台湾史研究所など個々の研究所との協カという形で開発が行われ、すでに完成しているもので、「二十四史」等の中国史の基本史料、「十三経」等の基本的な古典、台湾の地方志など7700万字近くに及び、開発中のものでも「大蔵経」など3500万字以上の規模になる。検索の方法もかなり考えられていて、史料の自分が読みたい部分に段階的に焦点をあてていきながら、そこで検索したい言葉に出会ったら、検索の範囲を指定して、出現する部分を検索したり、その言葉のコンコーダンスを画面に表示したりできる。検索のスピードはかなり速く、「二十四史」全体にわたる検索でも、数秒でできる。残念ながらこのデータベースは、使い方に関してはかなり閉じられていて、検索とコンコーダンス作成が主要な使い方であり、電子化されたテキストを自由に使って、計量的な処理を施したりすることはできない。しかしこれらのデータベースを、インターネットにのせる計画もあるということなので、そうなればさらに広く使えるようになる可能性もでてくる。そしてこの研究院ばかりでなく、すでに「十三経」等の古典はフロッピーで市販され、広く利用されているということであり、やはり中国の古典に関しては、台湾や中国のほうがデータベース化が進んでいるようだ。
 私は従来から台湾で、日本でいえば神社にあたる施設である祠廟について、その組織や行事などについて調査を進めているが、今回この廟のデータについて、データベースを構築してみたいと考えた。そこである研究会でその案を紹介したところ、もうすでにそのような計画があるということを聞き、データベース化がかなり広い範囲で計画されるようになっていることに驚かされた。台湾の研究者の間にも一般にパソコンは広く利用されているらしい。残念ながら研究者自身が自分の研究にどのように、またどの程度までパソコンを利用しているかは、詳しく知ることはできなかったが、中国語ワープロはかなり普及しており、研究会で配られる原稿(台湾や中国の場合、研究会の資料はほとんど完全原稿である)なども、すべてこれを用いたものであった。近代史研究所の端末の置かれた部屋でも、いつもアルバイトとおぽしき女子学生たちが、書誌データや文書などを入力しており、彼女らにはシステムの使い方でかなりお世話になった。
 日本においても、歴史史料のデータベース化については、歴史研究者と情報処理研究者との協力による大規模な計画から、研究者個人によるものまで、様々なレベルで行われている。80年代のはじめ、人文学分野の研究機関に情報処理部門が設置され、コンピュータが導入されるようになったころ、コンピュータを利用した人文学研究支援システム構築の一環として、人文学資料のデータベース化を進めたのは、主としてその情報処理部門にあった、もともと情報処理分野出身の研究者たちであった。そのころはパソコンもまだ充分には普及しておらず、特に人文学研究者の間では、少数の若手研究者や、早くからコンピュータ利用を必要とした分野(たとえぱ計量的研究を主とする分野)をのぞいては、コンピュータそのものがそれほど親しめるものにはなっていなかった。しかし現在では、歴史史料など人文系資料のデータベース化の試みは、研究者が主体となって進められるようになってきている。そして人文学のどの分野においても、コンピュータ利用をテーマにした研究会が催されるたびに、多くの出席者を集めており、その利用に対する研究者の関心の高さを示している。しかしそのことは、一方でどのように計算機を利用していくかについては、いまだに手探りの状態であることを示している。
 人文学の分野でのコンピュータ利用では、文学や歴史研究などにおいては、やはりまず論文作成の道具として、ワープロの利用があり、またフルテキストデータベースも広く構築されて、やはり検索またはコンコーダンスの作成に利用され、そのほかに文体の分析、すなわち文の長さや特定の語の使い方などの分析を手がかりに、作者を特定することなどがなされている。古典に関してはさらにテキストの校勘のデータ、注釈などを含む新しい版(電子版)の作成などが行われている。歴史史料に関しては、特に計量可能なデータをあつかう分野、すなわち計量経済や戸籍などを利用した人口統計といった分野の他に、選挙の際の投票行動や個人の経歴の分析などでも、コンピュータの利用が大きな役割を果たしている。しかしこのようなコンピュータが主として活躍する場面は、80年代はじめのころからそう変わっているわけではない。
 むしろ現在では、様々に発達した各種のパソコン用ソフトを、研究者個人が研究を進める際の道具として、どのように使いこなしていくかということが、主な関心を集めているように思える。たとえば歴史研究者に関していえば、取り扱う史料はなんといっても文字史料であることが圧倒的に多い。しかしそれらを扱うにあたっては、史料は必要な部分をどんどんワープロに入れていきたいが、そのとき何らかの整理・加工を施しておくほうがいいのか、あるいは最初からデータベースソフトに入れていこうと思うが、その場合どのような項目を立てておいたらいいのか、どのような配慮をしておいたら、あとで必要なときに組替える(組織化しなおす)ことができるのか、けっこう厄介な字が多い史料の入力に何か有効な手だてはないのか、OCRはその厄介な字にどの程度有効なのか、外字が出てきた場合一つ一つ作っていくほうがいいのか、といったことからして頭を悩ませてしまう。
 しかしこれらの問題の多くは、経験上のノウハウであって、実際に同じような目的をもって、同じようなデータの処理に取り組んだことがなければ、有効なアドバイスができないことが多い。さらに現在では、画像データや統計計算あるいは通信など、従来はそれを使うことがどうしても必要であった人しか使わなかったソフトも、一般の利用者に手軽に使えるようになったため、たとえぱ文字史料でも画像データとして保存しておいたり、今までは白分だけでしか使っていなかったパーソナルデータベースを、気軽に公開して相互に利用したりなど、様々なソフトを組み合わせて有効な活用法を生み出せる可能性は、日に日に広がっている。研究会の盛況は、そのような可能性への歴史・人文研究者の期待と、使い方のノウハウヘの要求を示しているように思える。
 しかしそのような情報交換の場を確立することとともに、もう一つ必要なのは、歴史学(人文学)研究における情報処理についての研究ではないだろうか。つまり史料とはどのような性格のデータで、歴史学とはそれに対しどのような情報処理を施し、どのように情報を引き出すのかという問題である。これは歴史学の方法論に関わる問題でもあるが、コンピュータを利用した史料処理・研究支援システムを構築していこうとする際には、避けて通れない問題であろう。たとえばはじめに紹介した史料の全文データベースにしても、記号としての文字を検索するという利用法から一歩踏み出すために、情報学の立場からも様々な試みがなされてはいるが、歴史研究者の側でも、自らが日頃行っている史料処理の性格について、省察を加えてみる必要があるのではないか。様々な史料をめぐる近頃のデータベース化のめざましい伸展の中で、その必要性を強く感じている。


本学・助教授
Some problems in historica1 materia1 databases.by Koich Matsumoto