5.二次情報データベースの形成と利用

5.1  国文学とコンピュータ
(国文学研究資料館における事例研究)

                国文学研究資料館研究情報部助教授  原 正一郎

1.国文学情報システム
 国文学研究は、わが国の文学全体に渡る作品論・作家論・文学形態論などを対象とする研究分野であり、書誌学・文献学・国語学などを含み、歴史学・民俗学・宗教学などに隣接する。研究対象は上代から現代までの全時代に渡り、地域的にも歴史上のわが国全土を網羅する。このうち古典文学は近世以前(明治初期まで)を指す。
 国文学のように思弁的な研究分野では、多様なデータを多角的に活用することが不可欠である。その国文学が対象とする写本・版本などの文献資料は、200万点を越えると言われ、日本国内のみならず世界中に散在している。このため、資料の所在調査および収集・整理・保存は組織的に行う必要がある。また収集された各種の資料は、その特性に合ったデータベースとして組織化され、研究者へ提供されなければならない。つまり国文学研究のための情報システムとは、国文学に関連した各種データベースと、これら複数のデータベースを統合する機構から構成され、研究者の知的発見作業を支援できるものでなければならない。我々はこれを国文学情報システムと呼んでいる。国文学情報システムは、原本テキスト・原本画像など、従来は「モノ」の形態で流通していたデータを、組織的にデジタル化・蓄積して研究者に提供するものであり、いわゆるデジタル図書館システムの一種と考えることもできる。
 国文学研究資料館は国文学研究に関する資料の調査・収集・整理・保存、および研究情報の公開を目的とした人文学系大学共同利用機関である。国文学研究資料館では主に明治初期までの写本・版本をマイクロフィルム資料として収集し、紙焼写真本などに加工して研究者の閲覧に供している。また創設時からコンピュータによる国文学データの組織化に努め、現在は3種類の目録データベースのオンライン検索サービスを行っている。また全文データベースや原本画像データベースなど、国文学情報システムのマルチメディア化に向けての研究開発を進めている。
 本稿では、国文学資料のマルチメディア化におけるデータ記述法について、我々の取り組を例に解説する。以下、2章ではマルチメディアとマークアップの関係について述べ、3章で事例を示す。4章では標準マークアップ言語であるSGML(Standard Generalized Markup Language:標準汎用マークアップ言語)について説明し、5章で事例を示す。6章では目録及び画像データについて概略する。最後に7章で今後の課題について述べる。

2.マルチメディア・コンピューティングとマークアップ
 マルチメディア・コンピューティングの発展は、コンピュータの機能が向上し、文字以外のメディア、特に音声と画像が扱えるようになったことに起因する。メディアとは表現のための記号モードであり、マルチメディアとは複数の記号モードの組み合わせである。しかしマルチメディア・コンピューティングには、複数の記号モードを単に処理するということではなく、ある首尾一貫した枠組みを設け、その中で記号モードを統合化する、あるいはシームレス(seamless:継ぎ目なし)に処理する意味合いがある。
 ところで、「ものごと」の記録法の主流が口述から文書へと変化したのは、11世紀前後に英国で記録保存の基礎的な方法が確立した頃であると言われている。15世紀にグテンベルクが活版印刷技術を発明して以来、文字は我々の情報伝達の主要な記号モードとなり、紙はその主要な記録メディアとなった。その結果、記録は不揮発なものとなり、時間と空間を超えて多くの人々に伝達できるようになった。しかし印刷文書は多大な文化的恩恵を人類にもたらした反面、メディアとしては二つの欠点を抱えていた。
 その一つは、口述を文字に変換する過程で、音声が持っていた感覚に訴える要素を捨てざる得なかったことである。口述をテープやビデオに記録して、文字から音声あるいは音声から文字への相互参照が可能であれば、この欠点は解決できる。マルチメディア技術は約500年の時を経て、文字ではない記号モードを再び採用しようとしているのである。
 もう一つの欠点は、紙に書かれた記録は固定的あるいは線形的(linear)な書式で保存されることに起因する。線形とは数学用語であるが、マルチメディアの分野では、記録が一定の順序で組立られ、その順序に辿ることを意味する。例えば一般的な論文の組立は、序論・本論・結論・考察・参考であるが、これをどのように変更しても、本質的に線形的である限り、全ての情報検索ニーズを満たすことは不可能である。この欠点を補うために、目次・ページ・章立て・索引などが発明されてきたが、問題の根本的解決には至らなかった。シミュレーションは、ある状態変化の過程をモデル化して操作する機能であり、経済モデルのシミュレーションによる将来予測は典型である。マルチメディアにおけるシミュレーションも同様であるが、数値的なものより文書などのデータ構造をモデルの対象とする傾向がある。例えば、文書中に分散している関連事項、読者が関心を持っている事柄、あるいは特定の文書内容と関連する画像などの間に、何らかの関連付けを設定するモデルを考える。このモデルをシミュレーション(操作)すれば、関連事項のみを抽出したり、関心のある部分を飛ばし読みしたり、文書に関連する画像を参照することが可能となる。このように、記録を非線型的かつ芋蔓式に参照する手法はハイパーテキスト(hypertext)と呼ばれている。つまり、マルチメディア技術を利用することにより、印刷文書の制約であった線形性から開放されることになる。
 旧来の各メディアには構造モデルと呼ばれるものがあり、これらはデジタル化の際のモデルとしても利用できる。文書では紙に書かれる構造が基礎モデルである。文書は情報伝達の中心メディアであったため、文書をコンピュータで処理するモデルの研究(Document Architecture)は、他のメディアに先んじている。そこでマルチメディア化の手段として、文書モデルを他のメディアに拡張することが考えられた。その最初の標準がISOによるODA(Office Document Architecture)であり、これは文書を基礎として図形や画像情報を定義したものである。
 さて、文書をモデルに従って具体的に記述する技法としてマークアップがある。文書にはタイトル・序文・章・段落・節・参考・章題・節題のような構造(文書の論理構造)があり、マークアップは文書の論理構造を明示するために文書中に埋め込まれる特別な文字列である。この文字列はタグ(tag)とも呼ばれる。マークアップによる構造の記述は、文書世界において有効性が検証されたため、これを他のメディアに拡張する試みが行われている。例として、やはりISOおよびJISの規格であるSGMLとハイパメディア及び時間依存情報の構造化言語(HyTime)、国際標準ではないがWWW(World Wide Web)における事実上の標準言語であるHTML(Hyper Text Markup Language)などをあげることができる。

3.古典原本のマークアップ
 本章では古典原本のマークアップの事例を紹介する。一般に文書のデジタル化というと、版権のある文書を個人利用のためにデジタル化する、版権のない文書を公開するためにデジタル化する、あるいはデジタル出版を指す場合が多い。これらの場合、原本とデジタル文書はほぼ等価である。つまり、原本をスクリーン上あるいはプリンタ上に再現できる。
 これに対して、古典原本には、現在では使われていない(コンピュータに標準的に登録されていない)文字や特殊な装飾が施された文字、あるいは判別の困難な文字が多く存在する。原本をデジタル化する作業は、原本中の膨大な種類の記号をコンピュータで処理可能な有限個の記号集合に変換する操作であり、翻訳に近いものである。デジタル化の過程で、ある文字をA氏は外字と判断したが、B氏は標準字との対応をとるかもしれない。つまり、二人の研究者が同じ原本をデジタル化した場合でも、出来上がったデジタル文書は似て非なるものとなる。したがって、古典原本のデジタル化では、単に文書の論理構造をマークアップするだけでは不十分であり、各種の注釈や翻刻作業に際してのドキュメント情報(翻刻者、翻刻の基準など)を付加できなければならない。また、原文中に複数の解釈が可能な部分があった場合、全ての解釈が記述できなければならない。一方、マークアップされたデジタル文書を処理するシステム(文書処理システム)は、これらの情報や複数解釈がなされた場所を同定し、必要に応じて全ての解釈を表示・検索できなければならない。

3.1 Hartlib Papers
 Hartlib Papers ProjectはUniversity of Sheffieldが所蔵するSamuel Hartlib(1600-1662)の約2500ページにおよぶ書類および書簡のデジタル化を目的としている。この資料の価値は、17世紀におけるヨーロッパ知識人の生態を非常に克明に記載している点にあると言われている。
 このプロジェクトでは独自のマークアップシステムを採用している(図1)。その特徴は、データ入力に標準的なワードプロセッサ(MICRO SOFT WORD)を利用しているため、レイアウトに編集上の意味を含めた点にある。例えば図1において、センタリングはタイトルを表し、"soule"部分に引かれた横線は削除文字列を表している。"our"部分のイタリック文字"u"は編集者が補足したことを表している。また特殊な記号によって編集上の注釈を表している。例えば、"["と"]"に囲まれた部分は、ページ情報"[9/1/110A]"、マージン"[in right hand Margin 1]"や編集コメント"[copy at 9/1/115]"などを表している。解釈が曖昧な部分は"[varities?]"のように表している。イタリック文字"?"はこれが文書中の文字でないことを表している。
 このプロジェクトで採用されたマークアップ体系では、原本を忠実に再現するという点(例えばマージンの指示)において問題がある。しかし、デジタル化文書に原本画像を含ませることによって、問題の解消を図っている。

3.2 Wittgenstein Archives
 このプロジェクトの目的は、University of Bergenが所蔵するWittgenstein Archives(約20000ページにおよぶLudwig Wittgensteinの全遺稿)をデジタル化して保存することにある。原本は出版を意図したものではないので、多数のバージョンに加え、著者が付けた複雑な注釈・削除・加筆・訂正に特色がある。近代哲学におけるWittgensteinの重要性および研究する上での遺稿の価値を考慮し、プロジェクトでは原本を可能な限り再現できるように注意を払っている。そのため、ここでは独自のマークアップ体系(MECS:A Multi-Element Code System)を開発した。MECSでは5種類の符号系を持っている。
 最初の符号系は"NO-ELEMENT"と呼ばれ、位置的な情報(タグや行末など)を表す。これはSGMLにおいて物理的構造(行末やページ末など)を表すために使われたりするEMPTYタグと似ている。例えば

"<sepline>"

はテキストの節を分ける横線を表す。2つ目は"ONE-ELEMENT"と呼ばれ、通常のSGMLエレメントと同様に、テキストの特定の領域を示す。例えば、

<del/abcd/del>

は文字列'abcd'が削除文字であることを表す。SGMLならば

<del>abcd</del>

となろう。3つ目は"POLY-ELEMENT"と呼ばれ、エレメント間の関係を規定する。例えば、

[s/2| <del/abcd/del> /s| <i/efgh/i> /s]

は文字列 "abcd"が削除され"efgh"で置き換えられたことを示す。ここで"s/2|"は2つの文字列があること、"/s|"は最初のエレメントが終了したこと、"/s]"は一連のエレメントが終了したことを表している。また" <del/abcd/del>"は"abcd"が削除された文字列であること、"<i/efgh/i>"は"efgh"が追加された文字列であることを表している。4つ目は"CHARACTER REPRESENTATION CODE"と呼ばれ、標準ASCIIコードセットにない文字を表現するために利用される。例えば、

{fs}

はフルストップマークを表す。これはSGMLの実体参照機能と似ている。5つ目は"CHARACTER-DISAMBIGUATION-CODE"と呼ばれ、曖昧なコードの意味を特定するために利用される。例えば、

{fs/es}

はフルストップマークを文末の意味で用いていることを表す。
 MECSの特色は"POLY-ELEMENT"の持つ強力な記述力にあると言われている。例えば原本中に

die Hutte

・・・・・・・・・・ Das groβe Haus・・・・・・・・・・・

という記述はあるものの、適切な読み方の指示がない場合を考える。可能な読み方としては"das groβe Hause"、"die groβe Haus"、"das groβe Hutte"および"die groβe Hutte"の4種類があるが、文法的に正しいのは両端の2つである。MECSでは、このように選択肢の多い記述を

[em/2| das <i/die/i> gorβe Hause <i/Hutte/> /em|

[s/2| das groβe Hause /s| <i/die/> gorβe <i/Hutte/> /s] /em]

と表現する。ここで"[em/2|"は文書が2つの部分からなっていることを表す。最初の部分は"das <i/die/i> gorβe Hause <i/Hutte/>"で、原本に記載されたものである。次の部分は"[s/2| das groβe Hause /s| </die/> gorβe <i/Hutte/> /s]"である。これ自身が"POLY-ELEMENT"であり、文法定に正しい文字列を表している。なお"em"は、最初の部分を無視して2番目の部分に注目することを、文書処理システムに指示している。これによって、文書処理システムは最初の部分を参照して全ての可能な読み方を表示することも、正しい読み方だけを検索することも可能となる。  MECSは多分にSGMLを意識している。しかし、プロジェクトで必要とされる機能を実現できるSGMLツールがないため、当面はSGMLへの変換は考えていないようである。

3.3 古典本文データベース
 これは国文学研究資料館で作成された全文データベースである。収録作品は、岩波書店刊行旧版「日本古典文学大系」全100巻(約600作品)および東京堂出版刊行「噺本大系」全20巻(約2万話)である。これらは校訂定本である。
 古典本文データベースの作成では、KOKIN(KOKUbungaku INformation)ルールというマークアップ規則を独自に定めた。KOKINルールは3つ符号系を持っている。最初の符号系はKOKINルール1と呼ばれ、文書の論理構造を定義する。これはSGMLのエレメント定義に相当するため、タグルールとも呼ばれる。KOKINルールでは、文書を論理構造の基本要素である論理レコード(行、タイトルなど)、連続した論理レコードの集まりである論理レコードセット(章、歌、詩など)、連続した論理レコードセットの集まりである論理レコードファイル(本など)、のように階層的に分けている。KOKINルール1では"¥"にアルファベット1文字を加えた記法で論理要素を表す。例えば"¥T"はタイトルを表す。
 KOKINルール2は傍記などの文書の2次元的な構造(レイアウト)を1次元的構造に変換するためのもので、機能的にはSGMLの属性と似ている。例えば、

はら しょういちろう
原  正一郎

のような傍記は

/原 正一郎/(はら しょういちろう)/

と記述される。ここで"/"は傍記の対象となる文字列の領域を、"("と")"で囲まれた領域は傍記内容を示している。また

はら しょういちろう
原 正一郎
Hara Shoichiro

のような左右傍記は

/原 正一郎/(はら しょういちろう | Hara Shoichiro)/

と記述される。
 KOKINルール3はヨミなど、研究者が独自に行うデータへの付加価値付けを支援する。例えば、

をとこもすなる日記・・・
という部分にヨミなどを付加する場合、

をことも (をとこ[,男]) すなる 日記と (にっき・・・
のように記述する。ここで" "は単語の区切りを表し、ヨミなどの付加データを"("と")"の間に記述する。

4.標準マークアップ言語
 前章の例は、人文科学領域で行われている古典原本のデジタル化のほんの一例である。古典原本をデジタル化する目的あるいは動機は、程度の差こそあれ、どのプロジェクトにおいても同じである。また、各プロジェクトにおける作業の枠組みやマークアップ体系は明確に定義・定式化されている。しかしマークアップ体系はプロジェクトごとに異なっている。このため、他のプロジェクトのデジタル文書を利用するには、相手のマークアップ体系から自分のマークアップ体系への変換を行わなければならない。これはテキスト・コンピューティングが目指すマルチメディア世界の、シームレスなデータ共有とはかけ離れた状況である。そこで、デジタル化文書の共通基盤としての汎用マークアップ体系の確立が注目されるようになった。
 このような標準マークアップ体系の標準規格としては、流通業界におけるEDI(Electronic Data Interchange)、出版業界におけるSGMLなどがある。さらに人文科学領域ではSGMLをベースとしたTEI(Text Encoding and Interchange)の規格制定作業が進んでいる。これらの中で最も普及している規格がSGMLである。SGMLは文脈自由文法のクラスに属する(言い換えれば、樹形構造を表現できる)言語である。したがって、ネットワーク構造や3次元的な配置の記述には適さないが、紙に書かれた文書と類似した構造を表現する場合には非常に有効である。SGMLには以下のような長所がある。
1)国際規格であり、厳格に定義された言語である。
2)広く普及しており、多くのアプリケーションがある。
3)SGMLは「文書の処理法」よりも「文書のあり方」を記述するものであり、これは研究者の研究  指向に合致する。
4)SGMLは文書構造を記述する強力なツールであり、どのような文書も記述することができる。
5)SGMLはハードウェアやソフトウェアに依存しないので、同じ文書であるならば、異なったシス  テム上のスクリーンでも、プリンタでも同じように再現することができる。
6)SGMLは国際的に批准された規格でありシステムに依存しない。したがってSGMLファイルは恒久  的なメディアと考えることができる。
このため文書のデジタル化に際しては、SGMLを利用してマークアップを行う事例が増えている。また既に独自のマークアップ体系でデジタル化を済ませてしまったプロジェクトにおいても、SGMLへの再変換を行ったり、変換を考慮しているプロジェクトが増えている。

5.古典原本のSGMLによる記述
 我々がKOKINルールを開発した理由は、古典原本の全文データベース化を開始した当時、SGMLの古典原本への適用可能性が未知数であったこと、さらに日本語対応のSGMLツールがなかったためである。しかし最近の研究から、KOKIN文書をSGML文書に変換することは比較的容易であることが確認された。本章では構造が比較的単純なKOKIN文書と、傍記などのために構造が複雑なKOKIN文書を、それぞれSGML文書に変換した例を示す。

 5.1 正保版本歌集
 正保版本歌集は国文学研究資料館の中村助教授を中心に翻刻が行われたデジタル文書である。正保版本歌集の基本的な構造は、詞書き・作者・和歌が繰り返す比較的単純なものであり、マークアップの記法はKOKINルールに準じている。
 KOKIN文書からSGML文書への変換は字句解析と構文解析からなる(図2)。字句解析の基本的な操作は、"¥"記号をマークアップのハンドルとし、SGMLのSTAGO(参照具体構文では"<")とTAGC(参照具体構文では">")に置き換え、"¥"に続くアルファベットを適切な要素名に置換することである。これによりタグ省略のあるSGML文書を生成する。構文解析では、字句解析で生成したSGML文書とDTD(Document Type Definition:SGMLデータの構造定義文)から構文チェックを行い、最終的にタグの完備したSGML文書を生成する(図3)

5.2 噺本大系
 噺本大系は主として江戸時代前期までの軽口本の代表的な作品を収録したもので、翻刻は国文学研究資料館の岡教授らにより行われ、東京堂から「噺本大系」として出版されている。KOKINルールに基づいたデジタル化は国文学研究資料館の安永教授により行われた。このデジタル化の特徴は、大系本の構造(段組、割り注、傍記など)を忠実に再現した点にある。本節では幾つかの特徴的な文書構造をSGMLで記述した例を示す。図4にはSGML文書の一部と、それをLaTexに変換して印刷したもの示す。
 図4-1は単純な傍記のマークアップ例である。傍記は傍記内容と傍記が附随する本文中の文字列の2つの領域から構成されていると考え、それぞれ"<傍記>"、"<傍記素>"としてマークアップされている。タグ"<傍記素>"内の属性"fg"は傍記素の領域が2行以上にまたがっているか(fg="ON")否か(fg="OFF")を指示するものである。図4-2は割書きのマークアップ例である。割書きは連続する1つ以上の行から成り立っていると考えた。そこで、割書領域を"<割書き>"で示し、その内部に"<行>"でマークアップされた行の領域が繰り返している構造として定義した。タグ"<割書き>"の現れる位置が、本文中で割書きの挿入されている位置である。タグ"<割書き>"内の属性"fg"は、タグの挿入された領域が本文中で2行以上にまたがっているか否かを表す。図4-3は傍記が複数行にまたがっている場合のマークアップ例である。ここではタグ"<傍記素>"内の属性"fg"を"ON"にして、傍記が2行以上にまたがっていることを表している。図4-4は傍記が本文の両側に現れる場合のマークアップ例である。この場合、タグ"<傍記素>"で囲まれた領域の本文中の文字列に対して、タグ"<左右傍記>"以下の傍記内容が附随する。左右傍記の領域内には右傍記の内容と左傍記の内容の2つの領域があり、それぞれ"<右傍記>"と"<左傍記>"でマークアップされている。

6.その他のデータベース
 6.1 目録データベース
 国文学研究資料館が公開している2つのデータベース(マイクロ資料目録データベースと和古書目録データベース)は館蔵資料目録であるが、館蔵資料を探すのに複数のデータベースを検索するというのは不便である。そこで両目録データのレコード構造を比較してみると、違いがあるのは、データ収録の際の判断がフィルムか原本かに依存したフィールドと物理的な管理情報のフィールドのみあった。例えば、書写者・書写年などはフィルムに依存した作業では判断しかねる。また物理的な管理情報である残欠表示の場合、和古書であれば原所蔵者(国文学研究資料館)の情報として収録できるが、マイクロフィルではフィルムとして撮影・収集されている状態の情報として収録せざる得ない。そこで、これらの機能の異なるフィールドについてはフィールド名を分けることで両目録データの統合を図った。
 ところで目録データは定型レコード構造の典型例であるが、それでも著者名のように不定回の繰り返しが必要なフィールドや、要約のように可変長テキストデータのフィールドが存在する。しかし視点を変えてみると、目録データも文字型の不定長フィールドが一定の論理構造(繰り返し・入れ子・出現順序・出現回数など)を持ったものと見なすことができる。つまり、目録検索を「テキストデータ中の文字列検索」とみなせば、前章と同様にSGMLを利用したデータ記述が可能となる。これは、文書と目録という質の異なる情報を、同一の文書処理システムで組織化することであり、国文学研究資料館のように情報処理組織の規模が小さいにも関わらず、インターネット対応やマルチメディア対応を迫られている機関にとって、大きな魅力である。
 統合された目録データのDTDを図5に、マークアップされた目録データの例を図6に示す。目録データは1つ以上の「レコード」から成る。「レコード」は「標目部」と「記述部」から、「標目部」はデータ検索のキーとなる「統一著者名」と「著者名」から、「記述部」は「請求情報」や「記載題」などから、更に「記載題」は「内題」、「外題」、「扉題」などから成る。このデータ構造の特色は、目録が本来持っている階層性(帳票構造)を反映している点にある。したがって、書名を記載題のレベルで検索することも、あるいは内題に絞って検索することも可能である。  国文学研究資料館でSGMLを導入した理由は、SGMLデータを中間データとして利用して、検索サービスやCD-ROM作成あるいは冊子体目録の作成などを効率的に行いたいからである。ここでは冊子体目録の作成について述べる。
 ところでSGMLの特色は、テキストの論理構造とレイアウト構造を分離することにより生産性の向上を図ることである。SGMLは論理構造の部分を受け持っている。他方、ISOの標準として文書スタイル意味指定言語DSSSL(Document Style Semantics and Specification Language)がある。これはSGMLのDTDで定義されている各要素に対して、編集者がどのような整形を行うかを示す言語で、整形システムやプロセッサなどからは独立した規格となっている。残念ながらDSSSLを直接理解できる整形ツールは未だ存在しないので、今回は、独自に変換プログラムを作成して、
1)SGMLデータからLaTeXデータファイルを生成
2)LaTeXデータファイルからDVIファイルを生成
3)ポストスクリプトを整形ツールとして印刷
という手順で版下原稿を作成した。図7に出力例を示す。

 6.2 国文学研究画像データベース
 目録の欠点は、資料の所在が判明しても資料そのものにはアクセスできないことである。これは地方の研究者にとっては切実な問題であり、情報一極集中の典型であるという批判の要因にもなっている。同じ趣旨の批判は海外の研究者からも寄せられている。これを解決する方法は、資料を画像データとして蓄積し、ネットワークなどを通じて提供することである。
 確かに一部の研究者の間には、デジタル画像は高精細のカラーでなければ価値がないという意見もあるが、国内の多く、海外の圧倒的多数の声は、G3−FAX程度の画像でもよいからとにかく資料を見られるようにして欲しいというものである。国文学研究画像データベースは、このような要求に応えるための第一歩であり、国文学研究資料館蔵の和古書をデジタル化しネットワークで提供することを目指したプロジェクトである。
 プロジェクトでは、高品質のカラー画像データを少量作成するよりも、大量の資料を速やかに公開することを優先した。そこでデジタル画像は、原本ではなく撮影済みのマイクロフィルムから作成することとした。このデータは白黒2値であるが、研究者が画像をヨムことを考慮して600dpiの精度で標本化した。これは1文字をスクリーン一杯に拡大しても、図形が粗くならない精度である。平成8年度にはマイクロフィルム約700本分(約40万コマ)についてデジタル化を行った。データの検索は前述の目録データベースシステムとリンクして実現する予定である。図8に画像の例を示す。

7.今後の課題
 原本をデジタル化することにより、検索や原本の電子的複製、あるいは底本と異本の関連付けなどは容易に実現できるようになる。人文科学領域のテキスト・コンピューティングとしては大きな前進であるが、問題も多い。
 古典原本のデジタル化と言っても、欧米と日本では事情がだいぶ異なる。欧米言語は単語の区別が容易であるから、デジタル文書を利用して語彙索引を作成することは容易である。語彙索引の作成は古典文書の主要な研究対象の一つであり、作品単位に語彙索引を作り、語彙検索や統計処理を行うことによって、作品の個々の特性を解析する。しかし日本語文書は語単位などの分かち書きの無い文からなり、また語自体にも複合語を作る造語性などの特性がある。さらに研究者によって語の確定に差がある。このため、日本語文書の語彙索引作成は困難を極める。少なくも欧米語のように、空白を頼りに単語を自動的に切り出す程度の語彙抽出機能を、日本語において実現しようとするならば、単語辞書と字句解析ツールが必要である。データベース用のキーワード抽出ツールはこの機能を実現したものであるが、辞書や字句解析の能力が高くないために、漢字などの限られた語彙しか抽出できない。これは見方を変えると、辞書の内容が豊富であれば、語彙抽出機能を改善できる可能性を示している。しかしデジタル文書の語彙索引が整備されないから辞書が豊かにならない、という理屈も一面の事実であり、まさに鶏と卵のジレンマである。
 古典原本のデジタル化、特に国文学古典原本のデジタル化に立ちはだかる大きな壁は漢字である。専門家によれば国文学資料をデジタル化するには、少なくとも数万字以上の字形が必要であり、現在のJIS第1、2水準(6355文字)および補助漢字集合(5801文字)を合わせても遥かに及ばない。漢字の問題を困難にしているのは数の多さだけではない。データ作成の側から見ると、字形同定の問題がある。国文学研究資料館で外字を作成する場合、字形の雛形として大漢和辞典などを参考にしている。したがって厳密に言えば、元の字形を辞典の字形に当てはめた段階で、字形は変形していることになる。外字を作成しても、データ交換の点からは問題が多い。例えば、インターネット上の端末では外字を表示できない。イントラネットでは外字フォントを使用し、インターネットでは外字を標準字にマッピングするという解決法もある。前述の目録データベースでは、外字をSGMLの実体参照機能を用いて記述している。データベースのサービス対象に応じて、参照ファイルを外字用と標準字用で切り替えて使う考え方である。しかしこの方法を採用しても、本来の字形を見ることはできない。原本のイメージ情報を併用すれば、この欠点を補うことが可能である。デジタル文書と原本イメージのリンクはこの意味でも重要となる。
 SGMLは樹形構造のデータ記述には適しており、紙に書かれた文書には特に親和性が高いと述べた。しかし、実際に古典原本のマークアップを行ってみると、SGMLの範疇では対処できない事例に遭遇する。例えばページ要素を加えようとすると、一般に章はあるページの途中から始まり、何ページかまたいで、別のページの途中で終了する。したがって以下のようなマークアップとなる。

<ページ P="100">
<章>・・・・・・・・
・・・・・・・・
</ページ><ページ P="101">
・・・・・・・・
</章> ページと章の領域が入れ子ではなくオーバーラップしているが、これはSGMLでは違反となる。一つの解決法は、ページや行などは開始位置が分かれば十分であることが多いので、SGMLのEMPTYタグを用いて位置のみを示すことである。実は5.2で示したマークアップ事例の中で、"<行番号>"はEMNTYタグであった。もう一つの解決法はSGMLのCONCUR機能を利用することである。これは並行文書とも呼ばれ、1つの文書中に複数の文書構造を許すものである。強力な機能であるが、マークアップが極めて複雑であり、この機能が利用可能なSGMLシステムは少ない。将来的にはHyTimeの利用などが考えられる。
 最後に著作権の問題がある。著作権は原著者、校訂者、電子化本文作成者、出版者などの複雑な関連もあり、今後真剣に考え対処すべき問題である。ここでは、問題点の指摘に留めることにする。