使琉球録 全文テキスト 説明                    岩井 茂樹 1)入力と校訂   「沖縄の歴史情報」プロジェクトの計画研究「環東シナ海地域間交流史――中国福建を中心として」(研究代表者 京都大学文学研究科・夫馬進教授)では,使琉球録の全文データベース作成を試みた。対象となるテキストは,下記の通りである。 1 陳侃『使琉球録』1巻 嘉靖13年(1534)尚清冊封 2 蕭崇業・謝杰撰『使琉球録』2巻 附『皇華唱和詩』1巻 万暦 7年(1579)尚永冊封 3 夏子陽『使琉球録』2巻 万暦34年(1606)尚寧冊封 4 徐葆光『中山伝信録』6巻 康煕58年(1719)尚敬冊封  これらの使琉球録は,臺湾銀行経済研究室が刊行した臺湾文献叢刊に収められている。この臺湾銀行の活字本は,字体は旧字体である。また,句読点も字の右下に寄せる日本式とは違い,行の中央にカンマやセミコロン,句点(まる)などを打つ。こうした特殊なテキストではあるが,適当な入力委託先が見つからなかったこともあり,試験的にOCRによって入力した。OCR入力にともなう問題については、岩井「琉球册封使関係資料情報化の課題」『沖縄の歴史情報研究』(本CD-ROMにもPDFファイルとして収録されている)を参照されたい。  使琉球録の入力に際し,校正を三度重ねることとした。初校は,OCRの画面を使っての対校である。画面上での作業であるので,仕事の強度はかなりのものとなる。また,作業者が,古い漢字の取り扱いに慣れていることが必要であり,誰でもできる仕事ではない。スキャナによる入力作業も含めて,岩井が担当した。再校は,読みとり結果を印字したものを,底本(台湾銀行本)と対校した。この作業は,大学院生によっておこなわれた。この段階までは,底本とおなじ箇所で改行しておくことが,対校作業の効率をあげる。三校は,底本が依拠した原刊本と対校することとした。しかし、この作業は蕭崇業・謝杰『使琉球録』についてのみ行なわれ(岩井が担当)、他の,陳侃『使琉球録』、夏子陽『使琉球録』徐葆光『中山伝信録』については、行っていない。したがって、厳密な意味での校訂済み全文テキストとして提供しうるのは、蕭崇業・謝杰の使録のみである。これ以外の全文テキストを公開することには、やや躊躇を覚えるが、検索用のテキストと割り切り、あえて公開することとした。  また、現在の漢字コードシステムでは,完全な電子版本を作ることは不可能であり,われわれの作った使琉球録の電子テキストも,校訂がなされたものであっても、やはり検索用のものでしかない。現在の電子テキストにおいては,利用者のコンピュータ環境に依存せずに,缺字の字形を表示する手段がない。これを補う一つの手段として,原刊本の画像をファイル化して,CD-ROMなど大容量の記憶媒体に記録したものを,研究者に配布するという選択肢がある。また,利用者が,電子テキスト上の字句に疑義をいだいた場合,このようなCD-ROMが手許にあれば,画面の上に原刊本の頁画像を呼び出して対照することが手軽にできる。校正が不十分な電子テキストを試験的に配布する場合には,こうした便宜を提供して資料の共有をはかることができるし,意欲と必要性をもつ利用者が電子テキストを改善するのを促すことにもなろう。高速な通信手段が普及すれば,こうした原刊本の画像ファイルを,CD−ROMに焼くのではなく,ネットワーク上のサーバーに置いて,遠隔地から呼び出せるようにすることで,資源の有効利用を図ることができる。上記のテキストのうち、夏子陽のものを除き、本CD-ROMに,もっとも良質のものであろうと判断される刊本(一部はその影印本)の画像を収録した。 2)缺字の取り扱い  われわれが使琉球録の入力作業をはじめた当初,「赤嶺外字表」は,まだ配布されおらず,利用することができなかった。岩井は,従来より,花園大学国際禅学研究所のアップ氏とウイッテアン氏が開発した「IRIZ漢字Base」 を利用して,CNSコードに基づく代替記号を使っていたので,OCRによる蕭崇業・謝杰『使琉球録』の入力にさいし,これによって缺字を埋めた。  「IRIZ漢字Base」の代替記号は,&C0-BFEC;のように,&と;で挟まれた形式である。これは,ISOで定められたSGML(Standard Generalized Markup Language)という文書の構造を記述するための印付け言語における,外部実体参照(External Entity Reference)の形式である。外部実体とは,参照の記号と置き換わるべき文字などの実体が,外部の定義リストによって示されることである。&C0-BFEC;の例でいえば, C0 : CNSの第一字面において定義されている漢字であることを示す BFEC : 16進表記による文字コードを示す という二つの部分によって,これが示す漢字の字形は,CNSのコード表を定義リストとして,そこから得られることが表現されているわけである 。  代替記号に対応する字形の表示について,IRIZ漢字Baseが採用したのは,MS-WordというMicrosoft社のワープロのマクロ機能と使い,代替記号の部分に,対応する漢字字形の画像を貼り付けるという方法である。MS-Wordは,画像の貼り付け方法として,テキストから独立した図形枠のなかに貼り付ける方法と,テキストの行の一部となるインライン画像として貼り付ける方法の二つを区別している。インライン画像として,普通の文字と大きさを合わせて缺字の画像を貼り付ければ,行が編集されると,画像の前後の文字と一緒に移動するので,好都合である。IRIZ漢字Baseは,電子テキストをのなかにちりばめられた缺字の代替記号の箇所に,まず対応する漢字画像を貼り付け,つぎにが代替記号そのものを「隠し文字」に属性変更するという作業を,MS-Word上で自動的におこなうマクロプログラムを提供している。  本CD-ROMに収めた“蕭崇業.doc”は、このような方式によって、缺字部分に漢字画像を貼り付けてある。残念ながら、MS-Word以外のワープロでは使えないが、Windowsに付属するWordPadという簡易ワープロや、マイクロソフト社が無料で配布しているMS-Wordファイルのブラウザでも閲覧することが可能である。また、“蕭崇業.txt”は、同一の全文テキストを純粋なテキストファイルとしたものである。IRIZ漢字Baseの代替記号は、テキストファイルでも保持されている。なお、CNSコードを使っても,蕭崇業・謝杰『使琉球録』では73字の缺字が出る。これらについては、●で示し、そのあとに字形を示す注記を施してある。  未校訂の暫定版テキストとして提供する陳侃『使琉球録』、夏子陽『使琉球録』、徐葆光『中山伝信録』については、缺字の処理も不十分である。蕭崇業・謝杰のもので利用した「IRIZ漢字Base」の代替記号を埋めてある箇所もあるし、「赤嶺コード」を入れた箇所もある。また括弧のなかに字形を示す方法を採った箇所もある。本来、缺字処理の方法は統一しておくべきであるが、その作業は、校訂と同様に未了となっている。利用者は十分に注意されたい。