【参加報告】デジタルアーカイブ構築・利活用セミナー:TEI入門・実践編

2017年11月21日にTEI(Text Encoding Initiative)に関するセミナーが開催されました。

デジタルアーカイブ構築・利活用セミナー:TEI入門・実践編
講師:永崎研宣(一般財団法人人文情報学研究所主席研究員)
日時:2017年11月21日(火)
   10:15〜13:00 TEI入門セミナー
   13:45〜16:45 TEI実践セミナー
場所:東京大学 山上会館 地下001会議室
共催:東京大学大学院人文社会系研究科人文情報学拠点、TEI協会東アジア/日本語分科会
後援:一般財団法人人文情報学研究所
URL:https://www.dhii.jp/dh/tei20171121.html

U-PARLからは特任研究員の永井と中尾が参加させて頂きました。参加費は無料でありましたが、それだけに、会場費・資料代・講師やアシスタントの方の労働を考えますと、主催者側の投資は少なくないものとお察し致します。そのようなリスクを負ってでも、TEIの普及・啓蒙に注力したいと願う講師ならびに主催者側の気持ちに感謝して、簡単ではございますが、参加報告を掲載させて頂くことにした次第です。


セミナーの内容はおよそ以下のものでした。

<入門セミナー(午前)>
・TEIの歴史と概要
・oXygen XML Editorの基本
・手紙をマークアップする

<実践セミナー(午後)>
・手紙のマークアップの続き
・書誌情報をマークアップする(→参考
・日本語資料のマークアップのためのカスタマイズ(→参考
・名寄せとツール(→参考
・校訂テクスト(校本)のマークアップの考え方とツール

これらの項目からわかるように、実に充実したプログラムでありました。しかも、途中で有用な情報がちょろちょろと差し込まれましたので、実際に聞いていると、これらの項目以上にたくさんのことを教わったように感じられます。そのような情報の1つがこれです。

これは図書資料をTEIでマークアップするためのサブセットの勧告です。この中で参考になるのはマーックアップのレベル分けでしょう。OCRにかけたテキストとそのオリジナル画像をリンクさせただけの「レベル1」、headerに書誌情報を追加した「レベル2」、という具合にマークアップの深度が深まり、「レベル5」がもっともヘビーな記述となります。このレベル分けがなぜ重要であるかというと、講師の永崎氏がセミナーで述べられていたように(→参照)、コストに応じて作業のレベルを分けることができるからです。例えば、図書館ではとりあえず深度の浅いレベル1を作成しておき、それをリポジトリーなどで提供しておけば、関心のある人がより深度の深いレベルの記述を行ってくれる可能性もあるのです。つまり、作業分担を行う上でも、レベル分けを設定しておくと、大変に便利です。

さて、セミナーで最初に行った実習は「手紙をマークアップする」という作業でした。手紙というとなんだか簡単そうに思えるるのですが、教材として選択された手紙には「日付・場所・差出人・受取人・本文・修正・加筆・下線」が含まれているばかりか、本文には「地の文」や「詩の引用」も含まれております。このように、教材の手紙はマークアップのしがいのあるテキストになっており、それゆえこのテキストを使用したマークアップは、深度の深いレベルのものとなります。

実習教材はOxford大学のDr. James Cummings氏が英文で作成し、永崎氏が翻訳&改訂したものでした。この教材は、日本ではJADH2013の際に行われたワークショップでも用いられたもので、本当によくできています。特に写本を扱う研究者には、「そうそう、こういう情報を調べたいんだよな〜」と思える箇所が満載です(本報告の筆者はJADH2013でCummings氏のセミナーに参加し感銘を受けました)。

マークアップ用のエディターにはOxygen XML Editorを使用しました。これは非常に使いやすいソフトで日本語版もあります。しかしながら、TEIそのものはラテン文字での記述となるので、TEIで記述されたテキストを見ると、なんとも難しく思えてしまいます。更に、タグの意味・用法を覚えていないと、これまた大変です。この不便を手助けしてくれるのが、鶴見大学の大矢一志先生が作成して下さった日本語スキーマです。セミナーでは、日本語スキーマをOxygenに取り込み、日本語の解説を表示させるという作業も行いました(→参照)。便利なスキーマを作成して下さった大矢一志先生とその関係者の方々に感謝申し上げます。*Oxygen XML Editorは公式サイトからクレジットカード決算で購入することになりますが、日本にいくつか代理店がありますので公費での支払いも可能です。

最後に、校訂テクスト(校本)のマークアップについて述べておきましょう。TEIは、Text Encodingと言うだけあって、テキストの持つ様々な情報を記述するための豊富なタグを備えています。その中でも、写本研究者が関心を寄せるものの一つが12 Critical Apparatus校本)ではないでしょうか。セミナーでは、源氏物語の校本(校訂テキスト/学術編集版)を題材にした例が紹介されました。TEIを用いると、写本ごとの異同を記述することができ、しかも、TEIで記述されたファイルは、表示ツールを用いると並行表示画面が自動的に生成されます。セミナーでは以下の2種類のツールを用いた表示例が示されました。

永崎氏が作成した校本ファイルを上記のツールで表示させたものを見て、「あ〜これはすごいな〜」と、ため息がでました。永崎氏にお願いをして素晴らしいお手本ファイルを掲載させて頂こうかとも思ったのですが、サンプルとして簡単な校本ファイルを自作してみましたのでご紹介します。ただし、このファイルの内容は全くの架空であり、記述も乏しいものですので、ご海容下さい。

作業内容を簡単にまとめておきましょう。

(1) 異同のある架空の五十音表を想定(作文)しておく。
(2) TEIの12 Critical Apparatus校本)を参考に異同を記述する。具体的には、TEIファイルを用意し、teiHeaderの中にlistWitで写本情報を書き、bodyの中にappで異同を記述する。今回の作成ファイルは、ただこれだけの内容です。
(3) 作成ファイルをTEI Critical Apparatus ToolboxのDisplay parallel versionsで読み込む(ファイルを選択してSubmit)。
(4) 無事に読み込みが完了すると、校本(Critical Text)の表示の有無と、表示させたい資料(Witnesses)とを確認してきますので、適宜、チェッックを入れる(今回は全てチェック)。
(5) 最後にSubmitを押すと、以下のような並行テキストが自動的に生成されます。

架空の五十音表の校本とその元となる写本の内容。全てフィクションです!(クリックするとファイルが開きます)

講師の永崎氏も指摘しておられましたが、TEI Critical Apparatus Toolboxはフランスで作成されたものであり、開発者達は日本語を表示することなど考えてもいなかったものと思われます。しかしながら、TEIに準拠して記述しておくと、海外で作成されたツールを使用しても、日本語のテキストが記述した構造通りに表示されるのです。このような点にこそ、TEIの最大の魅力があるように思います(このようなTEIの魅力については、「「デジタルアーカイブ」で全文テキストデータをうまく継承していくには」を読むとよくわかるかと思います)。

セミナーでは他にも様々な内容が伝授されたのですが、今回の報告はこれで終わりにしたいと思います。


最後になりましたが、このような貴重な機会を提供して下さった主催者の方々と、声を擦り減らしながらも丁寧にご指導下さった永崎研宣氏(一般財団法人人文情報学研究所主席研究員)に、心より感謝申し上げます。

永井正勝(U-PARL特任研究員)