コンテンツへスキップ

東京大学附属図書館アジア研究図書館
上廣倫理財団寄付研究部門
Uehiro Project for the Asian Research Library

COLUMN

デジタル系アジア研究ことはじめ

U-PARL特任研究員 須永恵美子

 

U-PARLでは、アジアの研究資源のデジタル化やデータベースの導入を進めています。今回は、こうした資料を活用すべく、日本語で読めるデジタル化関連の書籍をいくつかご紹介します。

デジタル人文学(デジタルヒューマニティーズ、DH、人文情報学)の盛んなヨーロッパやアメリカにおける先行研究は、『欧米圏デジタル・ヒューマニティーズの基礎知識』(文学通信、2021年)に時代ごと、テーマごとの事例が多数まとめられています。一本一本も読みやすい長さですので、まずどのようなテーマでの研究があるのか、概観するのによいのではないでしょうか。日本では、国立歴史民俗博物館が中心となった『歴史情報学の教科書 歴史のデータが世界をひらく』(文学通信、2019年)や、仏教学を中心とした『デジタル学術空間の作り方 仏教学から提起する次世代人文学のモデル』(文学通信、2019年)が、歴史データを中心に人文学の新しい在り方を議論しています。

東アジアでは、『デジタル時代の中国学リファレンスマニュアル』(好文出版、2022年)に、多様なデータベースやアーカイブといったデジタルリソースの活用についてまとめられています。
東アジア以西では、特定の地域の特化した書籍はまとめられていないのが実情で、あとはテーマごとに関心のある分野から参考になりそうな事例をたどっていくのが良いでしょう。

例えば、歴史や文学、言語学といった多くの文字資料を扱う研究でしたら、資料をOCR(自動文字認識)で翻刻できたら大変便利です。つまり、人間の替わりに機械に文献を読んでもらうのです。
筆者の専門は南アジアのウルドゥー語で、アラビア文字で書かれています。アラビア文字のOCRの技術開発は進んでいるのですが、書体の異なるウルドゥー語は、まだOCRソフトが確立していません。ウルドゥー語よりもさらに珍しい言語としては、U-PARLは過去に彝語(イゴ)の資料をご紹介しています。彝語は中国西南部、ベトナム及びラオスの北部一帯で使用されている言語で、彝文字を使用しています。
こうした珍しい言語をOCRにかけようとしても、まず読み取ってくれないので、OCRソフトを研究者が育てるのがTranskribus(トランスクリバス/トランスクライバス)の取り組みです。
Transkribusについては『人文学のためのテキストデータ構築入門 TEIガイドラインに準拠した取り組みにむけて』(文学通信、2022年)や、先述の『欧米圏デジタル・ヒューマニティーズの基礎知識』に、インストール方法から、実際の資料を翻刻した実践事例まで紹介されています。先行研究ではフランス語やローマ字日本語が使われていますが、仕組みとしてはウルドゥー語や彝語を含めた他の言語にも適用可能です。

こうしてテキスト化できた資料は、テキスト計量分析やテキストマイニングと呼ばれる次の分析ステップに使用することができます。テキストマイニングについては、ハウツー関係の書籍が多く出版されているほか、『知を再構築する 異分野融合研究のためのテキストマイニング』(ひつじ書房、2021年)ではテキストマイニングの多方向からのアプローチについて紹介しています。
さらに図書館としては、テキスト化した資料のデジタル画像とテキストを結びつけることによって、デジタルアーカイブのさらなる利便性向上につなげることができます。デジタルアーカイブの活用については、『共振するデジタル人文学とデジタルアーカイブ』(勉誠社、2023年)や、『デジタル時代のアーカイブ系譜学』(みすず書房、2022年)をご覧ください。

+++

U-PARLでは、11月26日に研究データのデジタル化に関するシンポジウムを開催いたします。
当日は、学内外の6名の研究者をお招きして、文献資料やフィールドデータのデジタル化、蓄積した研究データの公開方法についてご講演いただきます。
遠方の方もオンラインでご視聴いただけますので、詳しくはこちらの特設サイトへどうぞ。

November 14, 2023