コンテンツへスキップ

東京大学附属図書館アジア研究図書館
上廣倫理財団寄付研究部門
Uehiro Project for the Asian Research Library

COLUMN

OCRで読み解くデジタル資料

English

須永 恵美子

 現在、世界各地の図書館が資料のデジタル公開に取り組んでいる。これまでならば、海外まで赴き、 文書館ごとの煩雑な複写の手続きをクリアしてようやく数10 ページを複写していたのが、自宅に居ながらにして古今東西の貴重資料を閲覧できるようになった。同時に、一生かけても読み切れないほど溢れるデジタル資料をどのように活用するか、という新たな問題が生じている。

 古い文書や慣れない外国語の資料の読解には時間がかかり、言語ごとの知識も必要となる。そこで、 OCR(Optical Character Recognition、光学文字認識)の技術を活用し、デジタル画像から文字の部分だけをテキスト化できれば、可読性は飛躍的に高まる。OCR は、スマートフォンのカメラをかざして文字を読み取るGoogle レンズや、メッセージでやりとりした写真に写る文字をテキスト化してくれるLINE の「文字認識」機能など、便利な機能として私たちの日常に定着している。

 OCR の技術は、ローマ字圏や漢字圏で発達してきた。一方で、アラビア語やペルシア語などで使 用されるアラビア文字のOCR は、まだ開発途上にある。アラビア文字では曲線が多用されること、 単語単位で文字同士が結合すること、小さな点の数で区別する文字が複数あることなどが正確な認識のハードルとなっている。アラビア文字を使用する言語である南アジアのウルドゥー語では、一 つの単語の中で語中や語尾の文字が基準線からはみ出して上下に書かれることがあるため、レイアウト解析が課題である。

 例えば、下の図では、赤い丸で囲まれた点と緑の四角の文字は前の文字に、黄色い丸で囲まれた 部分は後ろの単語に食い込んでいる。青い丸は字間を詰めるために前の文字の上に乗っている。こ れらのレイアウト上の特性を機械は認識することができない(各行の下に引かれている細い線は後述のTranskirbus で機械が認識したレイアウト)。

1935 年に発行されたウルドゥー語雑誌を機械に認識させた画面(赤、青、黄色、緑のマークは筆者が加筆)

 手書きの文字は、タイプされた文字に比べて歪みや個体差が大きいため、「ABBYY FineReader」 や「読取革命」といった有償OCR ソフトでも正しく認識されないケースが多い。こうした手書きされた文字を読み取るHTR(Handwritten Text Recognition、手書きテキスト認識)の共同研究も進められている。たとえば、オーストリア・インスブルック大学が中心となった Transkribus(トランスクリバス)では、AI の技術でさまざまな文字の機械学習に取り組んでいる。アラビア文字についても、 言語や時代などによって異なる手書きの特性を、研究者らによる参加型プラットフォームを通じて学習中である。

ウルドゥー語のテキストを機械学習中のTranskribus 操作画面(https://lite.transkribus.eu

 OCR やHTR の技術は、すでに図書館やデジタルアーカイブの現場に取り入れられている。国立 国会図書館が2019 年に開始したサービス「次世代デジタルライブラリー」は、挿絵や本文に画像認識や文字認識(OCR)を施し、イメージやキーワードを検索できる機能で、特定の図版が載っている美術カタログを見つけ出したり、本文に一度だけ出てきた地名や人名を拾い出したりすることが可能になっている。

 これは非常に便利なサービスで、国立国会図書館中の本を一斉検索できるようになった(もちろんデジタル化されている資料限定ではある)。たとえば、イスラームの宗教行事について調べるとき、 従来であれば宗教関連書や歴史書、地誌、旅行記などからアタリをつけて探していたものを、料理本の中に、宗教行事で食べられるお祝い料理の言及を見つけられるかもしれない。「クルアーン」という単語がキーワードや目次の中に登録されていなくても、本文に一度でも言及されたらその個所 をたどることができる。これまで以上に、まだ見ぬ資料との「思わぬ出会い」につながるだろう。

 さらに、2022 年からは、古典籍資料のデジタル画像の上に、OCR で読み解いたテキストを重ねて表示する機能が追加されている。OCR やHTR の技術は目まぐるしく進化しており、デジタル化さ れた資料を活用するために今や欠かせない機能となりつつある。

国立国会図書館次世代デジタルライブラリー(https://lab.ndl.go.jp/dl


*この記事は2024年2月29日刊行の『東京大学アジア研究図書館デジタルコレクション2017–2023』(U-PARL編、2024年)pp. 87-88からの再録です。

March 26, 2024