国立国会図書館の軽量OCR「NDLOCR-Lite」がWebアプリ化、誰でも簡単に日本語テキスト化が可能に
国立国会図書館(NDL)が開発・公開した軽量AI-OCRツール「NDLOCR-Lite」が、早くもWebブラウザ対応版として利用可能になりました。これまで専門的な環境での利用が中心だったOCR技術が、一般ユーザーでも手軽に使えるようになったことで、デジタルアーカイブやテキスト化の民主化が一歩進みました。
GPU不要、ノートPCで高速動作する画期的なOCR
NDLOCR-Liteは、従来のOCRツールの課題を解決する革新的なソフトウェアです。最大の特徴はGPU(グラフィックス処理ユニット)が不要という点です。一般的なノートパソコンやデスクトップパソコンのCPUのみで高速に動作するため、高価な専用機器を購入する必要がありません。
処理速度も実用的で、見開きページ(図表含む)であれば約5秒、月報レベルの資料なら1~2秒程度でテキスト化が完了します。このスピードと精度のバランスは、図書館職員や研究者、一般ユーザーにとって大きな利便性をもたらします。
日本語、英文、手書き、縦書きに対応
NDLOCR-Liteの認識能力は多言語・多様なフォーマットに対応しています。最初から想定されていた日本語はもちろん、英文や手書き文字にも実験的に対応しており、国際的な文献資料のテキスト化も可能です。
また、日本の古い資料に多い縦書きレイアウトや旧字体にも対応し、昭和期の資料も高い精度でテキスト化できます。写真やイラスト、図表の領域を自動的にスキップして、テキスト部分のみを抽出する機能も備わっており、複雑なレイアウトの資料でも正確に処理できます。
ブラウザだけで完結、導入が驚くほど簡単
NDLOCR-Liteが特に注目されている理由の一つが、導入と利用の手軽さです。専門的な環境構築が不要で、わずかなコマンド操作で導入が完了します。
さらに、WebブラウザのみでOCR処理が完結するバージョンも登場しており、ソフトウェアのインストールすら不要になりました。つまり、インターネット接続とWebブラウザがあれば、誰でもどこからでもOCR機能を利用できるようになったのです。
デスクトップアプリとしての豊富な機能
NDLOCR-Liteはマウス操作だけで簡単に利用できるデスクトップアプリケーション、コマンドライン、そしてPythonライブラリとして複数の形態で提供されています。
デスクトップアプリには便利な機能が満載です。画像ファイルの選択やフォルダ内の一括処理はもちろん、「Crop&OCR」機能で画像の特定範囲をドラッグして選択し、その部分だけをOCRにかけることができます。さらに、キャプチャモードではPC画面の任意の範囲をキャプチャして直接OCR処理でき、デジタルコレクションのWebページを即座にテキスト化することも可能です。
充実した出力形式で、あらゆる用途に対応
NDLOCR-Liteは単なるテキスト抽出にとどまりません。複数の出力形式に対応し、用途に応じた柔軟な活用ができます。
基本的なTXT形式に加えて、座標情報や信頼度スコアを含むJSON形式、レイアウト構造を保持するXML形式、TEI(Text Encoding Initiative)準拠の形式、そして透明テキスト付PDFに対応しています。透明テキスト付PDFなら、元のPDFの見た目を保ちながら内部のテキストを検索・コピーできるため、デジタルアーカイブの公開資料としても最適です。
オープンライセンスで、あらゆる利用が可能
NDLOCR-LiteはCC BY 4.0ライセンスで公開されており、出典表示さえすれば、業務利用、研究利用、商用利用など、あらゆる用途での再利用が可能です。これは公共知識基盤ソフトウェアとしての重要な条件を満たしており、図書館、企業、個人研究者など、幅広い立場でのOCR活用を促進します。
図書館業務から日常利用まで、広がる活用の可能性
従来、OCRは大規模なデジタル化プロジェクトに限定された専門ツールでした。しかし、NDLOCR-Liteの登場によって、状況は大きく変わっています。
図書館職員であれば、寄贈資料を即座に全文化したり、レファレンス業務で本文検索を支援したり、郷土資料の翻刻を内製化したりと、日常業務の効率化が実現します。さらに、障害者サービスとして読み上げ資料の作成も効率化できます。
一般ユーザーにとっても、紙の資料をデジタル化してテキスト化する、手書きの書類をデータ化する、古い印刷物を検索可能にするなど、個人的なプロジェクトにも活用できます。
国立国会図書館の信頼性が光る
NDLOCR-Liteを開発・公開しているのは、国立国会図書館という信頼できる公共機関です。これまでも高精度なOCRツール「NDLOCR」を提供してきた実績と、古典籍のOCR化で得た経験を活かし、さらに使いやすい軽量版を開発しました。
公共機関による開発だからこそ、営利目的の急な仕様変更やサービス終了の心配なく、長期的に信頼して利用できる点も大きな利点です。
テキスト検索と全文化の時代へ
NDLOCR-Liteの普及は、デジタルアーカイブの在り方を根本的に変えるポテンシャルを持っています。従来は書誌項目(タイトルや著者など)での検索が中心でしたが、今後は本文そのものの全文検索が一般的になるかもしれません。
これは、図書館利用者にとって必要な情報にたどり着きやすくなることを意味します。また、教育や研究、ビジネス、個人プロジェクトなど、あらゆる場面での生産性向上につながります。
国立国会図書館のこの取り組みは、日本の情報インフラの民主化に向けた重要な一歩であり、今後さらに多くの機関や個人に活用されていくことが期待されます。



