PDFにテキスト埋め込み(Tesseract OCR)

経緯

テキストが選択できるPDFは、透明文字でテキストが埋め込まれています。
勉強用にスキャンしたPDFですが、そのままだとテキスト情報のないただの画像データのため、
ハイライトやコピペができません。
Windows、完全無料、CUIでPDFにテキストを埋め込んでいきます。

①Tesseract OCRのインストール

Googleがオープンソースで開発している「Tesseract」をインストールします。
精度は凄く良いという訳ではありませんが、ハイライト引ければいいので、
インストール方法は下記を参考にさせて頂きました。

【Tesseract OCR】Tesseract OCRをWindowsにインストールする方法

こんにちはmOqOmです。今回はWindowsにTesseract OCRをインストールする手順について紹介していきます。

Tesseract OCR をWindowsにインストールする方法 - ガンマソフト

OCRをPythonで操作できれば大量の紙資料の読み取りも自動化できます。特に郵便番号や請求書番号など定型書類の番号を読み取る作業は代表的な活用例です。普段のオフィスワークではOCRソフトウェアを用...

②サンプルコード

以下のコードでC:\test.pngからテキストを埋め込んだC:\test.pdfを作成することが出来ます。

BAT (Batchfile)

cd C:\Program Files\Tesseract-OCR
tesseract.exe "C:\test.png" "C:\test" -l jpn+eng pdf

自分が実用するときはドラッグしたフォルダに対して処理するようにしました。

BAT (Batchfile)

@echo off
REM ドラッグしたフォルダをカレントディレクトリに
set TARGET_DIR_FOR_ALL_OPEN=%~1
cd %TARGET_DIR_FOR_ALL_OPEN%

REM pngファイル繰り返し
for %%a in (*.png) do (
 if not %%a == %~n0%~x0 (
  tesseract %%a %%~na -l jpn+eng --psm 3 pdf 
 )
)

コマンドについては下記を参考にさせて頂きました。

tesseractコマンドの使い方（Tesseract OCR 4.x）

オープンソースのOCRエンジン、Tesseract OCR付属のtesseractコマンドについて解説します。

備考（OCRの精度について）

下記でオープンソースのOCRの精度についてまとめて頂いています。

日本語対応オープンソースOCRの比較