macOS にて OSS ツール Tesseract OCR で画像から日本語の文字認識する方法をご紹介します。
日本語 OCR 対応の OSS ツールを探していて、第577回 Tesseract OCRで文字認識をする | gihyo.jp の記事を読んで Tesseract OCR が良さそうだったので、使ってみました。
Tesseract の初期設定として、インストール、日本語の学習済みモデルのファイルのダウンロードを順番におこないます。
brew install tesseract
cd /opt/homebrew/share/tessdata/
wget https://github.com/tesseract-ocr/tessdata/raw/main/jpn.traineddata
wget https://github.com/tesseract-ocr/tessdata/raw/main/jpn_vert.traineddata
tesseract target.png - -l jpn
以上、Tesseract OCR で画像から日本語の文字認識した、現場からお送りしました。