Tesseract OCR をWindowsにインストールする方法 | ガンマソフト株式会社

を参考にしてTesseract OCR をWindowsにインストールしてみました。

ここまでは普通にすすめます。次が重要。

Additional script data(download)の項目を展開します。

Additional script data(download)の項目を展開したら、Japanese vertical scriptとJapanese scriptにチェックをいれます。

つぎに、Additional language data(download)の項目を展開します。

Additional language data(download)の項目を展開したら、Javanese、Japanese、Japanese(vertical)にチェックをいれます。

あとは特筆することはありません。Nextを押し続けるとインストールが始まります。おわったらNextをクリックします。

最後にFinishをクリックして完了です。

では実際に使ってみましょう。

コマンドラインで、D:\test.pngに保存している画像からテキストファイル D:\test.txtに出力するのであれば

出力先のテキストファイルの拡張子は不要です。-l jpnは日本語でという意味です。

前回やった

Tesseractを使って文字認識 C#でやってみる

とこれを使った場合では違いはあるでしょうか?

ややこちらのほうが精度がよいといえます。

つぎにC#で動かしてみましょう。

とやればC#から実行させることができます。引数は画像ファイルがある場所とテキストファイルの出力先です。半角スペースでつなげばいいのですが、パスのなかに半角スペースがある可能性もあるので

とやっています。

のあと、処理が終わるまで待つには

生成されたファイルを開いてテキストを読み出しています。

ドラッグするだけでWeb上の画像を保存できるようにする方法

の方法で画像を効率よく取得してGetTextメソッドで渡していけば文字起こしの作業も少しは楽になるかもしれません。