tesseract-ocrをためしましたが何か?

タグ: | 投稿日: 投稿者:

tesseract-ocrという画像から文字を認識する処理を試しました
かなりお手軽に実験できます

・ソースコードを取ってくる
# wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.02.tar.gz
・日本語の翻訳ファイルと英語のファイル(これがないと怒られる)
# wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.jpn.tar.gz
# wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.eng.tar.gz

・解凍
tar -zxvf tesseract-ocr-3.02.02.tar.gz
tar -zxvf tesseract-ocr-3.02.jpn.tar.gz
tar -zxvf tesseract-ocr-3.02.eng.tar.gz

・ビルド(INSTALLを読んでの手順)
#./autogen.sh
・おっと、私の環境では(ubuntu 13.10)
libtool とかleptonicaが無いと怒られましたので

# apt-get install libtool libleptonica-dev
・再度ビルド
# ./autogen
# ./configure
# make
# make check
・上手くいったっぽいので
# make install
・で早速sampleを(eurotext.tif)をキャプチャしようとすると
# tesseract ./eurotext.tif testDoc
Error opening data file /usr/local/share/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your “tessdata” directory.
Failed loading language ‘eng’
Tesseract couldn’t load any languages!
Could not initialize tesseract.

・で、/usr/local/share/tessdata/ に英語と日本語の翻訳ファイルを置きます
# sudo cp -i tesseract-ocr/tessdata/jpn.traineddata /usr/local/share/tessdata/.
# sudo cp -i tesseract-ocr/tessdata/eng.traineddata /usr/local/share/tessdata/.

・実行してみました
# tesseract ./eurotext.tif testDoc

こいつが
eurotext
こんな風に
testDoc

ただブラウザでみると壊れてるっぽくみえますが、これヨーロッパ系文字なのね
結構変換してます。

で。今度は日本語じゃん!
こんなのを
mokkai

# tesseract mokkai.tiff testText -l jpn

こうなった
testText
ダメダメじゃん

と思ったら学習ってあるのね。今度しっかり勉強させた奴を紹介しますね。

* 画像は本当はtifを使ったのですが、なんか表示されないのでjpegに変換してます
** tesseract-ocrはgoogle先生が開発してるんですって

Share on Google+Tweet about this on TwitterShare on StumbleUponShare on Facebook

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>