このページの内容は最新ではありません。最新版の英語を参照するには、ここをクリックします。
ocr
光学式文字認識を使用したテキストの認識
説明
[___] = ocr(___,
は、前の構文にある引数の任意の組み合わせに加えて、名前と値の引数を 1 つ以上使用してオプションを指定します。たとえば、Name=Value
)LayoutAnalysis="page"
は、イメージをテキスト ブロックを含むページとして処理します。
例
入力引数
出力引数
ヒント
OCR の結果が期待どおりでない場合は、以下のオプションを 1 つ以上試してみてください。
イメージ サイズを 2 ~ 4 倍に拡大します。
イメージ内の文字の間隔が狭すぎたり、文字のエッジが隣の文字に接している場合、モルフォロジーを使用して文字を細くします。モルフォロジーで文字を細くすると、文字間にスペースを作成するのに役立ちます。
2 値化を用いて、ライティングが一様でないために問題が発生していないかをチェックします。関数
graythresh
および関数imbinarize
を使用してイメージを 2 値化します。2 値化の結果で文字が見えない場合、ライティング条件が一様でない可能性があります。関数imtophat
を使用してトップ ハット フィルター処理を適用するか、一様でない明るさを取り除くその他の手法を試してみます。roi
引数を使用してテキストを分離します。roi
を手動で指定することも、テキスト検出を使用することもできます。イメージがスキャンしたドキュメントではなく、路上などの言葉を含む自然なシーンの場合、
LayoutAnalysis
引数を"Block"
か"Word"
に設定してみます。イメージの背景が淡色でテキストが濃色であることを確認します。これを実現するには、関数
ocr
に渡す前にイメージを 2 値化して反転します。
参照
[1] Smith, Ray. An Overview of the Tesseract OCR Engine. In Ninth International Conference on Document Analysis and Recognition (ICDAR 2007), 629–33. IEEE, 2007. https://doi.org/10.1109/ICDAR.2007.4376991."
[2] Smith, R., D. Antonova, and D. Lee. Adapting the Tesseract Open Source OCR Engine for Multilingual OCR. Proceedings of the International Workshop on Multilingual OCR, (2009).
[3] R. Smith. Hybrid Page Layout Analysis via Tab-Stop Detection. Proceedings of the 10th international conference on document analysis and recognition. 2009.