Main Content

テキストの検出と認識

イメージの特徴検出と説明、深層学習、および OCR を使用したテキストの検出と認識

イメージ内のテキストの検出と認識は、コンピューター ビジョン アプリケーションで実行される一般的なタスクです。たとえば、走行中の車両から路上シーンのビデオをキャプチャし、キャプチャしたシーンの標識を認識して、ドライバーに標識について知らせることができます。

検出と認識を 2 段階のプロセスに組み合わせることができます。最初のステップでテキストを含む領域を検出し、次に 2 番目のステップで領域内のテキストを認識します。

Input image showing an accessible parking sign, connected to a detector, which outputs an image with predicted bounding boxes overlaid on the sign text, connected to a recognizer that outputs a list of the words recognized on the sign.

テキスト検出アルゴリズムは、局所的なイメージ特徴、機械学習または深層学習を使用して、イメージ内のテキストを特定またはセグメント化します。Computer Vision Toolbox™ の例では、ブロブ解析、maximally stable extremal regions (MSER) 特徴検出器、および character region awareness for text detection (CRAFT) 深層学習モデルを使用してテキストを検出する方法を示しています。

テキストを検出すると、機械学習または深層学習ベースのテキスト認識モデルがテキスト領域を処理して、予測されたテキストを返します。関数 ocr は、事前学習済みの言語モデルを使用して、複数の言語のテキストを認識します。関数 trainOCR を使用してカスタム言語モデルに学習させることもできます。詳細については、Getting Started with OCRを参照してください。

アプリ

イメージ ラベラーコンピューター ビジョン アプリケーションに使用するラベル イメージ

関数

すべて展開する

ocr光学式文字認識を使用したテキストの認識
ocrTextStore OCR results
visionSupportPackagesComputer Vision Toolbox のデータをダウンロード、インストール、またはアンインストールするためのインストーラーの起動
trainOCRTrain OCR model to recognize text in image (R2023a 以降)
evaluateOCREvaluate OCR results against ground truth (R2023a 以降)
ocrMetricsStore OCR quality metrics (R2023a 以降)
ocrTrainingOptionsOptions for training OCR model (R2023a 以降)
ocrTrainingDataCreate training data for OCR from ground truth (R2023a 以降)
quantizeOCRQuantize OCR model (R2023a 以降)
detectTextCRAFTDetect texts in images by using CRAFT deep learning model (R2022a 以降)
detectMSERFeaturesMSER 特徴の検出
vision.BlobAnalysis連結された領域のプロパティ
extractHOGFeatures勾配方向ヒストグラム (HOG) 特徴を抽出

トピック

開始