ML Kit を使用して画像内のテキストを認識する（Android）

ML Kit を使用すると、画像や動画内のテキスト（道路標識のテキストなど）を認識できます。この機能の主な特徴は次のとおりです。

機能	Unbundled	バンドル
ライブラリ名	com.google.android.gms:play-services-mlkit-text-recognition com.google.android.gms:play-services-mlkit-text-recognition-chinese com.google.android.gms:play-services-mlkit-text-recognition-devanagari com.google.android.gms:play-services-mlkit-text-recognition-japanese com.google.android.gms:play-services-mlkit-text-recognition-korean	com.google.mlkit:text-recognition com.google.mlkit:text-recognition-chinese com.google.mlkit:text-recognition-devanagari com.google.mlkit:text-recognition-japanese com.google.mlkit:text-recognition-korean
実装	モデルは Google Play 開発者サービス経由で動的にダウンロードされます。	モデルはビルド時にアプリに静的にリンクされます。
アプリのサイズ	スクリプトアーキテクチャごとに約 260 KB のサイズ増加。	アーキテクチャごとにスクリプトあたり約 4 MB のサイズ増加。
初期化時間	初回使用時にモデルのダウンロードを待つ必要がある場合があります。	モデルはすぐに利用できます。
パフォーマンス	ラテン文字ライブラリではほとんどのデバイスでリアルタイム、それ以外では遅くなります。	ラテン文字ライブラリではほとんどのデバイスでリアルタイム、それ以外では遅くなります。

試してみる

サンプルアプリを試して、この API の使用例をご覧ください。
Codelab でコードを試してみてください。

始める前に

この API には Android API レベル 23 以上が必要です。アプリのビルドファイルで minSdkVersion の値が 23 以上になっていることを確認します。

プロジェクトレベルの build.gradle ファイルにおいて、buildscript セクションと allprojects セクションの両方に Google の Maven リポジトリを組み込みます。

ML Kit Android ライブラリの依存関係をモジュールのアプリレベルの Gradle ファイル（通常は app/build.gradle）に追加します。

モデルをアプリにバンドルする場合:

dependencies {
  // To recognize Latin script
  implementation 'com.google.mlkit:text-recognition:16.0.1'

  // To recognize Chinese script
  implementation 'com.google.mlkit:text-recognition-chinese:16.0.1'

  // To recognize Devanagari script
  implementation 'com.google.mlkit:text-recognition-devanagari:16.0.1'

  // To recognize Japanese script
  implementation 'com.google.mlkit:text-recognition-japanese:16.0.1'

  // To recognize Korean script
  implementation 'com.google.mlkit:text-recognition-korean:16.0.1'
}

Google Play 開発者サービスでモデルを使用する場合:

dependencies {
  // To recognize Latin script
  implementation 'com.google.android.gms:play-services-mlkit-text-recognition:19.0.1'

  // To recognize Chinese script
  implementation 'com.google.android.gms:play-services-mlkit-text-recognition-chinese:16.0.1'

  // To recognize Devanagari script
  implementation 'com.google.android.gms:play-services-mlkit-text-recognition-devanagari:16.0.1'

  // To recognize Japanese script
  implementation 'com.google.android.gms:play-services-mlkit-text-recognition-japanese:16.0.1'

  // To recognize Korean script
  implementation 'com.google.android.gms:play-services-mlkit-text-recognition-korean:16.0.1'
}

Google Play 開発者サービスでモデルを使用する場合、アプリが Play ストアからインストールされたら自動でモデルをデバイスにダウンロードするようにアプリを構成できます。この構成を行うには、アプリの AndroidManifest.xml ファイルに次の宣言を追加します。
```
<application ...>
      ...
      <meta-data
          android:name="com.google.mlkit.vision.DEPENDENCIES"
          android:value="ocr" >
      
</application>
```
Google Play 開発者サービスの ModuleInstallClient API を使用して、モデルの可用性を明示的に確認し、ダウンロードをリクエストすることもできます。インストール時点でのモデルのダウンロードを有効にしない場合や、明示的なダウンロードをリクエストしない場合は、スキャナの初回実行時にモデルがダウンロードされます。ダウンロードが完了する前にリクエストしても結果は生成されません。

1. `TextRecognizer` のインスタンスを作成する

TextRecognizer のインスタンスを作成し、上記で依存関係を宣言したライブラリに関連するオプションを渡します。

Kotlin

// When using Latin script library
val recognizer = TextRecognition.getClient(TextRecognizerOptions.DEFAULT_OPTIONS)

// When using Chinese script library
val recognizer = TextRecognition.getClient(ChineseTextRecognizerOptions.Builder().build())

// When using Devanagari script library
val recognizer = TextRecognition.getClient(DevanagariTextRecognizerOptions.Builder().build())

// When using Japanese script library
val recognizer = TextRecognition.getClient(JapaneseTextRecognizerOptions.Builder().build())

// When using Korean script library
val recognizer = TextRecognition.getClient(KoreanTextRecognizerOptions.Builder().build())

Java

// When using Latin script library
TextRecognizer recognizer =
  TextRecognition.getClient(TextRecognizerOptions.DEFAULT_OPTIONS);

// When using Chinese script library
TextRecognizer recognizer =
  TextRecognition.getClient(new ChineseTextRecognizerOptions.Builder().build());

// When using Devanagari script library
TextRecognizer recognizer =
  TextRecognition.getClient(new DevanagariTextRecognizerOptions.Builder().build());

// When using Japanese script library
TextRecognizer recognizer =
  TextRecognition.getClient(new JapaneseTextRecognizerOptions.Builder().build());

// When using Korean script library
TextRecognizer recognizer =
  TextRecognition.getClient(new KoreanTextRecognizerOptions.Builder().build());

2. 入力画像を準備する

画像内のテキストを認識するには、Bitmap、media.Image、ByteBuffer、バイト配列、またはデバイス上のファイルから InputImage オブジェクトを作成します。次に、InputImage オブジェクトを TextRecognizer の processImage メソッドに渡します。

さまざまなソースから InputImage オブジェクトを作成できます。各ソースは次のとおりです。

`media.Image` の使用

InputImage オブジェクトを media.Image オブジェクトから作成するには（デバイスのカメラから画像をキャプチャする場合など）、media.Image オブジェクトと画像の回転を InputImage.fromMediaImage() に渡します。

CameraX ライブラリを使用する場合は、OnImageCapturedListener クラスと ImageAnalysis.Analyzer クラスによって回転値が計算されます。

Kotlin

private class YourImageAnalyzer : ImageAnalysis.Analyzer {

    override fun analyze(imageProxy: ImageProxy) {
        val mediaImage = imageProxy.image
        if (mediaImage != null) {
            val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees)
            // Pass image to an ML Kit Vision API
            // ...
        }
    }
}

Java

private class YourAnalyzer implements ImageAnalysis.Analyzer {

    @Override
    public void analyze(ImageProxy imageProxy) {
        Image mediaImage = imageProxy.getImage();
        if (mediaImage != null) {
          InputImage image =
                InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees());
          // Pass image to an ML Kit Vision API
          // ...
        }
    }
}

画像の回転角度を取得するカメラライブラリを使用しない場合は、デバイスの回転角度とデバイス内のカメラセンサーの向きから計算できます。

Kotlin

private val ORIENTATIONS = SparseIntArray()

init {
    ORIENTATIONS.append(Surface.ROTATION_0, 0)
    ORIENTATIONS.append(Surface.ROTATION_90, 90)
    ORIENTATIONS.append(Surface.ROTATION_180, 180)
    ORIENTATIONS.append(Surface.ROTATION_270, 270)
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
@Throws(CameraAccessException::class)
private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    val deviceRotation = activity.windowManager.defaultDisplay.rotation
    var rotationCompensation = ORIENTATIONS.get(deviceRotation)

    // Get the device's sensor orientation.
    val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager
    val sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION)!!

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360
    }
    return rotationCompensation
}MLKitVisionImage.kt

Java

private static final SparseIntArray ORIENTATIONS = new SparseIntArray();
static {
    ORIENTATIONS.append(Surface.ROTATION_0, 0);
    ORIENTATIONS.append(Surface.ROTATION_90, 90);
    ORIENTATIONS.append(Surface.ROTATION_180, 180);
    ORIENTATIONS.append(Surface.ROTATION_270, 270);
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing)
        throws CameraAccessException {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation();
    int rotationCompensation = ORIENTATIONS.get(deviceRotation);

    // Get the device's sensor orientation.
    CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE);
    int sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION);

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360;
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360;
    }
    return rotationCompensation;
}

次に、media.Image オブジェクトと回転角度値を InputImage.fromMediaImage() に渡します。

Kotlin

val image = InputImage.fromMediaImage(mediaImage, rotation)MLKitVisionImage.kt

Java

InputImage image = InputImage.fromMediaImage(mediaImage, rotation);

ファイル URI を使用する

InputImage オブジェクトをファイルの URI から作成するには、アプリコンテキストとファイルの URI を InputImage.fromFilePath() に渡します。これは、ACTION_GET_CONTENT インテントを使用して、ギャラリーアプリから画像を選択するようにユーザーに促すときに便利です。

Kotlin

val image: InputImage
try {
    image = InputImage.fromFilePath(context, uri)
} catch (e: IOException) {
    e.printStackTrace()
}MLKitVisionImage.kt

Java

InputImage image;
try {
    image = InputImage.fromFilePath(context, uri);
} catch (IOException e) {
    e.printStackTrace();
}

`ByteBuffer` または `ByteArray` の使用

ByteBuffer または ByteArray から InputImage オブジェクトを作成するには、media.Image 入力について上記のように、まず画像の回転角度を計算します。次に、画像の高さ、幅、カラーエンコード形式、回転角度とともに、バッファまたは配列を含む InputImage オブジェクトを作成します。

Kotlin

val image = InputImage.fromByteBuffer(
        byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)MLKitVisionImage.kt
// Or:
val image = InputImage.fromByteArray(
        byteArray,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)
MLKitVisionImage.kt

Java

InputImage image = InputImage.fromByteBuffer(byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);MLKitVisionImage.java
// Or:
InputImage image = InputImage.fromByteArray(
        byteArray,
        /* image width */480,
        /* image height */360,
        rotation,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);MLKitVisionImage.java

`Bitmap` の使用

Bitmap オブジェクトから InputImage オブジェクトを作成するには、次の宣言を行います。

Kotlin

val image = InputImage.fromBitmap(bitmap, 0)MLKitVisionImage.kt

Java

InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);MLKitVisionImage.java

画像は Bitmap オブジェクトと回転角度で表されます。

3. 画像を処理する

画像を process メソッドに渡します。

Kotlin

val result = recognizer.process(image)
        .addOnSuccessListener { visionText ->
            // Task completed successfully
            // ...
        }
        .addOnFailureListener { e ->
            // Task failed with an exception
            // ...
        }TextRecognitionActivity.kt

Java

Task<Text> result =
        recognizer.process(image)
                .addOnSuccessListener(new OnSuccessListener<Text>() {
                    @Override
                    public void onSuccess(Text visionText) {
                        // Task completed successfully
                        // ...
                    }
                })
                .addOnFailureListener(
                        new OnFailureListener() {
                            @Override
                            public void onFailure(@NonNull Exception e) {
                                // Task failed with an exception
                                // ...
                            }
                        });TextRecognitionActivity.java

注: CameraX API を使用している場合は、使用が終わったら ImageProxy を必ず閉じてください。たとえば、process メソッドから返された Task に OnCompleteListener を追加します。例については、クイックスタートサンプルアプリの VisionProcessorBase クラスをご覧ください。

4. 認識したテキストのブロックからテキストを抽出する

テキスト認識オペレーションが成功すると、Text オブジェクトが成功リスナーに渡されます。Text オブジェクトには、画像で認識された全テキストと、0 個以上の TextBlock オブジェクトが含まれています。

各 TextBlock は四角形のテキストブロックを表し、それぞれのブロックに 0 個以上の Line オブジェクトが含まれます。各 Line オブジェクトはテキストの行を表し、0 個以上の Element オブジェクトが含まれます。各 Element オブジェクトは単語または単語に似たエンティティを表し、0 個以上の Symbol オブジェクトが含まれます。各 Symbol オブジェクトは、文字、数字、単語のようなエンティティを表します。

TextBlock、Line、Element、Symbol の各オブジェクトについて、領域内で認識されたテキスト、領域の境界座標、回転情報や信頼スコアなどの他の多くの属性を取得できます。

次に例を示します。

Kotlin

val resultText = result.text
for (block in result.textBlocks) {
    val blockText = block.text
    val blockCornerPoints = block.cornerPoints
    val blockFrame = block.boundingBox
    for (line in block.lines) {
        val lineText = line.text
        val lineCornerPoints = line.cornerPoints
        val lineFrame = line.boundingBox
        for (element in line.elements) {
            val elementText = element.text
            val elementCornerPoints = element.cornerPoints
            val elementFrame = element.boundingBox
        }
    }
}TextRecognitionActivity.kt

Java

String resultText = result.getText();
for (Text.TextBlock block : result.getTextBlocks()) {
    String blockText = block.getText();
    Point[] blockCornerPoints = block.getCornerPoints();
    Rect blockFrame = block.getBoundingBox();
    for (Text.Line line : block.getLines()) {
        String lineText = line.getText();
        Point[] lineCornerPoints = line.getCornerPoints();
        Rect lineFrame = line.getBoundingBox();
        for (Text.Element element : line.getElements()) {
            String elementText = element.getText();
            Point[] elementCornerPoints = element.getCornerPoints();
            Rect elementFrame = element.getBoundingBox();
            for (Text.Symbol symbol : element.getSymbols()) {
                String symbolText = symbol.getText();
                Point[] symbolCornerPoints = symbol.getCornerPoints();
                Rect symbolFrame = symbol.getBoundingBox();
            }
        }
    }
}TextRecognitionActivity.java

入力画像に関するガイドライン

ML Kit でテキストを正確に認識するためには、入力画像に含まれているテキストが十分なピクセルデータによって表示されている必要があります。理想的には、各文字が少なくとも 16x16 ピクセルであるのが理想的です。一般に、文字を 24x24 ピクセルより大きくしても認識精度は向上しません。

そのため、たとえば画像の全幅を占める名刺をスキャンする場合は、640x480 の画像が適しています。レターサイズの用紙に印刷された文書をスキャンする場合は、720x1280 ピクセルの画像が必要になることがあります。
画像がぼやけていると、テキスト認識の精度が低下する可能性があります。満足のいく結果が得られない場合は、ユーザーに画像をキャプチャし直すよう求めてください。
リアルタイムアプリケーションでテキストを認識する場合は、入力画像の全体サイズを考慮する必要があります。画像が小さいほど、処理は高速になります。レイテンシを短くするには、テキストが画像のできるだけ多くの部分を占めるようにし、画像を低い解像度でキャプチャします（上記の精度要件に留意）。詳細については、パフォーマンスを改善するためのヒントをご覧ください。

パフォーマンスを改善するためのヒント

Camera API または camera2 API を使用する場合は、検出器の呼び出しをスロットルします。検出器の実行中に新しい動画フレームが使用可能になった場合は、そのフレームをドロップします。例については、クイックスタートサンプルアプリの VisionProcessorBase クラスをご覧ください。
CameraX API を使用する場合は、バックプレッシャー戦略がデフォルト値の ImageAnalysis.STRATEGY_KEEP_ONLY_LATEST に設定されていることを確認してください。これにより、一度に分析用に配信される画像は 1 つだけになります。アナライザがビジー状態のときにさらに多くの画像が生成された場合、それらの画像は自動的にドロップされ、配信のためにキューに登録されません。ImageProxy.close() を呼び出して分析中の画像を閉じると、次の最新の画像が配信されます。
検出器の出力を使用して入力画像の上にグラフィックスをオーバーレイする場合は、まず ML Kit から検出結果を取得し、画像とオーバーレイを 1 つのステップでレンダリングします。これにより、ディスプレイサーフェスへのレンダリングは入力フレームごとに 1 回で済みます。例については、クイックスタートサンプルアプリの CameraSourcePreview クラスと GraphicOverlay クラスをご覧ください。
Camera2 API を使用する場合は、ImageFormat.YUV_420_888 形式で画像をキャプチャします。古い Camera API を使用する場合は、ImageFormat.NV21 形式で画像をキャプチャします。
より低い解像度で画像をキャプチャすることを検討してください。ただし、この API の画像サイズに関する要件にも留意してください。

ML Kit を使用して画像内のテキストを認識する（Android） コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

試してみる

始める前に

1. TextRecognizer のインスタンスを作成する

Kotlin

Java

2. 入力画像を準備する

media.Image の使用

Kotlin

Java

Kotlin

Java

Kotlin

Java

ファイル URI を使用する

Kotlin

Java

ByteBuffer または ByteArray の使用

Kotlin

Java

Bitmap の使用

Kotlin

Java

3. 画像を処理する

Kotlin

Java

4. 認識したテキストのブロックからテキストを抽出する

Kotlin

Java

入力画像に関するガイドライン

パフォーマンスを改善するためのヒント

ML Kit を使用して画像内のテキストを認識する（Android）

1. `TextRecognizer` のインスタンスを作成する

`media.Image` の使用

`ByteBuffer` または `ByteArray` の使用

`Bitmap` の使用