Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用机器学习套件识别图片中的文本 (Android)

您可以使用机器学习套件识别图片或视频中的文本，例如路标的文本。此功能的主要特点如下：

功能	非捆绑库	捆绑库
库名称	com.google.android.gms:play-services-mlkit-text-recognition com.google.android.gms:play-services-mlkit-text-recognition-chinese com.google.android.gms:play-services-mlkit-text-recognition-devanagari com.google.android.gms:play-services-mlkit-text-recognition-japanese com.google.android.gms:play-services-mlkit-text-recognition-korean	com.google.mlkit:text-recognition com.google.mlkit:text-recognition-chinese com.google.mlkit:text-recognition-devanagari com.google.mlkit:text-recognition-japanese com.google.mlkit:text-recognition-korean
实现	模型通过 Google Play 服务动态下载。	模型在构建时静态链接到您的应用。
应用大小	每个脚本架构的大小增加约 260 KB。	每个脚本架构的大小增加约 4 MB。
初始化时间	首次使用前可能需要等待模型下载完毕。	模型可立即使用。
性能	对于拉丁文脚本库，大多数设备上都是实时运行，对于其他脚本库，运行速度较慢。	对于拉丁文脚本库，大多数设备上都是实时运行，对于其他脚本库，运行速度较慢。

试试看

试用示例应用，了解此 API 的使用示例。
您可以通过 Codelab 亲自试用该代码。

准备工作

此 API 需要 Android API 级别 23 或更高级别。请确保应用的 build 文件使用 minSdkVersion 值 23 或更高。

请务必在您的项目级 build.gradle 文件中的 buildscript 和 allprojects 部分添加 Google 的 Maven 制品库。

将 Android 版机器学习套件库的依赖项添加到模块的应用级 Gradle 文件（通常为 app/build.gradle）：

如需将模型与您的应用捆绑在一起，请执行以下操作：

dependencies {
  // To recognize Latin script
  implementation 'com.google.mlkit:text-recognition:16.0.1'

  // To recognize Chinese script
  implementation 'com.google.mlkit:text-recognition-chinese:16.0.1'

  // To recognize Devanagari script
  implementation 'com.google.mlkit:text-recognition-devanagari:16.0.1'

  // To recognize Japanese script
  implementation 'com.google.mlkit:text-recognition-japanese:16.0.1'

  // To recognize Korean script
  implementation 'com.google.mlkit:text-recognition-korean:16.0.1'
}

如需在 Google Play 服务中使用该模型，请执行以下操作：

dependencies {
  // To recognize Latin script
  implementation 'com.google.android.gms:play-services-mlkit-text-recognition:19.0.1'

  // To recognize Chinese script
  implementation 'com.google.android.gms:play-services-mlkit-text-recognition-chinese:16.0.1'

  // To recognize Devanagari script
  implementation 'com.google.android.gms:play-services-mlkit-text-recognition-devanagari:16.0.1'

  // To recognize Japanese script
  implementation 'com.google.android.gms:play-services-mlkit-text-recognition-japanese:16.0.1'

  // To recognize Korean script
  implementation 'com.google.android.gms:play-services-mlkit-text-recognition-korean:16.0.1'
}

如果您选择在 Google Play 服务中使用该模型，则可将应用配置为从 Play 商店安装后自动将该模型下载到设备。为此，请将以下声明添加到应用的 AndroidManifest.xml 文件中：
```
<application ...>
      ...
      <meta-data
          android:name="com.google.mlkit.vision.DEPENDENCIES"
          android:value="ocr" >
      
</application>
```
您还可以通过 Google Play 服务 ModuleInstallClient API 显式检查模型可用性并请求下载。如果您未启用在安装时下载模型的选项或请求显式下载，模型将在您首次运行扫描器时下载。您在下载完毕之前提出的请求不会产生任何结果。

1. 创建 `TextRecognizer` 实例

创建 TextRecognizer 实例，并传递与您在上面声明依赖项的库相关的选项：

Kotlin

// When using Latin script library
val recognizer = TextRecognition.getClient(TextRecognizerOptions.DEFAULT_OPTIONS)

// When using Chinese script library
val recognizer = TextRecognition.getClient(ChineseTextRecognizerOptions.Builder().build())

// When using Devanagari script library
val recognizer = TextRecognition.getClient(DevanagariTextRecognizerOptions.Builder().build())

// When using Japanese script library
val recognizer = TextRecognition.getClient(JapaneseTextRecognizerOptions.Builder().build())

// When using Korean script library
val recognizer = TextRecognition.getClient(KoreanTextRecognizerOptions.Builder().build())

Java

// When using Latin script library
TextRecognizer recognizer =
  TextRecognition.getClient(TextRecognizerOptions.DEFAULT_OPTIONS);

// When using Chinese script library
TextRecognizer recognizer =
  TextRecognition.getClient(new ChineseTextRecognizerOptions.Builder().build());

// When using Devanagari script library
TextRecognizer recognizer =
  TextRecognition.getClient(new DevanagariTextRecognizerOptions.Builder().build());

// When using Japanese script library
TextRecognizer recognizer =
  TextRecognition.getClient(new JapaneseTextRecognizerOptions.Builder().build());

// When using Korean script library
TextRecognizer recognizer =
  TextRecognition.getClient(new KoreanTextRecognizerOptions.Builder().build());

2. 准备输入图片

如需识别图片中的文本，请从设备上的以下资源创建一个 InputImage 对象：Bitmap、media.Image、ByteBuffer、字节数组或文件。然后，将 InputImage 对象传递给 TextRecognizer 的 processImage 方法。

您可以从不同的来源创建 InputImage 对象，下面将对此进行说明。

使用 `media.Image`

如需基于 media.Image 对象创建 InputImage 对象（例如从设备的相机捕获图片时），请将 media.Image 对象和图片的旋转角度传递给 InputImage.fromMediaImage()。

如果您使用 CameraX 库，OnImageCapturedListener 和 ImageAnalysis.Analyzer 类会为您计算旋转角度值。

Kotlin

private class YourImageAnalyzer : ImageAnalysis.Analyzer {

    override fun analyze(imageProxy: ImageProxy) {
        val mediaImage = imageProxy.image
        if (mediaImage != null) {
            val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees)
            // Pass image to an ML Kit Vision API
            // ...
        }
    }
}

Java

private class YourAnalyzer implements ImageAnalysis.Analyzer {

    @Override
    public void analyze(ImageProxy imageProxy) {
        Image mediaImage = imageProxy.getImage();
        if (mediaImage != null) {
          InputImage image =
                InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees());
          // Pass image to an ML Kit Vision API
          // ...
        }
    }
}

如果您不使用可提供图片旋转角度的相机库，则可以根据设备的旋转角度和设备中相机传感器的朝向来计算旋转角度：

Kotlin

private val ORIENTATIONS = SparseIntArray()

init {
    ORIENTATIONS.append(Surface.ROTATION_0, 0)
    ORIENTATIONS.append(Surface.ROTATION_90, 90)
    ORIENTATIONS.append(Surface.ROTATION_180, 180)
    ORIENTATIONS.append(Surface.ROTATION_270, 270)
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
@Throws(CameraAccessException::class)
private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    val deviceRotation = activity.windowManager.defaultDisplay.rotation
    var rotationCompensation = ORIENTATIONS.get(deviceRotation)

    // Get the device's sensor orientation.
    val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager
    val sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION)!!

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360
    }
    return rotationCompensation
}MLKitVisionImage.kt

Java

private static final SparseIntArray ORIENTATIONS = new SparseIntArray();
static {
    ORIENTATIONS.append(Surface.ROTATION_0, 0);
    ORIENTATIONS.append(Surface.ROTATION_90, 90);
    ORIENTATIONS.append(Surface.ROTATION_180, 180);
    ORIENTATIONS.append(Surface.ROTATION_270, 270);
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing)
        throws CameraAccessException {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation();
    int rotationCompensation = ORIENTATIONS.get(deviceRotation);

    // Get the device's sensor orientation.
    CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE);
    int sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION);

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360;
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360;
    }
    return rotationCompensation;
}

然后，将 media.Image 对象及其旋转角度值传递给 InputImage.fromMediaImage()：

Kotlin

val image = InputImage.fromMediaImage(mediaImage, rotation)MLKitVisionImage.kt

Java

InputImage image = InputImage.fromMediaImage(mediaImage, rotation);

使用文件 URI

如需基于文件 URI 创建 InputImage 对象，请将应用上下文和文件 URI 传递给 InputImage.fromFilePath()。如果您使用 ACTION_GET_CONTENT intent 提示用户从相册应用中选择图片，这一操作会非常有用。

Kotlin

val image: InputImage
try {
    image = InputImage.fromFilePath(context, uri)
} catch (e: IOException) {
    e.printStackTrace()
}MLKitVisionImage.kt

Java

InputImage image;
try {
    image = InputImage.fromFilePath(context, uri);
} catch (IOException e) {
    e.printStackTrace();
}

使用 `ByteBuffer` 或 `ByteArray`

如需基于 ByteBuffer 或 ByteArray 创建 InputImage 对象，请首先按先前 media.Image 输入的说明计算图片旋转角度。然后，使用缓冲区或数组以及图片的高度、宽度、颜色编码格式和旋转角度创建 InputImage 对象：

Kotlin

val image = InputImage.fromByteBuffer(
        byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)MLKitVisionImage.kt
// Or:
val image = InputImage.fromByteArray(
        byteArray,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)
MLKitVisionImage.kt

Java

InputImage image = InputImage.fromByteBuffer(byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);MLKitVisionImage.java
// Or:
InputImage image = InputImage.fromByteArray(
        byteArray,
        /* image width */480,
        /* image height */360,
        rotation,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);MLKitVisionImage.java

使用 `Bitmap`

如需基于 Bitmap 对象创建 InputImage 对象，请进行以下声明：

Kotlin

val image = InputImage.fromBitmap(bitmap, 0)MLKitVisionImage.kt

Java

InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);MLKitVisionImage.java

图片由 Bitmap 对象以及旋转角度表示。

3. 处理图片

将图片传递给 process 方法：

Kotlin

val result = recognizer.process(image)
        .addOnSuccessListener { visionText ->
            // Task completed successfully
            // ...
        }
        .addOnFailureListener { e ->
            // Task failed with an exception
            // ...
        }TextRecognitionActivity.kt

Java

Task<Text> result =
        recognizer.process(image)
                .addOnSuccessListener(new OnSuccessListener<Text>() {
                    @Override
                    public void onSuccess(Text visionText) {
                        // Task completed successfully
                        // ...
                    }
                })
                .addOnFailureListener(
                        new OnFailureListener() {
                            @Override
                            public void onFailure(@NonNull Exception e) {
                                // Task failed with an exception
                                // ...
                            }
                        });TextRecognitionActivity.java

注意：如果您使用的是 CameraX API，请务必在使用完毕后关闭 ImageProxy，例如，通过向 process 方法返回的 Task 添加 OnCompleteListener。如需查看示例，请参阅快速入门示例应用中的 VisionProcessorBase类。

4. 从识别出的文本块中提取文本

如果文本识别操作成功，系统会向成功监听器传递一个 Text 对象。Text 对象包含从图片中识别到的完整文本以及零个或零个以上的 TextBlock 对象。

每个 TextBlock 表示一个矩形文本块，其中包含零个或零个以上的 Line 对象。每个 Line对象表示一行文本，其中包含零个或零个以上的Element对象。每个 Element 对象表示一个字词或类似字词的实体，其中包含零个或零个以上的 Symbol 对象。每个 Symbol 对象表示一个字符、数字或类似字词的实体。

对于每个 TextBlock、Line、 Element 和 Symbol 对象，您可以获取区域中识别出的文本、该区域的边界坐标以及许多其他属性，例如旋转信息、置信度等。

例如：

Kotlin

val resultText = result.text
for (block in result.textBlocks) {
    val blockText = block.text
    val blockCornerPoints = block.cornerPoints
    val blockFrame = block.boundingBox
    for (line in block.lines) {
        val lineText = line.text
        val lineCornerPoints = line.cornerPoints
        val lineFrame = line.boundingBox
        for (element in line.elements) {
            val elementText = element.text
            val elementCornerPoints = element.cornerPoints
            val elementFrame = element.boundingBox
        }
    }
}TextRecognitionActivity.kt

Java

String resultText = result.getText();
for (Text.TextBlock block : result.getTextBlocks()) {
    String blockText = block.getText();
    Point[] blockCornerPoints = block.getCornerPoints();
    Rect blockFrame = block.getBoundingBox();
    for (Text.Line line : block.getLines()) {
        String lineText = line.getText();
        Point[] lineCornerPoints = line.getCornerPoints();
        Rect lineFrame = line.getBoundingBox();
        for (Text.Element element : line.getElements()) {
            String elementText = element.getText();
            Point[] elementCornerPoints = element.getCornerPoints();
            Rect elementFrame = element.getBoundingBox();
            for (Text.Symbol symbol : element.getSymbols()) {
                String symbolText = symbol.getText();
                Point[] symbolCornerPoints = symbol.getCornerPoints();
                Rect symbolFrame = symbol.getBoundingBox();
            }
        }
    }
}TextRecognitionActivity.java

输入图片指南

要使机器学习套件准确识别文本，输入图片中包含的文本必须由足够大的像素表示。理想情况下，每个字符应至少为 16x16 像素。字符像素大于 24x24 通常不会增加准确性。

例如，640x480 像素的图片可能非常适合用于扫描占据图片整个宽度的商家名片。如需扫描打印在信纸大小纸张上的文档，可能需要 720x1280 像素的图片。
图片聚焦不佳会影响文本识别的准确性。如果您无法获得满意的结果，请尝试让用户重新捕获图片。
如果您是在实时应用中识别文本，则应考虑输入图片的整体尺寸。较小图片的处理速度相对较快。为了减少延迟时间，请确保文本在图片中占据尽可能大的画面，并以较低的分辨率捕获图片（但请牢记上述准确性要求）。如需了解详情，请参阅提升效果的相关提示。

提升效果的相关提示

如果您使用 Camera 或 camera2 API，请限制对检测器的调用。如果在检测器运行时有新的视频帧可用，请丢弃该帧。如需查看示例，请参阅快速入门示例应用中的 VisionProcessorBase 类。
如果您使用 CameraX API，请确保将反压策略设置为其默认值 ImageAnalysis.STRATEGY_KEEP_ONLY_LATEST。这样可确保一次只传送一张图片进行分析。如果分析器繁忙时生成了更多图片，这些图片将被自动丢弃，而不会排队等待传送。通过调用 ImageProxy.close() 关闭正在分析的图片后，系统会传送下一张最新图片。
如果要将检测器的输出作为图形叠加在输入图片上，请先从机器学习套件获取结果，然后在一个步骤中完成图片的呈现和叠加。这样，每个输入帧只需在显示表面呈现一次。如需查看示例，请参阅快速入门示例应用中的 CameraSourcePreview 和 GraphicOverlay 类。
如果您使用 Camera2 API，请以 ImageFormat.YUV_420_888 格式捕获图片。如果您使用旧版 Camera API，请以 ImageFormat.NV21 格式捕获图片。
建议以较低分辨率捕获图片，但请注意此 API 的图片尺寸要求。

使用机器学习套件识别图片中的文本 (Android) 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

试试看

准备工作

1. 创建 TextRecognizer 实例

Kotlin

Java

2. 准备输入图片

使用 media.Image

Kotlin

Java

Kotlin

Java

Kotlin

Java

使用文件 URI

Kotlin

Java

使用 ByteBuffer 或 ByteArray

Kotlin

Java

使用 Bitmap

Kotlin

Java

3. 处理图片

Kotlin

Java

4. 从识别出的文本块中提取文本

Kotlin

Java

输入图片指南

提升效果的相关提示

使用机器学习套件识别图片中的文本 (Android)

1. 创建 `TextRecognizer` 实例

使用 `media.Image`

使用 `ByteBuffer` 或 `ByteArray`

使用 `Bitmap`