使用机器学习套件检测和跟踪对象 (Android)

您可以使用 ML Kit 来检测和跟踪连续视频帧中的对象。

当您向 ML Kit 传递图片时，它会检测图片中最多五个对象以及每个对象在图片中的位置。检测视频流中的对象时，每个对象都有一个唯一 ID，您可以使用此 ID 来逐帧跟踪对象。您还可以选择启用对象粗分类，该功能会使用粗略的类别描述来给对象加标签。

试试看

您可以试用示例应用，了解此 API 的使用示例。
如需了解此 API 的端到端实现，请参阅 Material Design 展示应用。

准备工作

此 API 需要 Android API 级别 23 或更高级别。确保您应用的 build 文件使用的 minSdkVersion 值不低于 23。

请务必在您的项目级 build.gradle 文件中的 buildscript 和 allprojects 部分添加 Google 的 Maven 代码库。
将 Android 版机器学习套件库的依赖项添加到模块的应用级 Gradle 文件（通常为 app/build.gradle）：
```
dependencies {
  // ...

  implementation 'com.google.mlkit:object-detection:17.0.2'

}
```

1. 配置对象检测器

如需检测和跟踪对象，请先创建一个 ObjectDetector 实例，并视需要更改检测器默认设置。

使用 ObjectDetectorOptions 对象为您的使用场景配置对象检测器。您可以更改以下设置：

对象检测器设置

检测模式

对象检测器设置
检测模式	`STREAM_MODE`（默认）\| `SINGLE_IMAGE_MODE` 在 `STREAM_MODE`（默认）下，对象检测器以低延迟高速运行，但在前几次调用检测器时可能会产生不完整的结果（例如未指定的边界框或类别标签）。此外，在 `STREAM_MODE` 下，检测器会为对象分配跟踪 ID，您可以使用该 ID 来跨帧跟踪对象。如果您想要跟踪对象，或者对延迟有要求（例如在实时处理视频流时），请使用此模式。在 `SINGLE_IMAGE_MODE` 中，对象检测器会在确定对象的边界框后返回结果。如果您还启用了分类，则在边界框和类别标签都可用后，它会返回结果。因此，此模式下的检测延迟可能较高。此外，在 `SINGLE_IMAGE_MODE` 下，不会分配跟踪 ID。如果不计较延迟高低，且不想处理不完整的结果，请使用此模式。
检测和跟踪多个对象	`false`（默认）\| `true` 是检测和跟踪最多五个对象，还是仅检测和跟踪最突出的对象（默认）。
对对象进行分类	`false`（默认）\| `true` 是否对检测到的对象进行粗分类。启用后，对象检测器会将对象分为以下类别：时尚商品、食品、家居用品、地点和植物。

STREAM_MODE（默认）| SINGLE_IMAGE_MODE

在 STREAM_MODE（默认）下，对象检测器以低延迟高速运行，但在前几次调用检测器时可能会产生不完整的结果（例如未指定的边界框或类别标签）。此外，在 STREAM_MODE 下，检测器会为对象分配跟踪 ID，您可以使用该 ID 来跨帧跟踪对象。如果您想要跟踪对象，或者对延迟有要求（例如在实时处理视频流时），请使用此模式。

在 SINGLE_IMAGE_MODE 中，对象检测器会在确定对象的边界框后返回结果。如果您还启用了分类，则在边界框和类别标签都可用后，它会返回结果。因此，此模式下的检测延迟可能较高。此外，在 SINGLE_IMAGE_MODE 下，不会分配跟踪 ID。如果不计较延迟高低，且不想处理不完整的结果，请使用此模式。

检测和跟踪多个对象

false（默认）| true

是检测和跟踪最多五个对象，还是仅检测和跟踪最突出的对象（默认）。

对对象进行分类

false（默认）| true

是否对检测到的对象进行粗分类。启用后，对象检测器会将对象分为以下类别：时尚商品、食品、家居用品、地点和植物。

对象检测和跟踪 API 针对以下两个核心使用场景进行了优化：

实时检测和跟踪相机取景器中最突出的对象。
检测静态图片中的多个对象。

如需为这些使用场景配置 API，请运行以下代码：

Kotlin

// Live detection and tracking
val options = ObjectDetectorOptions.Builder()
        .setDetectorMode(ObjectDetectorOptions.STREAM_MODE)
        .enableClassification()  // Optional
        .build()

// Multiple object detection in static images
val options = ObjectDetectorOptions.Builder()
        .setDetectorMode(ObjectDetectorOptions.SINGLE_IMAGE_MODE)
        .enableMultipleObjects()
        .enableClassification()  // Optional
        .build()

Java

// Live detection and tracking
ObjectDetectorOptions options =
        new ObjectDetectorOptions.Builder()
                .setDetectorMode(ObjectDetectorOptions.STREAM_MODE)
                .enableClassification()  // Optional
                .build();

// Multiple object detection in static images
ObjectDetectorOptions options =
        new ObjectDetectorOptions.Builder()
                .setDetectorMode(ObjectDetectorOptions.SINGLE_IMAGE_MODE)
                .enableMultipleObjects()
                .enableClassification()  // Optional
                .build();

获取 ObjectDetector 的一个实例：

Kotlin

val objectDetector = ObjectDetection.getClient(options)

Java

ObjectDetector objectDetector = ObjectDetection.getClient(options);

2. 准备输入图片

如需检测和跟踪对象，请将图片传递给 ObjectDetector 实例的 process() 方法。

对象检测器直接从 Bitmap、NV21 ByteBuffer 或 YUV_420_888 media.Image 运行。如果您可以直接访问其中一个来源，建议您从这些来源构建 InputImage。如果您从其他来源构建 InputImage，我们会为您在内部处理转换，但效率可能会较低。

对于一个序列中的每个视频或图片帧，请执行以下操作：

您可以基于不同来源创建 InputImage 对象，下文分别介绍了具体方法。

使用 `media.Image`

如需基于 media.Image 对象创建 InputImage 对象（例如从设备的相机捕获图片时），请将 media.Image 对象和图片的旋转角度传递给 InputImage.fromMediaImage()。

如果您使用 CameraX 库，OnImageCapturedListener 和 ImageAnalysis.Analyzer 类会为您计算旋转角度值。

Kotlin

private class YourImageAnalyzer : ImageAnalysis.Analyzer {

    override fun analyze(imageProxy: ImageProxy) {
        val mediaImage = imageProxy.image
        if (mediaImage != null) {
            val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees)
            // Pass image to an ML Kit Vision API
            // ...
        }
    }
}

Java

private class YourAnalyzer implements ImageAnalysis.Analyzer {

    @Override
    public void analyze(ImageProxy imageProxy) {
        Image mediaImage = imageProxy.getImage();
        if (mediaImage != null) {
          InputImage image =
                InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees());
          // Pass image to an ML Kit Vision API
          // ...
        }
    }
}

如果您不使用可提供图片旋转角度的相机库，则可以根据设备的旋转角度和设备中相机传感器的朝向来计算旋转角度：

Kotlin

private val ORIENTATIONS = SparseIntArray()

init {
    ORIENTATIONS.append(Surface.ROTATION_0, 0)
    ORIENTATIONS.append(Surface.ROTATION_90, 90)
    ORIENTATIONS.append(Surface.ROTATION_180, 180)
    ORIENTATIONS.append(Surface.ROTATION_270, 270)
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
@Throws(CameraAccessException::class)
private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    val deviceRotation = activity.windowManager.defaultDisplay.rotation
    var rotationCompensation = ORIENTATIONS.get(deviceRotation)

    // Get the device's sensor orientation.
    val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager
    val sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION)!!

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360
    }
    return rotationCompensation
}MLKitVisionImage.kt

Java

private static final SparseIntArray ORIENTATIONS = new SparseIntArray();
static {
    ORIENTATIONS.append(Surface.ROTATION_0, 0);
    ORIENTATIONS.append(Surface.ROTATION_90, 90);
    ORIENTATIONS.append(Surface.ROTATION_180, 180);
    ORIENTATIONS.append(Surface.ROTATION_270, 270);
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing)
        throws CameraAccessException {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation();
    int rotationCompensation = ORIENTATIONS.get(deviceRotation);

    // Get the device's sensor orientation.
    CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE);
    int sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION);

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360;
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360;
    }
    return rotationCompensation;
}

然后，将 media.Image 对象及其旋转角度值传递给 InputImage.fromMediaImage()：

Kotlin

val image = InputImage.fromMediaImage(mediaImage, rotation)MLKitVisionImage.kt

Java

InputImage image = InputImage.fromMediaImage(mediaImage, rotation);

使用文件 URI

如需基于文件 URI 创建 InputImage 对象，请将应用上下文和文件 URI 传递给 InputImage.fromFilePath()。如果您使用 ACTION_GET_CONTENT Intent 提示用户从图库应用中选择图片，这一操作会非常有用。

Kotlin

val image: InputImage
try {
    image = InputImage.fromFilePath(context, uri)
} catch (e: IOException) {
    e.printStackTrace()
}MLKitVisionImage.kt

Java

InputImage image;
try {
    image = InputImage.fromFilePath(context, uri);
} catch (IOException e) {
    e.printStackTrace();
}

使用 `ByteBuffer` 或 `ByteArray`

如需基于 ByteBuffer 或 ByteArray 创建 InputImage 对象，请首先按先前 media.Image 输入的说明计算图片旋转角度。然后，使用缓冲区或数组以及图片的高度、宽度、颜色编码格式和旋转角度创建 InputImage 对象：

Kotlin

val image = InputImage.fromByteBuffer(
        byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)MLKitVisionImage.kt
// Or:
val image = InputImage.fromByteArray(
        byteArray,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)
MLKitVisionImage.kt

Java

InputImage image = InputImage.fromByteBuffer(byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);MLKitVisionImage.java
// Or:
InputImage image = InputImage.fromByteArray(
        byteArray,
        /* image width */480,
        /* image height */360,
        rotation,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);MLKitVisionImage.java

使用 `Bitmap`

如需基于 Bitmap 对象创建 InputImage 对象，请进行以下声明：

Kotlin

val image = InputImage.fromBitmap(bitmap, 0)MLKitVisionImage.kt

Java

InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);MLKitVisionImage.java

图片由 Bitmap 对象以及旋转角度表示。

3. 处理图片

将图片传递给 process() 方法：

Kotlin

objectDetector.process(image)
    .addOnSuccessListener { detectedObjects ->
        // Task completed successfully
        // ...
    }
    .addOnFailureListener { e ->
        // Task failed with an exception
        // ...
    }

Java

objectDetector.process(image)
    .addOnSuccessListener(
        new OnSuccessListener<List<DetectedObject>>() {
            @Override
            public void onSuccess(List<DetectedObject> detectedObjects) {
                // Task completed successfully
                // ...
            }
        })
    .addOnFailureListener(
        new OnFailureListener() {
            @Override
            public void onFailure(@NonNull Exception e) {
                // Task failed with an exception
                // ...
            }
        });

注意：如果您使用的是 CameraX API，请务必在使用完毕后关闭 ImageProxy，例如通过向从 process 方法返回的 Task 添加 OnCompleteListener 来实现。如需查看示例，请参阅快速入门示例应用中的 VisionProcessorBase 类。

4. 获取有关检测到的对象的信息

如果对 process() 的调用成功完成，系统会向成功监听器传递一组 DetectedObject。

每个 DetectedObject 包含以下属性：

边界框一个 Rect，用于指示图片中对象的位置。

跟踪 ID 一个整数，用于跨图片识别对象。在 SINGLE_IMAGE_MODE 下为 Null。

标签

标签说明	标签的文字说明。它将是 `PredefinedCategory` 中定义的字符串常量之一。
标签索引	标签在分类器支持的所有标签中的索引。它将是 `PredefinedCategory` 中定义的整数常量之一。
标签置信度	对象分类的置信度值。

Kotlin

for (detectedObject in detectedObjects) {
    val boundingBox = detectedObject.boundingBox
    val trackingId = detectedObject.trackingId
    for (label in detectedObject.labels) {
        val text = label.text
        if (PredefinedCategory.FOOD == text) {
            ...
        }
        val index = label.index
        if (PredefinedCategory.FOOD_INDEX == index) {
            ...
        }
        val confidence = label.confidence
    }
}

Java

// The list of detected objects contains one item if multiple
// object detection wasn't enabled.
for (DetectedObject detectedObject : detectedObjects) {
    Rect boundingBox = detectedObject.getBoundingBox();
    Integer trackingId = detectedObject.getTrackingId();
    for (Label label : detectedObject.getLabels()) {
        String text = label.getText();
        if (PredefinedCategory.FOOD.equals(text)) {
            ...
        }
        int index = label.getIndex();
        if (PredefinedCategory.FOOD_INDEX == index) {
            ...
        }
        float confidence = label.getConfidence();
    }
}

确保出色的用户体验

如需获得最佳用户体验，请在您的应用中遵循以下准则：

对象检测成功与否取决于对象的视觉复杂性。为了能够被检测到，具有较少视觉特征的对象可能需要占据待检测图片的较大部分区域。您应为用户提供有关捕获输入的指导，该输入应适用于您要检测的对象类型。
使用分类时，如果您要检测不完全归于受支持类别的对象，请对未知对象执行特殊处理。

另请参阅机器学习套件 Material Design 展示应用和适用于机器学习所支持功能集的 Material Design 模式。

提高性能

如果要在实时应用中使用对象检测，请遵循以下准则以实现最佳帧速率：

在实时应用中使用流式传输模式时，请勿使用多个对象检测，因为大多数设备无法产生足够高的帧速率。
如果您不需要，请停用分类。
如果您使用 Camera 或 camera2 API，请限制检测器的调用次数。如果在检测器运行时有新的视频帧可用，请丢弃该帧。如需查看示例，请参阅快速入门示例应用中的 VisionProcessorBase 类。
如果您使用 CameraX API，请确保将反压策略设置为其默认值 ImageAnalysis.STRATEGY_KEEP_ONLY_LATEST。这样可确保一次只传送一张图片进行分析。如果分析器繁忙时生成了更多图片，这些图片将自动丢弃，而不会排队等待传送。通过调用 ImageProxy.close() 关闭正在分析的图片后，系统会传送下一张最新图片。
如果您要将检测器的输出作为图形叠加在输入图片上，请先从机器学习套件获取结果，然后在一个步骤中完成图片的呈现和叠加。这样一来，每个输入帧只需在显示表面呈现一次。如需查看示例，请参阅快速入门示例应用中的 CameraSourcePreview 和 GraphicOverlay 类。
如果您使用 Camera2 API，请以 ImageFormat.YUV_420_888 格式捕获图片。如果您使用旧版 Camera API，请以 ImageFormat.NV21 格式捕获图片。

使用机器学习套件检测和跟踪对象 (Android) 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

试试看

准备工作

1. 配置对象检测器

Kotlin

Java

Kotlin

Java

2. 准备输入图片

使用 media.Image

Kotlin

Java

Kotlin

Java

Kotlin

Java

使用文件 URI

Kotlin

Java

使用 ByteBuffer 或 ByteArray

Kotlin

Java

使用 Bitmap

Kotlin

Java

3. 处理图片

Kotlin

Java

4. 获取有关检测到的对象的信息

Kotlin

Java

确保出色的用户体验

提高性能

使用机器学习套件检测和跟踪对象 (Android)

使用 `media.Image`

使用 `ByteBuffer` 或 `ByteArray`

使用 `Bitmap`