Ta strona została przetłumaczona przez Cloud Translation API.

Wykrywanie i śledzenie obiektów za pomocą ML Kit na Androidzie

Za pomocą ML Kit możesz wykrywać i śledzić obiekty w kolejnych klatkach wideo.

Gdy przekażesz obraz do ML Kit, wykryje on na nim maksymalnie 5 obiektów wraz z ich pozycją na zdjęciu. Podczas wykrywania obiektów w strumieni wideo, każdy obiekt ma unikalny identyfikator, którego możesz użyć do śledzenia od klatki do ramki. Opcjonalnie możesz też włączyć ogólną klasyfikację obiektów, która oznacza obiekty opisami ogólnych kategorii.

Wypróbuj

Aby zobaczyć przykład użycia tego interfejsu API, wypróbuj przykładową aplikację.
Aby zobaczyć kompleksową implementację tego interfejsu API, otwórz aplikację pokazującą Material Design.

Zanim zaczniesz

Ten interfejs API wymaga poziomu interfejsu API 21 lub wyższego. Upewnij się, że kompilacja aplikacji ma wartość minSdkVersion równą 21 lub większą.

W pliku build.gradle na poziomie projektu uwzględnij repozytorium Maven firmy Google w sekcjach buildscript i allprojects.
Dodaj zależności bibliotek ML Kit na Androida do biblioteki modułu plik Gradle na poziomie aplikacji, który zwykle ma wartość app/build.gradle:
```
dependencies {
  // ...

  implementation 'com.google.mlkit:object-detection:17.0.2'

}
```

1. Konfigurowanie detektora obiektów

Aby wykrywać i śledzić obiekty, najpierw utwórz instancję klasy ObjectDetector i opcjonalnie określ ustawienia detektora, które chcesz zmienić w stosunku do domyślnych.

Skonfiguruj detektor obiektów na potrzeby swojego przypadku użycia za pomocą ObjectDetectorOptions obiekt. Możesz zmienić te ustawienia:

Ustawienia funkcji wykrywania obiektów

Tryb wykrywania

Ustawienia funkcji wykrywania obiektów
Tryb wykrywania	`STREAM_MODE` (domyślna) \| `SINGLE_IMAGE_MODE` W `STREAM_MODE` (domyślnie) działa wykrywacz obiektów. z małym czasem oczekiwania, ale mogą one dawać niepełne wyniki (np. nieokreślone ramki ograniczające lub etykiety kategorii) na pierwszych kilku na wywołania detektora. Poza tym za `STREAM_MODE` przypisuje do obiektów identyfikatory śledzenia, których można używać śledzić obiekty w ramkach. Użyj tego trybu, jeśli chcesz śledzić lub gdy ważne jest małe opóźnienie, np. podczas przetwarzania strumieniowania wideo w czasie rzeczywistym. W funkcji `SINGLE_IMAGE_MODE` wykrywacz obiektów zwraca wynik po określeniu ramki obiektu. Jeśli także włącz klasyfikację, ponieważ zwraca wynik po ograniczeniu pole i etykieta kategorii są dostępne. W związku z tym opóźnienie wykrywania jest potencjalnie większe. Ponadto w przypadku `SINGLE_IMAGE_MODE` identyfikatory śledzenia nie są przypisywane. Użyj w tym trybie, jeśli opóźnienia nie są krytyczne i nie chcesz częściowe wyniki.
Wykrywanie i śledzenie wielu obiektów	`false` (domyślna) \| `true` Określa, czy można wykryć i śledzić do pięciu obiektów, czy tylko najbardziej. widoczny obiekt (domyślnie).
Klasyfikowanie obiektów	`false` (domyślnie) \| `true` Określa, czy należy sklasyfikować wykryte obiekty w przybliżonych kategoriach. Po włączeniu detektor obiektów klasyfikuje obiekty według tych kategorii: odzież, żywność, sprzęt do domu, miejsca i rośliny.

STREAM_MODE (domyślna) | SINGLE_IMAGE_MODE

W STREAM_MODE (domyślnie) działa wykrywacz obiektów. z małym czasem oczekiwania, ale mogą one dawać niepełne wyniki (np. nieokreślone ramki ograniczające lub etykiety kategorii) na pierwszych kilku na wywołania detektora. Poza tym za STREAM_MODE przypisuje do obiektów identyfikatory śledzenia, których można używać śledzić obiekty w ramkach. Użyj tego trybu, jeśli chcesz śledzić lub gdy ważne jest małe opóźnienie, np. podczas przetwarzania strumieniowania wideo w czasie rzeczywistym.

W funkcji SINGLE_IMAGE_MODE wykrywacz obiektów zwraca wynik po określeniu ramki obiektu. Jeśli także włącz klasyfikację, ponieważ zwraca wynik po ograniczeniu pole i etykieta kategorii są dostępne. W związku z tym opóźnienie wykrywania jest potencjalnie większe. Ponadto w przypadku SINGLE_IMAGE_MODE identyfikatory śledzenia nie są przypisywane. Użyj w tym trybie, jeśli opóźnienia nie są krytyczne i nie chcesz częściowe wyniki.

Wykrywanie i śledzenie wielu obiektów

false (domyślna) | true

Określa, czy można wykryć i śledzić do pięciu obiektów, czy tylko najbardziej. widoczny obiekt (domyślnie).

Klasyfikowanie obiektów

false (domyślnie) | true

Określa, czy należy sklasyfikować wykryte obiekty w przybliżonych kategoriach. Po włączeniu detektor obiektów klasyfikuje obiekty według tych kategorii: odzież, żywność, sprzęt do domu, miejsca i rośliny.

Interfejs API wykrywania i śledzenia obiektów jest zoptymalizowany pod kątem tych dwóch podstawowych zastosowań przypadki:

Wykrywanie i śledzenie w czasie rzeczywistego czasu najbardziej widocznego obiektu w polu widzenia aparatu.
Wykrywanie wielu obiektów na obrazie statycznym.

Aby skonfigurować interfejs API pod kątem tych przypadków użycia:

Kotlin

// Live detection and tracking
val options = ObjectDetectorOptions.Builder()
        .setDetectorMode(ObjectDetectorOptions.STREAM_MODE)
        .enableClassification()  // Optional
        .build()

// Multiple object detection in static images
val options = ObjectDetectorOptions.Builder()
        .setDetectorMode(ObjectDetectorOptions.SINGLE_IMAGE_MODE)
        .enableMultipleObjects()
        .enableClassification()  // Optional
        .build()

Java

// Live detection and tracking
ObjectDetectorOptions options =
        new ObjectDetectorOptions.Builder()
                .setDetectorMode(ObjectDetectorOptions.STREAM_MODE)
                .enableClassification()  // Optional
                .build();

// Multiple object detection in static images
ObjectDetectorOptions options =
        new ObjectDetectorOptions.Builder()
                .setDetectorMode(ObjectDetectorOptions.SINGLE_IMAGE_MODE)
                .enableMultipleObjects()
                .enableClassification()  // Optional
                .build();

Pobierz instancję ObjectDetector:

Kotlin

val objectDetector = ObjectDetection.getClient(options)

Java

ObjectDetector objectDetector = ObjectDetection.getClient(options);

2. Przygotowywanie obrazu wejściowego

Aby wykrywać i śledzić obiekty, przekaż obrazy do metody ObjectDetector instancji process().

Wykrywacz obiektów działa bezpośrednio z Bitmap, NV21 ByteBuffer lub YUV_420_888 media.Image. Tworzę element InputImage z tych źródeł są zalecane, jeśli masz do nich bezpośredni dostęp. Jeśli InputImage pochodzi z innych źródeł, konwersję przetwarzamy wewnętrznie, co może być mniej wydajne.

W przypadku każdego klatki filmu lub obrazu w sekwencji wykonaj te czynności:

Obiekt InputImage możesz utworzyć z różnych źródeł. Każde z nich opisane jest poniżej.

Korzystanie z `media.Image`

Aby utworzyć obiekt InputImage na podstawie obiektu media.Image, na przykład podczas robienia zdjęcia za pomocą aparatu urządzenia, przekaż obiekt media.Image i obrót obrazu do obiektu InputImage.fromMediaImage().

Jeśli używasz tagu CameraX, OnImageCapturedListener oraz ImageAnalysis.Analyzer klasy obliczają wartość rotacji dla Ciebie.

Kotlin

private class YourImageAnalyzer : ImageAnalysis.Analyzer {

    override fun analyze(imageProxy: ImageProxy) {
        val mediaImage = imageProxy.image
        if (mediaImage != null) {
            val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees)
            // Pass image to an ML Kit Vision API
            // ...
        }
    }
}

Java

private class YourAnalyzer implements ImageAnalysis.Analyzer {

    @Override
    public void analyze(ImageProxy imageProxy) {
        Image mediaImage = imageProxy.getImage();
        if (mediaImage != null) {
          InputImage image =
                InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees());
          // Pass image to an ML Kit Vision API
          // ...
        }
    }
}

Jeśli nie używasz biblioteki aparatu, która podaje stopień obrotu obrazu, możesz go obliczyć na podstawie stopnia obrotu urządzenia i orientacji czujnika aparatu na urządzeniu:

Kotlin

private val ORIENTATIONS = SparseIntArray()

init {
    ORIENTATIONS.append(Surface.ROTATION_0, 0)
    ORIENTATIONS.append(Surface.ROTATION_90, 90)
    ORIENTATIONS.append(Surface.ROTATION_180, 180)
    ORIENTATIONS.append(Surface.ROTATION_270, 270)
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
@Throws(CameraAccessException::class)
private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    val deviceRotation = activity.windowManager.defaultDisplay.rotation
    var rotationCompensation = ORIENTATIONS.get(deviceRotation)

    // Get the device's sensor orientation.
    val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager
    val sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION)!!

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360
    }
    return rotationCompensation
}MLKitVisionImage.kt

Java

private static final SparseIntArray ORIENTATIONS = new SparseIntArray();
static {
    ORIENTATIONS.append(Surface.ROTATION_0, 0);
    ORIENTATIONS.append(Surface.ROTATION_90, 90);
    ORIENTATIONS.append(Surface.ROTATION_180, 180);
    ORIENTATIONS.append(Surface.ROTATION_270, 270);
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing)
        throws CameraAccessException {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation();
    int rotationCompensation = ORIENTATIONS.get(deviceRotation);

    // Get the device's sensor orientation.
    CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE);
    int sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION);

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360;
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360;
    }
    return rotationCompensation;
}

Następnie przekaż obiekt media.Image oraz wartość stopnia obrotu na InputImage.fromMediaImage():

Kotlin

val image = InputImage.fromMediaImage(mediaImage, rotation)MLKitVisionImage.kt

Java

InputImage image = InputImage.fromMediaImage(mediaImage, rotation);

Za pomocą identyfikatora URI pliku

Aby utworzyć InputImage obiektu z identyfikatora URI pliku, przekaż kontekst aplikacji oraz identyfikator URI pliku do InputImage.fromFilePath() Jest to przydatne, gdy używasz intencjonalnego wywołania ACTION_GET_CONTENT, aby poprosić użytkownika o wybranie obrazu z aplikacji Galeria.

Kotlin

val image: InputImage
try {
    image = InputImage.fromFilePath(context, uri)
} catch (e: IOException) {
    e.printStackTrace()
}MLKitVisionImage.kt

Java

InputImage image;
try {
    image = InputImage.fromFilePath(context, uri);
} catch (IOException e) {
    e.printStackTrace();
}

Używanie `ByteBuffer` lub `ByteArray`

Aby utworzyć InputImage obiektu z ByteBuffer lub ByteArray, najpierw oblicz wartość obrazu stopień obrotu zgodnie z wcześniejszym opisem dla danych wejściowych media.Image. Następnie utwórz obiekt InputImage z buforem lub tablicą wraz z wysokość, szerokością, formatem kodowania kolorów i stopniem obrotu obrazu:

Kotlin

val image = InputImage.fromByteBuffer(
        byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)MLKitVisionImage.kt
// Or:
val image = InputImage.fromByteArray(
        byteArray,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)
MLKitVisionImage.kt

Java

InputImage image = InputImage.fromByteBuffer(byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);MLKitVisionImage.java
// Or:
InputImage image = InputImage.fromByteArray(
        byteArray,
        /* image width */480,
        /* image height */360,
        rotation,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);MLKitVisionImage.java

Korzystanie z: `Bitmap`

Aby utworzyć InputImage z obiektu Bitmap, wypełnij tę deklarację:

Kotlin

val image = InputImage.fromBitmap(bitmap, 0)MLKitVisionImage.kt

Java

InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);MLKitVisionImage.java

Obraz jest reprezentowany przez obiekt Bitmap wraz z informacją o obróceniu w stopniach.

3. Przetwarzanie obrazu

Przekaż obraz do metody process():

Kotlin

objectDetector.process(image)
    .addOnSuccessListener { detectedObjects ->
        // Task completed successfully
        // ...
    }
    .addOnFailureListener { e ->
        // Task failed with an exception
        // ...
    }

Java

objectDetector.process(image)
    .addOnSuccessListener(
        new OnSuccessListener<List<DetectedObject>>() {
            @Override
            public void onSuccess(List<DetectedObject> detectedObjects) {
                // Task completed successfully
                // ...
            }
        })
    .addOnFailureListener(
        new OnFailureListener() {
            @Override
            public void onFailure(@NonNull Exception e) {
                // Task failed with an exception
                // ...
            }
        });

Uwaga:

jeśli używasz interfejsu API CameraX, zamknij obiekt ImageProxy po zakończeniu jego korzystania, np. przez dodanie do Task zwracanego przez metodę process elementu OnCompleteListener. Przykładem jest klasa VisionProcessorBase w przykładowej aplikacji krótkiego przewodnika.

4. Uzyskiwanie informacji o wykrytych obiektach

Jeśli wywołanie funkcji process() zakończy się powodzeniem, do funkcji zwrotnej success listener zostanie przekazana lista DetectedObject.

Każdy element DetectedObject zawiera te właściwości:

Ramka ograniczająca Rect, który wskazuje położenie obiektu w .

Identyfikator śledzenia Liczba całkowita, która identyfikuje obiekt na obrazach. Wartość null SINGLE_IMAGE_MODE.

Etykiety

Opis etykiety	Opis tekstowy etykiety. Będzie to jeden ze znaków stałe zdefiniowane w zasadzie `PredefinedCategory`.
Indeks etykiety	Indeks etykiety wśród wszystkich etykiet obsługiwanych przez klasyfikator. Będzie to jedna ze stałych liczb całkowitych zdefiniowanych w usłudze `PredefinedCategory`.
Pewność etykiety	Wartość ufności klasyfikacji obiektu.

Kotlin

for (detectedObject in detectedObjects) {
    val boundingBox = detectedObject.boundingBox
    val trackingId = detectedObject.trackingId
    for (label in detectedObject.labels) {
        val text = label.text
        if (PredefinedCategory.FOOD == text) {
            ...
        }
        val index = label.index
        if (PredefinedCategory.FOOD_INDEX == index) {
            ...
        }
        val confidence = label.confidence
    }
}

Java

// The list of detected objects contains one item if multiple
// object detection wasn't enabled.
for (DetectedObject detectedObject : detectedObjects) {
    Rect boundingBox = detectedObject.getBoundingBox();
    Integer trackingId = detectedObject.getTrackingId();
    for (Label label : detectedObject.getLabels()) {
        String text = label.getText();
        if (PredefinedCategory.FOOD.equals(text)) {
            ...
        }
        int index = label.getIndex();
        if (PredefinedCategory.FOOD_INDEX == index) {
            ...
        }
        float confidence = label.getConfidence();
    }
}

Zapewnienie świetnych wrażeń użytkowników

Aby zadbać o wygodę użytkowników, przestrzegaj tych wytycznych:

Skuteczne wykrywanie obiektów zależy od ich złożoności wizualnej. Aby można było je wykryć, obiekty z niewielką liczbą cech wizualnych mogą wymagać większych części obrazu. Podaj użytkownikom wskazówki dotyczące rejestrowania danych wejściowych, które dobrze współpracują z rodzajem obiektów, które chcesz wykrywać.
Gdy używasz klasyfikacji, aby wykrywać obiekty, które nie wypadają do obsługiwanych kategorii, zastosować specjalną obsługę nieznanych obiektów.

Zapoznaj się też z aplikacją ML Kit Material Design Showcase i kolekcją Material Design : wzorce dla funkcji opartych na systemach uczących się.

Improving performance

Jeśli chcesz używać wykrywania obiektów w aplikacji działającej w czasie rzeczywistym, postępuj zgodnie z tymi wskazówkami, aby uzyskać najlepszą liczbę klatek na sekundę:

Jeśli używasz trybu strumieniowego w aplikacji w czasie rzeczywistym, nie używaj wykrywania wielu obiektów, ponieważ większość urządzeń nie będzie w stanie zapewnić odpowiedniej liczby klatek na sekundę.
Wyłącz klasyfikację, jeśli jej nie potrzebujesz.
Jeśli używasz tagu Camera lub camera2 API, ograniczanie wywołań detektora. Jeśli nowy film ramka stanie się dostępna, gdy detektor będzie aktywny, upuść ją. Przykładem jest klasa VisionProcessorBase w przykładowej aplikacji krótkiego wprowadzenia.
Jeśli używasz interfejsu API CameraX, upewnij się, że strategia obciążenia wstecznego jest ustawiona na wartość domyślną ImageAnalysis.STRATEGY_KEEP_ONLY_LATEST Dzięki temu masz pewność, że do analizy zostanie przesłany tylko jeden obraz. Jeśli więcej obrazów generowane, gdy analizator jest zajęty, są usuwane automatycznie i nie są umieszczane w kolejce . Gdy wywołana zostanie metoda ImageProxy.close(), aby zamknąć analizowany obraz, zostanie przesłany następny najnowszy obraz.
Jeśli używasz danych wyjściowych z detektora do nakładania grafiki na obraz wejściowy, najpierw uzyskaj wynik z ML Kit, a potem wyrenderuj obraz i nałóż go w jednym kroku. Powoduje to wyrenderowanie na powierzchni wyświetlania tylko raz na każdą ramkę wejściową. Przykładem są klasy CameraSourcePreview i GraphicOverlay w przykładowej aplikacji krótkiego wprowadzenia.
Jeśli używasz interfejsu Camera2 API, rób zdjęcia w formacie ImageFormat.YUV_420_888. Jeśli używasz starszej wersji interfejsu Camera API, rób zdjęcia w Format: ImageFormat.NV21.

Wykrywanie i śledzenie obiektów za pomocą ML Kit na Androidzie

Wypróbuj

Zanim zaczniesz

1. Konfigurowanie detektora obiektów

Kotlin

Java

Kotlin

Java

2. Przygotowywanie obrazu wejściowego

Korzystanie z media.Image

Kotlin

Java

Kotlin

Java

Kotlin

Java

Za pomocą identyfikatora URI pliku

Kotlin

Java

Używanie ByteBuffer lub ByteArray

Kotlin

Java

Korzystanie z: Bitmap

Kotlin

Java

3. Przetwarzanie obrazu

Kotlin

Java

Korzystanie z `media.Image`

Używanie `ByteBuffer` lub `ByteArray`

Korzystanie z: `Bitmap`