פילוח תמונת סלפי באמצעות ML Kit ב-Android

‫ML Kit מספק SDK שעבר אופטימיזציה לפילוח סלפי.

נכסי ה-Selfie Segmenter מקושרים באופן סטטי לאפליקציה בזמן הבנייה. הוספת התכונה הזו תגדיל את גודל ההורדה של האפליקציה בכ-4.5MB, והשהייה של ה-API יכולה לנוע בין 25ms ל-65ms, בהתאם לגודל תמונת הקלט, כפי שנמדד ב-Pixel 4.

רוצה לנסות?

כדי לראות דוגמה לשימוש ב-API הזה, אפשר להתנסות באפליקציה לדוגמה.

לפני שמתחילים

ממשק ה-API הזה דורש Android API ברמה 23 ומעלה. מוודאים שקובץ ה-build של האפליקציה כולל ערך minSdkVersion של 23 ומעלה.

בקובץ build.gradle ברמת הפרויקט, צריך לוודא שמאגר ה-Maven של Google כלול בקטעים buildscript ו-allprojects.
מוסיפים את התלויות בספריות ML Kit ל-Android לקובץ Gradle ברמת האפליקציה של המודול, שבדרך כלל נמצא ב-app/build.gradle:

dependencies {
  implementation 'com.google.mlkit:segmentation-selfie:16.0.0-beta6'
}

1. יצירת מופע של Segmenter

אפשרויות של כלי הפילוח

כדי לבצע פילוח בתמונה, קודם יוצרים מופע של Segmenter על ידי ציון האפשרויות הבאות.

מצב גלאי

ה-Segmenter פועל בשני מצבים. חשוב לבחור את האפשרות שמתאימה לתרחיש השימוש שלכם.

STREAM_MODE (default)

המצב הזה מיועד להזרמת פריימים מסרטון או ממצלמה. במצב הזה, כלי הפילוח יסתמך על תוצאות מפריימים קודמים כדי להחזיר תוצאות פילוח חלקות יותר.

SINGLE_IMAGE_MODE

המצב הזה מיועד לתמונות בודדות שלא קשורות זו לזו. במצב הזה, מודל הפילוח יעבד כל תמונה בנפרד, ללא החלקה בין הפריימים.

הפעלת מסכה בגודל המקורי

מבקשת מהמודל להחזיר את מסכת הגודל הגולמית שתואמת לגודל הפלט של המודל.

גודל המסכה הגולמית (למשל ‎256x256) קטן בדרך כלל מגודל תמונת הקלט. כדי לקבל את גודל המסכה כשמפעילים את האפשרות הזו, צריך להתקשר למספר SegmentationMask#getWidth() או למספר SegmentationMask#getHeight().

אם לא מציינים את האפשרות הזו, כלי הפילוח ישנה את קנה המידה של המסכה הגולמית כך שיתאים לגודל תמונה של תמונת הקלט. כדאי להשתמש באפשרות הזו אם רוצים להחיל לוגיקה מותאמת אישית של שינוי קנה מידה, או אם שינוי קנה מידה לא נחוץ לתרחיש השימוש שלכם.

מציינים את האפשרויות של הכלי לפילוח:

Kotlin

val options =
        SelfieSegmenterOptions.Builder()
            .setDetectorMode(SelfieSegmenterOptions.STREAM_MODE)
            .enableRawSizeMask()
            .build()

Java

SelfieSegmenterOptions options =
        new SelfieSegmenterOptions.Builder()
            .setDetectorMode(SelfieSegmenterOptions.STREAM_MODE)
            .enableRawSizeMask()
            .build();

יצירת מופע של Segmenter. מעבירים את האפשרויות שציינתם:

Kotlin

val segmenter = Segmentation.getClient(options)

Java

Segmenter segmenter = Segmentation.getClient(options);

2. הכנת תמונת הקלט

כדי לבצע פילוח בתמונה, יוצרים אובייקט InputImage מ-Bitmap, מ-media.Image, מ-ByteBuffer, ממערך בייטים או מקובץ במכשיר.

אפשר ליצור אובייקט InputImage ממקורות שונים, שכל אחד מהם מוסבר בהמשך.

שימוש ב-`media.Image`

כדי ליצור אובייקט InputImage מאובייקט media.Image, למשל כשמצלמים תמונה במצלמה של מכשיר, מעבירים את אובייקט media.Image ואת הסיבוב של התמונה אל InputImage.fromMediaImage().

אם משתמשים בספריית CameraX, המחלקות OnImageCapturedListener ו-ImageAnalysis.Analyzer מחשבות את ערך הסיבוב בשבילכם.

Kotlin

private class YourImageAnalyzer : ImageAnalysis.Analyzer {

    override fun analyze(imageProxy: ImageProxy) {
        val mediaImage = imageProxy.image
        if (mediaImage != null) {
            val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees)
            // Pass image to an ML Kit Vision API
            // ...
        }
    }
}

Java

private class YourAnalyzer implements ImageAnalysis.Analyzer {

    @Override
    public void analyze(ImageProxy imageProxy) {
        Image mediaImage = imageProxy.getImage();
        if (mediaImage != null) {
          InputImage image =
                InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees());
          // Pass image to an ML Kit Vision API
          // ...
        }
    }
}

אם אתם לא משתמשים בספריית מצלמה שנותנת לכם את זווית הסיבוב של התמונה, אתם יכולים לחשב אותה מתוך זווית הסיבוב של המכשיר והכיוון של חיישן המצלמה במכשיר:

Kotlin

private val ORIENTATIONS = SparseIntArray()

init {
    ORIENTATIONS.append(Surface.ROTATION_0, 0)
    ORIENTATIONS.append(Surface.ROTATION_90, 90)
    ORIENTATIONS.append(Surface.ROTATION_180, 180)
    ORIENTATIONS.append(Surface.ROTATION_270, 270)
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
@Throws(CameraAccessException::class)
private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    val deviceRotation = activity.windowManager.defaultDisplay.rotation
    var rotationCompensation = ORIENTATIONS.get(deviceRotation)

    // Get the device's sensor orientation.
    val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager
    val sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION)!!

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360
    }
    return rotationCompensation
}MLKitVisionImage.kt

Java

private static final SparseIntArray ORIENTATIONS = new SparseIntArray();
static {
    ORIENTATIONS.append(Surface.ROTATION_0, 0);
    ORIENTATIONS.append(Surface.ROTATION_90, 90);
    ORIENTATIONS.append(Surface.ROTATION_180, 180);
    ORIENTATIONS.append(Surface.ROTATION_270, 270);
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing)
        throws CameraAccessException {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation();
    int rotationCompensation = ORIENTATIONS.get(deviceRotation);

    // Get the device's sensor orientation.
    CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE);
    int sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION);

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360;
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360;
    }
    return rotationCompensation;
}

לאחר מכן מעבירים את האובייקט media.Image ואת ערך מעלות הסיבוב אל InputImage.fromMediaImage():

Kotlin

val image = InputImage.fromMediaImage(mediaImage, rotation)MLKitVisionImage.kt

Java

InputImage image = InputImage.fromMediaImage(mediaImage, rotation);

שימוש ב-URI של קובץ

כדי ליצור אובייקט InputImage מ-URI של קובץ, מעבירים את הקשר של האפליקציה ואת ה-URI של הקובץ אל InputImage.fromFilePath(). זה שימושי כשמשתמשים ב-ACTION_GET_CONTENT intent כדי להציג למשתמש בקשה לבחור תמונה מאפליקציית הגלריה שלו.

Kotlin

val image: InputImage
try {
    image = InputImage.fromFilePath(context, uri)
} catch (e: IOException) {
    e.printStackTrace()
}MLKitVisionImage.kt

Java

InputImage image;
try {
    image = InputImage.fromFilePath(context, uri);
} catch (IOException e) {
    e.printStackTrace();
}

שימוש ב-`ByteBuffer` או ב-`ByteArray`

כדי ליצור אובייקט InputImage מ-ByteBuffer או מ-ByteArray, קודם צריך לחשב את זווית הסיבוב של התמונה כמו שמתואר למעלה לגבי קלט media.Image. לאחר מכן, יוצרים את האובייקט InputImage עם המאגר או המערך, יחד עם הגובה, הרוחב, פורמט קידוד הצבע ומידת הסיבוב של התמונה:

Kotlin

val image = InputImage.fromByteBuffer(
        byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)MLKitVisionImage.kt
// Or:
val image = InputImage.fromByteArray(
        byteArray,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)
MLKitVisionImage.kt

Java

InputImage image = InputImage.fromByteBuffer(byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);MLKitVisionImage.java
// Or:
InputImage image = InputImage.fromByteArray(
        byteArray,
        /* image width */480,
        /* image height */360,
        rotation,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);MLKitVisionImage.java

שימוש ב-`Bitmap`

כדי ליצור אובייקט InputImage מאובייקט Bitmap, צריך להצהיר על הדברים הבאים:

Kotlin

val image = InputImage.fromBitmap(bitmap, 0)MLKitVisionImage.kt

Java

InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);MLKitVisionImage.java

התמונה מיוצגת על ידי אובייקט Bitmap יחד עם מעלות הסיבוב.

3. עיבוד התמונה

מעבירים את אובייקט InputImage המוכן אל השיטה process של Segmenter.

Kotlin

Task<SegmentationMask> result = segmenter.process(image)
       .addOnSuccessListener { results ->
           // Task completed successfully
           // ...
       }
       .addOnFailureListener { e ->
           // Task failed with an exception
           // ...
       }

Java

Task<SegmentationMask> result =
        segmenter.process(image)
                .addOnSuccessListener(
                        new OnSuccessListener<SegmentationMask>() {
                            @Override
                            public void onSuccess(SegmentationMask mask) {
                                // Task completed successfully
                                // ...
                            }
                        })
                .addOnFailureListener(
                        new OnFailureListener() {
                            @Override
                            public void onFailure(@NonNull Exception e) {
                                // Task failed with an exception
                                // ...
                            }
                        });

הערה: אם אתם משתמשים ב-API‏ CameraX, הקפידו לסגור את ImageProxy כשמסיימים להשתמש בו, למשל על ידי הוספת OnCompleteListener ל-Task שמוחזר מ-method‏ process. דוגמה לכך אפשר לראות במחלקה VisionProcessorBase באפליקציית הדוגמה למתחילים.

4. קבלת תוצאת הפילוח

כך אפשר לקבל את תוצאת הפילוח:

Kotlin

val mask = segmentationMask.getBuffer()
val maskWidth = segmentationMask.getWidth()
val maskHeight = segmentationMask.getHeight()

for (val y = 0; y < maskHeight; y++) {
  for (val x = 0; x < maskWidth; x++) {
    // Gets the confidence of the (x,y) pixel in the mask being in the foreground.
    val foregroundConfidence = mask.getFloat()
  }
}

Java

ByteBuffer mask = segmentationMask.getBuffer();
int maskWidth = segmentationMask.getWidth();
int maskHeight = segmentationMask.getHeight();

for (int y = 0; y < maskHeight; y++) {
  for (int x = 0; x < maskWidth; x++) {
    // Gets the confidence of the (x,y) pixel in the mask being in the foreground.
    float foregroundConfidence = mask.getFloat();
  }
}

דוגמה מלאה לשימוש בתוצאות הפילוח מופיעה בדוגמה להפעלה מהירה של ML Kit.

טיפים לשיפור הביצועים

איכות התוצאות תלויה באיכות של תמונת המקור:

כדי ש-ML Kit יפיק תוצאת פילוח מדויקת, התמונה צריכה להיות בגודל ‎256x256 פיקסלים לפחות.
גם מיקוד לא טוב של התמונה יכול להשפיע על הדיוק. אם התוצאות לא מספיק טובות, מבקשים מהמשתמש לצלם מחדש את התמונה.

אם אתם רוצים להשתמש בפילוח באפליקציה בזמן אמת, כדאי לפעול לפי ההנחיות האלה כדי להשיג את קצב הפריימים הטוב ביותר:

שימוש בכתובת STREAM_MODE.
כדאי לצלם תמונות ברזולוציה נמוכה יותר. עם זאת, חשוב לזכור גם את הדרישות של ה-API לגבי מידות התמונה.
כדאי להפעיל את האפשרות של מסכת גודל גולמי ולשלב את כל הלוגיקה של שינוי הגודל. לדוגמה, במקום לאפשר ל-API לשנות את גודל המסכה כך שיתאים לגודל תמונת הקלט, ואז לשנות את הגודל שוב כך שיתאים לגודל התצוגה, אפשר פשוט לבקש את המסכה בגודל המקורי ולשלב את שני השלבים האלה לשלב אחד.
אם אתם משתמשים ב-API‏ Camera או camera2, כדאי לווסת את הקריאות לגלאי. אם פריים חדש של סרטון יהיה זמין בזמן שהגלאי פועל, צריך להשליך את הפריים. דוגמה אפשר לראות במחלקה VisionProcessorBase באפליקציית הדוגמה למתחילים.
אם אתם משתמשים ב-API‏ CameraX, חשוב לוודא ששיטת הלחץ האחורי מוגדרת לערך ברירת המחדל שלה ImageAnalysis.STRATEGY_KEEP_ONLY_LATEST. כך מובטח שרק תמונה אחת תישלח לניתוח בכל פעם. אם ייווצרו עוד תמונות בזמן שהכלי לניתוח עסוק, הן יימחקו אוטומטית ולא יתווספו לתור להעברה. אחרי שהתמונה שמנותחת נסגרת על ידי קריאה ל-ImageProxy.close(), התמונה האחרונה הבאה תועבר.
אם משתמשים בפלט של הגלאי כדי להוסיף שכבת-על של גרפיקה לתמונת הקלט, צריך קודם לקבל את התוצאה מ-ML Kit, ואז לעבד את התמונה ולהוסיף את שכבת-העל בשלב אחד. הוא מוצג במשטח התצוגה רק פעם אחת לכל מסגרת קלט. אפשר לראות דוגמה במחלקות CameraSourcePreview ו- GraphicOverlay באפליקציה לדוגמה למדריך למתחילים.
אם אתם משתמשים ב-Camera2 API, צלמו תמונות בפורמט ImageFormat.YUV_420_888. אם משתמשים בגרסה ישנה יותר של Camera API, צריך לצלם תמונות בפורמט ImageFormat.NV21.

פילוח תמונת סלפי באמצעות ML Kit ב-Android קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

רוצה לנסות?

לפני שמתחילים

1. יצירת מופע של Segmenter

אפשרויות של כלי הפילוח

מצב גלאי

הפעלת מסכה בגודל המקורי

Kotlin

Java

Kotlin

Java

2. הכנת תמונת הקלט

שימוש ב-media.Image

Kotlin

Java

Kotlin

Java

Kotlin

Java

שימוש ב-URI של קובץ

Kotlin

Java

שימוש ב-ByteBuffer או ב-ByteArray

Kotlin

Java

שימוש ב-Bitmap

Kotlin

Java

3. עיבוד התמונה

Kotlin

Java

4. קבלת תוצאת הפילוח

Kotlin

Java

טיפים לשיפור הביצועים

פילוח תמונת סלפי באמצעות ML Kit ב-Android

שימוש ב-`media.Image`

שימוש ב-`ByteBuffer` או ב-`ByteArray`

שימוש ב-`Bitmap`