يمكنك استخدام أدوات تعلُّم الآلة لرصد العناصر في إطارات الفيديو المتتالية وتتبُّعها.
عند تمرير صورة إلى مجموعة أدوات تعلُّم الآلة، ترصد هذه الصورة ما يصل إلى خمسة عناصر في الصورة. إلى جانب موضع كل كائن في الصورة. عند رصد كائنات في عمليات بث الفيديو، يكون لكل عنصر معرّف فريد يمكنك استخدامه لتتبع الكائن من إطار إلى آخر. ويمكنك أيضًا اختياريًا تفعيل الكائن التقريبي. الذي يصنف الكائنات بأوصاف فئات واسعة.
جرّبه الآن
- يمكنك تجربة نموذج التطبيق من أجل يمكنك الاطّلاع على مثال حول استخدام واجهة برمجة التطبيقات هذه.
- الاطلاع على واجهة عرض التصميم المتعدد الأبعاد app لتفعيل واجهة برمجة التطبيقات هذه بشكل شامل.
قبل البدء
- في ملف
build.gradle
على مستوى المشروع، تأكَّد من تضمين مستودع Maven التابع لشركة Google في كل منbuildscript
أقسامallprojects
- أضِف ملحقات مكتبات ML Kit على Android إلى
ملف Gradle على مستوى التطبيق، ويكون عادةً
app/build.gradle
:dependencies { // ... implementation 'com.google.mlkit:object-detection:17.0.2' }
1. ضبط أداة رصد الكائنات
لرصد العناصر وتتبُّعها، عليك أولاً إنشاء مثيل لـ ObjectDetector
اختياريًا، حدِّد أي إعدادات أداة رصد تريد تغييرها من
الافتراضي.
يمكنك ضبط أداة رصد العناصر لحالة الاستخدام من خلال عنصر
ObjectDetectorOptions
. يمكنك تغيير ما يلي الإعدادات:إعدادات ميزة "رصد الأجسام" وضع الكشف STREAM_MODE
(الخيار التلقائي) |SINGLE_IMAGE_MODE
في
STREAM_MODE
(الخيار التلقائي)، يتم تشغيل أداة رصد الكائنات ذات وقت استجابة سريع، ولكنها قد تؤدي إلى نتائج غير مكتملة (مثل صناديق حدود غير محددة أو تسميات الفئات) على الأجزاء القليلة الأولى استدعاءات أداة الكشف. أيضًا فيSTREAM_MODE
، تخصص أداة الكشف أرقام تعريف تتبع للكائنات، والتي يمكنك استخدامها وتتبع الكائنات عبر الإطارات. استخدِم هذا الوضع عندما تريد تتبُّع أو عندما يكون وقت الاستجابة البطيء مهمًا، كما هو الحال عند المعالجة أحداث الفيديو في الوقت الفعلي.في الدالة
SINGLE_IMAGE_MODE
، تعرض أداة رصد الكائنات النتيجة بعد تحديد مربع إحاطة الكائن. إذا كنت يعمل أيضًا على تمكين التصنيف، ويقوم أيضًا بإرجاع النتيجة بعد وضع الحدود المربع وتصنيف الفئة متاحين. وبالتالي، من المحتمل أن يكون وقت استجابة الرصد أعلى. أيضًا، فيSINGLE_IMAGE_MODE
، لم يتم تعيين أرقام تعريف التتبُّع. استخدام هذا الوضع إذا لم يكن وقت الاستجابة مهمًا ولا تريد التعامل مع نتائج جزئية.اكتشِف عناصر متعددة وتتبَّعها false
(الخيار التلقائي) |true
ما إذا كان سيتم رصد وتتبع ما يصل إلى خمسة عناصر أو أكثرها فقط كائن بارز (الافتراضي).
تصنيف العناصر false
(الخيار التلقائي) |true
تحديد ما إذا كان سيتم تصنيف العناصر المرصودة إلى فئات تقريبية أو لا. عند تفعيل هذه الميزة، تصنِّف أداة رصد الكائنات العناصر في الفئات التالية: سلع أزياء، طعام، سلع منزلية والأماكن والنباتات.
تم تحسين واجهة برمجة التطبيقات لمراقبة الكائنات وتتبّعها لاستخدام هذين العنصرين الأساسيين الحالات:
- الرصد المباشر للجسم الأكثر بروزًا في الكاميرا وتتبُّعه عدسة الكاميرا.
- رصد كائنات متعدّدة من صورة ثابتة
لضبط واجهة برمجة التطبيقات لحالات الاستخدام هذه:
// Live detection and tracking val options = ObjectDetectorOptions.Builder() .setDetectorMode(ObjectDetectorOptions.STREAM_MODE) .enableClassification() // Optional .build() // Multiple object detection in static images val options = ObjectDetectorOptions.Builder() .setDetectorMode(ObjectDetectorOptions.SINGLE_IMAGE_MODE) .enableMultipleObjects() .enableClassification() // Optional .build()
// Live detection and tracking ObjectDetectorOptions options = new ObjectDetectorOptions.Builder() .setDetectorMode(ObjectDetectorOptions.STREAM_MODE) .enableClassification() // Optional .build(); // Multiple object detection in static images ObjectDetectorOptions options = new ObjectDetectorOptions.Builder() .setDetectorMode(ObjectDetectorOptions.SINGLE_IMAGE_MODE) .enableMultipleObjects() .enableClassification() // Optional .build();
الحصول على نسخة افتراضية من
ObjectDetector
:
2. تحضير صورة الإدخال
لرصد العناصر وتتبُّعها، أرسِل الصور إلىObjectDetector
.
للمثيل process()
.
يتم تشغيل أداة رصد الكائنات مباشرةً من Bitmap
أو NV21 ByteBuffer
أو
YUV_420_888 media.Image
. إنشاء InputImage
من تلك المصادر
يوصى بها إذا كان لديك إمكانية الوصول المباشر إلى إحداها. إذا قمت بإنشاء
InputImage
من مصادر أخرى، سنعالج الإحالة الناجحة.
داخليًا بالنسبة لك وقد يكون أقل كفاءة.
بالنسبة إلى كل إطار من لقطات الفيديو أو الصور في تسلسل، عليك اتّباع الخطوات التالية:
يمكنك إنشاء InputImage
من مصادر مختلفة، في ما يلي شرح لكل منها.
يتم استخدام media.Image
لإنشاء InputImage
كائن من كائن media.Image
، مثلاً عند التقاط صورة من
كاميرا الجهاز، فما عليك سوى تمرير الكائن media.Image
تدوير إلى InputImage.fromMediaImage()
.
إذا كنت تستخدم
ومكتبة CameraX، وOnImageCapturedListener
تحتسب صفوف ImageAnalysis.Analyzer
قيمة عرض الإعلانات بالتناوب.
لك.
private class YourImageAnalyzer : ImageAnalysis.Analyzer { override fun analyze(imageProxy: ImageProxy) { val mediaImage = imageProxy.image if (mediaImage != null) { val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees) // Pass image to an ML Kit Vision API // ... } } }
private class YourAnalyzer implements ImageAnalysis.Analyzer { @Override public void analyze(ImageProxy imageProxy) { Image mediaImage = imageProxy.getImage(); if (mediaImage != null) { InputImage image = InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees()); // Pass image to an ML Kit Vision API // ... } } }
إذا كنت لا تستخدم مكتبة كاميرا تمنحك درجة تدوير الصورة، يمكنك يمكنه حسابه من خلال درجة دوران الجهاز واتجاه الكاميرا. جهاز الاستشعار في الجهاز:
private val ORIENTATIONS = SparseIntArray() init { ORIENTATIONS.append(Surface.ROTATION_0, 0) ORIENTATIONS.append(Surface.ROTATION_90, 90) ORIENTATIONS.append(Surface.ROTATION_180, 180) ORIENTATIONS.append(Surface.ROTATION_270, 270) } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) @Throws(CameraAccessException::class) private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. val deviceRotation = activity.windowManager.defaultDisplay.rotation var rotationCompensation = ORIENTATIONS.get(deviceRotation) // Get the device's sensor orientation. val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager val sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION)!! if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360 } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360 } return rotationCompensation }
private static final SparseIntArray ORIENTATIONS = new SparseIntArray(); static { ORIENTATIONS.append(Surface.ROTATION_0, 0); ORIENTATIONS.append(Surface.ROTATION_90, 90); ORIENTATIONS.append(Surface.ROTATION_180, 180); ORIENTATIONS.append(Surface.ROTATION_270, 270); } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing) throws CameraAccessException { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation(); int rotationCompensation = ORIENTATIONS.get(deviceRotation); // Get the device's sensor orientation. CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE); int sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION); if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360; } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360; } return rotationCompensation; }
بعد ذلك، مرِّر الكائن media.Image
قيمة درجة التدوير إلى InputImage.fromMediaImage()
:
val image = InputImage.fromMediaImage(mediaImage, rotation)
InputImage image = InputImage.fromMediaImage(mediaImage, rotation);
استخدام معرف موارد منتظم (URI) لملف
لإنشاء InputImage
من معرف موارد منتظم (URI) لملف، فمرر سياق التطبيق ومعرف الموارد المنتظم (URI) للملف إلى
InputImage.fromFilePath()
يكون ذلك مفيدًا عندما
يجب استخدام هدف ACTION_GET_CONTENT
لتطلب من المستخدم الاختيار.
صورة من تطبيق المعرض الخاص به.
val image: InputImage try { image = InputImage.fromFilePath(context, uri) } catch (e: IOException) { e.printStackTrace() }
InputImage image;
try {
image = InputImage.fromFilePath(context, uri);
} catch (IOException e) {
e.printStackTrace();
}
يتم استخدام ByteBuffer
أو ByteArray
لإنشاء InputImage
كائن من ByteBuffer
أو ByteArray
، احسب الصورة أولاً
درجة التدوير كما هو موضح سابقًا لإدخال media.Image
.
بعد ذلك، يمكنك إنشاء الكائن InputImage
باستخدام المخزن المؤقت أو المصفوفة بالإضافة إلى
الارتفاع والعرض وتنسيق ترميز الألوان ودرجة التدوير:
val image = InputImage.fromByteBuffer( byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ) // Or: val image = InputImage.fromByteArray( byteArray, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 )
InputImage image = InputImage.fromByteBuffer(byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ); // Or: InputImage image = InputImage.fromByteArray( byteArray, /* image width */480, /* image height */360, rotation, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 );
يتم استخدام Bitmap
لإنشاء InputImage
من كائن Bitmap
، قدِّم التعريف التالي:
val image = InputImage.fromBitmap(bitmap, 0)
InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);
يتم تمثيل الصورة بواسطة كائن Bitmap
مع درجات التدوير.
3- معالجة الصورة
تمرير الصورة إلى طريقةprocess()
:
objectDetector.process(image) .addOnSuccessListener { detectedObjects -> // Task completed successfully // ... } .addOnFailureListener { e -> // Task failed with an exception // ... }
objectDetector.process(image) .addOnSuccessListener( new OnSuccessListener<List<DetectedObject>>() { @Override public void onSuccess(List<DetectedObject> detectedObjects) { // Task completed successfully // ... } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Task failed with an exception // ... } });
4. الحصول على معلومات عن العناصر المرصودة
إذا نجح الاتصال إلى process()
، يتم إرسال قائمة تضم DetectedObject
إلى
المستمع الناجح.
يحتوي كل DetectedObject
على السمات التالية:
مربّع ربط العناصر | علامة Rect التي تشير إلى موضع العنصر في
. |
||||||
الرقم التعريفي للتتبع | عدد صحيح يعرّف العنصر عبر الصور. خالية SINGLE_IMAGE_mode. | ||||||
التصنيفات |
|
for (detectedObject in detectedObjects) { val boundingBox = detectedObject.boundingBox val trackingId = detectedObject.trackingId for (label in detectedObject.labels) { val text = label.text if (PredefinedCategory.FOOD == text) { ... } val index = label.index if (PredefinedCategory.FOOD_INDEX == index) { ... } val confidence = label.confidence } }
// The list of detected objects contains one item if multiple // object detection wasn't enabled. for (DetectedObject detectedObject : detectedObjects) { Rect boundingBox = detectedObject.getBoundingBox(); Integer trackingId = detectedObject.getTrackingId(); for (Label label : detectedObject.getLabels()) { String text = label.getText(); if (PredefinedCategory.FOOD.equals(text)) { ... } int index = label.getIndex(); if (PredefinedCategory.FOOD_INDEX == index) { ... } float confidence = label.getConfidence(); } }
ضمان تجربة رائعة للمستخدم
لتقديم أفضل تجربة للمستخدم، يُرجى اتّباع الإرشادات التالية في تطبيقك:
- يعتمد نجاح رصد العناصر على التعقيد البصري للكائن. ضِمن جهاز واحد، قد تحتاج الأجسام ذات عدد قليل من الميزات المرئية لكي تشغل جزءًا أكبر من الصورة يجب عليك تقديم إرشادات للمستخدمين حول التقاط مدخلات تعمل بشكل جيد مع نوع العناصر التي تريد رصدها.
- عند استخدام التصنيف، إذا كنت تريد رصد الأجسام التي لا تسقط بوضوح في الفئات المعتمدة، وتنفيذ معالجة خاصة للفئات الأخرى.
يمكنك أيضًا الاطّلاع على تطبيق عرض التصميم المتعدد الأبعاد في حزمة تعلّم الآلة التصميم المتعدد الأبعاد مجموعة أنماط الميزات المستنِدة إلى تعلُّم الآلة:
تحسين الأداء
إذا أردت استخدام ميزة اكتشاف الكائنات في تطبيق في الوقت الفعلي، يمكنك اتّباع الخطوات التالية: الإرشادات لتحقيق أفضل معدلات عرض الإطارات:
عند استخدام وضع البث في تطبيق في الوقت الفعلي، لا تستخدم رصد الأجسام، لأنّ معظم الأجهزة لن تتمكّن من إنتاج عدد مناسب من اللقطات في الثانية.
يمكنك إيقاف التصنيف إذا لم تكن بحاجة إليه.
- إذا كنت تستخدم
Camera
أوcamera2
واجهة برمجة التطبيقات، تقييد المكالمات الواردة إلى أداة الكشف. إذا ظهر فيديو جديد يصبح الإطار متاحًا أثناء تشغيل أداة الكشف، لذا أفلِت الإطار. يمكنك الاطّلاع على صف واحد (VisionProcessorBase
) في نموذج تطبيق Quickstart كمثال. - في حال استخدام
CameraX
API: تأكَّد من ضبط استراتيجية الضغط العكسي على قيمتها التلقائيةImageAnalysis.STRATEGY_KEEP_ONLY_LATEST
ويضمن ذلك عرض صورة واحدة فقط للتحليل في كل مرة. إذا كانت المزيد من الصور يتم إنتاجها عندما يكون المحلل مشغولاً، فسيتم إسقاطها تلقائيًا ولن يتم وضعها في قائمة الانتظار التسليم. بمجرد إغلاق الصورة التي يتم تحليلها عن طريق استدعاء ImageProxy. Close()، سيتم تسليم أحدث صورة تالية - إذا استخدمت مخرجات أداة الكشف لتراكب الرسومات على
الصورة المدخلة، والحصول أولاً على النتيجة من ML Kit، ثم عرض الصورة
وتراكبها في خطوة واحدة. يتم عرض هذا المحتوى على سطح الشاشة.
مرة واحدة فقط لكل إطار إدخال يمكنك الاطّلاع على
CameraSourcePreview
وGraphicOverlay
صفًا في نموذج تطبيق Quickstart كمثال. - في حال استخدام واجهة برمجة التطبيقات Camera2 API، يمكنك التقاط الصور في
تنسيق
ImageFormat.YUV_420_888
إذا كنت تستخدم واجهة برمجة التطبيقات للكاميرا القديمة، يمكنك التقاط الصور في تنسيقImageFormat.NV21