คุณใช้ ML Kit เพื่อจดจําข้อความในรูปภาพหรือวิดีโอได้ เช่น ข้อความเครื่องหมายจราจร ฟีเจอร์หลักของฟีเจอร์นี้มีดังนี้
API การจดจําข้อความ | |
---|---|
คำอธิบาย | จดจําตัวอักษรภาษาละตินในรูปภาพหรือวิดีโอ |
ชื่อห้องสมุด | com.google.android.gms:play-services-mlkit-text-recognition |
การใช้งาน | ไลบรารีจะดาวน์โหลดแบบไดนามิกผ่านบริการ Google Play |
ผลกระทบต่อขนาดแอป | 260KB |
เวลาเริ่มต้น | อาจต้องรอให้คลังดาวน์โหลดก่อน จึงจะใช้งานครั้งแรกได้ |
ประสิทธิภาพ | เรียลไทม์ในอุปกรณ์ส่วนใหญ่ |
ลองใช้งาน
- ลองใช้แอปตัวอย่างเพื่อดูตัวอย่างการใช้งาน API นี้
- ลองใช้โค้ดด้วยตนเองโดยใช้ codelab
ข้อควรทราบก่อนเริ่มต้น
- ในไฟล์
build.gradle
ระดับโปรเจ็กต์ อย่าลืมใส่ที่เก็บ Maven ของ Google ทั้งในbuildscript
และallprojects
- เพิ่มทรัพยากร Dependency สําหรับไลบรารี Android ของ ML Kit ไปยังไฟล์ Gradle ระดับแอปของโมดูล ซึ่งปกติจะเป็น
app/build.gradle
dependencies { // ... implementation 'com.google.android.gms:play-services-mlkit-text-recognition:18.0.2' }
-
ไม่บังคับแต่แนะนํา: คุณกําหนดค่าแอปให้ดาวน์โหลดโมเดล ML ลงในอุปกรณ์โดยอัตโนมัติได้หลังจากติดตั้งแอปจาก Play Store โดยเพิ่มประกาศต่อไปนี้ลงในไฟล์
AndroidManifest.xml
ของแอป<application ...> ... <meta-data android:name="com.google.mlkit.vision.DEPENDENCIES" android:value="ocr" /> <!-- To use multiple models: android:value="ocr,model2,model3" --> </application>
นอกจากนี้คุณยังตรวจสอบความพร้อมใช้งานของโมเดลได้อย่างชัดเจนและส่งคําขอดาวน์โหลดผ่านบริการ ModuleInstallClient API ของ Google Play ได้ด้วย
หากไม่ได้เปิดใช้การดาวน์โหลดโมเดลเวลาติดตั้ง ระบบจะดาวน์โหลดโมเดลเมื่อคุณเรียกใช้ตัวตรวจจับในอุปกรณ์ คําขอที่คุณสร้างก่อนที่จะดาวน์โหลดเสร็จสิ้นจะไม่มีผลลัพธ์ใดๆ
1. สร้างอินสแตนซ์ของ TextRecognizer
สร้างอินสแตนซ์ของ TextRecognizer
Kotlin
val recognizer = TextRecognition.getClient(TextRecognizerOptions.DEFAULT_OPTIONS)
Java
TextRecognizer recognizer = TextRecognition.getClient(TextRecognizerOptions.DEFAULT_OPTIONS);
2. เตรียมรูปภาพอินพุต
หากต้องการจดจําข้อความในรูปภาพ ให้สร้างออบเจ็กต์ InputImage
จากBitmap
, media.Image
, ByteBuffer
, อาร์เรย์ไบต์ หรือไฟล์ในอุปกรณ์ จากนั้นส่งออบเจ็กต์ InputImage
ไปยังเมธอด processImage
ของ TextRecognizer
คุณสามารถสร้างออบเจ็กต์ InputImage
จากแหล่งที่มาต่างๆ ซึ่งอธิบายไว้ด้านล่าง
การใช้ media.Image
หากต้องการสร้างออบเจ็กต์ InputImage
จากออบเจ็กต์ media.Image
เช่น เมื่อคุณจับภาพจากกล้องของอุปกรณ์ ให้ส่งออบเจ็กต์ media.Image
และการหมุนรูปภาพไปที่ InputImage.fromMediaImage()
หากคุณใช้ไลบรารี
CameraX คลาส OnImageCapturedListener
และ ImageAnalysis.Analyzer
จะคํานวณค่าการหมุนเวียนสําหรับคุณ
Kotlin
private class YourImageAnalyzer : ImageAnalysis.Analyzer { override fun analyze(imageProxy: ImageProxy) { val mediaImage = imageProxy.image if (mediaImage != null) { val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees) // Pass image to an ML Kit Vision API // ... } } }
Java
private class YourAnalyzer implements ImageAnalysis.Analyzer { @Override public void analyze(ImageProxy imageProxy) { Image mediaImage = imageProxy.getImage(); if (mediaImage != null) { InputImage image = InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees()); // Pass image to an ML Kit Vision API // ... } } }
หากไม่ได้ใช้ไลบรารีกล้องที่ให้ระดับการหมุนของรูปภาพ คุณจะคํานวณได้จากระดับการหมุนของอุปกรณ์และการวางแนวของเซ็นเซอร์กล้องในอุปกรณ์ ดังนี้
Kotlin
private val ORIENTATIONS = SparseIntArray() init { ORIENTATIONS.append(Surface.ROTATION_0, 0) ORIENTATIONS.append(Surface.ROTATION_90, 90) ORIENTATIONS.append(Surface.ROTATION_180, 180) ORIENTATIONS.append(Surface.ROTATION_270, 270) } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) @Throws(CameraAccessException::class) private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. val deviceRotation = activity.windowManager.defaultDisplay.rotation var rotationCompensation = ORIENTATIONS.get(deviceRotation) // Get the device's sensor orientation. val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager val sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION)!! if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360 } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360 } return rotationCompensation }
Java
private static final SparseIntArray ORIENTATIONS = new SparseIntArray(); static { ORIENTATIONS.append(Surface.ROTATION_0, 0); ORIENTATIONS.append(Surface.ROTATION_90, 90); ORIENTATIONS.append(Surface.ROTATION_180, 180); ORIENTATIONS.append(Surface.ROTATION_270, 270); } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing) throws CameraAccessException { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation(); int rotationCompensation = ORIENTATIONS.get(deviceRotation); // Get the device's sensor orientation. CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE); int sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION); if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360; } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360; } return rotationCompensation; }
จากนั้นส่งออบเจ็กต์ media.Image
และค่าองศาการหมุนเวียนไปยัง InputImage.fromMediaImage()
ดังนี้
Kotlin
val image = InputImage.fromMediaImage(mediaImage, rotation)
Java
InputImage image = InputImage.fromMediaImage(mediaImage, rotation);
การใช้ URI ของไฟล์
หากต้องการสร้างออบเจ็กต์ InputImage
จาก URI ของไฟล์ ให้ส่งบริบทของแอปและ URI ของไฟล์ไปยัง InputImage.fromFilePath()
ซึ่งจะมีประโยชน์เมื่อคุณใช้ Intent ACTION_GET_CONTENT
เพื่อแจ้งให้ผู้ใช้เลือกรูปภาพจากแอปแกลเลอรีของตน
Kotlin
val image: InputImage try { image = InputImage.fromFilePath(context, uri) } catch (e: IOException) { e.printStackTrace() }
Java
InputImage image; try { image = InputImage.fromFilePath(context, uri); } catch (IOException e) { e.printStackTrace(); }
การใช้ ByteBuffer
หรือ ByteArray
หากต้องการสร้างออบเจ็กต์ InputImage
จาก ByteBuffer
หรือ ByteArray
ให้คํานวณระดับการหมุนเวียนรูปภาพตามที่อธิบายไว้ก่อนหน้านี้สําหรับอินพุต media.Image
จากนั้นสร้างออบเจ็กต์ InputImage
ที่มีบัฟเฟอร์หรืออาร์เรย์ พร้อมด้วยความสูง ความกว้าง รูปแบบการเข้ารหัสสี และองศาการหมุนของรูปภาพ ดังนี้
Kotlin
val image = InputImage.fromByteBuffer( byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ) // Or: val image = InputImage.fromByteArray( byteArray, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 )
Java
InputImage image = InputImage.fromByteBuffer(byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ); // Or: InputImage image = InputImage.fromByteArray( byteArray, /* image width */480, /* image height */360, rotation, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 );
การใช้ Bitmap
หากต้องการสร้างออบเจ็กต์ InputImage
จากออบเจ็กต์ Bitmap
โปรดประกาศต่อไปนี้
Kotlin
val image = InputImage.fromBitmap(bitmap, 0)
Java
InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);
รูปภาพแทนออบเจ็กต์ Bitmap
ร่วมกับองศาการหมุน
3. ประมวลผลรูปภาพ
ส่งรูปภาพไปยังเมธอด process
ดังนี้
Kotlin
val result = recognizer.process(image) .addOnSuccessListener { visionText -> // Task completed successfully // ... } .addOnFailureListener { e -> // Task failed with an exception // ... }
Java
Task<Text> result = recognizer.process(image) .addOnSuccessListener(new OnSuccessListener<Text>() { @Override public void onSuccess(Text visionText) { // Task completed successfully // ... } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Task failed with an exception // ... } });
4. ดึงข้อความจากบล็อกของข้อความที่รู้จัก
หากการดําเนินการการจดจําข้อความสําเร็จ ระบบจะส่งออบเจ็กต์ Text
ไปยัง Listener ที่ประสบความสําเร็จ ออบเจ็กต์ Text
มีข้อความฉบับเต็มที่พบในรูปภาพและออบเจ็กต์ TextBlock
จํานวน 0 รายการขึ้นไป
TextBlock
แต่ละรายการแสดงถึงบล็อกข้อความสี่เหลี่ยมผืนผ้า
ซึ่งมีออบเจ็กต์ Line
อย่างน้อย 0 รายการ ออบเจ็กต์ Line
แต่ละรายการแสดงถึงบรรทัดข้อความซึ่งมีออบเจ็กต์ Element
อย่างน้อย 0 รายการ ออบเจ็กต์ Element
แต่ละรายการแสดงถึงคําหรือเอนทิตีที่คล้ายกับคําซึ่งมีออบเจ็กต์ Symbol
อย่างน้อย 0 รายการ ออบเจ็กต์ Symbol
แต่ละรายการจะแสดงอักขระ ตัวเลข หรือเอนทิตีแบบคํา
สําหรับออบเจ็กต์ TextBlock
, Line
, Element
และ Symbol
แต่ละรายการ คุณจะได้รับข้อความที่รู้จักในภูมิภาค พิกัดขอบเขตของภูมิภาค และแอตทริบิวต์อื่นๆ อีกมากมาย เช่น ข้อมูลการหมุนเวียน คะแนนความเชื่อมั่น ฯลฯ
ตัวอย่างเช่น
Kotlin
val resultText = result.text for (block in result.textBlocks) { val blockText = block.text val blockCornerPoints = block.cornerPoints val blockFrame = block.boundingBox for (line in block.lines) { val lineText = line.text val lineCornerPoints = line.cornerPoints val lineFrame = line.boundingBox for (element in line.elements) { val elementText = element.text val elementCornerPoints = element.cornerPoints val elementFrame = element.boundingBox } } }
Java
String resultText = result.getText(); for (Text.TextBlock block : result.getTextBlocks()) { String blockText = block.getText(); Point[] blockCornerPoints = block.getCornerPoints(); Rect blockFrame = block.getBoundingBox(); for (Text.Line line : block.getLines()) { String lineText = line.getText(); Point[] lineCornerPoints = line.getCornerPoints(); Rect lineFrame = line.getBoundingBox(); for (Text.Element element : line.getElements()) { String elementText = element.getText(); Point[] elementCornerPoints = element.getCornerPoints(); Rect elementFrame = element.getBoundingBox(); for (Text.Symbol symbol : element.getSymbols()) { String symbolText = symbol.getText(); Point[] symbolCornerPoints = symbol.getCornerPoints(); Rect symbolFrame = symbol.getBoundingBox(); } } } }
หลักเกณฑ์เกี่ยวกับรูปภาพที่ป้อน
-
รูปภาพที่ป้อนต้องมีข้อความที่แสดงด้วยข้อมูลพิกเซลที่เพียงพอเพื่อให้ ML Kit จดจําข้อความได้อย่างแม่นยํา โดยหลักการแล้ว แต่ละอักขระควรมีขนาดอย่างน้อย 16x16 พิกเซล โดยทั่วไปแล้ว ประโยชน์ที่ได้คืออักขระมีขนาดใหญ่กว่า 24x24 พิกเซล
เช่น รูปภาพขนาด 640x480 อาจทํางานได้ดีสําหรับสแกนนามบัตรที่ใช้เต็มความกว้างของรูปภาพ หากต้องการสแกนเอกสารที่พิมพ์บนกระดาษขนาดตัวอักษร คุณอาจต้องใช้รูปภาพขนาด 720x1280 พิกเซล
-
การโฟกัสรูปภาพที่ไม่ดีอาจส่งผลต่อการจดจําข้อความ หากไม่ได้รับผลการค้นหาที่ยอมรับได้ ให้ลองขอให้ผู้ใช้จับภาพอีกครั้ง
-
หากคุณจําข้อความในแอปพลิเคชันแบบเรียลไทม์ได้ ก็ควรคํานึงถึงขนาดโดยรวมของรูปภาพที่ป้อน รูปภาพขนาดเล็กประมวลผลได้เร็วขึ้น หากต้องการลดเวลาในการตอบสนอง ให้ตรวจสอบว่าข้อความใช้รูปภาพเป็นจํานวนมากที่สุดเท่าที่จะเป็นไปได้ และจับภาพที่ความละเอียดต่ําลง (โปรดคํานึงถึงข้อกําหนดความถูกต้องที่ระบุไว้ข้างต้น) ดูข้อมูลเพิ่มเติมได้ที่เคล็ดลับในการปรับปรุงประสิทธิภาพ
เคล็ดลับในการปรับปรุงประสิทธิภาพ
- หากคุณใช้ API ของ
Camera
หรือcamera2
คุณจะควบคุมการใช้ตัวตรวจจับได้ หากเฟรมวิดีโอใหม่พร้อมใช้งานขณะที่ตัวตรวจจับทํางาน ให้วางเฟรมนั้น ดูตัวอย่างคลาสVisionProcessorBase
ในแอปตัวอย่างคู่มือเริ่มต้นฉบับย่อ - หากคุณใช้ API
CameraX
โปรดตรวจสอบว่าได้ตั้งค่ากลยุทธ์ความกดดันเป็นค่าเริ่มต้นImageAnalysis.STRATEGY_KEEP_ONLY_LATEST
ตัวเลือกนี้จะรับประกันว่าจะมีการส่งรูปภาพสําหรับการวิเคราะห์ข้อมูลเพียงครั้งละ 1 รูป หากมีการสร้างรูปภาพเพิ่มเติมเมื่อเครื่องมือวิเคราะห์ไม่ว่าง รูปภาพเหล่านั้นจะถูกทิ้งโดยอัตโนมัติและไม่อยู่ในคิวเพื่อนําส่ง เมื่อปิดรูปภาพที่จะวิเคราะห์แล้วโดยเรียก ImageProxy.close() ระบบจะส่งรูปภาพล่าสุดถัดไป - หากใช้เอาต์พุตของตัวตรวจจับเพื่อวางซ้อนกราฟิกบนรูปภาพอินพุต ก่อนอื่นให้ดูผลลัพธ์จาก ML Kit จากนั้นแสดงผลรูปภาพและวางซ้อนในขั้นตอนเดียว วิธีนี้จะแสดงผลบนแพลตฟอร์มจอแสดงผลเพียงครั้งเดียวสําหรับเฟรมอินพุตแต่ละเฟรม ดูตัวอย่างคลาส
CameraSourcePreview
และGraphicOverlay
ในแอปตัวอย่างเริ่มต้นอย่างรวดเร็ว - หากใช้ Camera2 API ให้จับภาพในรูปแบบ
ImageFormat.YUV_420_888
หากคุณใช้ Camera API เวอร์ชันเก่า ให้จับภาพในรูปแบบImageFormat.NV21
- ลองจับภาพที่ความละเอียดต่ําลง อย่างไรก็ตาม โปรดทราบว่าข้อกําหนดด้านขนาดของรูปภาพของ API นี้เช่นกัน