Android पर एमएल किट की मदद से डिजिटल इंक की पहचान करना

ML Kit में डिजिटल इंक को पहचानने की सुविधा उपलब्ध है. इसकी मदद से, डिजिटल प्लैटफ़ॉर्म पर हाथ से लिखे गए टेक्स्ट को सैकड़ों भाषाओं में पहचाना जा सकता है. साथ ही, स्केच को कैटगरी में बांटा जा सकता है.

इसे आज़माएं

इस एपीआई के इस्तेमाल का उदाहरण देखने के लिए, सैंपल ऐप्लिकेशन का इस्तेमाल करें.

शुरू करने से पहले

इस एपीआई के लिए, Android का एपीआई लेवल 23 या इसके बाद का वर्शन ज़रूरी है. पक्का करें कि आपके ऐप्लिकेशन की बिल्ड फ़ाइल में minSdkVersion की वैल्यू 23 या उससे ज़्यादा हो.

अपने प्रोजेक्ट-लेवल की build.gradle फ़ाइल में, पक्का करें कि आपने Google की Maven रिपॉज़िटरी को अपने buildscript और allprojects, दोनों सेक्शन में शामिल किया हो.
अपने मॉड्यूल की ऐप्लिकेशन-लेवल की Gradle फ़ाइल में, ML Kit Android लाइब्रेरी के लिए डिपेंडेंसी जोड़ें. यह फ़ाइल आम तौर पर app/build.gradle होती है:

dependencies {
  // ...
  implementation 'com.google.mlkit:digital-ink-recognition:19.0.0'
}

अब Ink ऑब्जेक्ट में मौजूद टेक्स्ट को पहचाना जा सकता है.

`Ink` ऑब्जेक्ट बनाना

Ink ऑब्जेक्ट बनाने का मुख्य तरीका, उसे टच स्क्रीन पर बनाना है. Android पर, इसके लिए Canvas का इस्तेमाल किया जा सकता है. आपके टच इवेंट हैंडलर को, यहां दिए गए कोड स्निपेट में दिखाए गए addNewTouchEvent() तरीके को कॉल करना चाहिए. इससे, स्ट्रोक में मौजूद पॉइंट को सेव किया जा सकेगा. ये स्ट्रोक, उपयोगकर्ता Ink ऑब्जेक्ट में बनाता है.

इस सामान्य पैटर्न को यहां दिए गए कोड स्निपेट में दिखाया गया है. ज़्यादा जानकारी के लिए, ML Kit का क्विकस्टार्ट सैंपल देखें.

Kotlin

var inkBuilder = Ink.builder()
lateinit var strokeBuilder: Ink.Stroke.Builder

// Call this each time there is a new event.
fun addNewTouchEvent(event: MotionEvent) {
  val action = event.actionMasked
  val x = event.x
  val y = event.y
  var t = System.currentTimeMillis()

  // If your setup does not provide timing information, you can omit the
  // third paramater (t) in the calls to Ink.Point.create
  when (action) {
    MotionEvent.ACTION_DOWN -> {
      strokeBuilder = Ink.Stroke.builder()
      strokeBuilder.addPoint(Ink.Point.create(x, y, t))
    }
    MotionEvent.ACTION_MOVE -> strokeBuilder!!.addPoint(Ink.Point.create(x, y, t))
    MotionEvent.ACTION_UP -> {
      strokeBuilder.addPoint(Ink.Point.create(x, y, t))
      inkBuilder.addStroke(strokeBuilder.build())
    }
    else -> {
      // Action not relevant for ink construction
    }
  }
}

...

// This is what to send to the recognizer.
val ink = inkBuilder.build()

Java

Ink.Builder inkBuilder = Ink.builder();
Ink.Stroke.Builder strokeBuilder;

// Call this each time there is a new event.
public void addNewTouchEvent(MotionEvent event) {
  float x = event.getX();
  float y = event.getY();
  long t = System.currentTimeMillis();

  // If your setup does not provide timing information, you can omit the
  // third paramater (t) in the calls to Ink.Point.create
  int action = event.getActionMasked();
  switch (action) {
    case MotionEvent.ACTION_DOWN:
      strokeBuilder = Ink.Stroke.builder();
      strokeBuilder.addPoint(Ink.Point.create(x, y, t));
      break;
    case MotionEvent.ACTION_MOVE:
      strokeBuilder.addPoint(Ink.Point.create(x, y, t));
      break;
    case MotionEvent.ACTION_UP:
      strokeBuilder.addPoint(Ink.Point.create(x, y, t));
      inkBuilder.addStroke(strokeBuilder.build());
      strokeBuilder = null;
      break;
  }
}

...

// This is what to send to the recognizer.
Ink ink = inkBuilder.build();

DigitalInkRecognizer का इंस्टेंस पाना

पहचान करने के लिए, Ink इंस्टेंस को DigitalInkRecognizer ऑब्जेक्ट पर भेजें. नीचे दिए गए कोड में, BCP-47 टैग से इस तरह के पहचान करने वाले ऑब्जेक्ट को इंस्टैंशिएट करने का तरीका बताया गया है.

Kotlin

// Specify the recognition model for a language
var modelIdentifier: DigitalInkRecognitionModelIdentifier
try {
  modelIdentifier = DigitalInkRecognitionModelIdentifier.fromLanguageTag("en-US")
} catch (e: MlKitException) {
  // language tag failed to parse, handle error.
}
if (modelIdentifier == null) {
  // no model was found, handle error.
}
var model: DigitalInkRecognitionModel =
    DigitalInkRecognitionModel.builder(modelIdentifier).build()


// Get a recognizer for the language
var recognizer: DigitalInkRecognizer =
    DigitalInkRecognition.getClient(
        DigitalInkRecognizerOptions.builder(model).build())

Java

// Specify the recognition model for a language
DigitalInkRecognitionModelIdentifier modelIdentifier;
try {
  modelIdentifier =
    DigitalInkRecognitionModelIdentifier.fromLanguageTag("en-US");
} catch (MlKitException e) {
  // language tag failed to parse, handle error.
}
if (modelIdentifier == null) {
  // no model was found, handle error.
}

DigitalInkRecognitionModel model =
    DigitalInkRecognitionModel.builder(modelIdentifier).build();

// Get a recognizer for the language
DigitalInkRecognizer recognizer =
    DigitalInkRecognition.getClient(
        DigitalInkRecognizerOptions.builder(model).build());

`Ink` ऑब्जेक्ट को प्रोसेस करना

Kotlin

recognizer.recognize(ink)
    .addOnSuccessListener { result: RecognitionResult ->
      // `result` contains the recognizer's answers as a RecognitionResult.
      // Logs the text from the top candidate.
      Log.i(TAG, result.candidates[0].text)
    }
    .addOnFailureListener { e: Exception ->
      Log.e(TAG, "Error during recognition: $e")
    }

Java

recognizer.recognize(ink)
    .addOnSuccessListener(
        // `result` contains the recognizer's answers as a RecognitionResult.
        // Logs the text from the top candidate.
        result -> Log.i(TAG, result.getCandidates().get(0).getText()))
    .addOnFailureListener(
        e -> Log.e(TAG, "Error during recognition: " + e));

ऊपर दिए गए सैंपल कोड में यह माना गया है कि पहचान करने वाले मॉडल को पहले ही डाउनलोड कर लिया गया है. इसके बारे में अगले सेक्शन में बताया गया है.

मॉडल डाउनलोड मैनेज करना

डिजिटल इंक को पहचानने वाला एपीआई, सैकड़ों भाषाओं के साथ काम करता है. हालांकि, हर भाषा के लिए, पहचान करने से पहले कुछ डेटा डाउनलोड करना ज़रूरी होता है. हर भाषा के लिए, करीब 20 एमबी स्टोरेज की ज़रूरत होती है. इसे RemoteModelManager ऑब्जेक्ट मैनेज करता है.

नया मॉडल डाउनलोड करना

Kotlin

import com.google.mlkit.common.model.DownloadConditions
import com.google.mlkit.common.model.RemoteModelManager

var model: DigitalInkRecognitionModel =  ...
val remoteModelManager = RemoteModelManager.getInstance()

remoteModelManager.download(model, DownloadConditions.Builder().build())
    .addOnSuccessListener {
      Log.i(TAG, "Model downloaded")
    }
    .addOnFailureListener { e: Exception ->
      Log.e(TAG, "Error while downloading a model: $e")
    }

Java

import com.google.mlkit.common.model.DownloadConditions;
import com.google.mlkit.common.model.RemoteModelManager;

DigitalInkRecognitionModel model = ...;
RemoteModelManager remoteModelManager = RemoteModelManager.getInstance();

remoteModelManager
    .download(model, new DownloadConditions.Builder().build())
    .addOnSuccessListener(aVoid -> Log.i(TAG, "Model downloaded"))
    .addOnFailureListener(
        e -> Log.e(TAG, "Error while downloading a model: " + e));

यह देखना कि कोई मॉडल पहले ही डाउनलोड किया जा चुका है या नहीं

Kotlin

var model: DigitalInkRecognitionModel =  ...
remoteModelManager.isModelDownloaded(model)

Java

DigitalInkRecognitionModel model = ...;
remoteModelManager.isModelDownloaded(model);

डाउनलोड किया गया मॉडल मिटाना

डिवाइस के स्टोरेज से किसी मॉडल को हटाने पर, जगह खाली हो जाती है.

Kotlin

var model: DigitalInkRecognitionModel =  ...
remoteModelManager.deleteDownloadedModel(model)
    .addOnSuccessListener {
      Log.i(TAG, "Model successfully deleted")
    }
    .addOnFailureListener { e: Exception ->
      Log.e(TAG, "Error while deleting a model: $e")
    }

Java

DigitalInkRecognitionModel model = ...;
remoteModelManager.deleteDownloadedModel(model)
                  .addOnSuccessListener(
                      aVoid -> Log.i(TAG, "Model successfully deleted"))
                  .addOnFailureListener(
                      e -> Log.e(TAG, "Error while deleting a model: " + e));

टेक्स्ट की पहचान करने की सुविधा को ज़्यादा सटीक बनाने के लिए सलाह

टेक्स्ट पहचानने की सुविधा, अलग-अलग भाषाओं के लिए अलग-अलग हो सकती है. जवाब के सटीक होने की संभावना, लिखने की स्टाइल पर भी निर्भर करती है. डिजिटल इंक की पहचान करने की सुविधा को कई तरह की लिखावट को समझने के लिए ट्रेन किया गया है. हालांकि, इसके नतीजे हर व्यक्ति के हिसाब से अलग-अलग हो सकते हैं.

टेक्स्ट पहचानने वाले टूल की सटीकता को बेहतर बनाने के कुछ तरीके यहां दिए गए हैं. ध्यान दें कि ये तकनीकें, इमोजी, ऑटोड्रॉ, और शेप के लिए ड्रॉइंग क्लासिफ़ायर पर लागू नहीं होती हैं.

लिखने की जगह

कई ऐप्लिकेशन में, उपयोगकर्ता के इनपुट के लिए एक तय जगह होती है. किसी सिंबल का मतलब, कुछ हद तक इस बात पर निर्भर करता है कि वह सिंबल, लिखने की जगह के साइज़ के हिसाब से कितना बड़ा है. उदाहरण के लिए, छोटे या बड़े अक्षर "o" या "c" के बीच का अंतर, और कॉमा बनाम फ़ॉरवर्ड स्लैश.

लिखने की जगह की चौड़ाई और ऊंचाई की जानकारी देने से, पहचान करने वाले टूल को बेहतर तरीके से काम करने में मदद मिलती है. हालांकि, पहचान करने वाला सिस्टम यह मानता है कि लिखने की जगह में सिर्फ़ एक लाइन का टेक्स्ट मौजूद है. अगर लिखने की जगह इतनी बड़ी है कि उपयोगकर्ता दो या उससे ज़्यादा लाइनें लिख सकता है, तो WritingArea को पास करके बेहतर नतीजे पाए जा सकते हैं. WritingArea की ऊंचाई, टेक्स्ट की एक लाइन की ऊंचाई का सबसे सही अनुमान होना चाहिए. आपने पहचान करने वाले टूल को जो WritingArea ऑब्जेक्ट पास किया है वह स्क्रीन पर मौजूद फ़िज़िकल राइटिंग एरिया से पूरी तरह मेल नहीं खाना चाहिए. इस तरह से WritingArea की ऊंचाई बदलने की सुविधा, कुछ भाषाओं में अन्य भाषाओं के मुकाबले बेहतर तरीके से काम करती है.

लिखने की जगह तय करते समय, उसकी चौड़ाई और ऊंचाई को स्ट्रोक के कोऑर्डिनेट वाली इकाइयों में ही तय करें. x,y कोऑर्डिनेट आर्ग्युमेंट के लिए किसी यूनिट की ज़रूरत नहीं होती - एपीआई सभी यूनिट को सामान्य करता है, इसलिए सिर्फ़ स्ट्रोक के साइज़ और पोज़िशन से फ़र्क़ पड़ता है. आपके पास अपने सिस्टम के हिसाब से, किसी भी स्केल में कोऑर्डिनेट पास करने का विकल्प होता है.

प्री-कॉन्टेक्स्ट

प्री-कॉन्टेक्स्ट, Ink में मौजूद वह टेक्स्ट होता है जो स्ट्रोक से ठीक पहले आता है. प्री-कॉन्टेक्स्ट के बारे में बताकर, पहचान करने वाले सिस्टम की मदद की जा सकती है.

उदाहरण के लिए, कर्सिव में लिखे गए "n" और "u" को अक्सर एक जैसा मान लिया जाता है. अगर उपयोगकर्ता ने "arg" शब्द का कुछ हिस्सा पहले ही डाल दिया है, तो वह ऐसे स्ट्रोक का इस्तेमाल कर सकता है जिन्हें "ument" या "nment" के तौर पर पहचाना जा सकता है. प्री-कॉन्टेक्स्ट "arg" तय करने से, अस्पष्टता दूर हो जाती है. ऐसा इसलिए, क्योंकि "argnment" के मुकाबले "argument" शब्द के होने की संभावना ज़्यादा है.

प्री-कॉन्टेक्स्ट से, शब्दों के बीच में मौजूद खाली जगहों का पता लगाने में भी मदद मिलती है. आपके पास स्पेस कैरेक्टर टाइप करने का विकल्प होता है, लेकिन इसे बनाया नहीं जा सकता. इसलिए, यह पहचानने वाला सॉफ़्टवेयर कैसे तय करेगा कि कोई शब्द कब खत्म होता है और अगला शब्द कब शुरू होता है? अगर उपयोगकर्ता ने पहले ही "hello" लिख दिया है और वह "world" लिखता है, तो रिकॉग्नाइज़र, पहले के कॉन्टेक्स्ट के बिना "world" स्ट्रिंग दिखाता है. हालांकि, अगर आपने प्री-कॉन्टेक्स्ट "hello" तय किया है, तो मॉडल " world" स्ट्रिंग दिखाएगा. इसमें शुरुआत में स्पेस होगा, क्योंकि "helloword" के मुकाबले "hello world" ज़्यादा सही है.

आपको प्री-कॉन्टेक्स्ट स्ट्रिंग की सबसे लंबी वैल्यू देनी चाहिए. इसमें स्पेस के साथ-साथ ज़्यादा से ज़्यादा 20 वर्ण शामिल होने चाहिए. अगर स्ट्रिंग लंबी है, तो पहचान करने वाला सिस्टम सिर्फ़ आखिरी 20 वर्णों का इस्तेमाल करता है.

यहां दिए गए कोड सैंपल में, लिखने की जगह तय करने और प्री-कॉन्टेक्स्ट तय करने के लिए RecognitionContext ऑब्जेक्ट का इस्तेमाल करने का तरीका दिखाया गया है.

Kotlin

var preContext : String = ...;
var width : Float = ...;
var height : Float = ...;
val recognitionContext : RecognitionContext =
    RecognitionContext.builder()
        .setPreContext(preContext)
        .setWritingArea(WritingArea(width, height))
        .build()

recognizer.recognize(ink, recognitionContext)

Java

String preContext = ...;
float width = ...;
float height = ...;
RecognitionContext recognitionContext =
    RecognitionContext.builder()
                      .setPreContext(preContext)
                      .setWritingArea(new WritingArea(width, height))
                      .build();

recognizer.recognize(ink, recognitionContext);

स्ट्रोक का क्रम

स्ट्रोक के क्रम से, लिखावट पहचानने की सुविधा की सटीकता पर असर पड़ता है. पहचान करने वाले सॉफ़्टवेयर को उम्मीद होती है कि स्ट्रोक उसी क्रम में हों जिस क्रम में लोग आम तौर पर लिखते हैं. उदाहरण के लिए, अंग्रेज़ी के लिए बाएं से दाएं. अगर कोई वाक्य इस पैटर्न से अलग है, तो उसके नतीजे कम सटीक होते हैं. जैसे, अंग्रेज़ी के किसी वाक्य को आखिरी शब्द से शुरू करना.

इसका एक और उदाहरण यह है कि जब किसी Ink के बीच में मौजूद किसी शब्द को हटाकर, उसकी जगह कोई दूसरा शब्द जोड़ दिया जाता है. बदलाव शायद वाक्य के बीच में किया गया है, लेकिन बदलाव के लिए स्ट्रोक, स्ट्रोक के क्रम के आखिर में हैं. ऐसे में, हमारा सुझाव है कि एपीआई को नया शब्द अलग से भेजें. साथ ही, अपने लॉजिक का इस्तेमाल करके, नतीजे को पहले से पहचाने गए शब्दों के साथ मर्ज करें.

अस्पष्ट आकृतियों से निपटना

कुछ मामलों में, पहचान करने वाले सिस्टम को दी गई शेप का मतलब साफ़ तौर पर समझ नहीं आता. उदाहरण के लिए, बहुत ज़्यादा गोल किनारों वाले आयत को आयत या दीर्घवृत्त के तौर पर देखा जा सकता है.

पहचान से जुड़े स्कोर उपलब्ध होने पर, इन मामलों को हैंडल किया जा सकता है. सिर्फ़ शेप क्लासिफ़ायर स्कोर देते हैं. अगर मॉडल को जवाब के बारे में पूरा भरोसा है, तो सबसे ऊपर दिखने वाले जवाब का स्कोर, दूसरे सबसे अच्छे जवाब के स्कोर से बहुत ज़्यादा होगा. अगर कोई नतीजा पक्का नहीं है, तो सबसे ऊपर दिखने वाले दो नतीजों के स्कोर एक-दूसरे के आस-पास होंगे. यह भी ध्यान रखें कि शेप क्लासिफ़ायर, पूरे Ink को एक शेप के तौर पर पहचानते हैं. उदाहरण के लिए, अगर Ink में एक रेक्टैंगल और एक एलिप्स एक-दूसरे के बगल में मौजूद हैं, तो पहचान करने वाला टूल, नतीजे के तौर पर इनमें से कोई एक या कोई बिलकुल अलग चीज़ दिखा सकता है. ऐसा इसलिए, क्योंकि पहचान के लिए एक ही उम्मीदवार दो शेप को नहीं दिखा सकता.

इसे आज़माएं

शुरू करने से पहले

Ink ऑब्जेक्ट बनाना

Kotlin

Java

DigitalInkRecognizer का इंस्टेंस पाना

Kotlin

Java

Ink ऑब्जेक्ट को प्रोसेस करना

Kotlin

Java

मॉडल डाउनलोड मैनेज करना

नया मॉडल डाउनलोड करना

Kotlin

Java

यह देखना कि कोई मॉडल पहले ही डाउनलोड किया जा चुका है या नहीं

Kotlin

Java

डाउनलोड किया गया मॉडल मिटाना

Kotlin

Java

टेक्स्ट की पहचान करने की सुविधा को ज़्यादा सटीक बनाने के लिए सलाह

लिखने की जगह

प्री-कॉन्टेक्स्ट

Kotlin

Java

स्ट्रोक का क्रम

अस्पष्ट आकृतियों से निपटना

`Ink` ऑब्जेक्ट बनाना

`Ink` ऑब्जेक्ट को प्रोसेस करना