Android पर एमएल किट की मदद से, टेक्स्ट की भाषा की पहचान करना

टेक्स्ट की किसी स्ट्रिंग की भाषा की पहचान करने के लिए, ML किट का इस्तेमाल किया जा सकता है. स्ट्रिंग की सबसे ज़्यादा इस्तेमाल की जाने वाली भाषा के साथ-साथ यह भी देखा जा सकता है कि स्ट्रिंग की सभी संभावित भाषाओं के लिए, स्कोर स्कोर कितना है.

ML किट अपनी मूल स्क्रिप्ट में 100 से ज़्यादा अलग-अलग भाषाओं में टेक्स्ट की पहचान करता है. इसके अलावा, रोमन भाषा में लिखे गए टेक्स्ट की पहचान अरेबिक, बल्गेरियन, चाइनीज़, ग्रीक, हिन्दी, जैपनीज़, और रशियन के लिए की जा सकती है. इसके साथ काम करने वाली भाषाओं और स्क्रिप्ट की पूरी सूची देखें.

बंडल किए गएअनबंडल किए गए
लाइब्रेरी का नामcom.google.mlkit:language-idcom.google.android.gms:play-services-mlkit-language-id
लागू करनामॉडल, बिल्ड टाइम के दौरान स्टैटिक तौर पर आपके ऐप्लिकेशन से लिंक होता है.मॉडल, Google Play Services के ज़रिए डाइनैमिक रूप से डाउनलोड होता है.
ऐप्लिकेशन के साइज़ पर असरआकार में करीब 900 केबी की बढ़ोतरी.करीब 200 केबी का साइज़ बढ़ाएं.
प्रोसेस शुरू होने में लगने वाला समयमॉडल तुरंत उपलब्ध है.पहली बार इस्तेमाल करने से पहले, शायद मॉडल डाउनलोड होने का इंतज़ार करना पड़े.

इसे आज़माएं

शुरू करने से पहले

  1. प्रोजेक्ट-लेवल की build.gradle फ़ाइल में, अपने buildscript और allprojects, दोनों सेक्शन में Google का Maven का स्टोरेज शामिल करना न भूलें.

  2. अपने मॉड्यूल की ऐप्लिकेशन-लेवल की ग्रेडल फ़ाइल में ML किट की Android लाइब्रेरी के लिए डिपेंडेंसी जोड़ें, जो आम तौर पर app/build.gradle होती है. अपनी ज़रूरतों के हिसाब से इनमें से कोई एक डिपेंडेंसी चुनें:

    अपने ऐप्लिकेशन के साथ मॉडल को बंडल करने के लिए:

    dependencies {
      // ...
      // Use this dependency to bundle the model with your app
      implementation 'com.google.mlkit:language-id:17.0.4'
    }
    

    Google Play Services में मॉडल का इस्तेमाल करने के लिए:

    dependencies {
      // ...
      // Use this dependency to use the dynamically downloaded model in Google Play Services
      implementation 'com.google.android.gms:play-services-mlkit-language-id:17.0.0'
    }
    
  3. अगर Google Play सेवाओं में मॉडल का इस्तेमाल किया जाता है, तो Play Store से ऐप्लिकेशन इंस्टॉल हो जाने के बाद, ऐप्लिकेशन को डिवाइस पर अपने-आप डाउनलोड करने के लिए, कॉन्फ़िगर किया जा सकता है. ऐसा करने के लिए, अपने ऐप्लिकेशन की AndroidManifest.xml फ़ाइल में यह जानकारी जोड़ें:

    <application ...>
          ...
          <meta-data
              android:name="com.google.mlkit.vision.DEPENDENCIES"
              android:value="langid" >
          <!-- To use multiple models: android:value="langid,model2,model3" -->
    </application>
    

    Google Play सेवाओं के ModuleInstallClient API की मदद से, मॉडल की उपलब्धता की जानकारी साफ़ तौर पर देखी जा सकती है. साथ ही, उसे डाउनलोड करने का अनुरोध भी किया जा सकता है.

    अगर आपने इंस्टॉल के समय मॉडल के लिए डाउनलोड चालू नहीं किया है या अश्लील डाउनलोड का अनुरोध नहीं किया है, तो पहली बार आइडेंटिफ़ायर चलाने पर मॉडल को डाउनलोड किया जाता है. डाउनलोड पूरा होने से पहले किए गए अनुरोधों से कोई भी नतीजा नहीं मिलता.

स्ट्रिंग की भाषा की पहचान करना

किसी स्ट्रिंग की भाषा की पहचान करने के लिए, LanguageIdentification.getClient() को कॉल करें और LanguageIdentifier का उदाहरण पाएं. इसके बाद, स्ट्रिंग को LanguageIdentifier के identifyLanguage() तरीके को पास करें.

उदाहरण के लिए:

Kotlin

val languageIdentifier = LanguageIdentification.getClient()
languageIdentifier.identifyLanguage(text)
        .addOnSuccessListener { languageCode ->
            if (languageCode == "und") {
                Log.i(TAG, "Can't identify language.")
            } else {
                Log.i(TAG, "Language: $languageCode")
            }
        }
        .addOnFailureListener {
            // Model couldn’t be loaded or other internal error.
            // ...
        }

Java

LanguageIdentifier languageIdentifier =
        LanguageIdentification.getClient();
languageIdentifier.identifyLanguage(text)
        .addOnSuccessListener(
                new OnSuccessListener<String>() {
                    @Override
                    public void onSuccess(@Nullable String languageCode) {
                        if (languageCode.equals("und")) {
                            Log.i(TAG, "Can't identify language.");
                        } else {
                            Log.i(TAG, "Language: " + languageCode);
                        }
                    }
                })
        .addOnFailureListener(
                new OnFailureListener() {
                    @Override
                    public void onFailure(@NonNull Exception e) {
                        // Model couldn’t be loaded or other internal error.
                        // ...
                    }
                });

अगर कॉल पूरा हो जाता है, तो BCP-47 वाला भाषा कोड, मैसेज सुनने वाले व्यक्ति को पास कर दिया जाता है. यह टेक्स्ट की भाषा दिखाता है. अगर किसी भी भाषा का पक्के तौर पर पता नहीं चलता, तो कोड und (तय नहीं किया गया) कोड पास हो जाता है.

डिफ़ॉल्ट रूप से, ML किट und के बजाय दूसरी वैल्यू सिर्फ़ तब दिखाता है, जब वह कम से कम 0.5 कॉन्फ़िडेंस वैल्यू वाली भाषा की पहचान करती है. LanguageIdentificationOptions ऑब्जेक्ट को getClient() में पास करके, इस सीमा को बदला जा सकता है:

Kotlin

val languageIdentifier = LanguageIdentification
        .getClient(LanguageIdentificationOptions.Builder()
                .setConfidenceThreshold(0.34f)
                .build())

Java

LanguageIdentifier languageIdentifier = LanguageIdentification.getClient(
        new LanguageIdentificationOptions.Builder()
                .setConfidenceThreshold(0.34f)
                .build());

किसी स्ट्रिंग की संभावित भाषाएं पाना

किसी स्ट्रिंग की सबसे ज़्यादा संभावना वाली भाषाओं की कॉन्फ़िडेंस वैल्यू पाने के लिए, LanguageIdentifier का कोई इंस्टेंस पाएं. इसके बाद, स्ट्रिंग को identifyPossibleLanguages() तरीके से पास करें.

उदाहरण के लिए:

Kotlin

val languageIdentifier = LanguageIdentification.getClient()
languageIdentifier.identifyPossibleLanguages(text)
        .addOnSuccessListener { identifiedLanguages ->
            for (identifiedLanguage in identifiedLanguages) {
                val language = identifiedLanguage.languageTag
                val confidence = identifiedLanguage.confidence
                Log.i(TAG, "$language $confidence")
            }
        }
        .addOnFailureListener {
            // Model couldn’t be loaded or other internal error.
            // ...
        }

Java

LanguageIdentifier languageIdentifier =
        LanguageIdentification.getClient();
languageIdentifier.identifyPossibleLanguages(text)
        .addOnSuccessListener(new OnSuccessListener<List<IdentifiedLanguage>>() {
            @Override
            public void onSuccess(List<IdentifiedLanguage> identifiedLanguages) {
                for (IdentifiedLanguage identifiedLanguage : identifiedLanguages) {
                    String language = identifiedLanguage.getLanguageTag();
                    float confidence = identifiedLanguage.getConfidence();
                    Log.i(TAG, language + " (" + confidence + ")");
                }
            }
        })
        .addOnFailureListener(
                new OnFailureListener() {
                    @Override
                    public void onFailure(@NonNull Exception e) {
                        // Model couldn’t be loaded or other internal error.
                        // ...
                    }
                });

अगर कॉल पूरा हो जाता है, तो IdentifiedLanguage ऑब्जेक्ट की सूची पास हो जाती है. हर ऑब्जेक्ट से, आपको भाषा का BCP-47 कोड मिल सकता है. साथ ही, आप यह भरोसा भी कर सकते हैं कि स्ट्रिंग उसी भाषा में है. ध्यान दें कि ये वैल्यू इस बात पर भरोसा करती हैं कि पूरी स्ट्रिंग दी गई भाषा में है; ML किट एक ही स्ट्रिंग में कई भाषाओं की पहचान नहीं करती.

डिफ़ॉल्ट रूप से, ML किट सिर्फ़ कम से कम 0.01 कॉन्फ़िडेंस वैल्यू वाली भाषाएं दिखाता है. LanguageIdentificationOptions ऑब्जेक्ट को getClient() पर पास करके, इस थ्रेशोल्ड को बदला जा सकता है:

Kotlin

val languageIdentifier = LanguageIdentification
      .getClient(LanguageIdentificationOptions.Builder()
              .setConfidenceThreshold(0.5f)
              .build())

Java

LanguageIdentifier languageIdentifier = LanguageIdentification.getClient(
      new LanguageIdentificationOptions.Builder()
              .setConfidenceThreshold(0.5f)
              .build());

अगर कोई भी भाषा इस सीमा तक नहीं पहुंचती है, तो सूची में एक आइटम के साथ वैल्यू und होती है.