Identyfikowanie języka tekstu za pomocą ML Kit na Androida

Za pomocą pakietu ML Kit możesz określić język ciągu tekstowego. Możesz uzyskać najbardziej prawdopodobny język ciągu, a także wskaźniki ufności dla wszystkich możliwych języków ciągu.

ML Kit rozpoznaje tekst w ponad 100 różnych językach w skryptach natywnych. Tekst zlatynizowany można też rozpoznać w języku arabskim, bułgarskim, chińskim, greckim, hindi, japońskim i rosyjskim. Zobacz pełną listę obsługiwanych języków i skryptów.

Łączenie w pakietyNiegrupowane
Nazwa bibliotekicom.google.mlkit:language-idcom.google.android.gms:play-services-mlkit-language-id
ImplementacjaModel jest statycznie połączony z aplikacją w momencie kompilacji.Model jest pobierany dynamicznie przez Usługi Google Play.
Wpływ rozmiaru aplikacjiZwiększenie rozmiaru o około 900 KB.Zwiększenie rozmiaru o około 200 KB.
Czas inicjowaniaModel jest dostępny od razu.Przed jego pierwszym użyciem konieczne może być poczekać na pobranie modelu.

Wypróbuj

Zanim zaczniesz

  1. W pliku build.gradle na poziomie projektu dodaj repozytorium Google Maven w sekcjach buildscript i allprojects.

  2. Dodaj zależności bibliotek ML Kit na Androida do pliku Gradle modułu na poziomie aplikacji, którym jest zwykle app/build.gradle. W zależności od potrzeb wybierz jedną z tych zależności:

    Aby połączyć model z aplikacją:

    dependencies {
      // ...
      // Use this dependency to bundle the model with your app
      implementation 'com.google.mlkit:language-id:17.0.5'
    }
    

    Aby używać modelu w Usługach Google Play:

    dependencies {
      // ...
      // Use this dependency to use the dynamically downloaded model in Google Play Services
      implementation 'com.google.android.gms:play-services-mlkit-language-id:17.0.0'
    }
    
  3. Jeśli zdecydujesz się używać modelu w Usługach Google Play, możesz skonfigurować automatyczne pobieranie modelu na urządzenie po zainstalowaniu aplikacji ze Sklepu Play. Aby to zrobić, dodaj do pliku AndroidManifest.xml aplikacji tę deklarację:

    <application ...>
          ...
          <meta-data
              android:name="com.google.mlkit.vision.DEPENDENCIES"
              android:value="langid" >
          <!-- To use multiple models: android:value="langid,model2,model3" -->
    </application>
    

    Możesz też bezpośrednio sprawdzić dostępność modelu i poprosić o pobranie za pomocą interfejsu ModuleInstallClient API Usług Google Play.

    Jeśli nie włączysz pobierania modelu w czasie instalacji lub nie poprosisz o wyraźne pobranie, model zostanie pobrany przy pierwszym uruchomieniu identyfikatora. Żądania wysłane przed zakończeniem pobierania nie przyniosą żadnych rezultatów.

Określ język ciągu

Aby zidentyfikować język ciągu, wywołaj LanguageIdentification.getClient(), by uzyskać wystąpienie LanguageIdentifier, a następnie przekaż ciąg do metody identifyLanguage() LanguageIdentifier.

Na przykład:

Kotlin

val languageIdentifier = LanguageIdentification.getClient()
languageIdentifier.identifyLanguage(text)
        .addOnSuccessListener { languageCode ->
            if (languageCode == "und") {
                Log.i(TAG, "Can't identify language.")
            } else {
                Log.i(TAG, "Language: $languageCode")
            }
        }
        .addOnFailureListener {
            // Model couldn’t be loaded or other internal error.
            // ...
        }

Java

LanguageIdentifier languageIdentifier =
        LanguageIdentification.getClient();
languageIdentifier.identifyLanguage(text)
        .addOnSuccessListener(
                new OnSuccessListener<String>() {
                    @Override
                    public void onSuccess(@Nullable String languageCode) {
                        if (languageCode.equals("und")) {
                            Log.i(TAG, "Can't identify language.");
                        } else {
                            Log.i(TAG, "Language: " + languageCode);
                        }
                    }
                })
        .addOnFailureListener(
                new OnFailureListener() {
                    @Override
                    public void onFailure(@NonNull Exception e) {
                        // Model couldn’t be loaded or other internal error.
                        // ...
                    }
                });

Jeśli wywołanie się powiedzie, do detektora sukcesu zostanie przekazany kod języka BCP-47 wskazujący język tekstu. Jeśli język nie zostanie zidentyfikowany z pewnością, przekazywany jest kod und (nieokreślony).

Domyślnie ML Kit zwraca wartość inną niż und tylko wtedy, gdy identyfikuje język z wartością ufności co najmniej 0,5. Możesz zmienić ten próg, przekazując obiekt LanguageIdentificationOptions do getClient():

Kotlin

val languageIdentifier = LanguageIdentification
        .getClient(LanguageIdentificationOptions.Builder()
                .setConfidenceThreshold(0.34f)
                .build())

Java

LanguageIdentifier languageIdentifier = LanguageIdentification.getClient(
        new LanguageIdentificationOptions.Builder()
                .setConfidenceThreshold(0.34f)
                .build());

Znajdź możliwe języki ciągu

Aby uzyskać wartości ufności dla najbardziej prawdopodobnego języka ciągu znaków, pobierz wystąpienie LanguageIdentifier i przekaż ciąg do metody identifyPossibleLanguages().

Na przykład:

Kotlin

val languageIdentifier = LanguageIdentification.getClient()
languageIdentifier.identifyPossibleLanguages(text)
        .addOnSuccessListener { identifiedLanguages ->
            for (identifiedLanguage in identifiedLanguages) {
                val language = identifiedLanguage.languageTag
                val confidence = identifiedLanguage.confidence
                Log.i(TAG, "$language $confidence")
            }
        }
        .addOnFailureListener {
            // Model couldn’t be loaded or other internal error.
            // ...
        }

Java

LanguageIdentifier languageIdentifier =
        LanguageIdentification.getClient();
languageIdentifier.identifyPossibleLanguages(text)
        .addOnSuccessListener(new OnSuccessListener<List<IdentifiedLanguage>>() {
            @Override
            public void onSuccess(List<IdentifiedLanguage> identifiedLanguages) {
                for (IdentifiedLanguage identifiedLanguage : identifiedLanguages) {
                    String language = identifiedLanguage.getLanguageTag();
                    float confidence = identifiedLanguage.getConfidence();
                    Log.i(TAG, language + " (" + confidence + ")");
                }
            }
        })
        .addOnFailureListener(
                new OnFailureListener() {
                    @Override
                    public void onFailure(@NonNull Exception e) {
                        // Model couldn’t be loaded or other internal error.
                        // ...
                    }
                });

Jeśli wywołanie się powiedzie, do detektora sukcesu zostanie przekazana lista obiektów IdentifiedLanguage. Z każdego obiektu możesz uzyskać kod języka BCP-47 i pewność, że ciąg znaków jest w tym języku. Pamiętaj, że te wartości dają pewność, że cały ciąg jest w danym języku. ML Kit nie rozpoznaje wielu języków w 1 ciągu znaków.

Domyślnie ML Kit zwraca tylko języki o poziomie ufności wynoszącym co najmniej 0, 01. Możesz zmienić ten próg, przekazując obiekt LanguageIdentificationOptions do getClient():

Kotlin

val languageIdentifier = LanguageIdentification
      .getClient(LanguageIdentificationOptions.Builder()
              .setConfidenceThreshold(0.5f)
              .build())

Java

LanguageIdentifier languageIdentifier = LanguageIdentification.getClient(
      new LanguageIdentificationOptions.Builder()
              .setConfidenceThreshold(0.5f)
              .build());

Jeśli żaden język nie osiąga tego progu, na liście znajduje się 1 element o wartości und.