Identificar o idioma do texto com o Kit de ML no Android

Use o Kit de ML para identificar o idioma de uma string de texto. É possível identificar o idioma mais provável da string, bem como os índices de confiança de todos os idiomas possíveis da string.

O Kit de ML reconhece texto em mais de 100 idiomas diferentes nos scripts nativos. Além disso, é possível reconhecer texto romanizado em árabe, búlgaro, chinês, grego, hindi, japonês e russo. Consulte a lista completa de idiomas e scripts compatíveis.

	Agrupadas	Não agrupadas
Nome da biblioteca	`com.google.mlkit:language-id`	`com.google.android.gms:play-services-mlkit-language-id`
Implementação	O modelo é vinculado estaticamente ao app no tempo de build.	O modelo é baixado dinamicamente pelo Google Play Services.
Impacto no tamanho do app	Aumento de cerca de 900 KB.	Aumento de cerca de 200 KB.
Tempo de inicialização	O modelo está disponível imediatamente.	Talvez seja necessário aguardar o download do modelo antes do primeiro uso.

Faça um teste

Teste o app de exemplo para conferir um exemplo de uso dessa API.

Antes de começar

Essa API exige o nível 23 ou mais recente da API Android. O arquivo de build do app precisa usar um valor minSdkVersion de 23 ou mais recente.

No arquivo build.gradle para envolvidos no projeto, inclua o repositório Maven do Google nas seções buildscript e allprojects.

Adicione as dependências das bibliotecas do Android do Kit de ML ao arquivo Gradle do módulo no nível do app, que geralmente é app/build.gradle. Escolha uma das seguintes dependências com base nas suas necessidades:

Para agrupar o modelo e o aplicativo, siga estas etapas:

dependencies {
  // ...
  // Use this dependency to bundle the model with your app
  implementation 'com.google.mlkit:language-id:17.0.6'
}

Para usar o modelo no Google Play Services:

dependencies {
  // ...
  // Use this dependency to use the dynamically downloaded model in Google Play Services
  implementation 'com.google.android.gms:play-services-mlkit-language-id:17.0.0'
}

Se você escolher usar o modelo no Google Play Services, poderá configurar seu app para fazer o download automático do modelo no dispositivo após a instalação do app na Play Store. Para fazer isso, adicione a seguinte declaração ao arquivo AndroidManifest.xml do app:
```
<application ...>
      ...
      <meta-data
          android:name="com.google.mlkit.vision.DEPENDENCIES"
          android:value="langid" >
      
</application>
```
Também é possível verificar explicitamente a disponibilidade do modelo e solicitar o download por meio da API ModuleInstallClient do Google Play Services.

Se você não ativar os downloads do modelo no momento da instalação ou solicitar o download explícito, o modelo será baixado na primeira vez em que você executar o identificador. As solicitações feitas antes da conclusão do download não produzem resultados.

Identificar o idioma de uma string

Para identificar o idioma de uma string, chame LanguageIdentification.getClient() para receber uma instância de LanguageIdentifier e transmita a string para o método identifyLanguage() de LanguageIdentifier.

Exemplo:

Kotlin

val languageIdentifier = LanguageIdentification.getClient()
languageIdentifier.identifyLanguage(text)
        .addOnSuccessListener { languageCode ->
            if (languageCode == "und") {
                Log.i(TAG, "Can't identify language.")
            } else {
                Log.i(TAG, "Language: $languageCode")
            }
        }
        .addOnFailureListener {
            // Model couldn’t be loaded or other internal error.
            // ...
        }LanguageIdentificationActivity.kt

Java

LanguageIdentifier languageIdentifier =
        LanguageIdentification.getClient();
languageIdentifier.identifyLanguage(text)
        .addOnSuccessListener(
                new OnSuccessListener<String>() {
                    @Override
                    public void onSuccess(@Nullable String languageCode) {
                        if (languageCode.equals("und")) {
                            Log.i(TAG, "Can't identify language.");
                        } else {
                            Log.i(TAG, "Language: " + languageCode);
                        }
                    }
                })
        .addOnFailureListener(
                new OnFailureListener() {
                    @Override
                    public void onFailure(@NonNull Exception e) {
                        // Model couldn’t be loaded or other internal error.
                        // ...
                    }
                });LanguageIdentificationActivity.java

Se a chamada for bem-sucedida, um código de idioma BCP-47 será transmitido para o listener de êxito, indicando o idioma do texto. Se nenhum idioma for detectado com confiança, o código und (indeterminado) será transmitido.

Por padrão, o Kit de ML retorna um valor diferente de und somente quando identifica o idioma com um valor de confiança de pelo menos 0,5. É possível alterar esse limite transmitindo um objeto LanguageIdentificationOptions para getClient():

Kotlin

val languageIdentifier = LanguageIdentification
        .getClient(LanguageIdentificationOptions.Builder()
                .setConfidenceThreshold(0.34f)
                .build())LanguageIdentificationActivity.kt

Java

LanguageIdentifier languageIdentifier = LanguageIdentification.getClient(
        new LanguageIdentificationOptions.Builder()
                .setConfidenceThreshold(0.34f)
                .build());LanguageIdentificationActivity.java

Identificar os possíveis idiomas de uma string

Para receber os valores de confiança dos idiomas mais prováveis de uma string, receba uma instância de LanguageIdentifier e transmita a string para o método identifyPossibleLanguages().

Exemplo:

Kotlin

val languageIdentifier = LanguageIdentification.getClient()
languageIdentifier.identifyPossibleLanguages(text)
        .addOnSuccessListener { identifiedLanguages ->
            for (identifiedLanguage in identifiedLanguages) {
                val language = identifiedLanguage.languageTag
                val confidence = identifiedLanguage.confidence
                Log.i(TAG, "$language $confidence")
            }
        }
        .addOnFailureListener {
            // Model couldn’t be loaded or other internal error.
            // ...
        }LanguageIdentificationActivity.kt

Java

LanguageIdentifier languageIdentifier =
        LanguageIdentification.getClient();
languageIdentifier.identifyPossibleLanguages(text)
        .addOnSuccessListener(new OnSuccessListener<List<IdentifiedLanguage>>() {
            @Override
            public void onSuccess(List<IdentifiedLanguage> identifiedLanguages) {
                for (IdentifiedLanguage identifiedLanguage : identifiedLanguages) {
                    String language = identifiedLanguage.getLanguageTag();
                    float confidence = identifiedLanguage.getConfidence();
                    Log.i(TAG, language + " (" + confidence + ")");
                }
            }
        })
        .addOnFailureListener(
                new OnFailureListener() {
                    @Override
                    public void onFailure(@NonNull Exception e) {
                        // Model couldn’t be loaded or other internal error.
                        // ...
                    }
                });LanguageIdentificationActivity.java

Se a chamada for bem-sucedida, uma lista de objetos IdentifiedLanguage será transmitida para o listener de êxito. Você pode receber o código de idioma BCP-47 de cada objeto e o nível de confiança dessa informação. Observe que esses valores indicam a confiança de que toda a string está no idioma especificado. O Kit de ML não identifica vários idiomas em uma única string.

Por padrão, o Kit de ML retorna apenas idiomas com níveis de confiança de pelo menos 0,01. É possível alterar esse limite transmitindo um objeto LanguageIdentificationOptions para getClient():

Kotlin

val languageIdentifier = LanguageIdentification
      .getClient(LanguageIdentificationOptions.Builder()
              .setConfidenceThreshold(0.5f)
              .build())

Java

LanguageIdentifier languageIdentifier = LanguageIdentification.getClient(
      new LanguageIdentificationOptions.Builder()
              .setConfidenceThreshold(0.5f)
              .build());

Se nenhum idioma atingir esse limite, a lista terá um item com o valor und.

Identificar o idioma do texto com o Kit de ML no Android Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Faça um teste

Antes de começar

Identificar o idioma de uma string

Kotlin

Java

Kotlin

Java

Identificar os possíveis idiomas de uma string

Kotlin

Java

Kotlin

Java

Identificar o idioma do texto com o Kit de ML no Android