ML Kit を使用してテキストの言語を識別する（Android）

ML Kit を使用すると、テキストの文字列の言語を識別できます。文字列の言語として特に可能性の高いものを取得することも、文字列の言語として可能性のあるものすべての信頼スコアを取得することもできます。

ML Kit では、100 以上の言語がネイティブスクリプトのテキストで認識されます。また、アラビア語、ブルガリア語、中国語、ギリシャ語、ヒンディー語、日本語、ロシア語の場合はローマ字化されたテキストが認識されます。サポートされている言語とスクリプトの全リストをご覧ください。

	バンドル	バンドルされていない
ライブラリ名	`com.google.mlkit:language-id`	`com.google.android.gms:play-services-mlkit-language-id`
実装	モデルはビルド時にアプリに静的にリンクされます。	モデルは Google Play 開発者サービス経由で動的にダウンロードされます。
アプリのサイズの影響	約 900 KB のサイズ増加。	約 200 KB のサイズ増加。
初期化時間	モデルはすぐに利用できます。	初回使用時にモデルのダウンロードを待つ必要がある場合があります。

試してみる

サンプルアプリを試して、この API の使用例をご覧ください。

始める前に

この API には Android API レベル 23 以上が必要です。アプリのビルドファイルで minSdkVersion の値が 23 以上になっていることを確認します。

プロジェクトレベルの build.gradle ファイルの buildscript セクションと allprojects セクションの両方に Google の Maven リポジトリを組み込みます。

ML Kit Android ライブラリの依存関係をモジュールのアプリレベルの Gradle ファイル（通常は app/build.gradle）に追加します。ニーズに応じて、次のいずれかの依存関係を選択します。

モデルをアプリにバンドルする場合:

dependencies {
  // ...
  // Use this dependency to bundle the model with your app
  implementation 'com.google.mlkit:language-id:17.0.6'
}

Google Play 開発者サービスでモデルを使用する場合:

dependencies {
  // ...
  // Use this dependency to use the dynamically downloaded model in Google Play Services
  implementation 'com.google.android.gms:play-services-mlkit-language-id:17.0.0'
}

Google Play 開発者サービスでモデルを使用する場合、アプリが Play ストアからインストールされたら自動でモデルをデバイスにダウンロードするようにアプリを構成できます。この構成を行うには、アプリの AndroidManifest.xml ファイルに次の宣言を追加します。
```
<application ...>
      ...
      <meta-data
          android:name="com.google.mlkit.vision.DEPENDENCIES"
          android:value="langid" >
      
</application>
```
Google Play 開発者サービスの ModuleInstallClient API を使用して、モデルの可用性を明示的に確認し、ダウンロードをリクエストすることもできます。

インストール時点でのモデルのダウンロードを有効にしない場合や、明示的なダウンロードをリクエストしない場合は、識別子の初回実行時にモデルがダウンロードされます。ダウンロードが完了する前にリクエストしても結果は生成されません。

文字列の言語を識別する

文字列の言語を識別するには、LanguageIdentification.getClient() を呼び出して LanguageIdentifier のインスタンスを取得し、LanguageIdentifier の identifyLanguage() メソッドに文字列を渡します。

次に例を示します。

Kotlin

val languageIdentifier = LanguageIdentification.getClient()
languageIdentifier.identifyLanguage(text)
        .addOnSuccessListener { languageCode ->
            if (languageCode == "und") {
                Log.i(TAG, "Can't identify language.")
            } else {
                Log.i(TAG, "Language: $languageCode")
            }
        }
        .addOnFailureListener {
            // Model couldn’t be loaded or other internal error.
            // ...
        }LanguageIdentificationActivity.kt

Java

LanguageIdentifier languageIdentifier =
        LanguageIdentification.getClient();
languageIdentifier.identifyLanguage(text)
        .addOnSuccessListener(
                new OnSuccessListener<String>() {
                    @Override
                    public void onSuccess(@Nullable String languageCode) {
                        if (languageCode.equals("und")) {
                            Log.i(TAG, "Can't identify language.");
                        } else {
                            Log.i(TAG, "Language: " + languageCode);
                        }
                    }
                })
        .addOnFailureListener(
                new OnFailureListener() {
                    @Override
                    public void onFailure(@NonNull Exception e) {
                        // Model couldn’t be loaded or other internal error.
                        // ...
                    }
                });LanguageIdentificationActivity.java

呼び出しが成功すると、テキストの言語を示す BCP-47 言語コードが成功リスナーに渡されます。検出された言語が信頼できるものでない場合は、コード und（不確定）が渡されます。

デフォルトでは、ML Kit は、言語の識別で信頼値が 0.5 以上の場合にのみ und 以外の値を返します。このしきい値は、LanguageIdentificationOptions オブジェクトを getClient() に渡すことで変更できます。

Kotlin

val languageIdentifier = LanguageIdentification
        .getClient(LanguageIdentificationOptions.Builder()
                .setConfidenceThreshold(0.34f)
                .build())LanguageIdentificationActivity.kt

Java

LanguageIdentifier languageIdentifier = LanguageIdentification.getClient(
        new LanguageIdentificationOptions.Builder()
                .setConfidenceThreshold(0.34f)
                .build());LanguageIdentificationActivity.java

文字列の言語として可能性のあるものを取得する

文字列の言語として特に可能性が高いものの信頼値を取得するには、LanguageIdentifier のインスタンスを取得して、文字列を identifyPossibleLanguages() メソッドに渡します。

次に例を示します。

Kotlin

val languageIdentifier = LanguageIdentification.getClient()
languageIdentifier.identifyPossibleLanguages(text)
        .addOnSuccessListener { identifiedLanguages ->
            for (identifiedLanguage in identifiedLanguages) {
                val language = identifiedLanguage.languageTag
                val confidence = identifiedLanguage.confidence
                Log.i(TAG, "$language $confidence")
            }
        }
        .addOnFailureListener {
            // Model couldn’t be loaded or other internal error.
            // ...
        }LanguageIdentificationActivity.kt

Java

LanguageIdentifier languageIdentifier =
        LanguageIdentification.getClient();
languageIdentifier.identifyPossibleLanguages(text)
        .addOnSuccessListener(new OnSuccessListener<List<IdentifiedLanguage>>() {
            @Override
            public void onSuccess(List<IdentifiedLanguage> identifiedLanguages) {
                for (IdentifiedLanguage identifiedLanguage : identifiedLanguages) {
                    String language = identifiedLanguage.getLanguageTag();
                    float confidence = identifiedLanguage.getConfidence();
                    Log.i(TAG, language + " (" + confidence + ")");
                }
            }
        })
        .addOnFailureListener(
                new OnFailureListener() {
                    @Override
                    public void onFailure(@NonNull Exception e) {
                        // Model couldn’t be loaded or other internal error.
                        // ...
                    }
                });LanguageIdentificationActivity.java

呼び出しが成功すると、IdentifiedLanguage オブジェクトのリストが成功リスナーに渡されます。各オブジェクトから、言語の BCP-47 コードと、文字列がその言語であることの信頼値を取得できます。これらの値は、文字列全体が所定の言語であることの信頼度を示しています。ML Kit では、1 つの文字列内の複数の言語は識別されません。

デフォルトでは、ML Kit は信頼値が 0.01 以上の言語のみを返します。このしきい値は、LanguageIdentificationOptions オブジェクトを getClient() に渡すことで変更できます。

Kotlin

val languageIdentifier = LanguageIdentification
      .getClient(LanguageIdentificationOptions.Builder()
              .setConfidenceThreshold(0.5f)
              .build())

Java

LanguageIdentifier languageIdentifier = LanguageIdentification.getClient(
      new LanguageIdentificationOptions.Builder()
              .setConfidenceThreshold(0.5f)
              .build());

このしきい値を満たす言語がない場合、リストには 1 つの項目が含まれ、その値は und になります。

ML Kit を使用してテキストの言語を識別する（Android） コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

試してみる

始める前に

文字列の言語を識別する

Kotlin

Java

Kotlin

Java

文字列の言語として可能性のあるものを取得する

Kotlin

Java

Kotlin

Java

ML Kit を使用してテキストの言語を識別する（Android）