画像のラベル付け

ML Kit の画像ラベル付けの API を使用すると、画像内のエンティティに関する情報を幅広いカテゴリにわたって検出、抽出できます。デフォルトの画像ラベル付けモデルにより、一般的なオブジェクト、場所、アクティビティ、動物種、商品などを識別できます。

カスタム画像分類モデルを使用して、特定のユースケースに合わせて検出を調整することもできます。詳細については、カスタム TensorFlow Lite モデルの使用をご覧ください。

主な機能

  • 強力な汎用基本分類: 写真で最も一般的なオブジェクトを記述する 400 を超えるカテゴリを認識します。
  • カスタムモデルでユースケースを調整する TensorFlow Hub の他の事前トレーニング済みモデルや、TensorFlow、AutoML Vision Edge、TensorFlow Lite モデルメーカーでトレーニングされた独自のカスタムモデルを使用します。
  • 使いやすい高レベル API: 低レベルのモデル入出力、画像の前処理および後処理、処理パイプラインの構築の必要がありません。ML Kit は、TensorFlow Lite モデルからラベルを抽出し、テキストの説明として提供します。

この API は、画像全体を表す画像分類モデルを対象としています。靴や家具などの画像内の 1 つ以上のオブジェクトを分類する場合、Object Detection & Tracking API を使用する方が適している可能性があります。

サポートされている画像分類モデル

Image Labeling API ではさまざまな画像分類モデルがサポートされています。

サポートされている画像分類モデル
基本モデル デフォルトでは、API は強力な汎用画像ラベル付けモデルを使用して、写真で最も一般的なコンセプトに対応する 400 を超えるエンティティを認識します。
カスタム TensorFlow Lite モデル アプリケーション固有のコンセプトをターゲットにするため、API では幅広いソースからのカスタム画像分類モデルを使用できます。これには、TensorFlow Hub からダウンロードした事前トレーニング済みのモデルか、AutoML Vision Edge、TensorFlow Lite Model Maker、または TensorFlow 自体でトレーニングされた独自のモデルがあります。モデルはアプリにバンドルするか、Firebase Machine Learning を使用してホストし、実行時にダウンロードできます。

ベースモデルの使用

ML Kit の基本モデルは、人、もの、場所、アクティビティなどを識別するエンティティのリストを返します。各エンティティには、ML モデルの関連性に対する信頼度を表すスコアが付けられています。この情報を使用して、メタデータの自動生成やコンテンツ管理などのタスクを実行できます。ML Kit に付属するデフォルト モデルは、400 を超えるエンティティを認識します。

iOS Android

ラベルの例

画像ラベル付け API の基本モデルは、次の例のように 400 以上のラベルをサポートします。

カテゴリラベルの例
人事 Crowd
Selfie
Smile
アクティビティ Dancing
Eating
Surfing
被写体 Car
Piano
Receipt
動物 Bird
Cat
Dog
植物 Flower
Fruit
Vegetable
プレイス Beach
Lake
Mountain

検索結果の例

添付の写真で認識されたエンティティの例を次に示します。

写真: Clément Bucco-Lechat / Wikimedia Commons / CC BY-SA 3.0
ラベル 0
テキスト スタジアム
信頼度 0.9205354
ラベル 1
テキスト スポーツ
信頼度 0.7531109
ラベル 2
テキスト イベント
信頼度 0.66905296
ラベル 3
テキスト レジャー
信頼度 0.59904146
ラベル 4
テキスト サッカー
信頼度 0.56384534
ラベル 5
テキスト ネット
信頼度 0.54679185
ラベル 6
テキスト 植物
信頼度 0.524364

カスタム TensorFlow Lite モデルの使用

ML Kit のベース画像ラベル付けモデルは、汎用的な使用を目的として構築されています。これは、写真で最も一般的に見られる 400 のカテゴリを認識するようにトレーニングされています。アプリには、花の種類や料理の種類を区別するモデルなど、少数のカテゴリをより詳細に認識する特別な画像分類モデルが必要になる場合があります。

この API では、さまざまなソースのカスタム画像分類モデルをサポートすることで、特定のユースケースに合わせて調整できます。詳細については、ML Kit によるカスタムモデルをご覧ください。カスタムモデルは、アプリにバンドルするか、Firebase Machine Learning のモデルデプロイ サービスを使用してクラウドから動的にダウンロードできます。

iOS Android

入力画像の前処理

Image Labeling では、必要に応じて、元の画像の要件に合わせて入力画像のサイズとアスペクト比を調整するため、バイリニア画像のスケーリングと伸縮が行われます。