オブジェクトの検出とトラッキング

ML Kit のオンデバイス オブジェクト検出とトラッキング API を使用すると、画像またはライブカメラ フィード内のオブジェクトを検出してトラッキングできます。

必要に応じて、API に組み込まれた粗い分類器を使用するか、独自のカスタム画像分類モデルを使用して、検出されたオブジェクトを分類できます。詳細については、カスタム TensorFlow Lite モデルの使用をご覧ください。

オブジェクトの検出とトラッキングはデバイス上で行われるため、ビジュアル検索パイプラインのフロントエンドとして適しています。オブジェクトを検出してフィルタリングしたら、Cloud Vision Product Search などのクラウド バックエンドに渡すことができます。

iOS Android

主な機能

  • 高速なオブジェクト検出とトラッキング オブジェクトを検出して、画像内の位置を取得します。連続する画像フレーム間でオブジェクトを追跡します。
  • オンデバイス モデルの最適化 オブジェクト検出とトラッキング モデルは、モバイル デバイス向けに最適化されており、ローエンド デバイスでも、リアルタイム アプリケーションで使用することを目的としています。
  • 目立つオブジェクト検出: 画像内で最も目立つオブジェクトを自動的に判断します。
  • 粗い分類。オブジェクトを幅広いカテゴリに分類します。これにより、必要のないオブジェクトを除外できます。サポートされているカテゴリは、日用品、ファッション アイテム、食品、植物、場所などです。
  • カスタムモデルを使用した分類: 独自のカスタム画像分類モデルを使用して、特定のオブジェクト カテゴリを特定またはフィルタリングします。画像の背景をなくすことで、カスタムモデルのパフォーマンスが向上します。

検索結果の例

画像間で最も目立つオブジェクトをトラックする

以下の例は、ML Kit が提供するデフォルトの粗い分類器を使用した 3 つの連続するフレームからのトラッキング データを示しています。

トラッキング ID 0
境界 (95、45)、(496、45)、(496、240)、(95、240)
カテゴリ 場所
分類の信頼度 0.9296875
トラッキング ID 0
境界 (84、46)、(478、46)、(478、247)、(84、247)
カテゴリ 場所
分類の信頼度 0.8710938
トラッキング ID 0
境界 (53, 45), (519, 45), (519, 240), (53, 240)
カテゴリ 場所
分類の信頼度 0.8828125

写真: Christian Ferrer [CC BY-SA 4.0]

静止画像内の複数のオブジェクト

以下の例は、ML Kit が提供するデフォルトの粗い分類器で画像内で検出された 4 つのオブジェクトのデータを示しています。

オブジェクト 0
境界 (1, 97)、(332, 97)、(332, 332)、(1, 332)
カテゴリ ファッション_良い
分類の信頼度 0.95703125
オブジェクト 1
境界 (186, 80)、(337, 80)、(337, 226)、(186, 226)
カテゴリ ファッション_良い
分類の信頼度 0.84375
オブジェクト 2
境界 (296, 80)、(472, 80)、(472, 388)、(296, 388)
カテゴリ ファッション_良い
分類の信頼度 0.94921875
オブジェクト 3
境界 (439, 83)、(615, 83)、(615, 306)、(439, 306)
カテゴリ ファッション_良い
分類の信頼度 0.9375

カスタム TensorFlow Lite モデルの使用

デフォルトの粗分類器は 5 つのカテゴリ向けに構築されており、検出されたオブジェクトに関する限定的な情報を提供します。花の種や食品の種類を区別するモデルなど、より狭いコンセプトの概念をより詳細にカバーする、より特化した分類モデルが必要になることがあります。

この API では、さまざまなソースのカスタム画像分類モデルをサポートすることで、特定のユースケースに合わせて調整できます。詳細については、ML Kit によるカスタムモデルをご覧ください。カスタムモデルは、アプリにバンドルするか、Firebase Machine Learning のモデルデプロイ サービスを使用してクラウドから動的にダウンロードできます。

iOS Android

入力画像の前処理

必要に応じて、オブジェクト検出とトラッキングでは、バイリニア画像の拡大と拡大を使用して、入力画像のサイズとアスペクト比を調整し、基盤となるモデルの要件に適合させます。