Dodawanie etykiet do obrazów

Dzięki interfejsom API do dodawania etykiet do obrazów w ML Kit możesz wykrywać i wyodrębniać informacje o elementach znajdujących się w różnych kategoriach. Domyślny model dodawania etykiet do obrazów umożliwia identyfikację obiektów ogólnych, miejsc, aktywności, gatunków zwierząt, produktów itp.

Możesz też użyć niestandardowego modelu klasyfikacji obrazów, aby dostosować wykrywanie do konkretnego przypadku użycia. Więcej informacji znajdziesz w artykule o korzystaniu z niestandardowego modelu TensorFlow Lite.

Kluczowe funkcje

  • Zaawansowany klasyfikator podstawowy do użytku ogólnego Rozpoznaje ponad 400 kategorii opisujących najczęściej znalezione obiekty na zdjęciach.
  • Dostosowywanie do konkretnego przypadku użycia za pomocą modeli niestandardowych Użyj innych wytrenowanych modeli z TensorFlow Hub lub własnego modelu wytrenowanego z TensorFlow, AutoML Vision Edge lub producenta modelu TensorFlow Lite.
  • Łatwe w użyciu interfejsy API wysokiego poziomu Nie musisz zajmować się wpisywaniem i generowaniem danych poziomu niskiego poziomu, przetwarzaniem obrazu przed procesem ani po nim ani opracowywaniem potoku przetwarzania. ML Kit wyodrębnia etykiety z modelu TensorFlow Lite i udostępnia je jako opis tekstowy.

Ten interfejs jest przeznaczony dla modeli klasyfikacji obrazów opisujących pełny obraz. Do klasyfikowania obiektów na zdjęciu, takich jak buty czy elementy mebli, lepiej sprawdzi się interfejs Wykrywanie i śledzenie obiektów.

Obsługiwane modele klasyfikacji obrazów

Interfejsy API dodawania etykiet obrazów obsługują różne modele klasyfikacji obrazów:

Obsługiwane modele klasyfikacji obrazów
Model podstawowy Domyślnie interfejs API korzysta z zaawansowanego modelu oznaczania obrazów etykietą ogólnego przeznaczenia, który obejmuje ponad 400 elementów obejmujących najczęściej używane pojęcia na zdjęciach.
Niestandardowe modele TensorFlow Lite Aby kierować reklamy na konkretne koncepcje, interfejs API akceptuje niestandardowe modele klasyfikacji obrazów z wielu różnych źródeł. Mogą to być już wytrenowane modele pobrane z TensorFlow Hub lub Twoje modele wytrenowane z użyciem AutoML Vision Edge, TensorFlow Lite Maker lub TensorFlow. Modele można połączyć w pakiet z aplikacją lub hostować za pomocą systemów uczących się Firebase i pobierać w czasie działania.

Korzystanie z modelu podstawowego

Podstawowy model ML Kit zwraca listę encji identyfikujących osoby, rzeczy, miejsca, aktywności i tak dalej. Każdy element podlega wskaźnikowi, który pokazuje poziom ufności modelu ML. Dzięki tym informacjom możesz wykonywać takie zadania jak automatyczne generowanie metadanych i moderowanie treści. Domyślny model dostępny w pakiecie ML Kit rozpoznaje ponad 400 różnych jednostek.

iOS Android

Przykładowe etykiety

Model podstawowy w interfejsie API etykiet obrazów obsługuje ponad 400 etykiet, takich jak te:

KategoriaPrzykładowe etykiety
Osoby Crowd
Selfie
Smile
Zadania Dancing
Eating
Surfing
Rzeczy Car
Piano
Receipt
Zwierzęta Bird
Cat
Dog
Rośliny Flower
Fruit
Vegetable
Miejsca Beach
Lake
Mountain

Przykładowe wyniki

Oto przykłady jednostek, które zostały rozpoznane z dołączonym zdjęciem.

Zdjęcie: Clément Bucco-Lechat / Wikimedia Commons / CC BY-SA 3.0
Etykieta 0
tekstowy. Stadion
Pewność 0,9205354
Etykieta 1
tekstowy. Sport
Pewność 0,7531109
Etykieta 2
tekstowy. Zdarzenie
Pewność 0,66905296
Etykieta 3
tekstowy. Rozrywka
Pewność 0,59904146
Etykieta 4
tekstowy. Piłka nożna
Pewność 0,56384534
Etykieta 5
tekstowy. Netto
Pewność 0,54679185
Etykieta 6
tekstowy. Roślina
Pewność 0,524364

za pomocą niestandardowego modelu TensorFlow Lite,

Podstawowy model dodawania etykiet do obrazów używany w ML Kit jest przeznaczony do ogólnego użytku. Wytrenowano rozpoznawanie 400 kategorii opisujących najczęściej występujące obiekty na zdjęciach. Aplikacja może potrzebować specjalistycznego modelu klasyfikacji obrazów, która bardziej szczegółowo rozpoznaje węższą liczbę kategorii, np. model odróżniający gatunki kwiatów lub typy żywności.

Interfejs API umożliwia dostosowanie działania do konkretnych potrzeb dzięki obsłudze niestandardowych modeli klasyfikacji obrazów z wielu różnych źródeł. Więcej informacji znajdziesz w artykule Modele niestandardowe z pakietem ML. Modele niestandardowe można połączyć w pakiet z aplikacją lub dynamicznie pobierać z chmury za pomocą usługi wdrażania modeli systemów uczących się Firebase.

iOS Android

Wstępne przetwarzanie obrazu

W razie potrzeby funkcja Etykietowanie obrazów stosuje dwukierunkowe skalowanie obrazów i rozciąganie, aby dostosować rozmiar obrazu i współczynnik proporcji obrazu tak, aby był zgodny z wymogami modelu bazowego.