Za pomocą interfejsów API do oznaczania obrazów w ML Kit możesz wykrywać i wyodrębniać informacje o encjach na obrazach z szerokiej grupy kategorii. Domyślny model etykietowania obrazów może identyfikować ogólne obiekty, miejsca, działania, gatunki zwierząt, produkty itp.
Możesz też użyć niestandardowego modelu klasyfikacji obrazów, aby dostosować wykrywanie do konkretnego przypadku użycia. Więcej informacji znajdziesz w artykule o używaniu niestandardowego modelu TensorFlow Lite.
Najważniejsze funkcje
- Zaawansowany klasyfikator podstawowy do ogólnego zastosowania Rozpoznaje ponad 400 kategorii opisujących najczęściej spotykane obiekty na zdjęciach.
- Dostosowywanie do przypadku użycia dzięki modelom niestandardowym Użyj innych wytrenowanych modeli z TensorFlow Hub lub własnego modelu niestandardowego wytrenowanego za pomocą TensorFlow, AutoML Vision Edge lub TensorFlow Lite.
- Łatwe w użyciu interfejsy API wysokiego poziomu Nie trzeba zajmować się danymi wejściowymi i danymi wyjściowymi modelu niskiego poziomu, przetwarzaniem obrazów przed i po nim ani tworzeniem potoku przetwarzania. ML Kit wyodrębnia etykiety z modelu TensorFlow Lite i udostępnia je w postaci opisu tekstowego.
Ten interfejs API jest przeznaczony dla modeli klasyfikacji obrazów, które opisują cały obraz. Do sklasyfikowania co najmniej jednego obiektu z obrazu, np. butów lub mebli, lepszym rozwiązaniem może być interfejs API Wykrywanie i śledzenie obiektów.
Obsługiwane modele klasyfikacji obrazów
Interfejsy Image Labeling API obsługują różne modele klasyfikacji obrazów:
Obsługiwane modele klasyfikacji obrazów | |
---|---|
Model podstawowy | Domyślnie interfejs API używa zaawansowanego ogólnego modelu oznaczania obrazów etykietami, który rozpoznaje ponad 400 elementów obejmujących najczęściej spotykane koncepcje na zdjęciach. |
Niestandardowe modele TensorFlow Lite | Aby kierować reklamy na koncepcje dotyczące konkretnych aplikacji, interfejs API akceptuje niestandardowe modele klasyfikacji obrazów z wielu źródeł. Mogą to być już wytrenowane modele pobrane z TensorFlow Hub lub Twoje własne modele wytrenowane w AutoML Vision Edge, TensorFlow Lite Maker lub samym TensorFlow. Modele można połączyć w pakiet z aplikacją lub hostować za pomocą systemów uczących się Firebase i pobierać je w czasie działania. |
Korzystanie z modelu podstawowego
Model podstawowy ML Kit zwraca listę jednostek, które identyfikują osoby, rzeczy, miejsca, działania itp. Każdy element ma swój wynik, który określa poziom trafności modelu ML. Dzięki nim możesz np. automatycznie generować metadane i moderować treści. Model domyślny udostępniany w ramach pakietu ML Kit rozpoznaje ponad 400 różnych encji.
Przykładowe etykiety
Model podstawowy w interfejsie Image Labeling API obsługuje ponad 400 etykiet, na przykład te:
Kategoria | Przykładowe etykiety |
---|---|
Osoby | Crowd Selfie Smile |
Aktywności | Dancing Eating Surfing |
Rzeczy | Car Piano Receipt |
Zwierzęta | Bird Cat Dog |
Rośliny | Flower Fruit Vegetable |
Miejsca | Beach Lake Mountain |
Przykładowe wyniki
Oto przykład podmiotów, które zostały rozpoznane na towarzyszącym zdjęciu.
Etykieta 0 | |
---|---|
Tekst | Stadion |
Poufność | 0,9205354 |
Etykieta 1 | |
Tekst | Obiekty sportowe |
Poufność | 0,7531109 |
Etykieta 2 | |
Tekst | Zdarzenie |
Poufność | 0,66905296 |
Etykieta 3 | |
Tekst | Rozrywka |
Poufność | 0,59904146 |
Etykieta 4 | |
Tekst | Piłka nożna |
Poufność | 0,56384534 |
Etykieta 5 | |
Tekst | Netto |
Poufność | 0,54679185 |
Etykieta 6 | |
Tekst | Roślina |
Poufność | 0,524364 |
Używanie niestandardowego modelu TensorFlow Lite
Podstawowy model oznaczania obrazów etykietami w ML Kit jest przeznaczony do użytku ogólnego. Została wytrenowana tak, aby rozpoznawała 400 kategorii, które opisują najczęściej spotykane obiekty na zdjęciach. Twoja aplikacja może wymagać specjalistycznego modelu klasyfikacji obrazów, który bardziej szczegółowo rozpoznaje węższą liczbę kategorii. Może to być np. model odróżniający gatunki kwiatów czy rodzaje pożywienia.
Ten interfejs API umożliwia dostosowywanie się do konkretnego przypadku użycia dzięki obsłudze niestandardowych modeli klasyfikacji obrazów pochodzących z wielu źródeł. Więcej informacji znajdziesz w artykule Modele niestandardowe z użyciem ML Kit. Modele niestandardowe można połączyć w pakiet z aplikacją lub pobierać dynamicznie z chmury za pomocą usługi wdrażania modeli systemów uczących się Firebase.
Wstępne przetwarzanie obrazu wejściowego
W razie potrzeby funkcja Etykiety obrazów korzysta z dwuliniowego skalowania obrazu i rozciągania, aby dostosować rozmiar i współczynnik proporcji obrazu wejściowego, tak aby spełniał on wymagania modelu bazowego.