Pomiar skuteczności

Skąd będziesz wiedzieć, czy wdrożenie systemów uczących się było warte nakładu pracy? Kiedy należy zacząć świętować: zaraz po tym, jak model trafi do produkcji i przekaże pierwszą prognozę, czy dopiero wtedy, gdy ilościowe wskaźniki biznesowe zaczną pójść we właściwym kierunku?

Przed rozpoczęciem projektu ważne jest, aby określić wskaźniki sukcesu i uzgodnić wyniki. Musisz zdefiniować i śledzić te 2 rodzaje danych:

Dane biznesowe

Dane dotyczące firmy są najważniejsze. Właśnie dlatego korzystasz z ML – chcesz ulepszać swoją działalność.

Zacznij od wymiernych wskaźników dotyczących produktu lub firmy. Dane te powinny być jak najbardziej szczegółowe i złożone. Oto przykłady wyspecjalizowanych, wymiernych wskaźników biznesowych:

  • Obniżenie miesięcznych kosztów energii elektrycznej w centrum danych o 30%.
  • Wzrost przychodów z rekomendacji produktów o 12%.
  • Zwiększ współczynnik klikalności o 9%.
  • Zwiększ o 20% nastroje klientów, którzy wyrazili zgodę na udział w ankiecie.
  • Zwiększ czas spędzony na stronie o 4%

Śledzenie danych dotyczących firmy

Jeśli nie śledzisz wskaźnika biznesowego, który chcesz poprawić, zacznij od zaimplementowania odpowiedniej infrastruktury. Ustawienie celu pod kątem zwiększenia współczynnika klikalności o 15% nie jest logiczne, jeśli obecnie nie mierzysz współczynników klikalności.

Co ważniejsze, upewnij się, że mierzysz właściwe dane w przypadku Twojego problemu. Nie trać na przykład czasu na pisanie narzędzi służących do śledzenia współczynników klikalności, jeśli ważniejszym wskaźnikiem mogą być przychody z rekomendacji.

W miarę postępów projektu zorientujesz się, czy docelowy wskaźnik sukcesu jest realny. W niektórych przypadkach możesz uznać, że projekt jest nieskuteczny, biorąc pod uwagę zdefiniowane wyznaczniki sukcesu.

Dane modelu

Kiedy należy wprowadzić model do produkcji? Kiedy AUC ma określoną wartość? Kiedy model osiągnie określony wynik F1? Odpowiedź na to pytanie zależy od rodzaju problemu, który rozwiązujesz, i jakości prognozy, która Twoim zdaniem powinna pomóc w poprawie wskaźnika biznesowego.

Ustalając, na podstawie jakich wskaźników chcesz ocenić swój model, weź pod uwagę te kwestie:

  • Określ jeden rodzaj danych do optymalizacji. Na przykład modele klasyfikacji można oceniać na podstawie różnych wskaźników (AUC, AUC-PR itp.). Wybór najlepszego modelu może być trudny, gdy różne dane faworyzują różne modele. Dlatego wybierz jeden rodzaj danych, w odniesieniu do którego modele będą oceniane.

  • Określ cele związane z akceptacją, które chcesz osiągnąć. Cele związane z akceptacją różnią się od wskaźników oceny modelu. Odnoszą się do celów, które model musi spełnić, aby został uznany za akceptowalny w zamierzonym przypadku użycia. Docelowym celem może być np. „niepoprawne dane wyjściowe poniżej 0,1%” lub „rozpoznawalność w 5 pierwszych kategoriach jest większa niż 97%”.

Załóżmy na przykład, że binarny model klasyfikacji wykrywa fałszywe transakcje. Jej wskaźnikiem optymalizacji może być czułość, a celem akceptacji może być precyzja. Innymi słowy, priorytetowo traktujemy czułość reagowania (przez większość przypadków poprawnie wykrywamy oszustwa), a jednocześnie zależy nam na precyzji utrzymywania określonej wartości lub powyżej określonej (identyfikacji prawdziwych fałszywych transakcji).

Związek między danymi modelu a danymi biznesowymi

Zasadniczo próbujesz stworzyć model, którego jakość prognoz jest przyczynowo powiązana z danymi biznesowymi. Dobre dane modelu nie muszą koniecznie oznaczać poprawy danych biznesowych. Twój zespół może opracować model z imponującymi danymi, ale jego prognozy mogą nie polepszyć wskaźników biznesowych.

Jeśli jakość prognozy modelu jest zadowalająca, spróbuj określić, jak dane modelu wpływają na dane biznesowe. Zwykle zespoły wdrażają model u 1% użytkowników, a następnie monitorują wskaźnik biznesowy.

Załóżmy np., że Twój zespół opracował model zwiększania przychodów dzięki przewidywaniu rezygnacji klientów. Jeśli jesteś w stanie przewidzieć, czy klient prawdopodobnie opuści platformę, możesz zachęcić go do pozostania w niej.

Twój zespół tworzy model z jakością prognoz na poziomie 95% i testuje go na małej próbce użytkowników. Przychody się jednak nie zwiększają. Liczba rezygnacji w rzeczywistości rośnie. Oto kilka możliwych wyjaśnień:

  • Prognozy pojawiają się zbyt wcześnie, aby można było wykonać działanie. Model może tylko przewidywać rezygnacje klientów w ciągu 7 dni, co nie jest jeszcze dostatecznie wystarczające, aby zachęcić ich do dalszego korzystania z platformy.

  • Niepełne funkcje. Do rezygnacji klientów mogą mieć wpływ inne czynniki, których nie było w zbiorze danych treningowych.

  • Próg nie jest wystarczająco wysoki. Aby model był przydatny, jego jakość może wynosić co najmniej 97%.

Ten prosty przykład podkreśla 2 tematy:

  • Ważne jest, by wykonać testy na wczesnym etapie użytkowników, co pozwoli potwierdzić (i zrozumieć) związek między danymi modelu a danymi biznesowymi.
  • Idealne dane modelu nie gwarantują poprawy danych biznesowych.

Generatywna AI

Ocena wyników generatywnej AI wiąże się z wyjątkowymi wyzwaniami. W wielu przypadkach, np. w przypadku pytań otwartych lub kreatywnych, ocena wyników tradycyjnych systemów uczących się jest trudniejsza.

LLM można mierzyć i oceniać na podstawie różnych danych. Decyzja o tym, na podstawie których wskaźników należy ocenić model, zależy od konkretnego przypadku użycia. Więcej informacji znajdziesz w artykule Introduction to Evaluating LLM (Wprowadzenie do oceniania modeli LLM).

Pamiętaj

Nie należy mylić sukcesu modelu z sukcesem firmy. Innymi słowy, model z zachodzącymi wartościami nie gwarantuje sukcesu biznesowego.

Wielu zdolnych inżynierów potrafi tworzyć modele z imponującymi danymi. Wytrenowanie odpowiedniego modelu zwykle nie jest problemem. Chodzi raczej o to, że nie polepszy on wskaźnika biznesowego. Projekt ML może doprowadzić do awarii z powodu niezgodności między wskaźnikami biznesowymi a wskaźnikami modelu.

Sprawdź swoją wiedzę