Uwagi dotyczące bezpieczeństwa i uczciwości modeli genetycznych

Generatyczna sztuczna inteligencja może być bardzo pomocnym narzędziem do wyzwalania kreatywności, zwiększania produktywności i prostych zadań. Na wczesnym etapie należy jednak stosować odpowiednie środki ostrożności. Ten zasób zapewnia ogólne podejście do kwestii bezpieczeństwa i uczciwości dla sztucznej inteligencji dla sztucznej inteligencji.

Wprowadzenie

Dzięki szybkiemu rozwójowi generatywnej sztucznej inteligencji funkcje i produkty zostały wprowadzone na rynek w krótkim czasie. Zespoły, które wprowadzają produkty na rynek z wykorzystaniem sztucznej inteligencji, powinny starać się zapewnić użytkownikom wysoką jakość, bezpieczeństwo, uczciwość i sprawiedliwość, zgodnie z zasadami dotyczącymi sztucznej inteligencji.

Odpowiedzialne podejście do aplikacji generacyjnych wymaga opracowywania planów umożliwiających:

  • Analiza treści, potencjalne szkody i ryzyko
  • Odpowiedzialne generowanie
  • Zapobieganie szkodom
  • Ocena i testy alternatywne

Analiza treści, potencjalne zagrożenia i ryzyko

Produkty powinny być najpierw dopasowane do typu treści, których użytkownicy nie mogą generować. Obowiązujące w Google zasady Zabronionego użycia sztucznej inteligencji obejmują konkretne przypadki użycia usług Google objętych ograniczeniami.

Więcej informacji o każdym z tych zabronionych przypadków użycia znajdziesz w oficjalnych zasadach. Na potrzeby własnych przypadków użycia określ, co oznacza „dobra” treść, chyba że doszło do naruszenia zasad lub „złego” celu. Treści te powinny być zgodne z celami odpowiedzialnego generowania treści. Zespół powinien też jasno opisać i opisać przypadki użycia, które zostałyby uznane za naruszenia zasad, lub zastosować „tryby wad”.

Polityka treści to tylko jeden ze sposobów na zapobieganie szkodom dla użytkowników. Ważne jest też, aby wziąć pod uwagę cele i wytyczne dotyczące jakości, bezpieczeństwa, uczciwości i uwzględniania.

Jakość

Zespoły powinny opracować strategie reagowania na zapytania w branżach o charakterze wrażliwym, takich jak informacje medyczne, aby zadbać o wygodę użytkowników. Odpowiedzialne strategie to m.in. przedstawianie różnych punktów widzenia, odraczanie tematów bez dowodów naukowych lub przedstawianie faktów i informacji tylko z odpowiednich źródeł.

Bezpieczeństwo

Celem środków bezpieczeństwa sztucznej inteligencji jest zapobieganie zajęciu lub zawarcie w nich działań, które mogą prowadzić do celowego lub przypadkowego wyrządzenia szkody. Modele generacyjne, które nie mają odpowiednich środków łagodzących, mogą generować niebezpieczne treści, które mogą naruszać politykę treści lub powodować dyskomfort użytkowników. Rozważ wyjaśnienie użytkownikom, jeśli dane wyjściowe zostały zablokowane lub model nie był w stanie wygenerować akceptowalnych danych wyjściowych.

Uczciwość i integracja społeczna

Zadbaj o różnorodność odpowiedzi w wielu odpowiedziach na to samo pytanie. Na przykład odpowiedź na pytanie o znane muzyków nie powinna obejmować tylko imion i nazwisk osób o tej samej tożsamości płciowej lub odcieniu skóry. Organizacje powinny na żądanie udostępniać treści różnym społecznościom. Analiza danych treningowych pod kątem różnorodności i reprezentacji dla różnych tożsamości, kultur i grup demograficznych. Zastanów się, w jaki sposób dane wyjściowe w wielu zapytaniach reprezentują różnorodność w grupach, bez utrwalania popularnych stereotypów (np.odpowiedzi na „najlepsze zadania dla kobiet” w porównaniu z „najlepszą pracą dla mężczyzn” nie powinny zawierać tradycyjnych stereotypów, np. „pielęgniarka” wyświetlana w kategorii „najlepsze oferty dla kobiet” czy „lekarstwo” w kategorii „najlepsze zadania dla kobiet”).

Analiza potencjalnych szkód i ryzyka

Podczas tworzenia aplikacji z bibliotekami LLM zalecamy wykonanie tych czynności (zgodnie z wytycznymi dotyczącymi bezpieczeństwa interfejsu API PaLM):

  • Poznaj zagrożenia dla bezpieczeństwa aplikacji
  • Rozważanie dostosowań zmniejszających ryzyko związane z bezpieczeństwem
  • Przeprowadzanie testów bezpieczeństwa odpowiednich do danego przypadku użycia
  • Pozyskiwanie opinii użytkowników i monitorowanie wykorzystania

Więcej informacji o tym podejściu znajdziesz w dokumentacji interfejsu PaLM API.

W przypadku bardziej szczegółowego omówienia konsultujemy się ze wskazówkami dotyczącymi ograniczania ryzyka oraz tworzenia bezpiecznych i odpowiedzialnych aplikacji wspieranych przez spółkę LLM:

Odpowiedzialne generowanie

Wbudowane zabezpieczenia modelu

Jednym z przykładów funkcji zabezpieczeń jest interfejs PaLM API zawierający regulowane ustawienia bezpieczeństwa, które blokują treści z możliwością dostosowania się do niebezpiecznych kategorii w 6 kategoriach: obraźliwe, toksyczne, związane z przemocą, niebezpieczne, medyczne i medyczne. Te ustawienia pozwalają deweloperom określić, które z nich jest odpowiednie w danym przypadku użycia, ale mają też wbudowane zabezpieczenia przed podstawowymi szkodami, np. treści zagrażające bezpieczeństwu dzieci, które są zawsze blokowane i nie można ich zmienić.

Dostrajanie modelu

Dostrajanie modelu może nauczyć go odpowiedzi z uwzględnieniem wymagań aplikacji. Przykładowe podpowiedzi i odpowiedzi pozwalają wzbogacić model o lepsze reagowanie na nowe przypadki użycia, rozwiązać problemy innego rodzaju oraz zastosować odmienne strategie.

Na przykład:

  • Dostrajanie danych wyjściowych modelu pozwoli lepiej odzwierciedlić to, co jest akceptowane w kontekście aplikacji.
  • Udostępnianie metody wprowadzania umożliwiającej korzystanie z bezpiecznych danych wyjściowych, np. ograniczanie danych wejściowych do listy rozwijanej.
  • Blokowanie niebezpiecznych danych wejściowych i filtrowanie danych wyjściowych, zanim użytkownik zobaczy je.

Więcej przykładów poprawek ograniczających zagrożenia bezpieczeństwa znajdziesz w wytycznych dotyczących bezpieczeństwa w interfejsie PaLM API.

Zapobieganie szkodom

Dodatkowe metody ochrony przed szkodami mogą obejmować użycie wytrenowanych klasyfikatorów do oznaczenia każdego komunikatu jako możliwego zagrożenia lub sygnałów wtórnych. Możesz też zastosować środki ochrony przed umyślnym niewłaściwym wykorzystaniem, ograniczając liczbę zapytań użytkowników przesłanych przez jednego użytkownika w danym okresie lub też chronić je przed możliwym szybkim wstrzyknięciem.

Podobnie jak zabezpieczenia wejściowe, do danych wyjściowych można nakładać bariery. Blokady, takie jak klasyfikatory, pozwalają wykrywać treści naruszające zasady. Jeśli sygnały wskazują, że dane wyjściowe są szkodliwe, aplikacja może wyświetlić błąd lub pustą odpowiedź, użyć danych wyjściowych z preskrypcji lub zastosować kilka rankingów z tego samego wiersza ze względów bezpieczeństwa.

Ocena, dane i testowanie

Stare sztuczną inteligencję należy dokładnie oceniać przed wprowadzeniem na rynek. Aby utworzyć podstawę do oceny i pomiaru ulepszeń w czasie, należy zdefiniować dane dla każdego wymiaru jakości treści. Gdy zdefiniujesz dane, osobna analiza ryzyka może określić cele wydajności przy uruchamianiu, z uwzględnieniem wzorców straty, prawdopodobieństwa ich wystąpienia oraz wpływu szkód.

Przykłady danych, które warto wziąć pod uwagę:

Testy porównawcze bezpieczeństwa: projektuj wskaźniki bezpieczeństwa, które pokazują, jak Twoja aplikacja może być niebezpieczna w kontekście możliwych intensywności użycia, a potem przy użyciu zbiorów danych oceny sprawdzaj, jak skutecznie działa Twoja aplikacja.

Współczynnik naruszeń: biorąc pod uwagę zrównoważony zbiór danych adwersaryjnych (w odpowiednich przypadkach i przypadkach użycia), liczbę naruszeń zasad wynikających zwykle z niezawodności pośrednika.

Współczynnik odpowiedzi na pytania z powodu pustej odpowiedzi: gdy system wyświetla zrównoważony komunikat z prośbą o odpowiedzi, czyli liczbę pustych odpowiedzi (gdy produkt nie może podać bezpiecznego wyniku niezależnie od zablokowanego sygnału wejściowego lub wyjściowego).

Różnorodność: biorąc pod uwagę zestaw monitów, różnorodność oraz wymiary atrybutów tożsamości reprezentowanych w danych wyjściowych.

Uczciwość (dla jakości usług): w związku z zestawem komunikatów zawierających fakty o charakterze wrażliwym można świadczyć usługę o tej samej jakości.

Testowanie wtórne

Testowanie wścieśli polega na proaktywnej próbie uszkodzenia aplikacji. Celem jest zidentyfikowanie słabych punktów, aby można było zaradzić im.

Testy wtórne to metoda systematycznego oceniania modelu systemów uczących się w celu sprawdzenia, jak zachowuje się on w przypadku wprowadzenia szkodliwych lub niezamierzonych szkodliwych działań:

  • Wkład jest niebezpieczny, jeśli w sposób jednoznaczny generuje niebezpieczne lub szkodliwe treści, np. prosi o model generowania tekstu, który ma na celu wywołanie nienawiści wobec konkretnej religii.
  • Dane wejściowe są nieumyślnie szkodliwe, gdy same informacje mogą być nieszkodliwe, ale generują szkodliwe dane wyjściowe. Na przykład możesz poprosić o model tekstu, aby opisać osobę o określonej przynależności etnicznej i uzyskać jej rasistowskią moc.

Testy wtórne mają 2 główne cele: pomagać zespołom w systematycznym ulepszaniu modeli i usług przez eksponowanie bieżących wzorców błędów oraz wyznaczanie ścieżek łagodzących, a także podejmowanie decyzji dotyczących usług przez ocenę zgodności z zasadami dotyczącymi bezpieczeństwa produktów oraz przez mierzenie ryzyka, którego nie można w pełni zminimalizować.

Testowanie wsadowe przebiega zgodnie ze przepływem pracy przypominającym standardową ocenę modelu:

  1. Znajdowanie lub tworzenie testowego zbioru danych
  2. Uruchamianie wnioskowania na podstawie modelu testowego zbioru danych
  3. Dodaj adnotacje do danych wyjściowych modelu
  4. Analiza i raportowanie wyników

Czym różni się test porównawczy od oceny standardowej od struktury danych używanych do testowania? W przypadku testów dodatkowych wybierz dane testowe, które z największym prawdopodobieństwem wywołają problematyczny wynik modelu. Oznacza to sondowanie zachowań modelu w przypadku wszystkich możliwych rodzajów szkód, w tym rzadkich lub nietypowych przypadków oraz przypadków skrajnych związanych z zasadami bezpieczeństwa. Powinien też obejmować różnorodność różnych aspektów zdania, takich jak struktura, znaczenie i długość.