Sicherheits- und Fairness-Überlegungen für generative Modelle

Mit der generativen KI können Sie Ihre Kreativität steigern, die Produktivität steigern und die täglichen Aufgaben vereinfachen. Als Frühphasentechnologie sollte sie jedoch mit entsprechenden Vorkehrungen verwendet werden. Diese Ressource bietet einen allgemeinen Ansatz für Sicherheits- und Fairness-Überlegungen zu generativen KI-Produkten.

Einführung

Die rasante Entwicklung der generativen KI hat Features und Produkte in relativ kurzen Zeiträumen auf den Markt gebracht. Teams, die Produkte mit generativen KI-Funktionen einführen, sollten dafür sorgen, dass sie gemäß den KI-Grundsätzen eine hochwertige, sichere, faire und faire Nutzererfahrung bieten.

Ein verantwortungsvoller Ansatz für generative Anwendungen sollte Pläne für folgende Ziele enthalten:

  • Inhaltsrichtlinien, potenzielle Schäden und Risikoanalysen
  • Verantwortungsvolles Wachstum
  • Verhinderung von Verletzungen
  • Evaluierung und Angriffe

Inhaltsrichtlinien, potenziellen Schaden und Risikoanalyse

Die Produkte sollten zuerst auf die Art der Inhalte abgestimmt sein, die Nutzer nicht generieren dürfen. Die Generative KI-Richtlinie zur unzulässigen Nutzung enthält bestimmte verbotene Anwendungsfälle für abgedeckte Google-Dienste.

Weitere Informationen zu den einzelnen unzulässigen Anwendungsfällen finden Sie in den offiziellen Richtlinien. Definiere in deinen eigenen Anwendungsfällen, was als „guter“ Inhalt gilt, abgesehen davon, ob es gegen die Richtlinien verstößt oder schlecht, um die Ziele für eine verantwortungsvolle Erstellung umzusetzen. Ihr Team sollte außerdem Anwendungsfälle, die als Richtlinienverstöße betrachtet werden, klar definieren und beschreiben oder „Fehlermodi“ verwenden.

Inhaltsrichtlinien sind nur ein Schritt, um Schaden von Nutzern abzuwenden. Außerdem ist es wichtig, Ziele und Leitlinien für Qualität, Sicherheit, Fairness und Inklusion zu berücksichtigen.

Qualität

Teams sollten Strategien entwickeln, um auf Anfragen aus sensiblen Branchen zu reagieren, z. B. auf medizinische Informationen, und Nutzern so ein qualitativ hochwertiges Erlebnis zu bieten. Zu den verantwortungsbewussten Strategien gehört die Bereitstellung mehrerer Standpunkte, die Verschiebung von Themen ohne wissenschaftliche Belege oder die Bereitstellung von Sachinformationen mit Attribution.

Sicherheit

Ziel von KI-Sicherheitsmaßnahmen ist es, Handlungen zu verhindern oder einzudämmen, die zu absichtlichen oder unbeabsichtigten Schäden führen können. Ohne entsprechende Maßnahmen können generative Modelle unsichere Inhalte ausgeben, die gegen Inhaltsrichtlinien verstoßen oder Nutzern unangenehm sein können. Erwägen Sie, Nutzern eine Erklärung zu geben, wenn eine Ausgabe blockiert wurde oder das Modell keine akzeptable Ausgabe generieren konnte.

Fairness und Inklusion

Diversität in einer Antwort und über mehrere Antworten hinweg für dieselbe Frage gewährleisten Beispielsweise sollte eine Antwort auf eine Frage zu berühmten Musikern nicht nur Namen oder Bilder von Menschen mit derselben Geschlechtsidentität oder Hautton enthalten. Teams sollten auf Anfrage Inhalte für verschiedene Communities bereitstellen. Trainingsdaten für Diversität und Repräsentation in mehreren Identitäten, Kulturen und demografischen Merkmalen untersuchen Berücksichtigen Sie, wie sich die Ergebnisse für mehrere Suchanfragen auf Diversität in Gruppen beziehen, ohne dabei gängige Stereotypen zu verwenden. Beispielsweise sollten Antworten auf „beste Jobs für Frauen“ im Vergleich zu „beste Jobs für Männer“ keine traditionell Stereotype enthalten, z. B. „Krankenschwester“ unter „beste Jobs für Frauen“, aber „Ärztin“ unter „beste Jobs für Männer“.

Mögliche Schäden und Risiken

Die folgenden Schritte werden beim Erstellen von Anwendungen mit LLMs empfohlen (über die Sicherheitshinweise zur PaLM API):

  • Informationen zu den Sicherheitsrisiken Ihrer Anwendung
  • Anpassungen zur Reduzierung von Sicherheitsrisiken vornehmen
  • Sicherheitstests durchführen, die auf Ihren Anwendungsfall zugeschnitten sind
  • Feedback von Nutzern einholen und Nutzung im Blick behalten

Weitere Informationen zu diesem Ansatz finden Sie in der Dokumentation zur PaLM API.

In diesem Vortrag erhalten Sie weitere Informationen dazu, wie Sie Risiken minimieren und sichere und verantwortungsvolle Anwendungen mit LLM entwickeln können.

Verantwortungsbewusste Generation

Integrierte Modellsicherheit

Ein Beispiel für Sicherheitsfunktionen ist die PaLM API, die u. a. anpassbare Sicherheitseinstellungen enthält, die Inhalte mit verstellbarer Wahrscheinlichkeit für unsichere Inhalte in sechs Kategorien blockieren: abwertend, unangemessen, unangemessen, gewaltverherrlichend, gefährlich oder medizinisch. Mit diesen Einstellungen können Entwickler bestimmen, was für ihre Anwendungsfälle geeignet ist. Sie haben aber auch integrierte Schutzmaßnahmen gegen Hauptschäden, wie z. B. Inhalte, die die Sicherheit von Kindern gefährden. Diese werden immer blockiert und können nicht angepasst werden.

Feinabstimmung von Modellen

Durch die Feinabstimmung eines Modells kann es lernen, wie es entsprechend den Anforderungen einer Anwendung antwortet. Beispielaufforderungen und -antworten werden verwendet, um einem Modell beizubringen, wie neue Anwendungsfälle oder Maßnahmen zu Schadensfällen besser unterstützt oder verschiedene Strategien genutzt werden können, die das Produkt in der Antwort wünscht.

Beispiel:

  • Feinabstimmung der Modellausgabe, um besser darzustellen, was in Ihrem Anwendungskontext akzeptabel ist.
  • Bereitstellung einer Eingabemethode, die sicherere Ausgaben ermöglicht, z. B. das Einschränken von Eingaben auf eine Drop-down-Liste.
  • Blockieren Sie unsichere Eingaben und filtern Sie die Ausgabe, bevor sie dem Nutzer angezeigt werden.

Weitere Beispiele für Anpassungen zur Risikominimierung finden Sie im Sicherheitsleitfaden der PaLM API.

Verhinderung von Verletzungen

Weitere Methoden zur Verhinderung von Schäden sind u. a. die Verwendung trainierter Klassifikatoren, um jede Eingabeaufforderung mit potenziellen Schäden oder Angreifern zu versehen. Außerdem können Sie Absicherungen gegen den absichtlichen Missbrauch implementieren, indem Sie die Anzahl der von einem einzelnen Nutzer in einem bestimmten Zeitraum gesendeten Nutzerabfragen einschränken oder versuchen, vor einer Einschleusung nach einer Aufforderung zu schützen.

Ähnlich wie bei Eingangssicherungen können Schutzmaßnahmen auch auf Ausgängen platziert werden. Mithilfe von Schutzmaßnahmen für die Inhaltsmoderation wie Klassifikatoren können Inhalte erkannt werden, die gegen die Richtlinien verstoßen. Wenn Signale feststellen, dass die Ausgabe schädlich ist, kann die Anwendung einen Fehler oder eine leere Antwort zurückgeben, eine vorab ausgegebene Ausgabe bereitstellen oder mehrere Ausgaben aus derselben Aufforderung bewerten.

Bewertung, Messwerte und Tests

Generell sollten KI-Produkte vor der Veröffentlichung gründlich überprüft werden, um sicherzustellen, dass sie den Sicherheitsrichtlinien und den Leitlinien entsprechen. Um eine Basis zur Bewertung zu erstellen und die Verbesserung im Laufe der Zeit zu messen, sollten Sie für jede Dimension der herausragenden Qualität von Inhalten Messwerte definieren. Nachdem Messwerte definiert wurden, kann eine separate Risikoanalyse die Leistungsziele für den Start ermitteln. Dabei werden Verlustmuster, die Wahrscheinlichkeit, dass sie auftreten, und die Auswirkungen von Schäden berücksichtigt.

Beispiele für zu berücksichtigende Messwerte:

Sicherheits-Benchmarks:Entwerfen Sie Sicherheitsmesswerte, die zeigen, wie Ihre Anwendung im Kontext der möglichen Verwendung unsicher sein könnte. Testen Sie dann anhand von Bewertungs-Datasets die Leistung der Anwendung in Bezug auf die Messwerte.

Verstoßrate:Bei einem ausgewogenen kontradritten Dataset (über anwendbare Schäden und Anwendungsfälle) die Anzahl der richtlinienwidrigen Ausgaben, die in der Regel anhand der Interrater-Zuverlässigkeit gemessen werden.

Rate leerer Antworten: Bei einem ausgewogenen Satz von Aufforderungen, die ein Produkt als Antwort senden soll, nach der Anzahl der leeren Antworten, d.h. wenn das Produkt keine sichere Ausgabe liefern kann, unabhängig von der Eingabe oder Ausgabe, die blockiert wird.

Vielfalt: Bei einer Reihe von Aufforderungen bezieht sich die Vielfalt auf Dimensionen von Identitätsattributen, die in Ausgaben dargestellt werden.

Fairness (für Dienstqualität): Bei einer Reihe von Aufforderungen, die kontrafaktische Informationen eines sensiblen Attributs enthalten, kann die Fähigkeit zur Verfügung gestellt werden, dieselbe Dienstqualität bereitzustellen.

Gefährliche Tests

Bei diesen Tests werden Ihre Apps proaktiv manipuliert. Ziel ist es, Schwachstellen zu identifizieren und entsprechende Maßnahmen zu ergreifen.

Adversörte Tests sind eine Methode zum systematischen Bewerten eines ML-Modells, mit der Absicht, zu erfahren, wie sich ihr Verhalten bei böswilliger oder versehentlicher Eingabe auswirkt:

  • Eine Eingabe ist schädlich, wenn die Eingabe eindeutig darauf ausgerichtet ist, eine unsichere oder schädliche Ausgabe zu erzeugen – beispielsweise, wenn ein Modell zur Textgenerierung aufgefordert wird, eine hasserfüllte Schimpftirade über eine bestimmte Religion zu generieren.
  • Eine Eingabe ist ungewollt schädlich, wenn sie als harmlos dargestellt werden kann, aber schädlich ist. Beispielsweise wird ein Textgenerierungsmodell gebeten, eine Person einer bestimmten ethnischen Herkunft zu beschreiben und eine rassistische Ausgabe zu erhalten.

Bei diesen Tests stehen zwei Hauptziele im Vordergrund: nämlich die systematische Verbesserung der Modelle und Produkte, indem aktuelle Fehlermuster offengelegt werden, und die Vorgehensweise zur Risikominimierung. Eine weitere Möglichkeit zur Festlegung von Produktentscheidungen durch die Beurteilung der Abstimmung mit Sicherheitsrichtlinien und die Messung von Risiken, die möglicherweise nicht vollständig behoben werden, ist gleich.

Bei dieser Art von Tests wird der Workflow der Standardmodellbewertung ähnlich ausgeführt:

  1. Test-Dataset suchen oder erstellen
  2. Modellinferenz mit dem Test-Dataset ausführen
  3. Modellausgabe annotieren
  4. Ergebnisse analysieren und Berichte erstellen

Der Unterschied zwischen einem Test auf Basis eines Tests und einer Standardbewertung besteht in der Zusammensetzung der für Tests verwendeten Daten. Wählen Sie für Prüftests die Testdaten aus, die am wahrscheinlichsten problematische Ausgaben vom Modell auslösen. Dies bedeutet, das Verhalten des Modells für alle möglichen Schäden zu prüfen, einschließlich seltener oder ungewöhnlicher Beispiele und Grenzfälle, die für Sicherheitsrichtlinien relevant sind. Sie sollte außerdem Vielfalt in den verschiedenen Dimensionen eines Satzes wie Struktur, Bedeutung und Länge umfassen.