Considérations sur la sécurité et l'équité pour les modèles génératifs

L'IA générative peut être un outil puissant pour libérer la créativité, augmenter la productivité et simplifier les tâches quotidiennes. Cependant, en tant que technologie préliminaire, vous devez l'utiliser avec les précautions nécessaires. Cette ressource fournit une approche globale des considérations de sécurité et d'équité pour les produits d'IA générative.

Introduction

Le développement rapide de l'IA générative a permis la mise sur le marché de fonctionnalités et de produits dans des délais relativement courts. Les équipes qui lancent des produits dotés de fonctionnalités d'IA génératives doivent s'assurer d'offrir des expériences utilisateur de haute qualité, sécurisées, équitables et équitables, conformément aux Principes de l'IA.

Une approche responsable des applications génératives doit fournir des plans pour la réalisation des objectifs suivants:

  • Règlement relatif au contenu, analyse des risques et préjudices potentiels
  • Génération responsable
  • Prévention des préjudices
  • Évaluation et tests antagonistes

Règlement relatif au contenu, problèmes potentiels et analyse des risques

Les produits doivent d'abord s'aligner sur le type de contenu que les utilisateurs ne sont pas autorisés à générer. La Règle d'utilisation interdite de l'IA générative de Google inclut des cas d'utilisation spécifiques interdits pour les services Google couverts.

Consultez le Règlement officiel pour en savoir plus sur chacun de ces cas d'utilisation interdits. Pour vos propres cas d'utilisation de produits, définissez ce qui constitue un "bon" contenu, au-delà de l'absence de non-respect des règles, ou de "mauvais" contenu, conformément aux objectifs de génération responsable. Votre équipe doit également définir et décrire clairement les cas d'utilisation qui sont considérés comme des cas de non-respect des règles ou des "modes échecs".

Le règlement relatif au contenu ne constitue qu'une étape pour éviter de nuire aux utilisateurs. Il est également important de prendre en compte les objectifs et les principes directeurs de qualité, de sécurité, d'équité et d'inclusion.

Qualité

Les équipes doivent élaborer des stratégies pour répondre aux requêtes dans les secteurs sensibles tels que les informations médicales afin d'offrir des expériences utilisateur de haute qualité. Les stratégies responsables incluent la fourniture de plusieurs points de vue, le report des sujets sans preuve scientifique, ou la transmission d'informations factuelles avec l'attribution.

Sécurité

L'objectif des mesures de sécurité de l'IA est d'empêcher ou de contenir des actions pouvant entraîner des dommages intentionnels ou involontaires. Sans mesures d'atténuation appropriées, les modèles génératifs peuvent générer des contenus dangereux pouvant enfreindre les règles relatives au contenu ou gêner les utilisateurs. Envisagez de fournir des explications aux utilisateurs si une sortie a été bloquée ou si le modèle n'a pas pu générer une sortie acceptable.

Équité et inclusion

Assurez la diversité des réponses et des réponses multiples pour une même question. Par exemple, une réponse à une question sur des musiciens célèbres doit inclure non seulement les noms ou les images de personnes ayant la même identité de genre ou la même couleur de peau. Les équipes doivent s'efforcer de fournir du contenu pour différentes communautés sur demande. Examiner la diversité et la représentation des données d'entraînement pour plusieurs identités, cultures et données démographiques Réfléchissez à la façon dont les résultats de plusieurs requêtes sont représentatifs de la diversité dans les groupes, sans perpétuer les stéréotypes courants (par exemple, les réponses aux "meilleurs emplois pour femmes" et aux "meilleurs emplois pour hommes" ne doivent pas inclure de contenus généralement stéréotypés, comme "infirmiers" dans "meilleurs emplois pour femmes", mais "docteur" dans la catégorie "meilleurs emplois pour hommes").

Analyse des risques et risques potentiels

Les étapes suivantes sont recommandées lors de la création d'applications avec les LLM (via l'API PaLM Conseils de sécurité):

  • Comprendre les risques de sécurité de votre application
  • Réaliser des ajustements pour réduire les risques de sécurité
  • Effectuer des tests de sécurité adaptés à votre cas d'utilisation
  • Demander l'avis des utilisateurs et surveiller l'utilisation

Pour en savoir plus sur cette approche, consultez la documentation de l'API PaLM.

Pour en savoir plus, consultez dans cette discussion des conseils pour réduire les risques et développer des applications sécurisées et gérées par LLM:

Génération responsable

Sécurité du modèle intégré

Exemple de fonctionnalités de sécurité : l'API PaLM inclut des paramètres de sécurité ajustables qui bloquent le contenu avec des probabilités ajustables de danger dans six catégories : médicale, dégradante, sexuelle, violente, dangereuse et médicale. Ces paramètres permettent aux développeurs de déterminer l'option appropriée pour leur cas d'utilisation, mais ils comprennent également des protections intégrées contre les principaux dangers, comme le contenu mis en danger pour la sécurité des enfants, qui sont toujours bloqués et ne peuvent pas être ajustés.

Réglage du modèle

L'ajustement d'un modèle peut lui apprendre à répondre aux exigences d'une application. Des exemples d'invites et de réponses sont utilisés pour enseigner à un modèle comment mieux prendre en charge de nouveaux cas d'utilisation, traiter les types de dangers ou utiliser différentes stratégies souhaitées par le produit dans la réponse.

Prenons l'exemple suivant:

  • Régler la sortie du modèle pour mieux refléter ce qui est acceptable dans le contexte de votre application
  • Fournir un mode de saisie facilitant les sorties en toute sécurité, par exemple en limitant les entrées à une liste déroulante
  • Blocage des entrées non sécurisées et filtrage du résultat avant que l'utilisateur puisse le voir.

Pour voir d'autres exemples d'ajustements permettant de réduire les risques de sécurité, consultez les conseils de sécurité de l'API PaLM.

Prévention des préjudices

D'autres méthodes de prévention des dommages peuvent inclure l'utilisation de classificateurs entraînés pour identifier chaque invite avec des dangers potentiels ou des signaux antagonistes. De plus, vous pouvez mettre en place des mesures de protection contre une utilisation délibérée en limitant le volume de requêtes utilisateur envoyées par un seul utilisateur sur une période donnée, ou en essayant d'éviter les injections de invites possibles.

Tout comme les protections d'entrée, les garde-fous peuvent être placés au niveau des sorties. Les garde-fous de modération de contenu, tels que les classificateurs, peuvent être utilisés pour détecter les contenus qui enfreignent les règles. Si des signaux déterminent que le résultat est nocif, l'application peut fournir une erreur ou une réponse vide, fournir un résultat prescripté ou classer plusieurs sorties du même message de sécurité.

Évaluation, métriques et tests

Les produits d'IA générative doivent être rigoureusement évalués pour s'assurer qu'ils sont conformes aux règles de sécurité et aux principes directeurs avant le lancement. Pour créer des références et évaluer les améliorations au fil du temps, vous devez définir des métriques pour chaque dimension de qualité du contenu. Une fois les métriques définies, une analyse des risques distincte peut déterminer les objectifs de performances pour le lancement, en tenant compte des modèles de perte, de la probabilité qu'ils se produisent et de l'impact des dommages.

Exemples de métriques à prendre en compte:

Analyses de sécurité:concevez des métriques de sécurité qui reflètent les risques liés à l'utilisation de votre application dans le contexte de son utilisation potentielle, puis testez les performances de votre application sur les métriques à l'aide d'ensembles de données d'évaluation.

Taux de non-conformité:compte tenu d'un ensemble de données antagonistes équilibré (pour l'ensemble des cas d'utilisation et des préjudices applicables), nombre de résultats non conformes, généralement mesuré par la fiabilité de l'interpréteur.

Taux de réponse vide:compte tenu d'un ensemble équilibré d'invites auxquelles un produit a l'intention de fournir une réponse, en fonction du nombre de réponses vides (c'est-à-dire lorsque le produit ne peut pas fournir de sortie sûre, indépendamment des entrées ou sorties bloquées).

Diversité:dans la sortie, à partir d'un ensemble d'invites, la diversité des dimensions des attributs d'identité est représentée.

Equité (pour la qualité de service): grâce à un ensemble d'invites contenant des contre-facteurs d'un attribut sensible, il est possible de fournir la même qualité de service.

Tests antagonistes

Les tests antagonistes impliquent des tentatives proactives de "casser" votre application. L'objectif est d'identifier les points faibles afin de pouvoir les corriger.

Les tests antagonistes permettent d'évaluer systématiquement un modèle de ML dans l'objectif d'apprendre son comportement lorsqu'il est fourni avec des entrées malveillantes ou involontairement dangereuses:

  • Une entrée est malveillante lorsqu'elle est clairement conçue pour produire une sortie dangereuse ou nuisible, par exemple pour demander à un modèle de génération de texte de générer une incitation à la haine à propos d'une religion spécifique.
  • Une entrée est inefficace par inadvertance lorsqu'elle est inoffensive, mais produit une sortie nuisible (par exemple, demander à un modèle de génération de texte de décrire une personne d'une ethnie particulière et de recevoir une sortie raciste).

Les tests antagonistes ont deux objectifs principaux: aider les équipes à améliorer systématiquement les modèles et les produits en exposant les modèles de défaillance actuels et guider les stratégies d'atténuation, et à informer les décisions sur les produits en évaluant l'alignement sur les règles de sécurité des produits et en mesurant les risques qui peuvent ne pas être entièrement atténués.

Les tests antagonistes suivent un workflow semblable à l'évaluation de modèle standard:

  1. Rechercher ou créer un ensemble de données de test
  2. Exécuter l'inférence de modèle à l'aide de l'ensemble de données de test
  3. Annoter le résultat du modèle
  4. Analyser les résultats et générer des rapports les concernant

Ce qui distingue un test antagoniste d'une évaluation standard est la composition des données utilisées pour le test. Pour les tests antagonistes, sélectionnez les données de test les plus susceptibles de provoquer des sorties problématiques dans le modèle. Cela implique d'examiner le comportement du modèle pour tous les types de dangers possibles, y compris les exemples rares ou inhabituels, et les cas particuliers pertinents pour les règles de sécurité. Il doit également inclure de la diversité dans les différentes dimensions d'une phrase, telles que la structure, la signification et la longueur.