Consideraciones de seguridad y equidad para modelos generativos

La IA generativa puede ser una herramienta potente para desbloquear la creatividad, aumentar la productividad y simplificar las tareas diarias. Sin embargo, como tecnología de etapa inicial, debe usarse con las precauciones adecuadas. Este recurso proporciona un enfoque de alto nivel de consideraciones de seguridad y equidad para productos de IA generativos.

Introducción

El rápido desarrollo de la IA generativa ha llevado funciones y productos al mercado en períodos relativamente cortos. Los equipos que lancen productos con capacidades de IA generativas deben intentar garantizar experiencias del usuario de alta calidad, seguras, justas y equitativas, de acuerdo con los Principios de IA.

Un enfoque responsable para las aplicaciones generativas debe proporcionar planes para lograr lo siguiente:

  • Políticas de contenido, daños potenciales y análisis de riesgos
  • Generación responsable
  • Prevención de daños
  • Evaluación y pruebas adversarias

Políticas de contenido, análisis de riesgos y riesgos potenciales

Los productos primero deben alinearse con el tipo de contenido que los usuarios no pueden generar. La Política de uso prohibido de la IA generativa de Google incluye casos de uso específicos y prohibidos para los servicios de Google cubiertos.

Consulta la política oficial para obtener más detalles sobre cada uno de estos casos de uso prohibidos. Para tus propios casos de uso del producto, define qué constituye contenido “bueno”, más allá de la ausencia de un incumplimiento de política o de “malo”, a fin de alinearte con los objetivos para la generación responsable. Tu equipo también debe definir y describir claramente los casos de uso que se considerarían incumplimientos de política o usar “modos de falla”.

Las políticas de contenido son solo un paso para evitar daños para los usuarios. También es importante tener en cuenta los objetivos y los principios básicos de calidad, inclusión y seguridad.

Calidad

Los equipos deben diseñar estrategias para responder las consultas en verticales sensibles, como la información médica, a fin de ayudar a proporcionar experiencias del usuario de alta calidad. Las estrategias responsables incluyen proporcionar varios puntos de vista, aplazar temas sin evidencia científica o solo proporcionar información fáctica con atribución.

Seguridad

El objetivo de las medidas de seguridad de la IA es evitar o contener acciones que puedan provocar daños de manera intencional o no. Sin las mitigaciones adecuadas, los modelos generativos podrían generar contenido no seguro que podría incumplir las políticas de contenido o causar molestias a los usuarios. Considera proporcionar explicaciones a los usuarios si se bloqueó un resultado o el modelo no pudo generar un resultado aceptable.

Equidad e inclusión

Garantizar la diversidad en una respuesta y en varias respuestas para la misma pregunta Por ejemplo, una respuesta a una pregunta sobre músicos famosos no solo debe incluir nombres o imágenes de personas que tengan la misma identidad de género o el mismo tono de piel. Cuando se solicite, los equipos deben esforzarse por proporcionar contenido a diferentes comunidades. Examinar los datos de entrenamiento para verificar la diversidad y representación en varias identidades, culturas y datos demográficos Considera cómo los resultados de varias consultas son representativas de la diversidad en los grupos, sin perpetuar estereotipos comunes (p.ej., las respuestas a "mejores trabajos para mujeres" en comparación con "mejores trabajos para hombres" no deberían incluir contenido estereotipado tradicional, como "mejors trabajos para hombres", pero "doctor" aparece en "mejores trabajos para hombres").

Análisis de riesgos y daños potenciales

Se recomiendan los siguientes pasos cuando se compilan aplicaciones con LLM (mediante la Guía de seguridad de la API de PaLM):

  • Comprende los riesgos de seguridad de tu aplicación
  • Considerar realizar ajustes para mitigar riesgos de seguridad
  • Realizar pruebas de seguridad adecuadas para tu caso de uso
  • Solicitar comentarios de los usuarios y supervisar el uso

Para obtener más información sobre este enfoque, consulta la documentación de la API de PaLM.

Para obtener información más detallada, en esta charla, se exploran los lineamientos para controlar los riesgos y desarrollar aplicaciones seguras y responsables respaldadas por LLM:

Generación responsable

Seguridad de los modelos integrados

En un ejemplo de las funciones de seguridad, la API de PaLM incluye parámetros de configuración de seguridad ajustables que bloquean el contenido con probabilidades ajustables de ser inseguro en seis categorías: despectivo, tóxico, sexual, violento, peligroso y médico. Esta configuración permite a los desarrolladores determinar qué es apropiado para sus casos de uso, pero también tiene protecciones integradas contra daños principales, como contenido que pone en riesgo la seguridad infantil, que siempre está bloqueada y no se puede ajustar.

Ajuste del modelo

La optimización de un modelo puede enseñarle a responder en función de los requisitos de una aplicación. Los mensajes y las respuestas de ejemplo se usan para enseñarle a un modelo a admitir mejor casos de uso nuevos, abordar tipos de daños o usar las estrategias que el producto desea en la respuesta.

Por ejemplo, considera lo siguiente:

  • Ajustar el resultado del modelo para reflejar mejor lo que es aceptable en el contexto de tu aplicación
  • Proporcionar un método de entrada que facilite resultados más seguros, como restringir las entradas a una lista desplegable.
  • Bloquear entradas no seguras y filtrar los resultados antes de que se muestren al usuario

Consulta los lineamientos de seguridad de la API de PaLM para obtener más ejemplos de ajustes a fin de mitigar los riesgos de seguridad.

Prevención de daños

Los métodos adicionales de prevención de daños pueden incluir el uso de clasificadores entrenados para etiquetar cada mensaje con posibles daños o señales adversarias. Además, puedes implementar protecciones contra el uso intencionado de manera deliberada limitando el volumen de consultas de los usuarios enviadas por un solo usuario en un período determinado o tratando de proteger contra la posible inserción de mensajes.

Al igual que las protecciones de entrada, se pueden colocar barreras de seguridad en los resultados. Las barreras de moderación de contenido, como los clasificadores, se pueden usar para detectar contenido que incumpla las políticas. Si los indicadores determinan que el resultado es dañino, la aplicación puede proporcionar un error o una respuesta vacía, proporcionar un resultado prescripto o clasificar varios resultados del mismo mensaje por seguridad.

Evaluación, métricas y pruebas

Los productos de IA generativa deben evaluarse rigurosamente para garantizar que se alineen con las políticas de seguridad y los principios básicos antes del lanzamiento. A fin de crear un modelo de referencia para la evaluación y medir la mejora a lo largo del tiempo, se deben definir las métricas para cada dimensión de calidad del contenido destacado. Después de definir las métricas, un análisis de riesgos independiente puede determinar los objetivos de rendimiento para el lanzamiento, teniendo en cuenta los patrones de pérdida, la probabilidad de que se encuentren y el impacto de los daños.

Ejemplos de métricas para tener en cuenta:

Comparativas de seguridad: Diseña métricas de seguridad que reflejen las formas en las que tu aplicación podría ser insegura en el contexto de cómo es probable que se use y, luego, prueba el rendimiento de la aplicación en las métricas con conjuntos de datos de evaluación.

Tasa de incumplimiento: Dada un conjunto de datos adversarios equilibrados (entre los daños y los casos aplicables), la cantidad de resultados infractores, generalmente medidos por la confiabilidad del evaluador.

Tasa de respuesta en blanco: Dado un conjunto equilibrado de mensajes a los que el producto pretende brindar una respuesta, la cantidad de respuestas en blanco (es decir, cuando el producto no puede proporcionar un resultado seguro, sin importar la entrada o la salida que se bloquean).

Diversidad: Dada un conjunto de mensajes, la diversidad junto con las dimensiones de los atributos de identidad representados en los resultados.

Equidad (para la calidad del servicio): Dada un conjunto de mensajes que contienen contrafactuales de un atributo sensible, la capacidad de proporcionar la misma calidad de servicio.

Pruebas adversarias

Las pruebas adversarias implican probar de forma proactiva la "ruptura" de la aplicación. El objetivo es identificar los puntos débiles a fin de que puedas tomar medidas para solucionarlos.

La prueba adversaria es un método para evaluar sistemáticamente un modelo de AA con la intención de aprender cómo se comporta cuando se proporciona con una entrada maliciosa o perjudicial:

  • Una entrada es maliciosa cuando está diseñada para producir un resultado perjudicial o no seguro, por ejemplo, pedirle a un modelo de generación de texto que genere una conversación con odio sobre una religión en particular.
  • Una entrada es dañina de manera inadvertida cuando puede ser inofensiva, pero produce un resultado perjudicial. Por ejemplo, pedir a un modelo de generación de texto que describa a una persona de una etnia en particular y recibir un resultado racista.

Las pruebas de adversario tienen dos objetivos principales: ayudar a los equipos a mejorar sistemáticamente los productos y los productos mediante la exposición de patrones de falla actuales, y guiar las rutas de mitigación y a informar las decisiones del producto mediante la evaluación de la alineación con las políticas del producto de seguridad y la medición de los riesgos que pueden no estar completamente mitigados.

Las pruebas adversarias siguen un flujo de trabajo similar a la evaluación estándar de modelos:

  1. Busca o crea un conjunto de datos de prueba
  2. Ejecute la inferencia del modelo con el conjunto de datos de prueba
  3. Anotar el resultado del modelo
  4. Analiza y denuncia resultados

Lo que distingue a una prueba adversaria de una evaluación estándar es la composición de los datos que se usan para la prueba. En el caso de las pruebas adversarias, selecciona los datos de prueba que tengan más probabilidades de generar un resultado problemático del modelo. Esto implica sondear el comportamiento del modelo para todos los tipos de daños posibles, incluidos ejemplos inusuales o inusuales y casos extremos relevantes para las políticas de seguridad. También debe incluir diversidad en las diferentes dimensiones de una oración, como la estructura, el significado y la longitud.