Considerações sobre segurança e imparcialidade para modelos generativos

A IA generativa pode ser uma ferramenta poderosa para liberar a criatividade, aumentar a produtividade e simplificar tarefas diárias. No entanto, como tecnologia de estágio inicial, ela precisa ser usada com as precauções adequadas. Esse recurso fornece uma abordagem de alto nível para considerações de segurança e imparcialidade para produtos de IA generativa.

Introdução

O desenvolvimento rápido da IA generativa trouxe recursos e produtos para o mercado em períodos relativamente curtos. As equipes que lançam produtos com recursos de IA generativa precisam garantir experiências do usuário de alta qualidade, segurança, justiça e equidade, de acordo com os Princípios de IA.

Uma abordagem responsável em relação aos aplicativos generativos deve fornecer planos para você:

  • Políticas de conteúdo, possíveis danos e análise de riscos
  • Geração responsável
  • Prevenção contra danos
  • Avaliação e teste adversário

Políticas de conteúdo, possíveis danos e análise de riscos

Os produtos precisam estar alinhados ao tipo de conteúdo que os usuários não podem gerar. A política de uso proibido da IA generativa inclui casos de uso proibidos específicos para os serviços cobertos do Google.

Consulte a política oficial para mais detalhes sobre cada um desses casos de uso proibidos. Para seus próprios casos de uso do produto, defina o que constitui conteúdo "bom", além da ausência de violação da política, ou "ruim", para se alinhar às metas de geração responsável. Sua equipe também precisa definir e descrever claramente os casos de uso que seriam considerados violações da política ou usar "modos de falha".

As políticas de conteúdo são apenas uma etapa para evitar danos aos usuários. Também é importante considerar as metas e os princípios orientadores para qualidade, segurança, imparcialidade e inclusão.

Qualidade

As equipes precisam elaborar estratégias para responder a consultas em indústrias sensíveis, como informações médicas, para ajudar a fornecer experiências de usuário de alta qualidade. As estratégias responsáveis incluem fornecer vários pontos de vista, adiar temas sem evidências científicas ou apenas fornecer informações factuais com atribuição.

Segurança

O objetivo das medidas de segurança da IA é impedir ou conter ações que possam levar a danos, intencionalmente ou não. Sem mitigações apropriadas, os modelos generativos geram conteúdo não seguro que viola as políticas de conteúdo ou causa desconforto para os usuários. Explique aos usuários se uma saída foi bloqueada ou se o modelo não conseguiu gerar uma saída aceitável.

Imparcialidade e inclusão

Garantir a diversidade em uma resposta e em várias respostas para a mesma pergunta. Por exemplo, uma resposta a uma pergunta sobre músicos famosos não deve incluir apenas nomes ou imagens de pessoas do mesmo sexo ou tom de pele. As equipes precisam se esforçar para fornecer conteúdo a diferentes comunidades, quando solicitado. Examinar dados de treinamento para diversidade e representação em várias identidades, culturas e informações demográficas. Pense em como os resultados em várias consultas representam a diversidade em grupos, sem perpetuar estereótipos comuns. Por exemplo, respostas a "melhores empregos para mulheres" em comparação com "melhores empregos para homens" não devem incluir conteúdo tradicionalmente estereotipado, como "enfermeira" aparece em "melhores empregos para mulheres", mas "médico" aparece em "melhores empregos para homens".

Análise de riscos e possíveis danos

As etapas a seguir são recomendadas ao criar aplicativos com LLMs (via Orientação de segurança da API PaLM):

  • Noções básicas sobre os riscos de segurança do seu aplicativo
  • Considerar ajustes para mitigar riscos de segurança
  • Como realizar testes de segurança adequados ao seu caso de uso
  • Como solicitar feedback dos usuários e monitorar o uso

Para saber mais sobre essa abordagem, acesse a documentação da API PaLM.

Para uma análise mais aprofundada, esta palestra explora as orientações para restringir riscos e desenvolver aplicativos compatíveis com LLM seguros e responsáveis:

Geração responsável

Segurança de modelo integrada

Em um exemplo de recursos de segurança, a API PaLM inclui configurações de segurança ajustáveis que bloqueiam conteúdo com probabilidades ajustáveis de ser insegura em seis categorias: depreciativa, tóxica, sexual, violenta, perigosa e médica. Essas configurações permitem que os desenvolvedores determinem o que é apropriado para os casos de uso, mas também têm proteções integradas contra danos principais, como conteúdo que coloca a segurança infantil em risco, que sempre é bloqueada e não pode ser ajustada.

Ajuste de modelos

O ajuste fino de um modelo pode ensiná-lo a responder com base nos requisitos de um aplicativo. Exemplos de prompts e respostas são usados para ensinar a um modelo como oferecer melhor suporte a novos casos de uso, lidar com tipos de danos ou utilizar diferentes estratégias desejadas pelo produto na resposta.

Por exemplo, considere:

  • Ajustar a saída do modelo para refletir melhor o que é aceitável no contexto do aplicativo
  • Fornecer um método de entrada que facilite saídas mais seguras, como a restrição de entradas a uma lista suspensa.
  • Bloquear entradas não seguras e filtrar a saída antes que ela seja exibida ao usuário.

Consulte as diretrizes de segurança da API PaLM para mais exemplos de ajustes e reduzir os riscos.

Prevenção a danos

Outros métodos de prevenção de danos podem incluir o uso de classificadores treinados para rotular cada solicitação com possíveis danos ou sinais adversários. Além disso, é possível implementar proteções contra uso indevido deliberado, limitando o volume de consultas do usuário enviadas por um único usuário em um determinado período ou tentar proteger contra a possível injeção de prompt.

Assim como as proteções de entrada, as proteções podem ser colocadas em saídas. Os protetores de moderação de conteúdo, como classificadores, podem ser usados para detectar conteúdo que viola a política. Se os sinais determinarem que a saída é prejudicial, o aplicativo pode fornecer um erro ou uma resposta vazia, fornecer uma saída pré-scriptada ou classificar várias saídas do mesmo prompt para fins de segurança.

Avaliação, métricas e testes

Os produtos de IA generativa precisam ser avaliados rigorosamente para garantir que estejam alinhados às políticas de segurança e aos princípios orientadores antes do lançamento. Para criar uma linha de base para avaliação e medir melhorias ao longo do tempo, as métricas devem ser definidas para cada dimensão de qualidade de conteúdo relevante. Depois que as métricas são definidas, uma análise de riscos separada pode determinar as metas de desempenho para o lançamento, considerando padrões de perda, a probabilidade de serem encontradas e o impacto dos danos.

Exemplos de métricas a serem consideradas:

Benchmarks de segurança: crie métricas de segurança que reflitam as maneiras como seu aplicativo pode não ser seguro no contexto de como ele provavelmente será usado e, em seguida, teste o desempenho do aplicativo nas métricas usando conjuntos de dados de avaliação.

Taxa de violação: considerando um conjunto de dados adversário equilibrado (entre danos e casos de uso aplicáveis), o número de saídas violadoras, geralmente medida pela confiabilidade do intermediador.

Taxa de resposta em branco:dado um conjunto equilibrado de solicitações para as quais um produto pretende fornecer uma resposta, um número de respostas em branco, ou seja, quando o produto não consegue fornecer uma saída segura, independentemente da entrada ou da saída sendo bloqueada.

Diversidade: considerando o conjunto de prompts, a diversidade nas dimensões de atributos de identidade representados nas saídas.

Imparcialidade (para qualidade do serviço): considerando um conjunto de solicitações que contêm contrafatos de um atributo confidencial, capacidade de fornecer a mesma qualidade de serviço.

Teste adversário

O teste adversário envolve a tentativa proativa de "interromper" seu aplicativo. O objetivo é identificar pontos fracos para que você possa tomar medidas para solucioná-los.

O teste adversário é um método para avaliar sistematicamente um modelo de ML com a intenção de saber como ele se comporta quando recebe uma entrada mal-intencionada ou inadvertidamente prejudicial:

  • Uma entrada é mal-intencionada quando é claramente projetada para produzir uma saída não segura ou prejudicial. Por exemplo, pedir a um modelo de geração de texto para gerar um discurso de ódio sobre uma determinada religião.
  • Uma entrada é inadvertidamente prejudicial quando a própria entrada pode ser inofensiva, mas produz uma saída prejudicial. Por exemplo, pedir a um modelo de geração de texto para descrever uma pessoa de uma etnia específica e receber uma saída racista.

O teste adversário tem dois objetivos principais: ajudar as equipes a melhorar modelos e produtos sistematicamente expondo os padrões de falha atuais e orientar os caminhos de mitigação, além de informar as decisões do produto avaliando o alinhamento às políticas dos produtos de segurança e medindo os riscos que podem não ser totalmente reduzidos.

O teste adversário segue um fluxo de trabalho semelhante à avaliação de modelo padrão:

  1. Encontrar ou criar um conjunto de dados de teste
  2. Executar inferência de modelo usando o conjunto de dados de teste
  3. Anotar a saída do modelo
  4. Analisar e informar os resultados

O que distingue um teste adversário de uma avaliação padrão é a composição dos dados usados para teste. Para testes adversários, selecione os dados de teste com maior probabilidade de gerar resultados problemáticos para o modelo. Isso significa analisar o comportamento do modelo para todos os tipos de danos possíveis, incluindo exemplos raros ou incomuns e casos extremos relevantes para políticas de segurança. Ela também precisa incluir diversidade nas diferentes dimensões de uma frase, como estrutura, significado e comprimento.