Considerazioni sulla sicurezza e l'equità per i modelli generativi

L'AI generativa può essere uno strumento potente per sbloccare la creatività, aumentare la produttività e semplificare le attività quotidiane. Tuttavia, poiché è una tecnologia in una fase iniziale, deve essere utilizzata con precauzioni adeguate. Questa risorsa fornisce un approccio di alto livello per considerazioni sulla sicurezza e l'equità per i prodotti di generazione AI.

Introduzione

Il rapido sviluppo dell'AI generativa ha portato funzionalità e prodotti sul mercato in periodi di tempo relativamente brevi. I team che lanciano prodotti con funzionalità di AI generative devono mirare a garantire esperienze utente di alta qualità, sicure, eque ed eque, in conformità con i Principi dell'AI.

Un approccio responsabile alle applicazioni generative deve fornire piani per il raggiungimento di quanto segue:

  • Norme relative ai contenuti, potenziali danni e analisi dei rischi
  • Generazione responsabile
  • Prevenzione dei danni
  • Test di valutazione e contraddizione

Norme relative ai contenuti, potenziali danni e analisi dei rischi

I prodotti dovrebbero prima allinearsi sul tipo di contenuti che gli utenti non possono generare. Le norme sull'utilizzo vietato dell'AI di Google comprendono casi d'uso specifici vietati per i servizi Google coperti.

Per ulteriori dettagli su ciascuno di questi casi d'uso vietati, consulta le norme ufficiali. Per i tuoi casi d'uso relativi ai prodotti, definisci cosa costituisce un contenuto "buono", al di fuori dell'assenza di "violazioni delle norme" o "cattive" per allinearti agli obiettivi di generazione responsabile. Il team deve inoltre definire e descrivere chiaramente i casi d'uso considerati violazioni delle norme o utilizzare le "modalità di errore".

Le norme relative ai contenuti sono solo un passaggio per prevenire danni agli utenti. È anche importante considerare gli obiettivi e i principi guida per qualità, sicurezza, equità e inclusione.

Qualità

I team dovrebbero elaborare strategie per rispondere alle query in verticali sensibili, come informazioni mediche, in modo da fornire esperienze utente di alta qualità. Le strategie responsabili includono la fornitura di più punti di vista, il differimento di argomenti senza prove scientifiche o solo l'attribuzione di informazioni fattuali con attribuzione.

Sicurezza

L'obiettivo delle misure di sicurezza dell'AI è prevenire o contenere azioni che possono causare danni, intenzionalmente o involontariamente. Senza le misure adeguate, i modelli generativi potrebbero restituire contenuti non sicuri che potrebbero violare le norme relative ai contenuti o causare disagio agli utenti. Valuta la possibilità di fornire spiegazioni agli utenti se un output è stato bloccato o il modello non è riuscito a generare un output accettabile.

Correttezza e inclusione

Garantisci la diversità all'interno di una risposta e in più risposte per la stessa domanda. Ad esempio, una risposta a una domanda relativa a musicisti famosi non dovrebbe includere solo nomi o immagini di persone della stessa identità di genere o di tonalità della pelle. I team dovrebbero impegnarsi a fornire contenuti per le diverse community su richiesta. Esaminare i dati di addestramento per verificare la diversità e la rappresentazione in più identità, culture e dati demografici. Considera come gli output su più query sono rappresentative della diversità nei gruppi, senza perpetuare gli stereotipi comuni (ad es. le risposte ai "migliori lavori per le donne" rispetto ai "migliori lavori per gli uomini" non devono includere contenuti tradizionalmente stereotipati, come "infermiera" che appare nella sezione "migliori lavori per le donne", ma "medico" che appare nella sezione "migliori lavori per gli uomini").

Analisi di potenziali danni e rischi

I seguenti passaggi sono consigliati quando crei applicazioni con LLM (tramite l'API PaLM Indicazioni sulla sicurezza):

  • Comprendere i rischi per la sicurezza della tua applicazione
  • Valutare la possibilità di adeguare i rischi per la sicurezza
  • Esecuzione di test di sicurezza adatti al caso d'uso
  • Richiesta di feedback da parte degli utenti e monitoraggio dell'utilizzo

Per ulteriori informazioni su questo approccio, consulta la documentazione dell'API PaLM.

Per un'analisi più approfondita, questa discussione esplora le linee guida per ridurre i rischi e sviluppare applicazioni sicure e responsabili supportate da LLM:

Generazione responsabile

Sicurezza dei modelli integrata

In un esempio di funzionalità di sicurezza, l'API PaLM include impostazioni di sicurezza regolabili che bloccano i contenuti con probabilità regolabili di non essere sicuri in sei categorie: dispregiativo, tossico, sessuale, violento, pericoloso e medico. Queste impostazioni consentono agli sviluppatori di determinare cosa è appropriato per i loro casi d'uso, ma hanno anche protezioni integrate contro i danni principali, ad esempio contenuti che mettono in pericolo la sicurezza dei minori, che sono sempre bloccati e non possono essere modificati.

Regolazione del modello

L'ottimizzazione di un modello può insegnare a rispondere in base ai requisiti di un'applicazione. Esempi di risposte e suggerimenti vengono utilizzati per insegnare a un modello come supportare meglio i nuovi casi d'uso, risolvere i tipi di danni o utilizzare diverse strategie volute dal prodotto nella risposta.

Ad esempio, in questo caso,

  • Ottimizzare l'output del modello per riflettere meglio ciò che è accettabile nel contesto della tua applicazione.
  • Fornire un metodo di immissione che faciliti gli output più sicuri, ad esempio limitando l'inserimento di input a un elenco a discesa.
  • Blocco degli input non sicuri e filtro degli output prima che vengano mostrati all'utente.

Consulta gli indicazioni sulla sicurezza dell'API PaLM per altri esempi di modifiche mirate a ridurre i rischi per la sicurezza.

Prevenzione dei danni

Altri metodi di prevenzione dei danni possono includere l'uso di classificatori addestrati per etichettare ogni richiesta con potenziali danni o indicatori di contrasto. Inoltre, puoi implementare misure di salvaguardia contro l'uso improprio voluto limitando il volume delle query degli utenti inviate da un singolo utente in un determinato periodo di tempo o cercando di proteggerlo da possibili iniezioni di prompt.

Analogamente alle protezioni di ingresso, è possibile posizionare sistemi di protezione sulle uscite. I sistemi di protezione dei contenuti, ad esempio i classificatori, possono essere utilizzati per rilevare contenuti violativi delle norme. Se gli indicatori determinano che l'output è dannoso, l'applicazione può fornire un errore o una risposta vuota, fornire un output prescritto o classificare più output dallo stesso prompt per sicurezza.

Valutazione, metriche e test

I prodotti di AI generativi devono essere rigorosamente valutati per garantire l'allineamento con le norme di sicurezza e i principi guida prima del lancio. Per creare una base di riferimento per la valutazione e misurare il miglioramento nel tempo, è necessario definire le metriche per ciascuna dimensione di qualità dei contenuti rilevanti. Dopo aver definito le metriche, un'analisi dei rischi separata può determinare gli obiettivi di rendimento per il lancio, tenendo conto dei modelli di perdita, della probabilità che vengano raggiunti e dell'impatto dei danni.

Esempi di metriche da considerare:

Benchmark di sicurezza: progetta metriche di sicurezza che riflettano i modi in cui la tua applicazione potrebbe non essere sicura nel contesto di come potrebbe essere utilizzata, quindi verifica le prestazioni dell'applicazione sulle metriche utilizzando i set di dati di valutazione.

Tasso di violazione: dato un set di dati contraddittorio bilanciato (per i casi d'uso e i danni applicabili), il numero di output in violazione, generalmente misurati in base all'affidabilità dell'interrato.

Tasso di risposta vuoto: dato un insieme bilanciato di richieste per cui un prodotto intende fornire una risposta, il numero di risposte vuote (ovvero quando il prodotto non è in grado di fornire un output sicuro indipendentemente dall'input o dall'output che viene bloccato).

Diversità: dato un insieme di richieste, la diversità insieme alle dimensioni degli attributi di identità rappresentati negli output.

Fairness (per la qualità del servizio): dato un insieme di richieste contenenti informazioni non corrette di un attributo sensibile, la possibilità di fornire la stessa qualità del servizio.

Test di contraddizione

Il test di contraddizione prevede il tentativo proattivo di "spezzare" la tua applicazione. L'obiettivo è identificare i punti deboli in modo che tu possa adottare misure per correggerli.

I test adversaries sono un metodo per valutare sistematicamente un modello di ML con l'intento di capire come si comporta quando viene fornito un input dannoso o inavvertitamente dannoso:

  • Un input è dannoso quando è chiaramente progettato per produrre un output non sicuro o dannoso, ad esempio per chiedere a un modello di generazione di testo di generare un'incitamento all'odio su una particolare religione.
  • Un input è inavvertitamente dannoso quando l'input stesso può essere innocuo, ma produce output dannosi, ad esempio chiedendo a un modello di generazione di testo di descrivere una persona di una determinata etnia e ricevere un output razzista.

I test relativi alle contraddizioni hanno due obiettivi principali: aiutare i team a migliorare costantemente modelli e prodotti esponendo gli attuali schemi di errore e indirizzare i percorsi di mitigazione e informare le decisioni dei prodotti valutando l'allineamento alle norme dei prodotti di sicurezza e misurando i rischi che potrebbero non essere completamente imitati.

Il test in modalità conversazionale segue un flusso di lavoro simile alla valutazione del modello standard:

  1. Trovare o creare un set di dati di test
  2. Esegui l'inferenza del modello utilizzando il set di dati di test
  3. Annota l'output del modello
  4. Analizza e segnala i risultati

Ciò che distingue un test inverso da una valutazione standard è la composizione dei dati utilizzati per il test. Per i test adversaries, seleziona i dati di test che hanno maggiori probabilità di generare un output problematico dal modello. Ciò significa sondare il comportamento del modello per tutti i tipi di danni possibili, inclusi esempi e casi limite insoliti o insoliti pertinenti alle norme sulla sicurezza. Deve includere anche la diversità nelle diverse dimensioni di una frase, ad esempio struttura, significato e lunghezza.