prática de ML: imparcialidade na API Perspective

Teste seu conhecimento: como identificar e corrigir vieses

Identificação de um viés

No Exercício 1: explorar o modelo, você confirmou que o modelo estava classificando desproporcionalmente comentários com termos de identidade como tóxicos. Quais métricas ajudam a explicar a causa desse viés? Confira as opções abaixo.
Acurácia

A precisão mede a porcentagem do total de previsões que estão corretas, ou seja, a porcentagem de previsões que são verdadeiros positivos ou verdadeiros negativos. A comparação da precisão de diferentes subgrupos (como informações demográficas de gênero diferentes) permite avaliar o desempenho relativo do modelo para cada grupo e pode servir como um indicador do efeito do viés em um modelo.

No entanto, como a acurácia considera as previsões corretas e incorretas agregadas, ela não distingue entre os dois tipos de previsões corretas e os dois tipos de previsões incorretas. Analisando apenas a precisão, não podemos determinar os detalhamentos subjacentes de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos, o que forneceria mais informações sobre a origem do viés.

Taxa de falso positivo

A taxa de falsos positivos (FPR, na sigla em inglês) é a porcentagem de exemplos reais negativos (comentários não tóxicos) que foram classificados incorretamente como positivos (comentários tóxicos). A FPR é um indicador do efeito do viés no modelo. Quando comparamos os FPRs para diferentes subgrupos (como diferentes informações demográficas de gênero), descobrimos que comentários de texto que contêm termos de identidade relacionados a gênero têm mais chances de serem classificados incorretamente como tóxicos (falsos positivos) do que comentários que não contêm esses termos.

No entanto, não queremos medir o efeito do viés, mas encontrar a causa dele. Para isso, precisamos analisar melhor os elementos inseridos na fórmula de FPR.

Negativos reais e positivos reais
Nos conjuntos de dados de treinamento e teste deste modelo, os positivos reais são todos os exemplos de comentários tóxicos e os negativos reais são todos os exemplos que não são tóxicos. Como os termos de identidade em si são neutros, é esperado um número equilibrado de comentários verdadeiros negativos e verdadeiros positivos com um determinado termo de identidade. Um número desproporcionalmente baixo de negativos reais indica que o modelo não encontrou muitos exemplos de termos de identidade usados em contextos positivos ou neutros. Nesse caso, o modelo pode aprender uma correlação entre termos de identidade e toxicidade.
Recall
Recall é a porcentagem de previsões positivas reais que foram corretamente classificadas como positivas. Ela informa a porcentagem de comentários tóxicos que o modelo detectou. Aqui, estamos preocupados com o viés relacionado a falsos positivos (comentários não tóxicos que foram classificados como tóxicos) e o recall não fornece nenhuma visão sobre esse problema.

Correção de vieses

Quais das ações a seguir podem ser métodos eficazes de corrigir vieses nos dados de treinamento usados no Exercício 1 e no Exercício 2? Confira as opções abaixo.
Adicionar mais exemplos negativos (não tóxicos) contendo termos de identidade ao conjunto de treinamento.
Adicionar mais exemplos negativos (comentários que não são tóxicos) que contenham termos de identidade ajudará a equilibrar o conjunto de treinamento. Assim, o modelo verá um melhor equilíbrio entre os termos de identidade usados em contextos tóxicos e não tóxicos, para que possa aprender que os termos em si são neutros.
Adicionar mais exemplos positivos (tóxicos) contendo termos de identidade ao conjunto de treinamento.
Os exemplos tóxicos já estão super-representados no subconjunto de exemplos que contêm termos de identidade. Se adicionarmos ainda mais exemplos ao conjunto de treinamento, na verdade, estaremos exacerbando o viés existente em vez de corrigi-lo.
Adicionar mais exemplos negativos (não tóxicos) sem termos de identificação ao conjunto de treinamento.
Os termos de identidade já são sub-representados em exemplos negativos. Adicionar mais exemplos negativos sem termos de identidade aumentaria esse desequilíbrio e não ajudaria a corrigir o viés.
Adicionar mais exemplos positivos (tóxicos) sem termos de identidade ao conjunto de treinamento.

É possível que adicionar mais exemplos positivos sem termos de identidade ajude a quebrar a associação entre esses termos e a toxicidade que o modelo aprendeu anteriormente.

Como avaliar o viés

Você treinou seu próprio classificador de toxicidade de texto do zero, que sua equipe de engenharia planeja usar para suprimir automaticamente a exibição de comentários classificados como tóxicos. Você acredita que qualquer viés relacionado à toxicidade em comentários de gênero pode resultar na supressão de discursos não tóxicos sobre gênero. Por isso, você quer avaliar esse viés nas previsões do classificador. Qual das seguintes métricas você deve usar para avaliar o modelo? Confira as opções abaixo.
Taxa de falsos positivos (FPR)
Na produção, o modelo será usado para suprimir automaticamente previsões positivas (tóxicas). O objetivo é garantir que o modelo não esteja suprimindo falsos positivos, ou seja, comentários não tóxicos que o modelo classificou incorretamente como tóxicos em comentários de gênero a uma taxa maior do que a de comentários em geral. Comparar FPRs para subgrupos de gênero com a FPR geral é uma ótima maneira de avaliar a correção de viés para seu caso de uso.
Taxa de falsos negativos (FNR, na sigla em inglês)
A FNR mede a taxa em que o modelo classifica incorretamente a classe positiva (aqui, "tóxica") como a classe negativa ("não tóxica"). Nesse caso de uso, ele informa a taxa em que comentários realmente tóxicos passarão pelo filtro e serão exibidos aos usuários. Aqui, sua principal preocupação é como o viés se manifesta em termos de supressão de discurso não tóxico. O FNR não oferece insights sobre essa dimensão do desempenho do modelo.
Acurácia
A acurácia mede a porcentagem de previsões do modelo que estavam corretas e, inversamente, a porcentagem de previsões que estavam erradas. Para este caso de uso, a precisão informa a probabilidade de o filtro ter suprimido discurso não tóxico ou mostrado discurso tóxico. Sua principal preocupação é o primeiro problema, não o segundo. Como a precisão combina os dois problemas, essa não é a métrica de avaliação ideal a ser usada aqui.
AUC
A AUC fornece uma medida absoluta da capacidade preditiva de um modelo. É uma boa métrica para avaliar o desempenho geral. No entanto, aqui você está preocupado especificamente com as taxas de supressão de comentários, e a AUC não fornece insights diretos sobre esse problema.
Um moderador de conteúdo foi adicionado à sua equipe, e o gerente do produto decidiu mudar a forma como o classificador será implantado. Em vez de suprimir automaticamente os comentários classificados como tóxicos, o software de filtragem sinaliza esses comentários para que o moderador de conteúdo analise. Como uma pessoa vai revisar comentários rotulados como tóxicos, o viés não se manifestará mais na forma de supressão de conteúdo. Qual das seguintes métricas pode ser usada para medir o viés e o efeito da remediação deles agora? Confira as opções abaixo.
Taxa de falsos positivos (FPR)
A taxa de falso positivo informa a porcentagem de comentários não tóxicos que foram classificados incorretamente como tóxicos. Como um moderador humano agora vai auditar todos os comentários que o modelo rotula como "tóxico" e captura a maioria dos falsos positivos, a FPR não é mais uma preocupação principal.
Taxa de falsos negativos (FNR, na sigla em inglês)
Um moderador humano vai auditar todos os comentários rotulados como "tóxicos" e garantir que falsos positivos não sejam suprimidos, mas não vai analisar comentários rotulados como "não tóxicos". Isso deixa em aberto a possibilidade de viés relacionado a falsos negativos. Você pode usar a FNR (porcentagem de positivos reais classificados como negativos) para avaliar sistematicamente se comentários tóxicos em subgrupos de gênero têm mais chances de serem rotulados como não tóxicos do que os comentários em geral.
Precisão
A precisão informa a porcentagem de previsões positivas que são realmente positivas. Nesse caso, a porcentagem de previsões "tóxicas" que estão corretas. Como um moderador humano vai auditar todas as previsões "tóxicas", não é necessário usar a precisão como uma das suas métricas de avaliação principais.
Recall
Recall informa a porcentagem de positivos reais que foram classificados corretamente. A partir desse valor, é possível derivar a porcentagem de positivos reais que foram classificados incorretamente (1 - recall), que é uma métrica útil para avaliar se comentários tóxicos relacionados a gênero estão classificados incorretamente como "não tóxicos" em comparação com os comentários em geral.