As macieiras produzem uma mistura de ótimas frutas e bagunças. No entanto, em supermercados sofisticados, as maçãs são 100% de frutas perfeitas. Entre pomar e supermercado, alguém passa um tempo significativo removendo ou borrifar um pouco de cera sobre as que podem ser recuperadas. Como engenheiro de ML, você vai passar muito tempo descartando exemplos ruins e limpando os recuperáveis. Mesmo algumas maçãs podres podem estragar um grande conjunto de dados.
Muitos exemplos em conjuntos de dados não são confiáveis devido a um ou mais dos seguintes problemas:
Categoria do problema | Exemplo |
---|---|
Valores omitidos | Um participante do censo não registra a idade de um residente. |
Exemplos duplicados | Um servidor faz upload dos mesmos registros duas vezes. |
Valores de atributo fora do intervalo. | Uma pessoa digita acidentalmente um dígito extra. |
Marcadores inválidos | Um avaliador humano identifica incorretamente a foto de um carvalho como bordo. |
Escreva um programa ou script para detectar qualquer um dos seguintes problemas:
- Valores omitidos
- Exemplos duplicados
- Valores de atributo fora do intervalo
Por exemplo, o conjunto de dados a seguir contém seis valores repetidos:
Como outro exemplo, suponha que a faixa de temperatura para um determinado atributo precise estar entre 30 e 30 graus. Mas acidentes acontecem, o termômetro está temporariamente exposto ao sol, o que causa uma discrepância grave. Seu programa ou script precisa identificar valores de temperatura menores que 10 ou maiores que 30:
Quando os rótulos são gerados por várias pessoas, recomendamos determinar se cada rotulador gerou conjuntos equivalentes de rótulos. Talvez um classificador tenha notas mais duras do que os outros ou usou um conjunto diferente de critérios de avaliação?
Depois de detectado, você geralmente "corrige" exemplos que contêm atributos inválidos ou incorretos, removendo-os do conjunto de dados ou inserindo seus valores. Para mais detalhes, consulte a Características dos dados do Conjuntos de dados, generalização e overfitting mais tarde neste módulo.