Objetivos de aprendizagem
Neste módulo, você vai aprender a:
- Investigar possíveis problemas subjacentes a conjuntos de dados brutos ou processados, incluindo problemas de coleta e qualidade.
- Identifique vieses, inferências inválidas e racionalizações.
- Encontrar problemas comuns na análise de dados, incluindo correlação, relação e irrelevância.
- Examinar um gráfico em busca de problemas comuns, percepções equivocadas e escolhas enganosas de exibição e design.
Motivação do ML
Embora não sejam tão glamourosos quanto as arquiteturas de modelo e outros modelos downstream, exploração, documentação e pré-processamento de dados são fundamentais para o trabalho do ML. Os profissionais de ML podem cair no que Nithya Sambasivan et al. chamava cascatas de dados no artigo da ACM de 2021 se não entendem profundamente:
- as condições em que os dados são coletados
- a qualidade, as características e as limitações
- o que os dados podem e não podem mostrar
É muito caro treinar modelos com dados ruins só descobriram problemas quando tiverem saídas de baixa qualidade com os dados. Da mesma forma, a falha em compreender as limitações dos dados, vieses na coleta de dados ou no erro de correlação de causalidade, pode resultar em resultados muito promissores e insuficientes, o que pode levar perda de confiança.
Este curso apresenta armadilhas de dados comuns, mas sutis, que o ML e os dados que os profissionais podem encontrar no trabalho.