Nesta lição, você vai depurar um problema de ML real* relacionado a literatura do século 18.
Exemplo real: literatura do século 18
Exemplo real: literatura do século 18
- A professora de literatura do século XVIII queria prever a afiliação política dos autores com base apenas nas "metaforas de mentira" que o autor usou.
Exemplo real: literatura do século 18
- A professora de literatura do século XVIII queria prever a afiliação política dos autores com base apenas nas "metaforas de mentira" que o autor usou.
- A equipe de pesquisadores fez um grande conjunto de dados rotulados com muitos autores, como frases, frases e frases, além de dividir em conjuntos de treinamento/validação/teste.
Exemplo real: literatura do século 18
- A professora de literatura do século XVIII queria prever a afiliação política dos autores com base apenas nas "metaforas de mentira" que o autor usou.
- A equipe de pesquisadores fez um grande conjunto de dados rotulados com muitos autores, como frases, frases e frases, além de dividir em conjuntos de treinamento/validação/teste.
- O modelo treinado fez quase perfeitamente com base nos dados de teste, mas os pesquisadores acharam que os resultados eram suspeitos e precisos. O que pode ter dado errado?
Exemplo real: literatura do século 18
Por que você acha que a precisão do teste era suspeitamente alta? Veja se você consegue descobrir o problema e clique no botão de reprodução ▶ abaixo para saber se está correto.
Exemplo real: literatura do século 18
- Divisão de dados A: os pesquisadores colocam alguns exemplos de cada autor no conjunto de treinamento, alguns no conjunto de validação, outros no conjunto de teste.
Todos os exemplos de Richardson podem estar no conjunto de treinamento, enquanto todos os exemplos de Swift's podem estar no conjunto de validação.
Exemplo real: literatura do século 18
- Divisão de dados B: os pesquisadores colocam todos os exemplos de cada autor em um único conjunto.
Exemplo real: literatura do século 18
- Divisão de dados A: os pesquisadores colocam alguns exemplos de cada autor no conjunto de treinamento, alguns no conjunto de validação, outros no conjunto de teste.
- Divisão de dados B: os pesquisadores colocam todos os exemplos de cada autor em um único conjunto.
- Resultados: o modelo treinado na divisão de dados A tem uma acurácia muito maior do que o modelo treinado na divisão de dados B.
Exemplo real: literatura do século 18
Moral: pense cuidadosamente em como dividir os exemplos
Saber o que os dados representam.
* Baseamos este módulo vagamente (usando algumas modificações) em "Meaning and Mining: o impacto das suposições implícitas na mineração de dados para as Humanidades por Sculley e Pasanek.