Uma versão nova e aprimorada do curso intensivo de machine learning vai ser lançada em agosto de 2024. Não perca as novidades!

Esta página foi traduzida pela API Cloud Translation.

Sistemas de ML no mundo real: literatura

Nesta lição, você vai depurar um problema de ML real* relacionado a literatura do século 18.

Exemplo real: literatura do século 18

A professora de literatura do século XVIII queria prever a afiliação política dos autores com base apenas nas "metaforas de mentira" que o autor usou.

Exemplo real: literatura do século 18

A professora de literatura do século XVIII queria prever a afiliação política dos autores com base apenas nas "metaforas de mentira" que o autor usou.
A equipe de pesquisadores fez um grande conjunto de dados rotulados com muitos autores, como frases, frases e frases, além de dividir em conjuntos de treinamento/validação/teste.

Exemplo real: literatura do século 18

A professora de literatura do século XVIII queria prever a afiliação política dos autores com base apenas nas "metaforas de mentira" que o autor usou.
A equipe de pesquisadores fez um grande conjunto de dados rotulados com muitos autores, como frases, frases e frases, além de dividir em conjuntos de treinamento/validação/teste.
O modelo treinado fez quase perfeitamente com base nos dados de teste, mas os pesquisadores acharam que os resultados eram suspeitos e precisos. O que pode ter dado errado?

Exemplo real: literatura do século 18

Por que você acha que a precisão do teste era suspeitamente alta? Veja se você consegue descobrir o problema e clique no botão de reprodução ▶ abaixo para saber se está correto.

Exemplo real: literatura do século 18

Divisão de dados A: os pesquisadores colocam alguns exemplos de cada autor no conjunto de treinamento, alguns no conjunto de validação, outros no conjunto de teste.

Diagrama com detalhamento dos exemplos de autor nos conjuntos de treinamento, validação e teste. Exemplos de cada um dos três autores são representados em cada conjunto.

Exemplo real: literatura do século 18

Divisão de dados B: os pesquisadores colocam todos os exemplos de cada autor em um único conjunto.

Diagrama com detalhamento dos exemplos de autor nos conjuntos de treinamento, validação e teste. O conjunto de treinamento contém apenas exemplos do Swift, o conjunto de validação contém apenas exemplos do Blake e o conjunto de teste contém apenas exemplos da Defoe.

Exemplo real: literatura do século 18

Divisão de dados A: os pesquisadores colocam alguns exemplos de cada autor no conjunto de treinamento, alguns no conjunto de validação, outros no conjunto de teste.
Divisão de dados B: os pesquisadores colocam todos os exemplos de cada autor em um único conjunto.
Resultados: o modelo treinado na divisão de dados A tem uma acurácia muito maior do que o modelo treinado na divisão de dados B.

Exemplo real: literatura do século 18

Moral: pense cuidadosamente em como dividir os exemplos

Saber o que os dados representam.

* Baseamos este módulo vagamente (usando algumas modificações) em "Meaning and Mining: o impacto das suposições implícitas na mineração de dados para as Humanidades por Sculley e Pasanek.

Previsão do câncer (5 min)

Diretrizes (2 min)