Uma versão nova e aprimorada do curso intensivo de machine learning vai ser lançada em agosto de 2024. Não perca as novidades!

Esta página foi traduzida pela API Cloud Translation.

Regularização para simplicidade: exercício de playground (overcrossing?)

Transversal?

Antes de assistir ao vídeo ou ler a documentação, conclua este exercício que explora o uso excessivo de cruzamentos de atributos.

Tarefa 1: execute o modelo como está, com todos os recursos de vários produtos fornecidos. Há alguma surpresa na maneira como o modelo ajusta os dados? Qual é o problema?

Tarefa 2:tente remover vários recursos de vários produtos para melhorar a performance, mas apenas um pouquinho. Por que a remoção de recursos melhoraria o desempenho?

(As respostas aparecem logo abaixo do exercício.)

Clique no ícone de adição de uma resposta da Tarefa 1.

É surpreendente que a fronteira de decisão do modelo parece um pouco estranha. Em particular, há uma região no canto superior esquerdo que está sugerindo azul, mesmo que não haja suporte visível para isso nos dados.

Observe a espessura relativa das cinco linhas que vão de INPUT a OUTPUT. Essas linhas mostram os pesos relativos dos cinco atributos. As linhas que emanam de X₁ e X₂ são muito mais grossas do que aquelas vindas dos cruzamentos de atributos. Portanto, os cruzamentos de atributos estão contribuindo muito menos para o modelo do que os atributos normais (não cruzados).

Clique no ícone de adição para responder à Tarefa 2.

A remoção de todos os cruzamentos de atributos oferece um modelo mais razoável (não há mais um limite curvo que sugira overfitting) e faz a perda de teste convergir.

Após mil iterações, a perda de teste vai ser um valor um pouco menor do que quando os cruzamentos de atributos estavam em execução (embora os resultados possam variar um pouco, dependendo do conjunto de dados).

Os dados neste exercício são basicamente lineares mais o ruído. Se usarmos um modelo muito complicado, como um com muitos cruzes, daremos a ele a oportunidade de se ajustar ao ruído nos dados de treinamento, geralmente à custa de fazer o modelo ter um desempenho ruim nos dados de teste.

Teste seu conhecimento

Apresentação sobre vídeos