Uma versão nova e aprimorada do curso intensivo de machine learning vai ser lançada em agosto de 2024. Não perca as novidades!

Esta página foi traduzida pela API Cloud Translation.

Generalização

A generalização refere-se à capacidade do modelo de se adaptar corretamente a dados novos e ainda não vistos, extraídos da mesma distribuição usada para a criação do modelo.

Generalização

Visão geral

Ciclo de modelos, previsões, amostras, descoberta da distribuição real e mais amostras

Meta: prever bem os novos dados extraídos da distribuição verdadeira (oculta)
Problema: não vemos a verdade.

Só conseguimos usar uma amostra.

Visão geral

Meta: prever bem os novos dados extraídos da distribuição verdadeira (oculta)
Problema: não vemos a verdade.

Só conseguimos usar uma amostra.

Se o modelo h se encaixa bem com nossa amostra atual, como podemos confiar que ele vai prever bem em outras amostras novas?

Como saber se nosso modelo é bom?

Teoricamente:

Campo interessante: teoria da generalização
Com base em ideias de medição da simplicidade / complexidade do modelo

Intuição: formalização do princípio de navalha de Ockham

Quanto menos complexo for um modelo, maior será a probabilidade de um bom resultado empírico não ser apenas pelas particularidades da nossa amostra.

Como saber se nosso modelo é bom?

Empiricamente:
- Perguntando: nosso modelo terá um bom desempenho com uma nova amostra de dados?
- Avaliação: receba uma nova amostra de dados, chame-a de conjunto de teste
- Um bom desempenho no conjunto de teste é um indicador útil de bom desempenho nos novos dados em geral:

Detalhes do ML

Três suposições básicas em todas as opções acima:

Desenhamos exemplos de forma independente e idêntica (ou seja,) aleatoriamente da distribuição.
A distribuição é estacionária: ela não muda ao longo do tempo.
Sempre extraímos da mesma distribuição: incluindo conjuntos de treinamento, validação e teste.

Exercícios de programação

Perigo de overfitting