Glossário de machine learning: fundamentos de ML

Esta página contém os termos do glossário de Noções básicas de ML. Para conferir todos os termos do glossário, clique aqui.

A

precisão

#fundamentals

O número de previsões de classificação corretas dividido pelo número total de previsões. Ou seja:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Por exemplo, um modelo que fez 40 previsões corretas e 10 incorretas teria uma precisão de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

A classificação binária fornece nomes específicos para as diferentes categorias de previsões corretas e previsões incorretas. A fórmula de precisão para classificação binária é a seguinte:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

em que:

Compare a acurácia com a precisão e o recall.

Consulte Classificação: precisão, recall, precisão e métricas relacionadas no Curso intensivo de machine learning para mais informações.

função de ativação

#fundamentals

Uma função que permite que as redes neurais aprendam relações não lineares (complexas) entre os recursos e o rótulo.

As funções de ativação mais usadas incluem:

Os gráficos das funções de ativação nunca são linhas retas. Por exemplo, o gráfico da função de ativação ReLU consiste em duas linhas retas:

Um gráfico cartesiano de duas linhas. A primeira linha tem um valor y constante
          de 0, percorrendo o eixo x de -infinito,0 a 0,-0.
          A segunda linha começa em 0,0. Essa linha tem uma inclinação de +1, então
          ela vai de 0,0 a +infinito,+infinito.

Um gráfico da função de ativação sigmoid tem esta aparência:

Um gráfico bidimensional com valores x que variam de -infinito a +positivo, enquanto os valores y variam de quase 0 a quase 1. Quando x é 0, y é 0,5. A inclinação da curva é sempre
          positiva, com a inclinação mais alta em 0,0,5 e inclinações decrescentes
          à medida que o valor absoluto de x aumenta.

Consulte Redes neurais: funções de ativação no Curso intensivo de machine learning para mais informações.

inteligência artificial

#fundamentals

Um programa ou modelo não humano que pode resolver tarefas sofisticadas. Por exemplo, programas ou modelos que traduzem texto ou que identificam doenças usando imagens radiológicas usam inteligência artificial.

Formalmente, o aprendizado de máquina é um subcampo da inteligência artificial. No entanto, nos últimos anos, algumas organizações começaram a usar os termos inteligência artificial e aprendizado de máquina como sinônimos.

AUC (área sob a curva ROC)

#fundamentals

Um número entre 0,0 e 1,0 que representa a capacidade de um modelo de classificação binária de separar classes positivas de classes negativas. Quanto mais próxima da 1,0, melhor será a capacidade do modelo de separar as classes.

Por exemplo, a ilustração a seguir mostra um modelo de classificador que separa perfeitamente as classes positivas (ovals verdes) das classes negativas (retângulos roxos). Esse modelo perfeito tem uma AUC de 1,0:

Uma linha numérica com 8 exemplos positivos de um lado e
          9 exemplos negativos do outro.

Por outro lado, a ilustração a seguir mostra os resultados de um modelo de classificador que gerou resultados aleatórios. Esse modelo tem uma AUC de 0,5:

Uma linha numérica com seis exemplos positivos e seis negativos.
          A sequência de exemplos é positiva, negativa,
          positiva, negativa, positiva, negativa, positiva, negativa, positiva
          negativa, positiva, negativa.

Sim, o modelo anterior tem um AUC de 0,5, não 0,0.

A maioria dos modelos fica entre os dois extremos. Por exemplo, o modelo a seguir separa os positivos dos negativos e, portanto, tem uma AUC entre 0,5 e 1,0:

Uma linha numérica com seis exemplos positivos e seis negativos.
          A sequência de exemplos é negativo, negativo, negativo, negativo,
          positivo, negativo, positivo, positivo, negativo, positivo, positivo,
          positivo.

O AUC ignora qualquer valor definido para o limite de classificação. Em vez disso, a AUC considera todos os limiares de classificação possíveis.

Consulte Classificação: ROC e AUC no Curso intensivo de machine learning para mais informações.

B

retropropagação

#fundamentals

O algoritmo que implementa a gradiente descendente em redes neurais.

Treinar uma rede neural envolve muitas iterations do seguinte ciclo de duas etapas:

  1. Durante o passo para frente, o sistema processa um lote de exemplos para gerar previsões. O sistema compara cada previsão com cada valor de rótulo. A diferença entre a previsão e o valor do rótulo é a perda para esse exemplo. O sistema agrega as perdas de todos os exemplos para calcular a perda total do lote atual.
  2. Durante o passo reverso (retropropagação), o sistema reduz a perda ajustando os pesos de todos os neurônios em todas as camadas ocultas.

As redes neurais geralmente contêm muitos neurônios em muitas camadas ocultas. Cada um desses neurônios contribui para a perda geral de maneiras diferentes. A retropropagação determina se os pesos aplicados a neurônios específicos vão aumentar ou diminuir.

A taxa de aprendizado é um multiplicador que controla o grau em que cada passagem reversa aumenta ou diminui cada peso. Uma taxa de aprendizado grande aumenta ou diminui cada peso mais do que uma pequena.

Em termos de cálculo, a retropropagação implementa a regra de cadeia. do cálculo. Ou seja, a propagação para trás calcula a derivada parcial do erro em relação a cada parâmetro.

Há anos, os profissionais de ML precisavam escrever código para implementar a retropropagação. APIs modernas de ML, como o Keras, agora implementam a propagação de retorno para você. Ufa.

Consulte Redes neurais no Curso intensivo de machine learning para mais informações.

lote

#fundamentals

O conjunto de exemplos usados em uma iteração de treinamento. O tamanho do lote determina o número de exemplos em um lote.

Consulte época para uma explicação de como um lote se relaciona a uma época.

Consulte Regressão linear: hiperparâmetros no Curso intensivo de machine learning para mais informações.

tamanho do lote

#fundamentals

O número de exemplos em um lote. Por exemplo, se o tamanho do lote for 100, o modelo processará 100 exemplos por iteração.

Confira a seguir as estratégias de tamanho de lote mais conhecidas:

  • Gradiente descendente estocástico (SGD), em que o tamanho do lote é 1.
  • Lote completo, em que o tamanho do lote é o número de exemplos em todo o conjunto de treinamento. Por exemplo, se o conjunto de treinamento contiver um milhão de exemplos, o tamanho do lote será de um milhão de exemplos. O lote completo geralmente é uma estratégia ineficiente.
  • minilote, em que o tamanho do lote geralmente fica entre 10 e 1.000. O minilote geralmente é a estratégia mais eficiente.

Para saber mais, consulte os seguintes artigos:

viés (ética/justiça)

#fairness
#fundamentals

1. Estereótipos, preconceito ou favoritismo em relação a algumas coisas, pessoas ou grupos em detrimento de outras. Esses vieses podem afetar a coleta e a interpretação de dados, o design de um sistema e a forma como os usuários interagem com ele. As formas desse tipo de viés incluem:

2. Erro sistemático causado por um procedimento de amostragem ou relatório. As formas desse tipo de viés incluem:

Não confundir com o termo viés em modelos de aprendizado de máquina ou viés de previsão.

Consulte Imparcialidade: tipos de viés no Curso intensivo de machine learning para mais informações.

viés (matemática) ou termo de viés

#fundamentals

Uma interseção ou compensação de uma origem. O viés é um parâmetro em modelos de aprendizado de máquina, simbolizado por um dos seguintes:

  • b
  • w0

Por exemplo, a viés é b na seguinte fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Em uma linha bidimensional simples, a viés significa apenas "intercepto em y". Por exemplo, a inclinação da linha na ilustração a seguir é 2.

O gráfico de uma linha com uma inclinação de 0,5 e um viés (intercepto y) de 2.

O viés existe porque nem todos os modelos começam na origem (0,0). Por exemplo, suponha que um parque de diversões custa 2 euros para entrar e mais 0,5 euro por hora que um cliente fica. Portanto, um modelo que mapeia o custo total tem uma viés de 2 porque o custo mais baixo é de 2 euros.

Não confunda viés com viés de ética e justiça ou viés de previsão.

Consulte Regressão linear no Curso intensivo de machine learning para mais informações.

classificação binária

#fundamentals

Um tipo de tarefa de classificação que prevê uma de duas classes mutuamente exclusivas:

Por exemplo, os dois modelos de aprendizado de máquina a seguir realizam a classificação binária:

  • Um modelo que determina se as mensagens de e-mail são spam (a classe positiva) ou não spam (a classe negativa).
  • Um modelo que avalia sintomas médicos para determinar se uma pessoa tem uma doença específica (a classe positiva) ou não (a classe negativa).

Compare com a classificação multiclasse.

Consulte também regressão logística e limite de classificação.

Consulte Classificação no Curso intensivo de machine learning para mais informações.

agrupamento por classes

#fundamentals

Conversão de um único atributo em vários atributos binários, chamados de buckets ou bins, geralmente com base em um intervalo de valores. O atributo picado é normalmente um atributo contínuo.

Por exemplo, em vez de representar a temperatura como um único atributo de ponto flutuante contínuo, você pode dividir intervalos de temperatura em intervalos discretos, como:

  • <= 10 graus Celsius seria o balde "frio".
  • 11 a 24 graus Celsius seria o intervalo "temperate".
  • >= 25 graus Celsius seria o intervalo "quente".

O modelo vai tratar todos os valores no mesmo bucket de forma idêntica. Por exemplo, os valores 13 e 22 estão no bucket "temperate", então o modelo trata os dois valores de forma idêntica.

Consulte Dados numéricos: binarização no Curso intensivo de machine learning para mais informações.

C

dados categóricos

#fundamentals

Recursos com um conjunto específico de valores possíveis. Por exemplo, considere um recurso categórico chamado traffic-light-state, que só pode ter um dos três valores possíveis a seguir:

  • red
  • yellow
  • green

Ao representar traffic-light-state como um atributo categórico, um modelo pode aprender os impactos diferentes de red, green e yellow no comportamento do motorista.

Às vezes, os recursos categóricos são chamados de recursos discretos.

Compare com dados numéricos.

Consulte Como trabalhar com dados categóricos no Curso intensivo de machine learning para mais informações.

classe

#fundamentals

Uma categoria à qual um rótulo pode pertencer. Exemplo:

Um modelo de classificação prevê uma classe. Por outro lado, um modelo de regressão prevê um número em vez de uma classe.

Consulte Classificação no Curso intensivo de machine learning para mais informações.

modelo de classificação

#fundamentals

Um modelo cuja previsão é uma classe. Por exemplo, os modelos de classificação a seguir:

  • Um modelo que prevê o idioma de uma frase de entrada (francês? Espanhol? Italiano?).
  • Um modelo que prevê espécies de árvores (maple? Carvalho? Baobá?).
  • Um modelo que prevê a classe positiva ou negativa para uma condição médica específica.

Por outro lado, os modelos de regressão preveem números em vez de classes.

Dois tipos comuns de modelos de classificação são:

limite de classificação

#fundamentals

Em uma classificação binária, um número entre 0 e 1 que converte a saída bruta de um modelo de regressão logística em uma previsão da classe positiva ou da classe negativa. O limite de classificação é um valor escolhido por humanos, não pelo treinamento do modelo.

Um modelo de regressão logística gera um valor bruto entre 0 e 1. Em seguida:

  • Se esse valor bruto for maior que o limite de classificação, a classe positiva será prevista.
  • Se esse valor bruto for menor do limite de classificação, a classe negativa será prevista.

Por exemplo, suponha que o limite de classificação seja 0,8. Se o valor bruto for 0,9, o modelo vai prever a classe positiva. Se o valor bruto for 0,7, o modelo vai prever a classe negativa.

A escolha do limite de classificação influencia muito o número de falsos positivos e falsos negativos.

Consulte Limites e a matriz de confusão no Curso intensivo de machine learning para mais informações.

conjunto de dados não balanceado

#fundamentals

Um conjunto de dados para um problema de classificação em que o número total de rótulos de cada classe difere significativamente. Por exemplo, considere um conjunto de dados de classificação binária em que os dois rótulos são divididos da seguinte maneira:

  • 1.000.000 de rótulos negativos
  • 10 rótulos positivos

A proporção de rótulos negativos para positivos é de 100.000 para 1, então este é um conjunto de dados com desequilíbrio de classes.

Por outro lado, o conjunto de dados a seguir não está desequilibrado porque a proporção de rótulos negativos para rótulos positivos é relativamente próxima de 1:

  • 517 rótulos negativos
  • 483 rótulos positivos

Os conjuntos de dados com várias classes também podem ser não balanceados. Por exemplo, o conjunto de dados de classificação de várias classes a seguir também está desequilibrado porque um rótulo tem muito mais exemplos do que os outros dois:

  • 1.000.000 rótulos com a classe "verde"
  • 200 rótulos com a classe "purple"
  • 350 rótulos com a classe "laranja"

Consulte também entropia, classe majoritária e classe minoritária.

recorte

#fundamentals

Uma técnica para lidar com valores discrepantes fazendo uma ou ambas as seguintes ações:

  • Redução dos valores de feature maiores que um limite máximo para esse limite.
  • Aumente os valores de recursos que são menores que um limite mínimo até esse limite mínimo.

Por exemplo, suponha que menos de 0,5% dos valores de um recurso específico estejam fora do intervalo de 40 a 60. Nesse caso, você pode fazer o seguinte:

  • Corta todos os valores acima de 60 (o limite máximo) para exatamente 60.
  • Corta todos os valores abaixo de 40 (o limite mínimo) para exatamente 40.

Os valores atípicos podem danificar os modelos, às vezes fazendo com que os pesos transbordem durante o treinamento. Alguns valores atípicos também podem prejudicar bastante as métricas, como a precisão. O recorte é uma técnica comum para limitar os danos.

A redução de gradiente força os valores de gradiente dentro de um intervalo designado durante o treinamento.

Consulte Dados numéricos: normalização no Curso intensivo de machine learning para mais informações.

matriz de confusão

#fundamentals

Uma tabela NxN que resume o número de previsões corretas e incorretas feitas por um modelo de classificação. Por exemplo, considere a matriz de confusão a seguir para um modelo de classificação binária:

Tumor (previsto) Não é um tumor (previsto)
Tumor (informações empíricas) 18 (TP) 1 (FN)
Não é tumor (informações empíricas) 6 (FP) 452 (TN)

A matriz de confusão anterior mostra o seguinte:

  • Das 19 previsões em que a informação real era "Tumor", o modelo classificou 18 corretamente e 1 incorretamente.
  • Das 458 previsões em que a verdade de campo era "Não-tumor", o modelo classificou 452 corretamente e 6 incorretamente.

A matriz de confusão para um problema de classificação multiclasse pode ajudar a identificar padrões de erros. Por exemplo, considere a matriz de confusão a seguir para um modelo de classificação de três classes que categoriza três tipos diferentes de íris (Virginica, Versicolor e Setosa). Quando a informação empírica era Virginica, a matriz de confusão mostrava que o modelo tinha muito mais probabilidade de prever Versicolor do que Setosa:

  Setosa (previsto) Versicolor (previsto) Virginica (previsto)
Setosa (informações empíricas) 88 12 0
Versicolor (informações empíricas) 6 141 7
Virginica (informações empíricas) 2 27 109

Como outro exemplo, uma matriz de confusão pode revelar que um modelo treinado para reconhecer dígitos escritos à mão tende a prever 9 em vez de 4 ou 1 em vez de 7.

As matrizes de confusão contêm informações suficientes para calcular várias métricas de performance, incluindo precisão e recall.

atributo de valor contínuo

#fundamentals

Um recurso de ponto flutuante com um intervalo infinito de valores possíveis, como temperatura ou peso.

Compare com o recurso discreto.

convergência

#fundamentals

Um estado alcançado quando os valores de loss mudam muito pouco ou nenhum com cada iteração. Por exemplo, a curva de perda a seguir sugere convergência em cerca de 700 iterações:

Gráfico cartesiano. O eixo X é a perda. O eixo Y é o número de iterações
          de treinamento. A perda é muito alta durante as primeiras iterações, mas
          cai drasticamente. Após cerca de 100 iterações, a perda ainda
          está diminuindo, mas de forma muito mais gradual. Após cerca de 700 iterações,
          a perda permanece estável.

Um modelo converge quando o treinamento adicional não melhora o modelo.

No aprendizado de profundidade, os valores de perda às vezes permanecem constantes ou quase constantes por muitas iterações antes de finalmente diminuírem. Durante um longo período de valores de perda constantes, você pode ter uma falsa sensação de convergência.

Consulte também parada antecipada.

Consulte Curvas de convergência e perda de modelos no Curso intensivo de machine learning para mais informações.

D

DataFrame

#fundamentals

Um tipo de dados pandas conhecido para representar conjuntos de dados na memória.

Um DataFrame é análogo a uma tabela ou planilha. Cada coluna de um DataFrame tem um nome (um cabeçalho) e cada linha é identificada por um número exclusivo.

Cada coluna em um DataFrame é estruturada como uma matriz 2D, exceto que cada coluna pode receber o próprio tipo de dados.

Consulte também a página oficial de referência pandas.DataFrame.

conjunto de dados

#fundamentals

Uma coleção de dados brutos, geralmente (mas não exclusivamente) organizada em um destes formatos:

  • uma planilha
  • um arquivo no formato CSV (valores separados por vírgulas)

modelo profundo

#fundamentals

Uma rede neural que contém mais de uma camada oculta.

Um modelo profundo também é chamado de rede neural profunda.

Contraste com o modelo amplo.

atributo denso

#fundamentals

Uma característica em que a maioria ou todos os valores são diferentes de zero, normalmente um tensor de valores de ponto flutuante. Por exemplo, o Tensor de 10 elementos a seguir é denso porque 9 dos valores não são iguais a zero:

8 3 7 5 2 4 0 4 9 6

Compare com o recurso esparso.

profundidade

#fundamentals

A soma dos seguintes elementos em uma rede neural:

Por exemplo, uma rede neural com cinco camadas ocultas e uma camada de saída tem uma profundidade de 6.

A camada de entrada não influencia a profundidade.

atributo discreto

#fundamentals

Uma característica com um conjunto finito de valores possíveis. Por exemplo, um atributo cujos valores só podem ser animal, vegetal ou mineral é um atributo discreto (ou categórico).

Compare com o atributo contínuo.

dinâmico

#fundamentals

Algo feito com frequência ou continuamente. Os termos dinâmico e on-line são sinônimos no aprendizado de máquina. Confira a seguir usos comuns de dinâmico e on-line no aprendizado de máquina:

  • Um modelo dinâmico (ou modelo on-line) é um modelo que é treinado com frequência ou continuamente.
  • O treinamento dinâmico (ou treinamento on-line) é o processo de treinamento com frequência ou continuamente.
  • A inferência dinâmica (ou on-line) é o processo de gerar previsões sob demanda.

modelo dinâmico

#fundamentals

Um modelo que é frequentemente (talvez até continuamente) re treinado. Um modelo dinâmico é um "aprendiz para toda a vida" que se adapta constantemente aos dados em evolução. Um modelo dinâmico também é conhecido como um modelo on-line.

Compare com o modelo estático.

E

parada antecipada

#fundamentals

Um método de regularização que envolve o encerramento do treinamento antes de a perda de treinamento terminar de diminuir. Na parada antecipada, você interrompe intencionalmente o treinamento do modelo quando a perda em um conjunto de dados de validação começa a aumentar, ou seja, quando a generalização piora.

camada de embedding

#language
#fundamentals

Uma camada oculta especial que é treinada em um recurso categórico de alta dimensão para aprender gradualmente um vetor de incorporação de dimensão inferior. Uma camada de incorporação permite que uma rede neural seja treinada de maneira muito mais eficiente do que apenas com o recurso categórico de alta dimensão.

Por exemplo, o Earth atualmente oferece suporte a cerca de 73 mil espécies de árvores. Suponha que a espécie de árvore seja um atributo no modelo. Assim, a camada de entrada do modelo inclui um vetor único de 73.000 elementos. Por exemplo, baobab seria representado da seguinte maneira:

Uma matriz de 73.000 elementos. Os primeiros 6.232 elementos contêm o valor
     0. O próximo elemento contém o valor 1. Os 66.767 elementos finais contêm
     o valor zero.

Uma matriz de 73.000 elementos é muito longa. Se você não adicionar uma camada de incorporação ao modelo, o treinamento vai consumir muito tempo devido à multiplicação de 72.999 zeros. Talvez você escolha a camada de embedding para consistir em 12 dimensões. Consequentemente, a camada de incorporação vai aprender gradualmente um novo vetor de incorporação para cada espécie de árvore.

Em determinadas situações, a criação de hash é uma alternativa razoável para uma camada de incorporação.

Consulte Incorporações no Curso intensivo de machine learning para mais informações.

época

#fundamentals

Um treinamento completo em todo o conjunto de treinamento, de modo que cada exemplo seja processado uma vez.

Uma época representa N/tamanho do lote iterações de treinamento, em que N é o número total de exemplos.

Por exemplo, suponha o seguinte:

  • O conjunto de dados é composto por 1.000 exemplos.
  • O tamanho do lote é de 50 exemplos.

Portanto, uma única época requer 20 iterações:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Consulte Regressão linear: hiperparâmetros no Curso intensivo de machine learning para mais informações.

exemplo

#fundamentals

Os valores de uma linha de recursos e, possivelmente, um rótulo. Os exemplos de aprendizado supervisionado se dividem em duas categorias gerais:

  • Um exemplo rotulado consiste em um ou mais recursos e um rótulo. Os exemplos rotulados são usados durante o treinamento.
  • Um exemplo sem rótulo consiste em um ou mais recursos, mas sem rótulo. Os exemplos não rotulados são usados durante a inferência.

Por exemplo, suponha que você esteja treinando um modelo para determinar a influência das condições climáticas nas notas dos alunos. Confira três exemplos com rótulos:

Recursos Rótulo
Temperatura Umidade Pressão Pontuação do teste
15 47 998 Boa
19 34 1020 Excelente
18 92 1012 Ruim

Confira três exemplos sem rótulos:

Temperatura Umidade Pressão  
12 62 1014  
21 47 1017  
19 41 1021  

A linha de um conjunto de dados geralmente é a origem bruta de um exemplo. Ou seja, um exemplo geralmente consiste em um subconjunto das colunas no conjunto de dados. Além disso, os exemplos também podem incluir recursos sintéticos, como cruzamentos de atributos.

Consulte Aprendizagem supervisionada no curso Introdução ao Machine Learning para mais informações.

F

falso negativo (FN)

#fundamentals

Um exemplo em que o modelo prevê erroneamente a classe negativa. Por exemplo, o modelo prevê que uma mensagem de e-mail específica não é spam (a classe negativa), mas essa mensagem de e-mail na verdade é spam.

falso positivo (FP)

#fundamentals

Um exemplo em que o modelo prevê incorretamente a classe positiva. Por exemplo, o modelo prevê que uma mensagem de e-mail específica é spam (a classe positiva), mas essa mensagem de e-mail na verdade não é spam.

Consulte Limites e a matriz de confusão no Curso intensivo de machine learning para mais informações.

taxa de falso positivo (FPR)

#fundamentals

A proporção de exemplos negativos reais para os quais o modelo previu incorretamente a classe positiva. A fórmula a seguir calcula a taxa positiva falsa:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

A taxa de falsos positivos é o eixo x em uma curva ROC.

Consulte Classificação: ROC e AUC no Curso intensivo de machine learning para mais informações.

recurso

#fundamentals

Uma variável de entrada para um modelo de machine learning. Um exemplo consiste em um ou mais recursos. Por exemplo, suponha que você esteja treinando um modelo para determinar a influência das condições climáticas nas notas dos testes dos estudantes. A tabela a seguir mostra três exemplos, cada um com três recursos e um rótulo:

Recursos Rótulo
Temperatura Umidade Pressão Pontuação do teste
15 47 998 92
19 34 1020 84
18 92 1012 87

Contraste com o rótulo.

Consulte Aprendizagem supervisionada no curso Introdução ao aprendizado de máquina para mais informações.

cruzamento de atributos

#fundamentals

Um atributo sintético formado pelo "cruzamento" de atributos categóricos ou agrupados por classes.

Por exemplo, considere um modelo de "previsão de humor" que represente a temperatura em um dos quatro buckets a seguir:

  • freezing
  • chilly
  • temperate
  • warm

E representa a velocidade do vento em um dos três buckets a seguir:

  • still
  • light
  • windy

Sem cruzamentos de atributos, o modelo linear é treinado de forma independente em cada um dos sete buckets anteriores. Assim, o modelo é treinado em, por exemplo, freezing, independentemente do treinamento em, por exemplo, windy.

Como alternativa, você pode criar um cruzamento de atributos de temperatura e velocidade do vento. Esse recurso sintético teria os seguintes 12 valores possíveis:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Graças ao cruzamento de atributos, o modelo pode aprender as diferenças de humor entre um dia freezing-windy e um dia freezing-still.

Se você criar um atributo sintético a partir de dois atributos que têm muitos buckets diferentes, o cruzamento de atributos resultante terá um número enorme de combinações possíveis. Por exemplo, se um recurso tiver 1.000 buckets e o outro tiver 2.000, a interseção resultante terá 2.000.000 buckets.

Formalmente, uma interseção é um produto cartesiano.

As combinações de recursos são usadas principalmente com modelos lineares e raramente com redes neurais.

Consulte Dados categóricos: cruzamentos de características no Curso intensivo de machine learning para mais informações.

engenharia de atributos

#fundamentals
#TensorFlow

Um processo que envolve as seguintes etapas:

  1. Determinar quais recursos podem ser úteis no treinamento de um modelo.
  2. Converter dados brutos do conjunto de dados em versões eficientes desses atributos.

Por exemplo, você pode determinar que temperature pode ser um recurso útil. Em seguida, teste o agrupamento para otimizar o que o modelo pode aprender com diferentes intervalos de temperature.

Às vezes, a engenharia de atributos é chamada de extração de atributos ou featurização.

Consulte Dados numéricos: como um modelo ingere dados usando vetores de características no Curso intensivo de aprendizado de máquina para mais informações.

conjunto de recursos

#fundamentals

O grupo de atributos em que o modelo de aprendizado de máquina é treinado. Por exemplo, o CEP, o tamanho e a condição do imóvel podem fazer parte de um conjunto de recursos simples para um modelo que prevê os preços de imóveis.

vetor de recursos

#fundamentals

A matriz de valores de feature que compreende um exemplo. O vetor de recursos é inserido durante o treinamento e a inferência. Por exemplo, o vetor de recursos de um modelo com dois recursos discretos pode ser:

[0.92, 0.56]

Quatro camadas: uma de entrada, duas ocultas e uma de saída.
          A camada de entrada contém dois nós, um com o valor 0,92 e o outro com o valor 0,56.

Cada exemplo fornece valores diferentes para o vetor de atributos. Assim, o vetor de atributos do próximo exemplo pode ser algo como:

[0.73, 0.49]

A engenharia de atributos determina como representar atributos no vetor de atributos. Por exemplo, um atributo categórico binário com cinco valores possíveis pode ser representado com codificação one-hot. Nesse caso, a parte do vetor de características de um exemplo específico consistiria em quatro zeros e um único 1,0 na terceira posição, conforme mostrado abaixo:

[0.0, 0.0, 1.0, 0.0, 0.0]

Como outro exemplo, suponha que seu modelo consiste em três recursos:

  • um atributo categórico binário com cinco valores possíveis representados com codificação one-hot, por exemplo: [0.0, 1.0, 0.0, 0.0, 0.0]
  • outro atributo categórico binário com três valores possíveis representados com codificação one-hot. Por exemplo: [0.0, 0.0, 1.0]
  • uma característica de ponto flutuante, por exemplo: 8.3.

Nesse caso, o vetor de recursos de cada exemplo seria representado por nove valores. Considerando os valores de exemplo na lista anterior, o vetor de recursos seria:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Consulte Dados numéricos: como um modelo ingere dados usando vetores de características no Curso intensivo de aprendizado de máquina para mais informações.

ciclo de feedback

#fundamentals

No aprendizado de máquina, uma situação em que as previsões de um modelo influenciam os dados de treinamento do mesmo modelo ou de outro. Por exemplo, um modelo que recomende filmes vai influenciar os filmes que as pessoas assistem, o que vai influenciar os modelos de recomendação de filmes seguintes.

Consulte Sistemas de ML de produção: perguntas a fazer no Curso intensivo de aprendizado de máquina para mais informações.

G

generalização

#fundamentals

A capacidade de um modelo de fazer previsões corretas com dados novos e que não foram vistos anteriormente. Um modelo que pode ser generalizado é o oposto de um modelo que está overfitting.

Consulte Generalização no Curso intensivo de machine learning para mais informações.

curva de generalização

#fundamentals

Um gráfico da perda de treinamento e da perda de validação como uma função do número de iterações.

Uma curva de generalização pode ajudar a detectar possíveis ajustes excessivos. Por exemplo, a curva de generalização a seguir sugere um ajuste excessivo porque a perda de validação acaba se tornando significativamente maior que a perda de treinamento.

Um gráfico cartesiano em que o eixo y é rotulado como &quot;perda&quot; e o eixo x é rotulado como &quot;iterações&quot;. Duas parcelas aparecem. Um gráfico mostra a perda de treinamento e o outro mostra a perda de validação.
          As duas representações começam de maneira semelhante, mas a perda de treinamento diminui muito mais do que a perda de validação.

Consulte Generalização no Curso intensivo de machine learning para mais informações.

gradiente descendente

#fundamentals

Uma técnica matemática para minimizar a perda. O gradiente descendente ajusta iterativamente pesos e viés, encontrando gradualmente a melhor combinação para minimizar a perda.

A regressão linear é mais antiga do que o machine learning.

Consulte Regressão linear: gradiente de descida no Curso intensivo de machine learning para mais informações.

informações empíricas

#fundamentals

Realidade.

O que realmente aconteceu.

Por exemplo, considere um modelo de classificação binária que prevê se um estudante no primeiro ano da universidade se formará em até seis anos. A verdade para esse modelo é se o estudante se formou ou não em seis anos.

H

camada oculta

#fundamentals

Uma camada em uma rede neural entre a camada de entrada (os atributos) e a camada de saída (a previsão). Cada camada oculta consiste em um ou mais neurônios. Por exemplo, a rede neural a seguir contém duas camadas ocultas, a primeira com três neurônios e a segunda com dois neurônios:

Quatro camadas. A primeira camada é uma camada de entrada que contém dois
          recursos. A segunda camada é uma camada oculta que contém três
          neurônios. A terceira camada é uma camada oculta que contém dois neurônios. A quarta camada é uma camada de saída. Cada elemento
          contém três arestas, cada uma apontando para um neurônio diferente
          na segunda camada. Cada um dos neurônios da segunda camada
          contém duas bordas, cada uma apontando para um neurônio diferente
          na terceira camada. Cada um dos neurônios na terceira camada contém
          uma borda, cada uma apontando para a camada de saída.

Uma rede neural profunda contém mais de uma camada oculta. Por exemplo, a ilustração anterior é uma rede neural profunda porque o modelo contém duas camadas ocultas.

Consulte Redes neurais: nós e camadas ocultas no Curso intensivo de machine learning para mais informações.

hiperparâmetro

#fundamentals

As variáveis que você ou um serviço de ajuste de hiperparâmetro ajusta durante execuções sucessivas de treinamento de um modelo. Por exemplo, taxa de aprendizado é um hiperparâmetro. Você pode definir a taxa de aprendizado como 0,01 antes de uma sessão de treinamento. Se você determinar que 0,01 é muito alto, talvez seja possível definir a taxa de aprendizado como 0,003 para a próxima sessão de treinamento.

Por outro lado, os parâmetros são os vários pesos e viés que o modelo aprende durante o treinamento.

Consulte Regressão linear: hiperparâmetros no Curso intensivo de machine learning para mais informações.

I

independente e distribuído de maneira idêntica (IID)

#fundamentals

Dados extraídos de uma distribuição que não muda e em que cada valor extraído não depende de valores extraídos anteriormente. Uma i.i.d. é o gás ideal do aprendizado de máquina, uma construção matemática útil, mas que quase nunca é encontrada no mundo real. Por exemplo, a distribuição de visitantes de uma página da Web pode ser i.i.d. em um breve período, ou seja, a distribuição não muda durante esse período e a visita de uma pessoa geralmente é independente da visita de outra. No entanto, se você expandir esse período, pode haver diferenças sazonais nos visitantes da página da Web.

Consulte também não estacionária.

inferência

#fundamentals

Em machine learning, o processo de fazer previsões aplicando um modelo treinado a exemplos não rotulados.

A inferência tem um significado um pouco diferente nas estatísticas. Consulte o artigo da Wikipédia sobre inferência estatística para mais detalhes.

Consulte Aprendizagem supervisionada no curso de Introdução ao aprendizado de máquina para saber qual é o papel da inferência em um sistema de aprendizagem supervisionada.

camada de entrada

#fundamentals

A camada de uma rede neural que armazena o vetor de atributos. Ou seja, a camada de entrada fornece exemplos para treinamento ou inferência. Por exemplo, a camada de entrada na rede neural a seguir consiste em dois recursos:

Quatro camadas: uma de entrada, duas escondidas e uma de saída.

interpretabilidade

#fundamentals

A capacidade de explicar ou apresentar o raciocínio de um modelo de ML em termos compreensíveis para as pessoas.

A maioria dos modelos de regressão linear, por exemplo, são altamente interpretáveis. Você só precisa olhar os pesos treinados para cada atributo. As florestas de decisão também são altamente interpretáveis. No entanto, alguns modelos exigem uma visualização sofisticada para serem interpretados.

Você pode usar a Ferramenta de aprendizado de interpretabilidade (LIT) para interpretar modelos de ML.

iteração

#fundamentals

Uma única atualização dos parâmetros de um modelo, ou seja, os pesos e vieses do modelo durante o treinamento. O tamanho do lote determina quantos exemplos o modelo processa em uma única iteração. Por exemplo, se o tamanho do lote for 20, o modelo processará 20 exemplos antes de ajustar os parâmetros.

Ao treinar uma rede neural, uma única iteração envolve as duas passagens a seguir:

  1. Uma passagem para frente para avaliar a perda em um único lote.
  2. Uma passagem reversa (backpropagation) para ajustar os parâmetros do modelo com base na perda e na taxa de aprendizado.

L

Regularização de L0

#fundamentals

Um tipo de regularização que penaliza o número total de pesos diferentes de zero em um modelo. Por exemplo, um modelo com 11 pesos diferentes de zero seria penalizado mais do que um modelo semelhante com 10 pesos diferentes de zero.

A regularização L0 às vezes é chamada de regularização de norma L0.

Perda L1

#fundamentals

Uma função de perda que calcula o valor absoluto da diferença entre os valores reais de rótulo e os valores que um modelo prevê. Por exemplo, confira o cálculo da perda de L1 para um lote de cinco exemplos:

Valor real do exemplo Valor previsto do modelo Valor absoluto de delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perda L1

A perda L1 é menos sensível a outliers do que a perda L2.

O erro médio absoluto é a perda média de L1 por exemplo.

Regularização de L1

#fundamentals

Um tipo de regularização que penaliza ponderações na proporção da soma do valor absoluto delas. A regularização L1 ajuda a direcionar os pesos de atributos irrelevantes ou pouco relevantes para exatamente 0. Um recurso com um peso de 0 é efetivamente removido do modelo.

Compare com a regularização L2.

Perda L2

#fundamentals

Uma função de perda que calcula o quadrado da diferença entre os valores reais do rótulo e os valores que um modelo prevê. Por exemplo, confira o cálculo da perda de L2 para um lote de cinco exemplos:

Valor real do exemplo Valor previsto do modelo Quadrado de delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = perda L2

Devido ao quadrado, a perda de L2 amplifica a influência de valores discrepantes. Ou seja, a perda L2 reage com mais força a previsões ruins do que a perda L1. Por exemplo, a perda de L1 para o lote anterior seria 8 em vez de 16. Observe que um único valor fora da curva representa 9 dos 16.

Os modelos de regressão geralmente usam a perda L2 como a função de perda.

O erro quadrático médio é a perda L2 média por exemplo. Perda ao quadrado é outro nome para a perda L2.

Regularização de L2

#fundamentals

Um tipo de regularização que penaliza ponderações na proporção da soma dos quadrados delas. A regularização L2 ajuda a levar os pesos de valores discrepantes (aqueles com valores positivos altos ou negativos baixos) para mais perto de 0, mas não exatamente para 0. Os atributos com valores muito próximos de 0 permanecem no modelo, mas não influenciam muito a previsão do modelo.

A regularização L2 sempre melhora a generalização em modelos lineares.

Compare com a regularização L1.

o rótulo.

#fundamentals

No machine learning supervisionado, a parte "resposta" ou "resultado" de um exemplo.

Cada exemplo rotulado consiste em um ou mais recursos e um rótulo. Por exemplo, em um conjunto de dados de detecção de spam, o rótulo provavelmente será "spam" ou "não spam". Em um conjunto de dados de chuva, o rótulo pode ser a quantidade de chuva que caiu durante um determinado período.

exemplo rotulado

#fundamentals

Um exemplo que contém um ou mais recursos e um rótulo. Por exemplo, a tabela a seguir mostra três exemplos rotulados de um modelo de avaliação de casas, cada um com três recursos e um rótulo:

Número de quartos Número de banheiros Idade da casa Preço da casa (rótulo)
3 2 15 US$ 345.000
2 1 72 US$ 179.000
4 2 34 US$ 392.000

No aprendizado de máquina supervisionado, os modelos são treinados em exemplos rotulados e fazem previsões em exemplos não rotulados.

Contraste o exemplo rotulado com exemplos não rotulados.

lambda

#fundamentals

Sinônimo de taxa de regularização.

Lambda é um termo sobrecarregado. Aqui, estamos nos concentrando na definição do termo em regularização.

layer

#fundamentals

Um conjunto de neurônios em uma rede neural. Três tipos comuns de camadas são:

Por exemplo, a ilustração a seguir mostra uma rede neural com uma camada de entrada, duas camadas ocultas e uma camada de saída:

Uma rede neural com uma camada de entrada, duas camadas ocultas e uma
          camada de saída. A camada de entrada consiste em dois elementos. A primeira camada oculta consiste em três neurônios, e a segunda camada oculta consiste em dois neurônios. A camada de saída consiste em um único nó.

No TensorFlow, as camadas também são funções do Python que usam Tensors e opções de configuração como entrada e produzem outros tensors como saída.

taxa de aprendizado

#fundamentals

Um número de ponto flutuante que informa ao algoritmo de gradiente descendente como ajustar os pesos e viés em cada iteração. Por exemplo, uma taxa de aprendizado de 0,3 ajustaria pesos e vieses três vezes mais do que uma taxa de aprendizado de 0,1.

A taxa de aprendizado é um hiperparâmetro importante. Se você definir a taxa de aprendizado muito baixa, o treinamento vai demorar muito. Se a taxa de aprendizado for definida como muito alta, o gradiente descendente geralmente terá problemas para alcançar a convergência.

linear

#fundamentals

Uma relação entre duas ou mais variáveis que pode ser representada apenas por adição e multiplicação.

O gráfico de uma relação linear é uma linha.

Contraste com não linear.

modelo linear

#fundamentals

Um modelo que atribui um peso por recurso para fazer previsões. Os modelos lineares também incorporam um viés. Por outro lado, a relação entre os recursos e as previsões em modelos profundos geralmente é não linear.

Os modelos lineares geralmente são mais fáceis de treinar e mais interpretáveis do que os modelos profundos. No entanto, os modelos profundos podem aprender relações complexas entre os recursos.

Regressão linear e regressão logística são dois tipos de modelos lineares.

regressão linear

#fundamentals

Um tipo de modelo de aprendizado de máquina em que as seguintes condições são verdadeiras:

  • O modelo é linear.
  • A previsão é um valor de ponto flutuante. Essa é a parte de regressão da regressão linear.

Compare a regressão linear com a regressão logística. Além disso, compare a regressão com a classificação.

Regressão logística

#fundamentals

Um tipo de modelo de regressão que prevê uma probabilidade. Os modelos de regressão logística têm as seguintes características:

  • O rótulo é categórico. O termo "regressão logística" geralmente se refere à regressão logística binária, ou seja, a um modelo que calcula as probabilidades de rótulos com dois valores possíveis. Uma variante menos comum, a regressão logística multinomial, calcula as probabilidades de rótulos com mais de dois valores possíveis.
  • A função de perda durante o treinamento é Log Loss. Várias unidades de perda de registro podem ser colocadas em paralelo para rótulos com mais de dois valores possíveis.
  • O modelo tem uma arquitetura linear, não uma rede neural profunda. No entanto, o restante desta definição também se aplica a modelos profundos que preveem probabilidades para rótulos categóricos.

Por exemplo, considere um modelo de regressão logística que calcula a probabilidade de um e-mail de entrada ser spam ou não. Durante a inferência, suponha que o modelo prevê 0,72. Portanto, o modelo está estimando:

  • Uma chance de 72% de que o e-mail seja spam.
  • Uma chance de 28% de o e-mail não ser spam.

Um modelo de regressão logística usa a seguinte arquitetura em duas etapas:

  1. O modelo gera uma previsão bruta (y') aplicando uma função linear de atributos de entrada.
  2. O modelo usa essa previsão bruta como entrada para uma função sigmoide, que converte a previsão bruta em um valor entre 0 e 1, exclusivo.

Como qualquer modelo de regressão, um modelo de regressão logística prevê um número. No entanto, esse número geralmente se torna parte de um modelo de classificação binária da seguinte maneira:

  • Se o número previsto for maior do que o limite de classificação, o modelo de classificação binária vai prever a classe positiva.
  • Se o número previsto for menor do que o limite de classificação, o modelo de classificação binária vai prever a classe negativa.

Log Perda

#fundamentals

A função de perda usada na regressão logística binária.

log-odds

#fundamentals

O logaritmo das probabilidades de algum evento.

perda

#fundamentals

Durante o treinamento de um modelo supervisionado, uma medida de quão distante a previsão de um modelo está do rótulo.

Uma função de perda calcula a perda.

curva de perda

#fundamentals

Um gráfico de perda em função do número de iterações de treinamento. O gráfico a seguir mostra uma curva de perda típica:

Um gráfico cartesiano de perda em relação às iterações de treinamento, mostrando uma
          queda rápida na perda das iterações iniciais, seguida por uma queda
          gradual e, em seguida, uma inclinação plana durante as iterações finais.

As curvas de perda podem ajudar a determinar quando o modelo está convergendo ou com overfitting.

As curvas de perda podem representar todos os seguintes tipos de perda:

Consulte também curva de generalização.

função de perda

#fundamentals

Durante o treinamento ou teste, uma função matemática que calcula a perda em um lote de exemplos. Uma função de perda retorna uma perda menor para modelos que fazem boas previsões do que para modelos que fazem previsões ruins.

O objetivo do treinamento é normalmente minimizar a perda retornada por uma função de perda.

Existem muitos tipos diferentes de funções de perda. Escolha a função de perda adequada para o tipo de modelo que você está criando. Exemplo:

M

machine learning

#fundamentals

Um programa ou sistema que treina um modelo com base nos dados de entrada. O modelo treinado pode fazer previsões úteis com dados novos (nunca acessados) coletados da mesma distribuição usada para treinar o modelo.

O aprendizado de máquina também se refere ao campo de estudo relacionado a esses programas ou sistemas.

classe majoritária

#fundamentals

O rótulo mais comum em um conjunto de dados não balanceado. Por exemplo, considerando um conjunto de dados com 99% de rótulos negativos e 1% de rótulos positivos, os rótulos negativos são a classe majoritária.

Contraste com a classe minoritária.

minilote

#fundamentals

Um subconjunto pequeno e selecionado aleatoriamente de um lote processado em uma iteração. O tamanho do lote de um minilote geralmente fica entre 10 e 1.000 exemplos.

Por exemplo, suponha que todo o conjunto de treinamento (o lote completo) consista de 1.000 exemplos. Suponha também que você defina o tamanho do lote de cada minilote como 20. Portanto, cada iteração determina a perda em 20 dos 1.000 exemplos aleatórios e, em seguida, ajusta os pesos e viés.

É muito mais eficiente calcular a perda em um minilote do que a perda em todos os exemplos do lote completo.

classe minoritária

#fundamentals

O rótulo menos comum em um conjunto de dados com classes desequilibradas. Por exemplo, considerando um conjunto de dados com 99% de rótulos negativos e 1% de rótulos positivos, os rótulos positivos são a classe minoritária.

Contraste com a classe de maioria.

modelo

#fundamentals

Em geral, qualquer construção matemática que processa dados de entrada e retorna a saída. Em outras palavras, um modelo é o conjunto de parâmetros e estrutura necessário para que um sistema faça previsões. No machine learning supervisionado, um modelo usa um exemplo como entrada e infere uma previsão como saída. No aprendizado de máquina supervisionado, os modelos são um pouco diferentes. Exemplo:

  • Um modelo de regressão linear consiste em um conjunto de pesos e uma polarização.
  • Um modelo de rede neural consiste em:
  • Um modelo de árvore de decisão consiste em:
    • A forma da árvore, ou seja, o padrão em que as condições e as folhas estão conectadas.
    • As condições e as folhas.

Você pode salvar, restaurar ou fazer cópias de um modelo.

O aprendizado de máquina não supervisionado também gera modelos, normalmente uma função que pode mapear um exemplo de entrada para o cluster mais adequado.

classificação multiclasse

#fundamentals

No aprendizado supervisionado, um problema de classificação em que o conjunto de dados contém mais de duas classes de rótulos. Por exemplo, os rótulos no conjunto de dados Iris precisam ser uma das três classes a seguir:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Um modelo treinado no conjunto de dados Iris que prevê o tipo de íris em novos exemplos está realizando a classificação multiclasse.

Por outro lado, os problemas de classificação que distinguem exatamente duas classes são modelos de classificação binária. Por exemplo, um modelo de e-mail que prevê spam ou não spam é um modelo de classificação binária.

Em problemas de agrupamento, a classificação multiclasse se refere a mais de dois clusters.

N

classe negativa

#fundamentals

Na classificação binária, uma classe é chamada de positiva e a outra é negativa. A classe positiva é a coisa ou o evento que o modelo está testando, e a classe negativa é a outra possibilidade. Exemplo:

  • A classe negativa em um teste médico pode ser "não tumor".
  • A classe negativa em um classificador de e-mails pode ser "não spam".

Contraste com a classe positiva.

do feedforward

#fundamentals

Um modelo contendo pelo menos uma camada oculta. Uma rede neural profunda é um tipo de rede neural que contém mais de uma camada oculta. Por exemplo, o diagrama a seguir mostra uma rede neural profunda contendo duas camadas ocultas.

Uma rede neural com uma camada de entrada, duas camadas escondidas e uma
          camada de saída.

Cada neurônio de uma rede neural se conecta a todos os nós da próxima camada. Por exemplo, no diagrama anterior, observe que cada um dos três neurônios na primeira camada oculta se conecta separadamente aos dois neurônios na segunda camada oculta.

As redes neurais implementadas em computadores às vezes são chamadas de redes neurais artificiais para diferenciá-las das redes neurais encontradas no cérebro e em outros sistemas nervosos.

Algumas redes neurais podem imitar relações não lineares extremamente complexas entre diferentes recursos e o rótulo.

Consulte também rede neural convolucional e rede neural recorrente.

neurônio

#fundamentals

No aprendizado de máquina, uma unidade distinta em uma camada oculta de uma rede neural. Cada neurônio executa a seguinte ação em duas etapas:

  1. Calcula a soma ponderada dos valores de entrada multiplicados pelos pesos correspondentes.
  2. Transmite a soma ponderada como entrada para uma função de ativação.

Um neurônio na primeira camada oculta aceita entradas dos valores de atributos na camada de entrada. Um neurônio em qualquer camada oculta além da primeira aceita entradas dos neurônios na camada oculta anterior. Por exemplo, um neurônio na segunda camada oculta aceita entradas dos neurônios na primeira camada oculta.

A ilustração a seguir destaca dois neurônios e as respectivas entradas.

Uma rede neural com uma camada de entrada, duas camadas escondidas e uma
          camada de saída. Dois neurônios são destacados: um na primeira
          camada oculta e outro na segunda. O neurônio
          destacado na primeira camada oculta recebe entradas dos dois elementos
          na camada de entrada. O neurônio destacado na segunda camada oculta
          recebe entradas de cada um dos três neurônios na primeira camada
          oculta.

Um neurônio em uma rede neural imita o comportamento de neurônios no cérebro e em outras partes do sistema nervoso.

nó (rede neural)

#fundamentals

Um neurônio em uma camada escondida.

não linear

#fundamentals

Uma relação entre duas ou mais variáveis que não pode ser representada apenas por adição e multiplicação. Uma relação linear pode ser representada como uma linha. Uma relação não linear não pode ser representada como uma linha. Por exemplo, considere dois modelos que relacionam um único recurso a um único rótulo. O modelo à esquerda é linear, e o da direita é não linear:

Duas parcelas. Um gráfico é uma linha, então essa é uma relação linear.
          O outro gráfico é uma curva, então essa é uma relação não linear.

não estacionariedade

#fundamentals

Um recurso cujos valores mudam em uma ou mais dimensões, geralmente tempo. Por exemplo, considere os seguintes exemplos de não estacionariedades:

  • O número de maiôs vendidos em uma loja específica varia de acordo com a estação.
  • A quantidade de uma fruta específica colhida em uma região específica é zero durante grande parte do ano, mas é grande por um breve período.
  • Devido às mudanças climáticas, as temperaturas médias anuais estão mudando.

Contraste com a estabilidade.

normalização

#fundamentals

De modo geral, o processo de conversão do intervalo real de valores de uma variável em um intervalo padrão de valores, como:

  • -1 a +1
  • 0 a 1
  • Valores Z (aproximadamente -3 a +3)

Por exemplo, suponha que o intervalo real de valores de um determinado recurso seja 800 a 2.400. Como parte da engenharia de recursos, é possível normalizar os valores reais para um intervalo padrão, como -1 a +1.

A normalização é uma tarefa comum em engenharia de recursos. Os modelos geralmente são treinados mais rapidamente (e produzem previsões melhores) quando cada atributo numérico no vetor de atributos tem aproximadamente o mesmo intervalo.

Consulte o módulo "Como trabalhar com dados numéricos" do Curso intensivo de machine learning para mais detalhes. Consulte também Normalização de Z-score.

dados numéricos

#fundamentals

Recursos representados como números inteiros ou reais. Por exemplo, um modelo de avaliação de imóveis provavelmente representa o tamanho de uma casa (em metros quadrados ou pés quadrados) como dados numéricos. A representação de um elemento como dados numéricos indica que os valores do elemento têm uma relação matemática com o rótulo. Ou seja, o número de metros quadrados em uma casa provavelmente tem alguma relação matemática com o valor da casa.

Nem todos os dados inteiros precisam ser representados como dados numéricos. Por exemplo, códigos postais em algumas partes do mundo são inteiros. No entanto, códigos postais inteiros não podem ser representados como dados numéricos em modelos. Isso ocorre porque um código postal de 20000 não é duas vezes (ou metade) mais potente que um código postal de 10000. Além disso, embora diferentes códigos postais se correlacionem a diferentes valores imobiliários, não podemos presumir que os valores imobiliários no código postal 20000 são duas vezes mais valiosos do que os valores imobiliários no código postal 10000. Os códigos postais precisam ser representados como dados categóricos.

Às vezes, os recursos numéricos são chamados de recursos contínuos.

O

off-line

#fundamentals

Sinônimo de static.

inferência off-line

#fundamentals

O processo de um modelo gerar um lote de previsões e armazenar essas previsões em cache. Os apps podem acessar a previsão inferida do cache em vez de executar o modelo novamente.

Por exemplo, considere um modelo que gera previsões meteorológicas locais (previsões) uma vez a cada quatro horas. Após cada execução do modelo, o sistema armazena em cache todas as previsões do tempo locais. Os apps de clima extraem as previsões do cache.

A inferência off-line também é chamada de inferência estática.

Compare com a inferência on-line.

codificação one-hot

#fundamentals

Representação de dados categóricos como um vetor em que:

  • Um elemento está definido como 1.
  • Todos os outros elementos são definidos como 0.

A codificação simples é comumente usada para representar strings ou identificadores que têm um conjunto finito de valores possíveis. Por exemplo, suponha que um recurso categórico chamado Scandinavia tenha cinco valores possíveis:

  • "Dinamarca"
  • "Suécia"
  • "Noruega"
  • "Finlândia"
  • "Islândia"

A codificação One-hot pode representar cada um dos cinco valores da seguinte maneira:

país Vetor
"Dinamarca" 1 0 0 0 0
"Suécia" 0 1 0 0 0
"Noruega" 0 0 1 0 0
"Finlândia" 0 0 0 1 0
"Islândia" 0 0 0 0 1

Graças à codificação one-hot, um modelo pode aprender conexões diferentes com base em cada um dos cinco países.

Representar um atributo como dados numéricos é uma alternativa à codificação one-hot. Infelizmente, representar os países escandinavos numericamente não é uma boa escolha. Por exemplo, considere a seguinte representação numérica:

  • "Dinamarca" é 0
  • "Suécia" é 1
  • "Norway" é 2
  • "Finlândia" é 3
  • "Iceland" é 4

Com a codificação numérica, um modelo interpreta os números brutos de maneira matemática e tenta treinar com esses números. No entanto, a Islândia não é duas vezes maior (ou metade) de algo como a Noruega, então o modelo chegaria a algumas conclusões estranhas.

um-contra-todos

#fundamentals

Dado um problema de classificação com N classes, uma solução consiste em N classificadores binários separados, um para cada resultado possível. Por exemplo, dado um modelo que classifica exemplos como animal, vegetal ou mineral, uma solução um-contra-todos forneceria os seguintes três classificadores binários separados:

  • animal versus não animal
  • vegetal versus não vegetal
  • mineral versus não mineral

on-line

#fundamentals

Sinônimo de dinâmico.

inferência on-line

#fundamentals

Geração de previsões sob demanda. Por exemplo, suponha que um app transmita uma entrada para um modelo e emita uma solicitação para uma previsão. Um sistema que usa a inferência on-line responde à solicitação executando o modelo (e retornando a previsão para o app).

Compare com a inferência off-line.

camada final

#fundamentals

A camada "final" de uma rede neural. A camada de saída contém a previsão.

A ilustração a seguir mostra uma pequena rede neural profunda com uma camada de entrada, duas camadas ocultas e uma camada de saída:

Uma rede neural com uma camada de entrada, duas camadas ocultas e uma
          camada de saída. A camada de entrada consiste em dois elementos. A primeira camada oculta consiste em três neurônios, e a segunda camada oculta consiste em dois neurônios. A camada de saída consiste em um único nó.

overfitting

#fundamentals

Criar um modelo que corresponda aos dados de treinamento de forma tão precisa que o modelo não consiga fazer previsões corretas em novos dados.

A regularização pode reduzir o ajuste excessivo. O treinamento em um conjunto de treinamento grande e diversificado também pode reduzir o overfitting.

P

pandas

#fundamentals

Uma API de análise de dados orientada por colunas criada com base em numpy. Muitos frameworks de aprendizado de máquina, incluindo o TensorFlow, oferecem suporte a estruturas de dados do Pandas como entradas. Consulte a documentação do pandas para saber mais.

parâmetro

#fundamentals

Os pesos e vieses que um modelo aprende durante o treinamento. Por exemplo, em um modelo de regressão linear, os parâmetros consistem na viés (b) e em todos os pesos (w1, w2 e assim por diante) na seguinte fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Por outro lado, hiperparâmetro são os valores que você (ou um serviço de ajuste de hiperparâmetros) fornece ao modelo. Por exemplo, a taxa de aprendizado é um hiperparâmetro.

classe positiva

#fundamentals

A classe que você está testando.

Por exemplo, a classe positiva em um modelo de câncer pode ser "tumor". A classe positiva em um classificador de e-mails pode ser "spam".

Contraste com a classe negativa.

pós-processamento

#fairness
#fundamentals

Ajustar a saída de um modelo após a execução dele. O pós-processamento pode ser usado para aplicar restrições de justiça sem modificar os modelos.

Por exemplo, é possível aplicar o pós-processamento a um classificador binário definindo um limite de classificação para que a igualdade de oportunidades seja mantida para algum atributo, verificando se a taxa de verdadeiros positivos é a mesma para todos os valores desse atributo.

previsão

#fundamentals

A saída de um modelo. Exemplo:

  • A previsão de um modelo de classificação binária é a classe positiva ou a classe negativa.
  • A previsão de um modelo de classificação multiclasse é uma classe.
  • A previsão de um modelo de regressão linear é um número.

rótulos de proxy

#fundamentals

Dados usados para aproximar rótulos que não estão diretamente disponíveis em um conjunto de dados.

Por exemplo, suponha que você precise treinar um modelo para prever o nível de estresse do funcionário. Seu conjunto de dados contém muitos recursos preditivos, mas não tem um rótulo chamado nível de estresse. Sem medo, você escolhe "acidentes no local de trabalho" como um marcador para o nível de estresse. Afinal, funcionários sob alto estresse sofrem mais acidentes do que funcionários calmos. Ou não? Talvez os acidentes no local de trabalho aumentem e diminuam por vários motivos.

Como segundo exemplo, suponha que você queira que está chovendo? seja um rótulo booleano para seu conjunto de dados, mas ele não contém dados de chuva. Se fotos estiverem disponíveis, você pode estabelecer fotos de pessoas carregando guarda-chuvas como um rótulo de proxy para está chovendo? Essa é uma boa rotulação indireta? Talvez, mas as pessoas em algumas culturas podem estar mais propensas a carregar guarda-chuvas para se proteger do sol do que da chuva.

Os rótulos de proxy nem sempre são perfeitos. Sempre que possível, escolha rótulos reais em vez de rótulos de proxy. No entanto, quando um rótulo real não está presente, escolha o rótulo de proxy com muito cuidado, escolhendo o candidato de rótulo de proxy menos horrível.

R

RAG

#fundamentals

Abreviação de geração aumentada de recuperação.

rotulador

#fundamentals

Uma pessoa que fornece rótulos para exemplos. "Comentarista" é outro nome para avaliador.

Unidade linear retificada (ReLU)

#fundamentals

Uma função de ativação com o seguinte comportamento:

  • Se a entrada for negativa ou zero, a saída será 0.
  • Se a entrada for positiva, a saída será igual à entrada.

Exemplo:

  • Se a entrada for -3, a saída será 0.
  • Se a entrada for +3, a saída será 3,0.

Confira um gráfico de ReLU:

Um gráfico cartesiano de duas linhas. A primeira linha tem um valor y constante
          de 0, percorrendo o eixo x de -infinito,0 a 0,-0.
          A segunda linha começa em 0,0. Essa linha tem uma inclinação de +1, então
          ela vai de 0,0 a +infinito,+infinito.

A ReLU é uma função de ativação muito conhecida. Apesar do comportamento simples, a ReLU ainda permite que uma rede neural aprenda relações não lineares entre atributos e o rótulo.

modelo de regressão

#fundamentals

Informalmente, um modelo que gera uma previsão numérica. Em contraste, um modelo de classificação gera uma previsão de classe. Por exemplo, os modelos de regressão a seguir:

  • Um modelo que prevê o valor de uma determinada casa em euros, como 423.000.
  • Um modelo que prevê a expectativa de vida de uma determinada árvore em anos, como 23,2.
  • Um modelo que prevê a quantidade de chuva em polegadas que vai cair em uma determinada cidade nas próximas seis horas, como 0,18.

Dois tipos comuns de modelos de regressão são:

  • Regressão linear, que encontra a linha que melhor se ajusta aos valores de rótulos e aos recursos.
  • Regressão logística, que gera uma probabilidade entre 0,0 e 1,0 que um sistema normalmente mapeia para uma previsão de classe.

Nem todo modelo que gera previsões numéricas é um modelo de regressão. Em alguns casos, uma previsão numérica é apenas um modelo de classificação que tem nomes de classes numéricos. Por exemplo, um modelo que prevê um código postal numérico é um modelo de classificação, não de regressão.

regularização

#fundamentals

Qualquer mecanismo que reduza a sobreajustar. Os tipos mais comuns de regularização incluem:

A regularização também pode ser definida como a penalidade na complexidade de um modelo.

taxa de regularização

#fundamentals

Um número que especifica a importância relativa da regularização durante o treinamento. Aumentar a taxa de regularização reduz o overfitting, mas pode reduzir o poder de previsão do modelo. Por outro lado, reduzir ou omitir a taxa de regularização aumenta o ajuste excessivo.

ReLU

#fundamentals

Abreviação de Unidade linear retificada.

geração aumentada de recuperação (RAG)

#fundamentals

Uma técnica para melhorar a qualidade da saída de um modelo de linguagem grande (LLM) com base em fontes de conhecimento recuperadas após o treinamento do modelo. A RAG melhora a precisão das respostas do LLM, fornecendo ao LLM treinado acesso a informações recuperadas de bases de conhecimento ou documentos confiáveis.

Motivações comuns para usar a geração aumentada de recuperação incluem:

  • Aumentar a precisão factual das respostas geradas por um modelo.
  • Dar ao modelo acesso a conhecimento que ele não foi treinado.
  • Mudar o conhecimento usado pelo modelo.
  • Ativar o modelo para citar fontes.

Por exemplo, suponha que um app de química use a API PaLM para gerar resumos relacionados às consultas do usuário. Quando o back-end do app recebe uma consulta, ele:

  1. Pesquisa ("recupera") dados relevantes para a consulta do usuário.
  2. Anexar ("aumentar") os dados de química relevantes à consulta do usuário.
  3. Instrui o LLM a criar um resumo com base nos dados anexados.

Curva ROC

#fundamentals

Um gráfico de taxa de verdadeiro positivo em comparação com a taxa de falso positivo para diferentes limites de classificação na classificação binária.

A forma de uma curva ROC sugere a capacidade de um modelo de classificação binária de separar classes positivas de classes negativas. Suponha, por exemplo, que um modelo de classificação binária separe perfeitamente todas as classes negativas de todas as classes positivas:

Uma linha numérica com 8 exemplos positivos à direita e
          7 exemplos negativos à esquerda.

A curva ROC para o modelo anterior é assim:

Uma curva ROC. O eixo x é a taxa de falsos positivos, e o eixo y é a taxa de verdadeiros positivos. A curva tem um formato de L invertido. A curva
          começa em (0.0,0.0) e vai direto para (0.0,1.0). Em seguida, a curva
          vai de (0.0,1.0) para (1.0,1.0).

Em contraste, a ilustração a seguir mostra os valores da regressão logística bruta para um modelo ruim que não consegue separar classes negativas de classes positivas:

Uma linha numérica com exemplos positivos e classes negativas
          completamente misturadas.

A curva ROC desse modelo é a seguinte:

Uma curva ROC, que é uma linha reta de (0,0,0)
          a (1,0,1).

Enquanto isso, no mundo real, a maioria dos modelos de classificação binária separa as classes positivas e negativas em algum nível, mas geralmente não de forma perfeita. Portanto, uma curva ROC típica fica entre os dois extremos:

Uma curva ROC. O eixo x é a taxa de falsos positivos, e o eixo y é a taxa de verdadeiros positivos. A curva ROC aproxima um arco instável
          que atravessa os pontos da bússola de oeste para norte.

O ponto em uma curva ROC mais próximo de (0,0,1,0) identifica teoricamente o limite de classificação ideal. No entanto, vários outros problemas reais influenciam a seleção do limite de classificação ideal. Por exemplo, talvez os falsos negativos causem muito mais dor do que os falsos positivos.

Uma métrica numérica chamada AUC resume a curva ROC em um único valor de ponto flutuante.

Raiz do erro quadrático médio (RMSE)

#fundamentals

A raiz quadrada do erro quadrático médio.

S

função sigmoide

#fundamentals

Uma função matemática que "comprime" um valor de entrada em um intervalo restrito, normalmente de 0 a 1 ou de -1 a +1. Ou seja, você pode transmitir qualquer número (dois, um milhão, um bilhão negativo, qualquer coisa) para uma sigmoid, e a saída ainda estará no intervalo restrito. Um gráfico da função de ativação sigmoid tem esta aparência:

Um gráfico bidimensional com valores x que variam de -infinito a +positivo, enquanto os valores y variam de quase 0 a quase 1. Quando x é 0, y é 0,5. A inclinação da curva é sempre
          positiva, com a inclinação mais alta em 0,0,5 e inclinações decrescentes
          à medida que o valor absoluto de x aumenta.

A função sigmoide tem vários usos no aprendizado de máquina, incluindo:

softmax

#fundamentals

Uma função que determina as probabilidades de cada classe possível em um modelo de classificação multiclasse. As probabilidades somam exatamente 1,0. Por exemplo, a tabela a seguir mostra como o softmax distribui várias probabilidades:

A imagem é um... Probabilidade
cachorro 0,85
gato 0,13
cavalo 0,02

A softmax também é chamada de softmax completa.

Compare com a amostragem de candidatos.

atributo esparso

#language
#fundamentals

Um elemento cujos valores são predominantemente nulos ou vazios. Por exemplo, um recurso que contém um único valor 1 e um milhão de valores 0 é esparso. Por outro lado, um recurso denso tem valores que não são predominantemente nulos ou vazios.

No aprendizado de máquina, um número surpreendente de atributos são atributos raros. Os atributos categóricos geralmente são escassos. Por exemplo, das 300 espécies de árvores possíveis em uma floresta, um único exemplo pode identificar apenas uma árvore de bordo. Ou, dos milhões de vídeos possíveis em uma biblioteca de vídeos, um único exemplo pode identificar apenas "Casablanca".

Em um modelo, você geralmente representa atributos esparsos com codificação one-hot. Se a codificação one-hot for grande, você poderá colocar uma camada de incorporação sobre a codificação one-hot para maior eficiência.

representação esparsa

#language
#fundamentals

Armazenar apenas as posições de elementos diferentes de zero em um elemento disperso.

Por exemplo, suponha que um elemento categórico chamado species identifique as 36 espécies de árvores em uma floresta específica. Suponha também que cada exemplo identifica apenas uma única espécie.

Você pode usar um vetor one-hot para representar as espécies de árvores em cada exemplo. Um vetor one-hot conteria um único 1 (para representar a espécie de árvore específica nesse exemplo) e 35 0s (para representar as 35 espécies de árvores não nesse exemplo). Assim, a representação one-hot de maple pode ser semelhante a esta:

Um vetor em que as posições 0 a 23 contêm o valor 0, a posição
          24 contém o valor 1 e as posições 25 a 35 contêm o valor 0.

Como alternativa, a representação esparsa simplesmente identificaria a posição da espécie específica. Se maple estiver na posição 24, a representação esparsa de maple será simplesmente:

24

A representação esparsa é muito mais compacta do que a representação única.

vetor esparso

#fundamentals

Um vetor cujos valores são, em sua maioria, zeros. Consulte também recurso esparso e esparsidade.

perda quadrática

#fundamentals

Sinônimo de perda L2.

static

#fundamentals

Algo feito uma vez, em vez de continuamente. Os termos estático e off-line são sinônimos. Confira a seguir usos comuns de estático e off-line no aprendizado de máquina:

  • Um modelo estático (ou modelo off-line) é um modelo treinado uma vez e usado por um tempo.
  • O treinamento estático (ou treinamento off-line) é o processo de treinamento de um modelo estático.
  • A inferência estática (ou off-line) é um processo em que um modelo gera um lote de previsões por vez.

Contraste com dinâmico.

inferência estática

#fundamentals

Sinônimo de inferência off-line.

estacionariedade

#fundamentals

Um recurso cujos valores não mudam em uma ou mais dimensões, geralmente tempo. Por exemplo, um recurso cujos valores são semelhantes em 2021 e 2023 mostra a estacionariedade.

Na vida real, poucos recursos apresentam estacionariedade. Até mesmo recursos sinônimos de estabilidade (como o nível do mar) mudam com o tempo.

Compare com a não-estacionariedade.

gradiente descendente estocástico (SGD)

#fundamentals

Um algoritmo de gradiente descendente em que o tamanho do lote é um. Em outras palavras, o SGD é treinado com um único exemplo escolhido de forma uniforme e aleatória em um conjunto de treinamento.

machine learning supervisionado

#fundamentals

Treinar um modelo com base em atributos e os rótulos correspondentes. O aprendizado de máquina supervisionado é análogo a aprender um assunto estudando um conjunto de perguntas e as respostas correspondentes. Depois de dominar o mapeamento entre perguntas e respostas, um estudante pode responder a novas perguntas (nunca vistas antes) sobre o mesmo tema.

Compare com o machine learning não supervisionado.

atributo sintético

#fundamentals

Um atributo que não está presente entre os atributos de entrada, mas é montado a partir de um ou mais deles. Os métodos para criar recursos sintéticos incluem:

  • Agrupamento por classes de um recurso contínuo em buckets de intervalo.
  • Criar um cruzamento de atributos.
  • Multiplicar (ou dividir) um valor de elemento por outros valores de elemento ou por ele mesmo. Por exemplo, se a e b forem recursos de entrada, os seguintes são exemplos de recursos sintéticos:
    • ab
    • a2
  • Aplicação de uma função transcendental a um valor de elemento. Por exemplo, se c for um elemento de entrada, os exemplos de elementos sintéticos a seguir:
    • sen(c)
    • ln(c)

Os atributos criados por normalização ou dimensionamento sozinhos não são considerados atributos sintéticos.

T

perda de teste

#fundamentals

Uma métrica que representa a perda de um modelo em relação ao conjunto de teste. Ao criar um modelo, você normalmente tenta minimizar a perda de teste. Isso acontece porque uma perda de teste baixa é um indicador de qualidade mais forte do que uma perda de treinamento ou perda de validação baixa.

Uma grande diferença entre a perda de teste e a perda de treinamento ou de validação às vezes sugere que você precisa aumentar a taxa de regularização.

treinamento

#fundamentals

É o processo de determinação dos parâmetros ideais (pesos e vieses) que compõem um modelo. Durante o treinamento, um sistema lê exemplos e ajusta gradualmente os parâmetros. O treinamento usa cada exemplo de algumas vezes a bilhões de vezes.

perda do treinamento

#fundamentals

Uma métrica que representa a perda de um modelo durante uma iteração de treinamento específica. Por exemplo, suponha que a função de perda seja erro quadrático médio. Talvez a perda de treinamento (o erro quadrado médio) da 10ª iteração seja 2,2, e a perda de treinamento da 100ª iteração seja 1,9.

Uma curva de perda mostra a perda de treinamento em relação ao número de iterações. Uma curva de perda fornece as seguintes dicas sobre o treinamento:

  • Uma inclinação para baixo implica que o modelo está melhorando.
  • Uma inclinação para cima implica que o modelo está piorando.
  • Uma inclinação plana implica que o modelo alcançou a convergência.

Por exemplo, a curva de perda abaixo mostra:

  • Uma inclinação acentuada para baixo durante as iterações iniciais, o que implica uma melhoria rápida do modelo.
  • Uma inclinação gradualmente plana (mas ainda para baixo) até o fim do treinamento, o que implica a melhoria contínua do modelo em um ritmo um pouco mais lento do que durante as iterações iniciais.
  • Uma inclinação plana no final do treinamento, o que sugere convergência.

O gráfico de perda de treinamento em relação às iterações. Essa curva de perda começa
     com uma inclinação acentuada para baixo. A inclinação diminui gradualmente até que
     se torne zero.

Embora a perda de treinamento seja importante, consulte também a generalização.

Desvio de treinamento/exibição

#fundamentals

A diferença entre o desempenho de um modelo durante o treinamento e o desempenho do mesmo modelo durante a disponibilização.

conjunto de treinamento

#fundamentals

O subconjunto do conjunto de dados usado para treinar um modelo.

Tradicionalmente, os exemplos no conjunto de dados são divididos nos três subconjuntos distintos a seguir:

O ideal é que cada exemplo no conjunto de dados pertença a apenas um dos subconjuntos anteriores. Por exemplo, um único exemplo não pode pertencer ao conjunto de treinamento e ao conjunto de validação.

verdadeiro negativo (VN)

#fundamentals

Um exemplo em que o modelo prevê corretamente a classe negativa. Por exemplo, o modelo infere que uma mensagem de e-mail específica não é spam e que ela realmente não é spam.

verdadeiro positivo (VP)

#fundamentals

Um exemplo em que o modelo prevê corretamente a classe positiva. Por exemplo, o modelo infere que uma mensagem de e-mail específica é spam e que ela realmente é spam.

taxa de verdadeiro positivo (TPR)

#fundamentals

Sinônimo de recall. Ou seja:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

A taxa de verdadeiro positivo é o eixo y em uma curva ROC.

U

underfitting

#fundamentals

Produzir um modelo com baixa capacidade de previsão porque o modelo não capturou totalmente a complexidade dos dados de treinamento. Muitos problemas podem causar ajuste inadequado, incluindo:

exemplo não rotulado

#fundamentals

Um exemplo que contém recursos, mas não tem rótulo. Por exemplo, a tabela a seguir mostra três exemplos não rotulados de um modelo de avaliação de casa, cada um com três recursos, mas sem valor da casa:

Número de quartos Número de banheiros Idade da casa
3 2 15
2 1 72
4 2 34

No aprendizado de máquina supervisionado, os modelos são treinados em exemplos rotulados e fazem previsões em exemplos não rotulados.

No aprendizado semi-supervisionado e não supervisionado, exemplos não rotulados são usados durante o treinamento.

Compare o exemplo não rotulado com o exemplo rotulado.

machine learning não supervisionado

#clustering
#fundamentals

Treinar um modelo para encontrar padrões em um conjunto de dados, normalmente um conjunto de dados não rotulado.

O uso mais comum do aprendizado de máquina não supervisionado é agrupar dados em grupos de exemplos semelhantes. Por exemplo, um algoritmo de aprendizado de máquina não supervisionado pode agrupar músicas com base em várias propriedades da música. Os clusters resultantes podem se tornar uma entrada para outros algoritmos de aprendizado de máquina, por exemplo, para um serviço de recomendação de músicas. O agrupamento pode ajudar quando os rótulos úteis são escassos ou ausentes. Por exemplo, em domínios como antiabuso e fraude, os clusters podem ajudar as pessoas a entender melhor os dados.

Compare com o machine learning supervisionado.

V

validação

#fundamentals

A avaliação inicial da qualidade de um modelo. A validação verifica a qualidade das previsões de um modelo em relação ao conjunto de validação.

Como o conjunto de validação é diferente do conjunto de treinamento, a validação ajuda a evitar overfitting.

Você pode pensar em avaliar o modelo em relação ao conjunto de validação como a primeira rodada de testes e avaliar o modelo em relação ao conjunto de teste como a segunda rodada de testes.

perda de validação

#fundamentals

Uma métrica que representa a perda de um modelo no conjunto de validação durante uma iteração específica do treinamento.

Consulte também curva de generalização.

conjunto de validação

#fundamentals

O subconjunto do conjunto de dados que realiza a avaliação inicial em relação a um modelo treinado. Normalmente, você avalia o modelo treinado em relação ao conjunto de validação várias vezes antes de avaliar o modelo em relação ao conjunto de testes.

Tradicionalmente, você divide os exemplos no conjunto de dados nos três subconjuntos distintos a seguir:

O ideal é que cada exemplo no conjunto de dados pertença a apenas um dos subconjuntos anteriores. Por exemplo, um único exemplo não pode pertencer ao conjunto de treinamento e ao conjunto de validação.

W

peso

#fundamentals

Um valor que um modelo multiplica por outro. Treinamento é o processo de determinação dos pesos ideais de um modelo. Inferência é o processo de uso desses pesos aprendidos para fazer previsões.

soma de pesos

#fundamentals

A soma de todos os valores de entrada relevantes multiplicados pelos pesos correspondentes. Por exemplo, suponha que as entradas relevantes sejam as seguintes:

valor de entrada peso de entrada
2 -1,3
-1 0,6
3 0,4

A soma ponderada é, portanto:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Uma soma ponderada é o argumento de entrada de uma função de ativação.

Z

Normalização do escore Z

#fundamentals

Uma técnica de dimensionamento que substitui um valor bruto de elemento por um valor de ponto flutuante que representa o número de desvios padrão da média desse elemento. Por exemplo, considere um recurso com média de 800 e desvio padrão de 100. A tabela a seguir mostra como a normalização do Z-score mapeia o valor bruto para o Z-score:

Valor bruto Valor Z
800 0
950 +1,5
575 -2,25

O modelo de aprendizado de máquina é treinado com os escores Z para esse recurso, em vez dos valores brutos.