Esta página foi traduzida pela API Cloud Translation.

Glossário de machine learning

Neste glossário, definimos termos gerais de machine learning, além de termos específicos do TensorFlow.

A

ablação

Uma técnica para avaliar a importância de um recurso ou componente removendo-o temporariamente de um modelo. Em seguida, você treina o modelo novamente sem esse recurso ou componente e, se o modelo treinado novamente tiver um desempenho significativamente pior, o recurso ou componente removido provavelmente seria importante.

Por exemplo, suponha que você treine um modelo de classificação em 10 recursos e atinja 88% de precisão no conjunto de teste. Para verificar a importância do primeiro recurso, treine novamente o modelo usando apenas os outros nove recursos. Se o modelo treinado tiver um desempenho significativamente pior (por exemplo, 55% de precisão), o recurso removido provavelmente era importante. Por outro lado, se o modelo treinado novamente tiver o mesmo desempenho, esse atributo provavelmente não era tão importante.

A ablação também pode ajudar a determinar a importância de:

Componentes maiores, como um subsistema inteiro de um sistema de ML maior
Processos ou técnicas, como uma etapa de pré-processamento de dados

Em ambos os casos, você observaria como o desempenho do sistema muda (ou não muda) depois de remover o componente.

Teste A/B

Uma maneira estatística de comparar duas (ou mais) técnicas: A e B. Normalmente, a A é uma técnica já existente e a B é uma nova. O teste A/B não só determina qual técnica tem melhor desempenho, mas também se a diferença é estatisticamente significativa.

O teste A/B geralmente compara uma única métrica em duas técnicas. Por exemplo, qual é a diferença entre a precisão do modelo e duas técnicas? No entanto, o teste A/B também pode comparar qualquer número finito de métricas.

chip do acelerador

#GoogleCloud

Uma categoria de componentes de hardware especializados projetados para realizar cálculos importantes necessários para algoritmos de aprendizado profundo.

Os chips de aceleradores (ou apenas aceleradores, na sigla em inglês) podem aumentar significativamente a velocidade e a eficiência das tarefas de treinamento e inferência em comparação com uma CPU de uso geral. Elas são ideais para treinar redes neurais e tarefas semelhantes com uso intenso de computação.

Exemplos de ícones de acelerador incluem:

Unidades de Processamento de Tensor do Google (TPUs) com hardware dedicado para aprendizado profundo.
As GPUs da NVIDIA que, embora inicialmente projetadas para processamento gráfico, são projetadas para permitir o processamento paralelo, o que pode aumentar significativamente a velocidade de processamento.

accuracy

#fundamentals

O número de previsões de classificação corretas dividido pelo número total de previsões. Ou seja:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Por exemplo, um modelo que fez 40 previsões corretas e 10 incorretas teria uma acurácia de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Classificação binária fornece nomes específicos para as diferentes categorias de previsões corretas e previsões incorretas. A fórmula de acurácia da classificação binária é a seguinte:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

onde:

VP é o número de verdadeiros positivos (previsões corretas).
TN é o número de verdadeiros negativos (previsões corretas).
A FP é o número de falsos positivos (previsões incorretas).
FN é o número de falsos negativos (previsões incorretas).

Compare e contraste a acurácia com a precisão e o recall.

Clique no ícone para ver mais observações.

Embora seja uma métrica valiosa para algumas situações, a precisão é altamente enganosa para outras. A acurácia geralmente é uma métrica ruim na avaliação de modelos de classificação que processam conjuntos de dados desequilibrados de classe.

Por exemplo, suponha que a neve cai apenas 25 dias por século em uma determinada cidade subtropical. Como os dias sem neve (a classe negativa) excedem em muito o número de dias com neve (a classe positiva), o conjunto de dados de neve para esta cidade não está equilibrado em relação às classes. Imagine um modelo de classificação binária que preveja neve todos os dias ou nenhuma neve, mas apenas prevê "sem neve" todos os dias. Esse modelo é altamente preciso, mas não tem poder de previsão. A tabela a seguir resume os resultados de um século de previsões:

Categoria	Número
VP	0
VN	36500
FP	25
FN	0

Portanto, a acurácia desse modelo é:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

Embora 99,93% de precisão pareça uma porcentagem muito impressionante, o modelo não tem poder preditivo.

Precisão e recall geralmente são métricas mais úteis do que precisão para avaliar modelos treinados em conjuntos de dados desequilibrados de classes.

ação

#rl

No aprendizado por reforço, o mecanismo pelo qual o agente faz a transição entre os estados do ambiente. O agente escolhe a ação usando uma política.

função de ativação

#fundamentals

Uma função que permite que as redes neurais aprendam relações não lineares (complexas) entre atributos e o rótulo.

As funções de ativação conhecidas incluem:

ReLU
Sigmoide

Os gráficos das funções de ativação nunca são linhas retas simples. Por exemplo, o gráfico da função de ativação ReLU consiste em duas linhas retas:

Um gráfico cartesiano de duas linhas. A primeira linha tem um valor y constante de 0, correndo ao longo do eixo x de -infinity,0 a 0,-0.
A segunda linha começa em 0,0. Essa linha tem uma inclinação +1, então vai de 0,0 até +infinito,+infinito.

Um gráfico da função de ativação sigmoide tem a seguinte aparência:

Um gráfico curvo bidimensional com valores de x que abrangem o domínio -infinito até +positivo, enquanto os valores y abrangem o intervalo de quase 0 a quase 1. Quando x é 0, y é 0,5. A inclinação da curva é sempre positiva, com a maior inclinação em 0,0,5 e diminuindo gradualmente à medida que o valor absoluto de x aumenta.

Clique no ícone para ver um exemplo.

Em uma rede neural, as funções de ativação manipulam a soma de pesos de todas as entradas em um neurônio. Para calcular uma soma ponderada, o neurônio soma os produtos dos valores e pesos relevantes. Por exemplo, suponha que a entrada relevante para um neurônio seja composta pelo seguinte:

valor de entrada	peso de entrada
2	-1,3
-1	0,6
3	0,4

Portanto, a soma ponderada é:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Suponha que o designer dessa rede neural escolha a função sigmoide como a função de ativação. Nesse caso, o neurônio calcula o sigmoide de -2,0, que é aproximadamente 0,12. Portanto, o neurônio passa 0,12 (em vez de -2,0) para a próxima camada na rede neural. A figura a seguir ilustra a parte relevante do processo:

aprendizado ativo

Uma abordagem de treinamento em que o algoritmo escolhe alguns dos dados que aprende. O aprendizado ativo é particularmente valioso quando os exemplos rotulados são escassos ou caros de se conseguir. Em vez de procurar cegamente uma gama diversificada de exemplos rotulados, um algoritmo de aprendizado ativo busca seletivamente a gama específica de exemplos de que precisa para aprender.

AdaGrad

Um algoritmo sofisticado de gradiente descendente que redimensiona os gradientes de cada parâmetro, atribuindo efetivamente a cada parâmetro uma taxa de aprendizado independente. Para uma explicação completa, consulte este artigo da AdaGrad.

agente

#rl

No aprendizado por reforço, a entidade que usa uma política para maximizar o retorno esperado recebido da transição entre os estados do ambiente.

De modo mais geral, um agente é um software que planeja e executa de maneira autônoma uma série de ações em busca de um objetivo, com a capacidade de se adaptar às mudanças no ambiente. Por exemplo, agentes baseados em LLM podem usar o LLM para gerar um plano em vez de aplicar uma política de aprendizado por reforço.

clustering aglomerativo

#clustering

Consulte clustering hierárquico.

detecção de anomalias

O processo de identificação de outliers. Por exemplo, se a média de um determinado atributo for 100 com um desvio padrão de 10, a detecção de anomalias sinalizará um valor de 200 como suspeito.

AR

Abreviação de realidade aumentada.

área sob a curva PR

Consulte PR AUC (área sob a curva PR).

área sob a curva ROC

Consulte Área sob a curva ROC (AUC).

inteligência artificial geral

Um mecanismo não humano que demonstra uma ampla variedade de solução de problemas, criatividade e adaptabilidade. Por exemplo, um programa que demonstra inteligência geral artificial pode traduzir textos, compor sinfonias e se destacar em jogos que ainda não foram inventados.

inteligência artificial

#fundamentals

Um programa ou model não humano que pode resolver tarefas sofisticadas. Por exemplo, programas ou modelos que traduzem texto ou que identificam doenças usando imagens radiológicas usam inteligência artificial.

Oficialmente, o machine learning é um subcampo da inteligência artificial. No entanto, nos últimos anos, algumas organizações começaram a usar os termos inteligência artificial e machine learning como sinônimos.

Attention,

#language

Um mecanismo usado em uma rede neural que indica a importância de uma determinada palavra ou parte de uma palavra. A atenção compacta a quantidade de informações que um modelo precisa para prever o próximo token/palavra. Um mecanismo de atenção típico pode consistir em uma soma ponderada de um conjunto de entradas, em que o peso de cada entrada é calculado por outra parte da rede neural.

Consulte também autoatenção e autoatenção de várias cabeças, que são os elementos básicos dos Transformers.

atributo

#fairness

Sinônimo de feature.

Na imparcialidade do machine learning, os atributos geralmente se referem a características relacionadas aos indivíduos.

amostragem de atributos

#df

Uma tática para treinar uma floresta de decisão em que cada árvore de decisão considera apenas um subconjunto aleatório de atributos possíveis ao aprender a condição. Geralmente, um subconjunto diferente de atributos é amostrado para cada nó. Por outro lado, ao treinar uma árvore de decisão sem amostragem de atributos, todos os recursos possíveis são considerados para cada nó.

AUC (área sob a curva ROC)

#fundamentals

Um número entre 0,0 e 1,0 que representa a capacidade de um modelo de classificação binária de separar classes positivas de classes negativas. Quanto mais próxima a AUC estiver de 1,0, melhor será a capacidade do modelo de separar classes umas das outras.

Por exemplo, a ilustração a seguir mostra um modelo de classificador que separa perfeitamente as classes positivas (ovais verdes) das negativas (retângulos roxos). Esse modelo irrealistamente perfeito tem uma AUC de 1,0:

Uma linha numérica com oito exemplos positivos em um lado e nove exemplos negativos do outro.

Por outro lado, a ilustração abaixo mostra os resultados de um modelo de classificador que gerou resultados aleatórios. Este modelo tem um AUC de 0,5:

Uma linha numérica com seis exemplos positivos e seis negativos.
A sequência de exemplos é positiva, negativa,
positiva, negativa, positiva, negativa, positiva, negativa, positivo
negativo, positivo, negativo.

Sim, o modelo anterior tem uma AUC de 0,5, não 0,0.

A maioria dos modelos está em algum lugar entre os dois extremos. Por exemplo, o modelo a seguir separa parcialmente os positivos dos negativos e, portanto, tem uma AUC entre 0,5 e 1,0:

Uma linha numérica com seis exemplos positivos e seis negativos.
A sequência de exemplos é negativa, negativa, negativa, negativa,
positiva, negativa, positiva, positiva, negativa, positiva, positiva,
positiva.

A AUC ignora qualquer valor definido para o limite de classificação. Em vez disso, a AUC considera todos os limiares de classificação possíveis.

Clique no ícone para saber mais sobre a relação entre as curvas AUC e ROC.

A AUC representa a área sob uma curva ROC. Por exemplo, a curva ROC de um modelo que separa perfeitamente os positivos dos negativos tem a seguinte aparência:

AUC é a área da região cinza na ilustração anterior. Nesse caso incomum, a área é simplesmente o comprimento da região cinza (1,0) multiplicado pela largura da região cinza (1,0). Portanto, o produto de 1,0 e 1,0 gera uma AUC de exatamente 1,0, que é a maior pontuação de AUC possível.

Por outro lado, a curva ROC para um classificador que não consegue separar classes é a seguinte. A área dessa região cinza é 0,5.

Uma curva ROC mais típica tem a seguinte aparência:

Seria trabalhoso calcular a área sob essa curva manualmente, e é por isso que um programa normalmente calcula a maioria dos valores de AUC.

Clique no ícone para ver uma definição mais formal de AUC.

A AUC é a probabilidade de um classificador estar mais confiante de que um exemplo positivo escolhido aleatoriamente seja de fato positivo do que um exemplo negativo escolhido aleatoriamente seja positivo.

realidade aumentada

#image

Uma tecnologia que sobrepõe uma imagem gerada por computador à visão de um usuário do mundo real, fornecendo assim uma visão composta.

codificador automático

#language

#image

Um sistema que aprende a extrair as informações mais importantes da entrada. Codificadores automáticos são uma combinação de um codificador e um decodificador. Os codificadores automáticos dependem do seguinte processo de duas etapas:

O codificador mapeia a entrada para um formato (normalmente) de dimensão inferior com perda (intermediário).
O decodificador cria uma versão com perdas da entrada original mapeando o formato de baixa dimensão para o formato de entrada de dimensão superior original.

Os codificadores automáticos são treinados de ponta a ponta fazendo com que o decodificador tente reconstruir a entrada original a partir do formato intermediário do codificador da maneira mais próxima possível. Como o formato intermediário é menor (dimensional menor) que o original, o codificador automático é forçado a aprender quais informações na entrada são essenciais, e a saída não será perfeitamente idêntica à entrada.

Exemplo:

Se os dados de entrada forem um gráfico, a cópia não exata será semelhante ao gráfico original, mas um pouco modificada. Talvez a cópia não exata remova o ruído do gráfico original ou preencha alguns pixels ausentes.
Se os dados de entrada forem texto, um codificador automático vai gerar um novo texto que imite o texto original, mas não é idêntico.

Consulte também codificadores automáticos variáveis.

viés de automação

#fairness

Quando um tomador de decisões favorece as recomendações feitas por um sistema automatizado de tomada de decisão em vez das informações feitas sem automação, mesmo quando esse sistema comete erros.

AutoML

Qualquer processo automatizado para criar modelos de machine learning. O AutoML pode executar automaticamente tarefas como estas:

Procure o modelo mais adequado.
Ajuste os hiperparâmetros.
Preparar dados (incluindo a realização de engenharia de atributos).
Implante o modelo resultante.

O AutoML é útil para cientistas de dados porque pode economizar tempo e esforço no desenvolvimento de pipelines de machine learning e melhorar a precisão da previsão. Ele também é útil para pessoas não especializadas, tornando tarefas complicadas de machine learning mais acessíveis.

modelo autoregressivo

#language

#image

#IAgenerativa

Um model que infere uma previsão com base nas próprias previsões anteriores. Por exemplo, os modelos de linguagem com regressão automática preveem o próximo token com base nos tokens previstos anteriormente. Todos os modelos de linguagem grandes baseados em Transformer são autorregressivos.

Por outro lado, os modelos de imagem baseados em GAN geralmente não são autoregressivos, porque geram uma imagem em uma única passagem direta e não de maneira iterativa em etapas. No entanto, alguns modelos de geração de imagens são autorregressivos porque geram uma imagem em etapas.

perda auxiliar

Uma função de perda, usada em conjunto com a principal função de perda de uma rede neural do modelo, que ajuda a acelerar o treinamento durante as iterações iniciais, quando os pesos são inicializados aleatoriamente.

As funções de perda auxiliares enviam gradientes eficazes para as camadas anteriores. Isso facilita a convergência durante o treinamento combatendo o problema do gradiente desaparecido.

precisão média

Uma métrica para resumir o desempenho de uma sequência classificada de resultados. A precisão média é calculada pela média dos valores de precisão de cada resultado relevante (cada resultado na lista de classificação em que o recall aumenta em relação ao resultado anterior).

Consulte também Área sob a curva PR.

condição alinhada ao eixo

#df

Em uma árvore de decisão, uma condição que envolve apenas um único atributo. Por exemplo, se a área for um atributo, esta será uma condição alinhada ao eixo:

area > 200

Contraste com condição oblíqua.

B

retropropagação

#fundamentals

O algoritmo que implementa o gradiente descendente em redes neurais.

O treinamento de uma rede neural envolve muitas iterações do ciclo de duas etapas a seguir:

Durante o passe de frente, o sistema processa um lote de exemplos para produzir previsões. O sistema compara cada previsão com cada valor de label. A diferença entre a previsão e o valor do rótulo é a perda desse exemplo. O sistema agrega as perdas de todos os exemplos para calcular a perda total do lote atual.
Durante o passe para trás (retropropagação), o sistema reduz a perda ajustando os pesos de todos os neurônios em todas as camadas escondidas.

As redes neurais costumam conter muitos neurônios em muitas camadas escondidas. Cada um desses neurônios contribui para a perda geral de maneiras diferentes. A retropropagação determina se é necessário aumentar ou diminuir os pesos aplicados a neurônios específicos.

A taxa de aprendizado é um multiplicador que controla o grau em que cada passagem para trás aumenta ou diminui cada peso. Uma taxa de aprendizado grande aumenta ou diminui cada peso mais do que uma taxa de aprendizado pequena.

Em termos de cálculo, a retropropagação implementa a regra da cadeia do cálculo. Ou seja, a retropropagação calcula a derivada parcial do erro em respeito a cada parâmetro.

Anos atrás, os profissionais de ML precisavam escrever código para implementar a retropropagação. APIs de ML modernas, como o TensorFlow, agora implementam a retropropagação para você. Ufa.

enrolando

#df

Um método para treinar um ensemble em que cada modelo constituinte treina em um subconjunto aleatório de exemplos de treinamento amostrados com substituição. Por exemplo, uma floresta aleatória é uma coleção de árvores de decisão treinadas com bagging.

O termo bagging é a abreviação de bootstrap aggregating.

saco de palavras

#language

Uma representação das palavras em uma frase ou trecho, independentemente da ordem. Por exemplo, saco de palavras representa as três frases a seguir de maneira idêntica:

o cachorro pula
pula o cachorro
o cachorro pula

Cada palavra é mapeada para um índice em um vetor esparso, em que o vetor tem um índice para cada palavra do vocabulário. Por exemplo, a frase o cachorro pula é mapeada em um vetor de recurso com valores diferentes de zero nos três índices correspondentes às palavras the, dog e jumps. O valor diferente de zero pode ser qualquer um destes:

Um número 1 para indicar a presença de uma palavra.
Uma contagem do número de vezes que uma palavra aparece no saco. Por exemplo, se a frase fosse o cachorro marrom é um cão com pele marrom, marrom e cão seriam representados como 2, enquanto as outras palavras seriam representadas como 1.
Algum outro valor, como o logaritmo da contagem do número de vezes que uma palavra aparece no saco.

baseline

Um model usado como ponto de referência para comparar o desempenho de outro modelo (geralmente um mais complexo). Por exemplo, um modelo de regressão logística pode servir como um bom valor de referência para um modelo profundo.

Para um problema específico, o valor de referência ajuda os desenvolvedores de modelos a quantificar o desempenho mínimo esperado que um novo modelo precisa alcançar para que ele seja útil.

lote

#fundamentals

O conjunto de exemplos usados em uma iteração de treinamento. O tamanho do lote determina o número de exemplos em um lote.

Consulte época para uma explicação de como um lote se relaciona a uma época.

inferência em lote

#TensorFlow

#GoogleCloud

O processo de inferência de previsões em vários exemplos não rotulados divididos em subconjuntos menores ("lotes").

A inferência em lote pode aproveitar os recursos de carregamento em paralelo dos ícones de acelerador. Ou seja, vários aceleradores podem inferir previsões simultaneamente em diferentes lotes de exemplos não rotulados, aumentando drasticamente o número de inferências por segundo.

normalização em lote

Normalização da entrada ou saída das funções de ativação em uma camada escondida. A normalização em lote pode oferecer os seguintes benefícios:

Torne as redes neurais mais estáveis protegendo contra pesos outlier.
Ative taxas de aprendizado mais altas, que podem acelerar o treinamento.
Reduza o overfitting (link em inglês).

tamanho do lote

#fundamentals

O número de exemplos em um lote. Por exemplo, se o tamanho do lote for 100, o modelo processará 100 exemplos por iteração.

Estas são as estratégias de tamanho de lote conhecidas:

Gradiente descendente estocástico (SGD, na sigla em inglês), em que o tamanho do lote é 1.
Lote completo, em que o tamanho é o número de exemplos em todo o conjunto de treinamento. Por exemplo, se o conjunto de treinamento tiver um milhão de exemplos, o tamanho do lote será um milhão de exemplos. Geralmente, o lote completo é uma estratégia ineficiente.
minilote, em que o tamanho geralmente é entre 10 e 1.000. Geralmente, a estratégia mais eficiente é o minilote.

Rede neural bayesiana

Uma rede neural probabilística que considera a incerteza nos pesos e nas saídas. Um modelo de regressão de rede neural padrão normalmente prevê um valor escalar. Por exemplo, um modelo padrão prevê um preço de imóveis de 853.000. Por outro lado, uma rede neural bayesiana prevê uma distribuição de valores. Por exemplo, um modelo bayesiano prevê um preço de casa de 853.000 com um desvio padrão de 67.200.

Uma rede neural bayesiana depende do Teorema de Bayes para calcular incertezas em pesos e previsões. Uma rede neural bayesiana pode ser útil quando é importante quantificar a incerteza, como em modelos relacionados a produtos farmacêuticos. As redes neurais bayesianas também podem ajudar a evitar o overfitting (link em inglês).

Otimização bayesiana

Uma técnica de modelo de regressão probabilística para otimizar funções objetivas de alto custo computacional otimizando um alternativo que quantifica a incerteza usando uma técnica de aprendizado bayesiana. Como a otimização bayesiana é muito cara, ela geralmente é usada para otimizar tarefas de avaliação cara que têm um número pequeno de parâmetros, como a seleção de hiperparâmetros.

Equação de Bellman

#rl

No aprendizado por reforço, a seguinte identidade é atendida pela função Q ideal:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Os algoritmos de aprendizado por reforço aplicam essa identidade para criar o Q-learning usando a seguinte regra de atualização:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Além do aprendizado por reforço, a equação Bellman tem aplicações à programação dinâmica. Veja a entrada da Wikipédia sobre a equação de Bellman (em inglês).

BERT (Bidirectional Encoder Representation from Transformers)

#language

Uma arquitetura de modelo para representação de texto. Um modelo BERT treinado pode atuar como parte de um modelo maior para classificação de texto ou outras tarefas de ML.

O BERT tem as seguintes características:

Usa a arquitetura Transformer e, portanto, depende da autoatenção.
Usa a parte do codificador do transformador. A função dele é produzir boas representações de texto, e não realizar uma tarefa específica, como classificação.
É bidirecional.
Usa mascaramento para treinamento não supervisionado.

As variantes do BERT incluem:

ALBERT, que é um acrônimo de A Light BERT.
LaBSE (link em inglês).

Consulte Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing (em inglês) para ter uma visão geral do BERT.

viés (ética/imparcialidade)

#fairness

#fundamentals

1. Estereótipos, preconceito ou favoritismo em relação a algumas coisas, pessoas ou grupos em detrimento de outras. Esses vieses podem afetar a coleta e a interpretação de dados, o design de um sistema e a forma como os usuários interagem com ele. Formas desse tipo de viés incluem:

viés de automação
viés de confirmação
viés do experimentador
viés de atribuição de grupo
viés implícito
viés de grupo
viés de homogeneidade externa ao grupo

2. Erro sistemático introduzido por um procedimento de amostragem ou de relatório. Formas desse tipo de viés incluem:

viés de cobertura
viés de não resposta
viés de participação
viés de relatório
viés de amostragem
viés de seleção

Não confunda com o termo de viés em modelos de machine learning ou com o viés de previsão.

viés (matemático) ou termo de viés

#fundamentals

Uma interceptação ou um deslocamento de uma origem. O viés é um parâmetro em modelos de machine learning, que é simbolizado por um dos seguintes:

Por exemplo, viés é o b na seguinte fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Em uma linha bidimensional simples, viés significa apenas "interceptação em y". Por exemplo, o viés da linha na ilustração a seguir é 2.

O gráfico de uma linha com inclinação de 0,5 e viés (interceptação em y) de 2.

O viés existe porque nem todos os modelos começam na origem (0,0). Por exemplo, suponha que um parque de diversões custe 2 euros para entrar e um adicional de 0,5 euro para cada hora de hospedagem de um cliente. Portanto, um modelo que mapeia o custo total tem um viés de 2 porque o custo mais baixo é de 2 euros.

O viés não deve ser confundido com viés na ética e na imparcialidade ou com viés de previsão.

bidirecional

#language

Um termo usado para descrever um sistema que avalia o texto que antecede e segue uma seção de destino do texto. Por outro lado, um sistema unidirecional avalia apenas o texto que antecede uma seção de destino.

Por exemplo, considere um modelo de linguagem mascarada que precisa determinar as probabilidades da palavra ou das palavras que representam o sublinhado na pergunta a seguir:

Qual é o/a _____ com você?

Um modelo de linguagem unidirecional precisaria basear as probabilidades apenas no contexto fornecido pelas palavras "o quê", "é" e "o". Por outro lado, um modelo de linguagem bidirecional também pode ganhar contexto de "com" e "você", o que pode ajudar o modelo a gerar previsões melhores.

modelo de linguagem bidirecional

#language

Um modelo de linguagem que determina a probabilidade de um determinado token estar presente em um determinado local em um trecho de texto com base no texto anterior e seguinte.

bigrama

#seq

#language

Um N-grama em que N=2.

classificação binária

#fundamentals

Um tipo de tarefa de classificação que prevê uma das duas classes mutuamente exclusivas:

a classe positiva
a classe negativa

Por exemplo, os dois modelos de machine learning a seguir executam uma classificação binária:

Um modelo que determina se as mensagens de e-mail são spam (a classe positiva) ou não são spam (a classe negativa).
Um modelo que avalia sintomas médicos para determinar se uma pessoa tem uma doença específica (a classe positiva) ou não tem essa doença (a classe negativa).

Contraste com a classificação multiclasse.

Consulte também regressão logística e limite de classificação.

condição binária

#df

Em uma árvore de decisão, uma condição que tem apenas dois resultados possíveis, normalmente yes ou no. Por exemplo, esta é uma condição binária:

temperature >= 100

Contraste com condição não binária.

agrupamento por classes

Sinônimo de bucketing.

Subestudo de avaliação bilíngue (BLEU, na sigla em inglês)

#language

Uma pontuação entre 0,0 e 1,0, indicando a qualidade de uma tradução entre dois idiomas humanos (por exemplo, entre inglês e russo). Uma pontuação BLEU de 1,0 indica uma tradução perfeita, enquanto uma pontuação BLEU de 0,0 indica uma tradução ruim.

intensificando

É uma técnica de aprendizado de máquina que combina iterativamente um conjunto de classificadores simples e não muito precisos (chamados de classificadores "fracos") em um classificador com alta precisão (um classificador "forte") ao aumentar os exemplos que o modelo está classificando de maneira incorreta.

caixa delimitadora

#image

Em uma imagem, as coordenadas (x, y) de um retângulo em torno de uma área de interesse, como o cachorro na imagem abaixo.

Fotografia de um cachorro sentado em um sofá. Uma caixa delimitadora verde com coordenadas superior esquerda de (275, 1271) e coordenadas inferior direita de (2954, 2761) circunscreve o corpo do cachorro

fazer o broadcast

expansão da forma de um operando em uma operação matemática de matriz para dimensões compatíveis com essa operação. Por exemplo, a álgebra linear exige que os dois operandos em uma operação de adição de matriz tenham as mesmas dimensões. Consequentemente, não é possível adicionar uma matriz de forma (m, n) a um vetor de comprimento n. A transmissão permite essa operação expandindo virtualmente o vetor de comprimento n para uma matriz de forma (m, n) replicando os mesmos valores em cada coluna.

Por exemplo, considerando as definições abaixo, a álgebra linear proíbe A+B porque A e B têm dimensões diferentes:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

No entanto, a transmissão permite a operação A+B expandindo-a virtualmente para:

 [[2, 2, 2],
  [2, 2, 2]]

Assim, A+B agora é uma operação válida:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Consulte a descrição a seguir da transmissão em numpy para saber mais detalhes.

agrupamento por classes

#fundamentals

Converter um único recurso em vários recursos binários chamados buckets ou binas, normalmente com base em um intervalo de valores. O recurso cortado geralmente é um recurso contínuo.

Por exemplo, em vez de representar a temperatura como um único recurso contínuo de ponto flutuante, é possível dividir intervalos de temperaturas em intervalos discretos, como:

<= 10 graus Celsius seria o bucket "frio".
O bucket "temperado" seria de 11 a 24 graus Celsius.
>= 25 graus Celsius seria o bucket "quente".

O modelo vai tratar todos os valores do mesmo bucket de forma idêntica. Por exemplo, os valores 13 e 22 estão no bucket temperado. Portanto, o modelo trata os dois valores de maneira idêntica.

Clique no ícone para ver mais observações.

Se você representar a temperatura como um atributo contínuo, o modelo tratará a temperatura como um único atributo. Se você representar a temperatura como três buckets, o modelo tratará cada um deles como um atributo separado. Ou seja, um modelo pode aprender relações separadas de cada bucket com o rótulo. Por exemplo, um modelo de regressão linear pode aprender pesos separados para cada bucket.

Aumentar o número de buckets torna seu modelo mais complicado, aumentando o número de relações que ele precisa aprender. Por exemplo, os buckets frio, temperado e quente são essencialmente três recursos separados para o treinamento do modelo. Se você decidir adicionar mais dois buckets, por exemplo, congelando e quente, seu modelo precisará ser treinado em cinco recursos separados.

Como você sabe quantos buckets criar ou quais precisam ser os intervalos de cada bucket? As respostas normalmente exigem uma quantidade razoável de experimentos.

C

camada de calibração

Um ajuste pós-previsão, geralmente para considerar o viés de previsão. As previsões e probabilidades ajustadas precisam corresponder à distribuição de um conjunto observado de rótulos.

geração de candidatos

#recsystems

O conjunto inicial de recomendações escolhidas por um sistema de recomendação. Por exemplo, considere uma livraria que oferece 100.000 títulos. A fase de geração de candidatos cria uma lista muito menor de livros adequados para um determinado usuário, digamos 500. Mas mesmo 500 livros é muito demais para recomendar a um usuário. As fases subsequentes e mais caras de um sistema de recomendação (como pontuação e reclassificação) reduzem essas 500 para um conjunto de recomendações muito menor e mais útil.

amostragem de candidatos

Uma otimização do tempo de treinamento que calcula uma probabilidade para todos os rótulos positivos usando, por exemplo, softmax, mas somente para uma amostra aleatória de rótulos negativos. Por exemplo, considerando um exemplo rotulado como beagle e dog, a amostragem de candidatos calcula as probabilidades previstas e os termos de perda correspondentes para:

beagle (link em inglês)
cachorro
um subconjunto aleatório das classes negativas restantes (por exemplo, cat, lollipop, fence);

A ideia é que as classes negativas possam aprender com reforço negativo menos frequente, desde que as classes positivas sempre recebam um reforço positivo adequado, e isso é observado empiricamente.

A amostragem de candidatos é mais eficiente em termos computacionais do que algoritmos de treinamento que calculam previsões para todas as classes negativas, especialmente quando o número de classes negativas é muito grande.

dados categóricos

#fundamentals

Atributos com um conjunto específico de valores possíveis. Por exemplo, considere um recurso categórico chamado traffic-light-state, que só pode ter um destes três valores possíveis:

red
yellow
green

Ao representar traffic-light-state como um recurso categórico, um modelo pode aprender os diferentes impactos de red, green e yellow no comportamento do motorista.

Os atributos categóricos às vezes são chamados de atributos discretos.

Contraste com dados numéricos.

modelo de linguagem causal

#language

Sinônimo de modelo de linguagem unidirecional.

Consulte o modelo de linguagem bidirecional para conferir diferentes abordagens direcionais na modelagem de linguagem.

centroid

#clustering

O centro de um cluster, conforme determinado por um algoritmo k-means ou k-median. Por exemplo, se k é 3, o algoritmo k-means ou k-median encontra três centroides.

clustering baseado em centroide

#clustering

Uma categoria de algoritmos de clustering que organiza os dados em clusters não hierárquicos. k-means é o algoritmo de clustering baseado em centroide mais usado.

Contraste com algoritmos de clustering hierárquico.

comandos de fluxo de consciência

#language

#IAgenerativa

Uma técnica de engenharia de comando que incentiva um modelo de linguagem grande (LLM) para explicar o raciocínio passo a passo. Por exemplo, considere o comando a seguir, prestando atenção principal na segunda frase:

Quantas forças g um motorista enfrenta em um carro que vai de 0 a 96 km por hora em 7 segundos? Na resposta, mostre todos os cálculos relevantes.

A resposta do LLM provavelmente:

Mostre uma sequência de fórmulas físicas, inserindo os valores 0, 60 e 7 em locais adequados.
Explique por que escolheu essas fórmulas e o que as diversas variáveis significam.

Os comandos de cadeia de pensamento forçam o LLM a realizar todos os cálculos, o que pode levar a uma resposta mais correta. Além disso, o comando de cadeia de pensamento permite que o usuário examine as etapas do LLM para determinar se a resposta faz sentido ou não.

chat

#language

#IAgenerativa

O conteúdo de uma caixa de diálogo com um sistema de ML, normalmente um modelo de linguagem grande. A interação anterior em um chat (o que você digitou e como o modelo de linguagem grande respondeu) se torna o contexto para as partes subsequentes.

Um chatbot é a aplicação de um modelo de linguagem grande.

checkpoint

Dados que capturam o estado dos parâmetros de um modelo em uma iteração de treinamento específica. Os checkpoints permitem exportar pesos do modelo ou realizar treinamento em várias sessões. Os checkpoints também permitem que o treinamento continue erros passados (por exemplo, preempção de job).

No ajuste, o ponto de partida para o treinamento do novo modelo será um ponto de verificação específico do modelo pré-treinado.

classe

#fundamentals

Uma categoria a que um rótulo pode pertencer. Exemplo:

Em um modelo de classificação binária que detecta spam, as duas classes podem ser spam e não spam.
Em um modelo de classificação multiclasse que identifica raças de cães, as classes podem ser poodle, beagle, pug e assim por diante.

Um modelo de classificação prevê uma classe. Por outro lado, um modelo de regressão prevê um número em vez de uma classe.

modelo de classificação

#fundamentals

Um model com previsão que é uma model. Por exemplo, estes são todos os modelos de classificação:

Um modelo que prevê o idioma de uma frase de entrada (francês? espanhol? italiano?).
Um modelo que prevê espécies de árvores (Maple? Oak? o baobá?).
Um modelo que prevê a classe positiva ou negativa para uma condição médica específica.

Por outro lado, os modelos de regressão preveem números em vez de classes.

Dois tipos comuns de modelos de classificação são:

classificação binária
classificação multiclasse

limiar de classificação

#fundamentals

Em uma classificação binária, um número entre 0 e 1 que converte a saída bruta de um modelo de regressão logística em uma previsão da classe positiva ou da classe negativa. O limiar de classificação é um valor escolhido pelo ser humano, não pelo treinamento de modelo.

Um modelo de regressão logística gera um valor bruto entre 0 e 1. Depois, siga estas instruções:

Se esse valor bruto for maior que o limiar de classificação, a classe positiva será prevista.
Se esse valor bruto for menor que o limiar de classificação, a classe negativa será prevista.

Por exemplo, suponha que o limiar de classificação seja 0,8. Se o valor bruto for 0,9, o modelo vai prever a classe positiva. Se o valor bruto for 0,7, o modelo vai prever a classe negativa.

A escolha do limiar de classificação influencia muito o número de falsos positivos e falsos negativos.

Clique no ícone para ver mais observações.

À medida que os modelos ou conjuntos de dados evoluem, os engenheiros às vezes também alteram o limite de classificação. Quando o limiar de classificação muda, as previsões de classe positivas podem, de repente, se tornar classes negativas e vice-versa.

Por exemplo, considere um modelo de previsão de doenças de classificação binária. Suponha que, quando o sistema for executado no primeiro ano:

O valor bruto de um paciente específico é 0,95.
O limiar de classificação é 0,94.

Portanto, o sistema diagnostica a classe positiva. (O paciente suspira: "Ah, não! Estou doente!")

Um ano depois, talvez os valores agora tenham a seguinte aparência:

O valor bruto do mesmo paciente permanece em 0,95.
O limiar de classificação vai mudar para 0,97.

Portanto, o sistema agora reclassifica esse paciente como a classe negativa. ("Feliz dia! Não estou doente.") Mesmo paciente. Diagnóstico diferente.

conjunto de dados desequilibrado

#fundamentals

Um conjunto de dados de um problema de classificação em que o número total de rótulos de cada classe difere significativamente. Por exemplo, considere um conjunto de dados de classificação binária com dois rótulos divididos da seguinte maneira:

1.000.000 de rótulos negativos
10 rótulos positivos

A proporção de rótulos negativos para positivos é de 100.000 para 1, então este é um conjunto de dados desequilibrado de classes.

Por outro lado, o conjunto de dados a seguir não apresenta um desequilíbrio de classes porque a proporção de rótulos negativos e positivos é relativamente próxima de 1:

517 rótulos negativos
483 rótulos positivos

Conjuntos de dados multiclasse também podem apresentar desequilíbrio entre as classes. Por exemplo, o seguinte conjunto de dados de classificação multiclasse também apresenta um desequilíbrio de classes porque um rótulo tem muito mais exemplos que os outros dois:

1.000.000 rótulos com classe "green"
200 rótulos com classe "Roxo"
350 rótulos com classe "laranja"

Consulte também entropia, classe majoritária e classe minoritária.

recorte

#fundamentals

Uma técnica para lidar com outliers realizando uma ou ambas as ações a seguir:

Redução de valores de feature que são maiores do que um limite máximo até esse limite máximo.
Aumentar valores de atributos que são menores que um limite mínimo até esse limite mínimo.

Por exemplo, suponha que menos de 0,5% dos valores de um determinado atributo estejam fora do intervalo de 40 a 60. Nesse caso, você pode fazer o seguinte:

Corte todos os valores acima de 60 (o limite máximo) para que sejam exatamente 60.
Corte todos os valores abaixo de 40 (o limite mínimo) para que sejam exatamente 40.

Os valores atípicos podem danificar os modelos e, às vezes, causar o estouro dos pesos durante o treinamento. Alguns outliers também podem prejudicar as métricas, como acurácia. O recorte é uma técnica comum para limitar os danos.

O recorte de gradiente força os valores de gradiente em um intervalo designado durante o treinamento.

Cloud TPU

#TensorFlow

#GoogleCloud

um acelerador de hardware especializado projetado para acelerar cargas de trabalho de machine learning no Google Cloud.

clustering

#clustering

Agrupar exemplos relacionados, especialmente durante o aprendizado não supervisionado. Depois que todos os exemplos estiverem agrupados, um humano poderá, opcionalmente, fornecer significado para cada cluster.

Há muitos algoritmos de clustering. Por exemplo, os exemplos de clusters de algoritmo k-means baseados na proximidade deles com um centroide, como no diagrama a seguir:

Um pesquisador humano pode revisar os clusters e, por exemplo, rotular o cluster 1 como "árvores anãs" e o cluster 2 como "árvores de tamanho real".

Como outro exemplo, considere um algoritmo de clustering com base na distância de um exemplo de um ponto central, ilustrado a seguir:

Dezenas de pontos de dados são dispostos em círculos concêntricos, quase como buracos no centro de um dardo. O anel mais interno dos pontos de dados é categorizado como cluster 1, o anel do meio
como cluster 2 e o anel mais externo como
cluster 3.

coadaptação

Quando neurônios preveem padrões em dados de treinamento, dependendo quase exclusivamente das saídas de outros neurônios específicos, em vez do comportamento da rede como um todo. Quando os padrões que causam a coadaptação não estão presentes nos dados de validação, a coadaptação causa overfitting. A regularização de dropout reduz a coadaptação, porque o dropout garante que os neurônios não possam depender apenas de outros neurônios específicos.

filtragem colaborativa

#recsystems

Fazer previsões sobre os interesses de um usuário com base nos interesses de muitos outros. A filtragem colaborativa é muito usada em sistemas de recomendação.

deslocamento de conceito

Uma mudança na relação entre atributos e o rótulo. Com o tempo, o deslocamento de conceito reduz a qualidade do modelo.

Durante o treinamento, o modelo aprende a relação entre os atributos e os rótulos no conjunto de treinamento. Se os rótulos no conjunto de treinamento forem bons proxies para o mundo real, o modelo precisará fazer boas previsões reais. No entanto, devido ao deslocamento de conceito, as previsões do modelo tendem a se degradar com o tempo.

Por exemplo, considere um modelo de classificação binária que prevê se um determinado modelo de carro é ou não "eficiente em combustível". Ou seja, os recursos podem ser:

peso do carro
compactação do mecanismo
tipo de transmissão

enquanto o rótulo é:

economia de combustível
não gera economia de combustível

No entanto, o conceito de "carro com baixo consumo de combustível" continua mudando. Um modelo de carro rotulado como eficiente de combustível em 1994 quase certamente seria rotulado como não eficiente em termos de combustível em 2024. Um modelo com deslocamento de conceito tende a fazer previsões cada vez menos úteis com o tempo.

Comparar e contrastar com a não estacionária.

Clique no ícone para ver mais observações.

Para compensar o deslocamento de conceito, treine novamente os modelos mais rapidamente do que a taxa de desvio. Por exemplo, se o deslocamento de conceito reduzir a precisão do modelo por uma margem significativa a cada dois meses, treine novamente o modelo com mais frequência do que a cada dois meses.

condição

#df

Em uma árvore de decisão, qualquer nó que avalie uma expressão. Por exemplo, a parte a seguir de uma árvore de decisão contém duas condições:

Uma árvore de decisão que consiste em duas condições: (x > 0) e (y > 0).

Uma condição também é chamada de divisão ou teste.

Condição de contraste com leaf.

Consulte também:

condição binária
condição não binária.
condição alinhada ao eixo
condição oblíqua

confabulação

#language

Sinônimo de alucinação.

Confabulação é, provavelmente, um termo tecnicamente mais preciso do que alucinação. No entanto, a alucinação se tornou popular primeiro.

configuração

O processo de atribuição dos valores da propriedade inicial usados para treinar um modelo, incluindo:

as camadas compostas do modelo
a localização dos dados
hiperparâmetros, como:

Em projetos de machine learning, a configuração pode ser feita com um arquivo de configuração especial ou com bibliotecas de configuração como as seguintes:

HParam
Gin (link em inglês)
Fiddle (link em inglês)

viés de confirmação

#fairness

A tendência de buscar, interpretar, favorecer e relembrar informações de uma maneira que confirme as crenças ou hipóteses pré-existentes de alguém. Os desenvolvedores de machine learning podem coletar ou rotular inadvertidamente os dados de maneira a influenciar um resultado que apoie as crenças deles. O viés de confirmação é uma forma de viés implícito.

O viés do experimentador é uma forma de viés de confirmação em que um experimentador continua treinando modelos até que uma hipótese preexistente seja confirmada.

matriz de confusão

#fundamentals

Uma tabela NxN que resume o número de previsões corretas e incorretas feitas por um modelo de classificação. Por exemplo, considere a seguinte matriz de confusão para um modelo de classificação binária:

	Tumor (previsão)	Não tumor (previsto)
Tumor (informações empíricas)	18 (VP)	1 (FN)
Não tumor (informações empíricas)	6 (FP)	452 (VN)

A matriz de confusão anterior mostra o seguinte:

Das 19 previsões em que a informações empíricas era Tumor, o modelo classificou corretamente 18 e 1 incorretamente.
Das 458 previsões em que as informações empíricas eram não tumor, o modelo classificou 452 corretamente e 6 incorretamente.

A matriz de confusão de um problema de classificação multiclasse pode ajudar a identificar padrões de erros. Por exemplo, considere a seguinte matriz de confusão para um modelo de classificação multiclasse de três classes que categoriza três tipos diferentes de íris (Virgínia, Versicolor e Setosa). Quando as informações empíricas foram Virgínia, a matriz de confusão mostra que o modelo tinha muito mais chances de prever por engano a Versicolor do que Setosa:

	Setosa (previsto)	Versicolor (previsto)	Virgínia (previsto)
Setosa (informações empíricas)	88	12	0
Versicolor (informações empíricas)	6	141	7
Virgínia (informações empíricas)	2	27	109

Como outro exemplo, uma matriz de confusão pode revelar que um modelo treinado para reconhecer dígitos escritos à mão tende a prever erroneamente 9 em vez de 4 ou, por engano, 1 em vez de 7.

As matrizes de confusão contêm informações suficientes para calcular uma variedade de métricas de desempenho, incluindo precisão e recall.

análise de eleitorado

#language

Dividir uma frase em estruturas gramaticais menores ("componentes"). Uma parte posterior do sistema de ML, como um modelo de compreensão de linguagem natural, pode analisar os constituintes com mais facilidade do que a frase original. Por exemplo, considere a seguinte frase:

Meu amigo adotou dois gatos.

Um analisador de eleitores pode dividir essa frase nos dois componentes a seguir:

Meu amigo é um sintagma nominal.
adopted two cats é um verbo.

Esses constituintes podem ser subdivididos em componentes menores. Por exemplo, o verbo

adotou dois gatos

poderia ser subdividido em:

adopted é um verbo.
dois gatos é um outro sintagma nominal.

embedding de linguagem contextualizada

#language

#IAgenerativa

Uma incorporação que se aproxima de "entender" palavras e frases de maneiras que falantes humanos nativos conseguem fazer. Os embeddings de linguagem contextualizados podem entender sintaxe, semântica e contexto complexos.

Por exemplo, considere os embeddings da palavra em inglês vaw (vaca). Embeddings mais antigos, como word2vec, podem representar palavras em inglês de forma que a distância no espaço de incorporação de vaca a touro seja semelhante à distância de ewe (ovelhas) e ram (ovelhas machos) ou de feminino para masculino. Incorporações de linguagem contextualizadas podem ir um passo além reconhecendo que os falantes de inglês às vezes usam casualmente a palavra vaca para significar vaca ou touro.

janela de contexto

#language

#IAgenerativa

O número de tokens que um modelo pode processar em um determinado comando. Quanto maior a janela de contexto, mais informações o modelo poderá usar para fornecer respostas coerentes e consistentes ao comando.

atributo contínuo

#fundamentals

Um recurso de ponto flutuante com um intervalo infinito de valores possíveis, como temperatura ou peso.

Contraste com recurso discreto.

amostragem por conveniência

Usar um conjunto de dados não coletado cientificamente para executar experimentos rápidos. Mais tarde, é essencial mudar para um conjunto de dados coletado cientificamente.

convergência

#fundamentals

Um estado alcançado quando os valores de loss mudam muito pouco ou não mudam a cada iteração. Por exemplo, a curva de perda a seguir sugere convergência em cerca de 700 iterações:

Diagrama cartesiano. O eixo X é uma perda. O eixo Y é o número de iterações
de treinamento. A perda é muito alta nas primeiras iterações, mas
cai drasticamente. Após cerca de 100 iterações, a perda ainda é decrescente, mas muito mais gradual. Após cerca de 700 iterações,
a perda permanece estável.

Um modelo converge quando não há treinamento extra para aprimorá-lo.

No aprendizado profundo, os valores de perda às vezes permanecem constantes ou quase assim por muitas iterações antes de finalmente decrescentes. Durante um longo período de valores de perda constante, você pode ter temporariamente uma falsa sensação de convergência.

Consulte também parada antecipada.

função convexa

Uma função em que a região acima do gráfico da função é um conjunto convexo. A função convexa prototípica tem uma forma semelhante à letra U. Por exemplo, todas estas são funções convexas:

Curvas em forma de U, cada uma com um único ponto mínimo.

Em contraste, a função a seguir não é convexa. Observe como a região acima do gráfico não é um conjunto convexo:

Uma curva em forma de W com dois pontos mínimos locais diferentes.

Uma função estritamente convexa tem exatamente um ponto mínimo local, que também é o ponto mínimo global. As funções clássicas em forma de U são funções estritamente convexas. No entanto, algumas funções convexas (por exemplo, retas) não têm forma de U.

Clique no ícone para conferir mais detalhes sobre os cálculos.

Muitas das funções de perda comuns, incluindo as seguintes, são funções convexas:

D₂perda
Log Perda
Regularização L₁
L₂ regularização

Muitas variações de gradiente descendente encontrarão um ponto próximo ao mínimo de uma função estritamente convexa. Da mesma forma, muitas variações de gradiente descendente estocástico têm uma alta probabilidade (mas não uma garantia) de encontrar um ponto próximo ao mínimo de uma função estritamente convexa.

A soma de duas funções convexas (por exemplo, perda de L₂ + regularização de L₁) é uma função convexa.

Modelos profundos nunca são funções convexas. Os algoritmos projetados para otimização convexa tendem a encontrar soluções razoavelmente boas em redes profundas, mesmo que não haja garantia de que essas soluções sejam um mínimo global.

otimização convexa

O processo de usar técnicas matemáticas, como gradiente descendente, para encontrar o mínimo de uma função convexa. Grande parte das pesquisas sobre machine learning se concentrou na formulação de vários problemas como problemas de otimização convexa e na resolução deles com mais eficiência.

Para detalhes completos, consulte Boyd e Vandenberghe, Otimização convex.

conjunto convexo

um subconjunto do espaço euclidiano de modo que uma linha desenhada entre dois pontos no subconjunto permaneça completamente dentro dele. Por exemplo, as duas formas a seguir são conjuntos convexos:

Uma ilustração de um retângulo. Outra ilustração de uma moldura oval.

Em contraste, as duas formas a seguir não são conjuntos convexos:

Ilustração de um gráfico de pizza com uma fatia ausente.
Outra ilustração de um polígono extremamente irregular.

convolução

#image

Na matemática, falando casualmente, uma combinação de duas funções. No machine learning, uma convolução mistura o filtro convolucional e a matriz de entrada para treinar os pesos.

O termo "convolução" no machine learning é, muitas vezes, uma forma abreviada de se referir a operação convolucional ou camada convolucional.

Sem as convoluções, um algoritmo de machine learning precisaria aprender um peso separado para cada célula em um tensor grande. Por exemplo, um treinamento de algoritmo de machine learning em imagens 2.000 x 2.000 seria forçado a encontrar 4 milhões de pesos separados. Graças às convoluções, o algoritmo de machine learning precisa encontrar somente os pesos de cada célula no filtro convolucional, o que reduz drasticamente a memória necessária para treinar o modelo. Quando o filtro convolucional é aplicado, ele é simplesmente replicado nas células de modo que cada uma seja multiplicada pelo filtro.

filtro convolucional

#image

Um dos dois atores em uma operação convolucional. O outro ator é uma fração de uma matriz de entrada. Um filtro convolucional é uma matriz que tem a mesma classificação da matriz de entrada, mas uma forma menor. Por exemplo, considerando uma matriz de entrada de 28x28, o filtro pode ser qualquer matriz 2D menor que 28x28.

Na manipulação fotográfica, todas as células em um filtro convolucional geralmente são definidas com um padrão constante de 1 e 0. Em machine learning, os filtros convolucionais geralmente são propagados com números aleatórios e, em seguida, a rede treina os valores ideais.

camada convolucional

#image

Uma camada de uma rede neural profunda na qual um filtro convolucional passa ao longo de uma matriz de entrada. Por exemplo, considere o filtro convolucional de 3x3 a seguir:

Uma matriz 3x3 com os seguintes valores: [[0,1,0], [1,0,1], [0,1,0]]

A animação a seguir mostra uma camada convolucional composta por nove operações convolucionais que envolvem a matriz de entrada de 5x5. Observe que cada operação convolucional funciona em uma fração 3x3 diferente da matriz de entrada. A matriz 3x3 resultante (à direita) consiste nos resultados das 9 operações convolucionais:

Uma animação mostrando duas matrizes. A primeira é a matriz 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,7].
A segunda matriz é a 3x3: [[181.303.618], [115.338.605], [169.351.560]].
A segunda matriz é calculada aplicando o filtro convolucional [[0, 1, 0], [1, 0, 1], [0, 1, 0]] em diferentes subconjuntos 3x3 da matriz 5x5.

rede neural convolucional

#image

Uma rede neural em que pelo menos uma camada é uma camada convolucional. Uma rede neural convolucional típica consiste em uma combinação das seguintes camadas:

camadas convolucionais
camadas de pooling
camadas densas

As redes neurais convolucionais tiveram grande sucesso em certos tipos de problemas, como o reconhecimento de imagem.

operação convolucional

#image

Esta operação matemática de duas etapas:

Multiplicação por elementos do filtro convolucional e uma fração de uma matriz de entrada. A fração da matriz de entrada tem a mesma classificação e tamanho que o filtro convolucional.
Soma de todos os valores na matriz de produto resultante.

Por exemplo, considere a seguinte matriz de entrada 5x5:

A matriz 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,40,10,10

Agora imagine o seguinte filtro convolucional 2x2:

A matriz 2x2: [[1, 0], [0, 1]]

Cada operação convolucional envolve uma única fração 2x2 da matriz de entrada. Por exemplo, suponha que usemos a fração 2x2 no canto superior esquerdo da matriz de entrada. Assim, a operação de convolução nessa fração é semelhante à seguinte:

O filtro convolucional [[1, 0], [0, 1]] é aplicado à seção 2x2 do canto superior esquerdo da matriz de entrada, que é [[128,97], [35,22]].
O filtro convolucional deixa os 128 e 22 intactos, mas zera os 97 e 35. Consequentemente, a operação de convolução gera o valor 150 (128+22).

Uma camada convolucional consiste em uma série de operações convolucionais, cada uma agindo em uma fração diferente da matriz de entrada.

custo

Sinônimo de loss.

treinamento conjunto

Uma abordagem de aprendizado semi-supervisionado é particularmente útil quando todas as condições a seguir são verdadeiras:

A proporção de exemplos não rotulados para exemplos rotulados no conjunto de dados é alta.
Este é um problema de classificação (binário ou multiclasse).
O conjunto de dados contém dois conjuntos diferentes de atributos preditivos que são independentes entre si e complementares.

Esse treinamento essencialmente amplifica sinais independentes em um sinal mais forte. Por exemplo, considere um modelo de classificação que categoriza carros usados individuais como Bom ou Ruim. Um conjunto de recursos preditivos pode se concentrar em características agregadas, como ano, marca e modelo do carro. Outro conjunto de recursos preditivos pode se concentrar no histórico de condução do proprietário anterior e no histórico de manutenção do carro.

O artigo fundamental sobre cotreinamento é Combine dados rotulados e não rotulados com cotreinamento de Blum e Mitchell.

imparcialidade contrafatual

#fairness

Uma métrica de imparcialidade que verifica se um classificador gera o mesmo resultado para um indivíduo que gera para outro indivíduo idêntico ao primeiro, exceto em relação a um ou mais atributos sensíveis. Avaliar a imparcialidade contrafatual de um classificador é um método para revelar possíveis fontes de viés em um modelo.

Consulte "When Worlds Collide: Integrating Different Counterfactual Ssumptions in Fairness" (em inglês) para uma discussão mais detalhada sobre imparcialidade contrafatual.

viés de cobertura

#fairness

Consulte viés de seleção.

acidente blossom

#language

Uma sentença ou frase com um significado ambíguo. As flores de falha apresentam um problema significativo no entendimento de linguagem natural. Por exemplo, o título Arranha-céu de fita vermelha é uma flor de falha porque um modelo de PLN pode interpretar o título literal ou de forma literal.

Clique no ícone para ver mais observações.

Só para esclarecer essa manchete misteriosa:

A fita vermelha pode se referir a um dos itens a seguir:
- Um adesivo
- Burocracia excessiva
Em espera:
- Suporte estrutural
- Atrasos

crítica

#rl

Sinônimo de Deep Q-Network.

entropia cruzada

Uma generalização de Log Loss para problemas de classificação multiclasse. A entropia cruzada quantifica a diferença entre duas distribuições de probabilidade. Consulte também perplexidade.

validação cruzada

Um mecanismo para estimar a capacidade de um model de generalizar para novos dados ao testá-lo em um ou mais subconjuntos de dados não sobrepostos do model.

função de distribuição cumulativa (CDF)

Uma função que define a frequência de amostras menores ou iguais a um valor de destino. Por exemplo, considere uma distribuição normal de valores contínuos. Uma CDF informa que aproximadamente 50% das amostras devem ser menores ou iguais à média e que aproximadamente 84% delas devem ser menores ou iguais a um desvio padrão acima da média.

D

análise de dados

Compreender os dados considerando amostras, medição e visualização. A análise de dados pode ser útil principalmente quando um conjunto de dados é recebido pela primeira vez, antes de alguém criar o primeiro model. Também é fundamental para entender os experimentos e depurar problemas com o sistema.

ampliação de dados

#image

Aumento artificial do intervalo e do número de exemplos de treinamento, transformando os exemplos atuais para criar mais exemplos. Por exemplo, suponha que as imagens sejam um dos seus recursos, mas o conjunto de dados não contém exemplos de imagens suficientes para que o modelo aprenda associações úteis. O ideal é adicionar imagens rotuladas suficientes ao conjunto de dados para permitir que o modelo seja treinado corretamente. Se isso não for possível, a ampliação de dados poderá girar, esticar e refletir cada imagem para produzir muitas variantes da imagem original, possivelmente produzindo dados rotulados suficientes para permitir um treinamento excelente.

DataFrame

#fundamentals

Um tipo de dados pandas conhecido para representar conjuntos de dados na memória.

Um DataFrame é análogo a uma tabela ou planilha. Cada coluna de um DataFrame tem um nome (um cabeçalho) e cada linha é identificada por um número exclusivo.

Cada coluna em um DataFrame é estruturada como uma matriz 2D, mas é possível atribuir o próprio tipo de dados a cada coluna.

Consulte também a página de referência oficial do pandas.DataFrame.

paralelismo de dados

Uma forma de escalonar o treinamento ou a inferência que replica um modelo inteiro em vários dispositivos e, em seguida, transmite um subconjunto dos dados de entrada para cada dispositivo. O paralelismo de dados pode permitir treinamento e inferência em tamanhos de lote muito grandes. No entanto, o paralelismo de dados exige que o modelo seja pequeno o suficiente para caber em todos os dispositivos.

O paralelismo de dados normalmente acelera o treinamento e a inferência.

Consulte também paralelismo de modelos.

conjunto de dados

#fundamentals

Uma coleção de dados brutos, geralmente (mas não exclusivamente) organizados em um dos seguintes formatos:

uma planilha
um arquivo no formato CSV (valores separados por vírgula)

API Dataset (tf.data)

#TensorFlow

Uma API do TensorFlow de alto nível para ler dados e transformá-los em um formato exigido por um algoritmo de machine learning. Um objeto tf.data.Dataset representa uma sequência de elementos, em que cada elemento contém um ou mais Tensors. Um objeto tf.data.Iterator fornece acesso aos elementos de um Dataset.

Para detalhes sobre a API Dataset, consulte tf.data: como criar pipelines de entrada do TensorFlow no Guia do programador do TensorFlow.

fronteira de decisão

O separador entre classes aprendidas por um modelo em uma classe binária ou problemas de classificação multiclasse. Por exemplo, na imagem a seguir, que representa um problema de classificação binária, a fronteira de decisão é a fronteira entre a classe laranja e a classe azul:

Um limite bem definido entre uma classe e outra.

floresta de decisão

#df

Um modelo criado a partir de várias árvores de decisão. Uma floresta de decisão faz uma previsão agregando as previsões das respectivas árvores de decisão. Os tipos conhecidos de florestas de decisão incluem florestas aleatórias e árvores com aumento de gradiente.

limite de decisão

Sinônimo de limite de classificação.

árvore de decisão

#df

Um modelo de aprendizado supervisionado composto por um conjunto de conditions e conditions organizadas hierarquicamente. Por exemplo, veja a seguir uma árvore de decisão:

Uma árvore de decisão composta por quatro condições organizadas hierarquicamente, que resultam em cinco folhas.

decodificador

#language

Em geral, qualquer sistema de ML que converta uma representação processada, densa ou interna em uma representação mais bruta, esparsa ou externa.

Os decodificadores geralmente são um componente de um modelo maior, em que são frequentemente pareados com um codificador.

Nas tarefas sequência para sequência, um decodificador começa com o estado interno gerado pelo codificador para prever a próxima sequência.

Consulte Transformer para a definição de um decodificador na arquitetura de transformador.

modelo profundo

#fundamentals

Uma rede neural contendo mais de uma camada escondida.

Um modelo profundo também é chamado de rede neural profunda.

Contraste com o modelo amplo.

de rede neural profunda, amplamente utilizado

Sinônimo de deep model (modelo profundo).

Rede Q profunda (DQN)

#rl

No Q-learning, uma rede neural profunda que prevê funções Q.

Critic é um sinônimo de rede Q profunda.

paridade demográfica

#fairness

Uma métrica de imparcialidade que é satisfeita se os resultados da classificação de um modelo não dependerem de um determinado atributo sensível.

Por exemplo, se os liliputianos e os de Brobdingnagians se inscreverem na Universidade de Glubbdubdrib, a paridade demográfica será alcançada se a porcentagem de lilliputianos admitida for a mesma que a de bribundagues admitidos, independentemente de um grupo ser, em média, mais qualificado do que o outro.

Contraste com probabilidades equilibradas e igualdade de oportunidade, que permitem que os resultados de classificação em agregação dependam de atributos confidenciais, mas não permitem que os resultados de classificação para determinados rótulos de informações empíricas especificados dependam de atributos sensíveis. Consulte Atacando a discriminação com machine learning mais inteligente para uma visualização que explora as vantagens e desvantagens da otimização da paridade demográfica.

remoção de ruído

#language

Uma abordagem comum para o aprendizado autossupervisionado, em que:

Ruído é adicionado artificialmente ao conjunto de dados.
O model tenta remover o ruído.

A remoção de ruídos permite aprender com exemplos não rotulados. O conjunto de dados original serve como destino ou rótulo e os dados com ruído como entrada.

Alguns modelos de linguagem mascarados usam a remoção de ruídos da seguinte maneira:

O ruído é adicionado artificialmente a uma frase não rotulada mascarando alguns dos tokens.
O modelo tenta prever os tokens originais.

atributo denso

#fundamentals

Um atributo em que a maioria ou todos os valores são diferentes de zero, normalmente um Tensor de valores de ponto flutuante. Por exemplo, o Tensor de 10 elementos a seguir é denso porque 9 dos seus valores são diferentes de zero:

Contraste com o recurso esparso.

camada densa

Sinônimo de camada totalmente conectada.

profundidade

#fundamentals

A soma dos seguintes itens em uma rede neural:

o número de camadas escondidas
O número de camadas de saída, que normalmente é 1
o número de camadas de incorporação

Por exemplo, uma rede neural com cinco camadas escondidas e uma camada de saída tem uma profundidade de 6.

A camada de entrada não influencia a profundidade.

rede neural convolucional separável em profundidade (sepCNN)

#image

Uma arquitetura de rede neural convolucional baseada no Inception, mas em que os módulos do Inception são substituídos por convoluções separáveis em profundidade. Também conhecida como xception.

Uma convolução separável em profundidade (também abreviada como convolução separável) fatora uma convolução 3D padrão em duas operações de convolução separadas que são mais eficientes em termos computacionais: primeiro, uma convolução de profundidade, com profundidade de 1 (n ✕ n ✕ 1), e a segunda, uma convolução pontual, com comprimento e largura 1 (1 ✕ 1).

Para saber mais, consulte Xception: aprendizado profundo com convoluções Depthwise Separable.

rótulo derivado

Sinônimo de proxy label.

dispositivo

#TensorFlow

#GoogleCloud

Um termo sobrecarregado com estas duas possíveis definições:

Uma categoria de hardware capaz de executar uma sessão do TensorFlow, incluindo CPUs, GPUs e TPUs.
Ao treinar um modelo de ML em ícones de acelerador (GPUs ou TPUs), a parte do sistema que realmente manipula tensores e embeddings. O dispositivo é executado em chips aceleradores. Por outro lado, o host geralmente é executado em uma CPU.

privacidade diferencial

Em machine learning, uma abordagem de anonimização para proteger dados sensíveis (por exemplo, informações pessoais de um indivíduo) incluídos no conjunto de treinamentos de um modelo contra sejam expostos. Essa abordagem garante que o model não aprenda ou se lembre muito sobre um indivíduo específico. Isso é feito com a amostragem e a adição de ruído durante o treinamento do modelo para ocultar pontos de dados individuais, reduzindo o risco de exposição de dados confidenciais de treinamento.

A privacidade diferencial também é usada fora do machine learning. Por exemplo, os cientistas de dados às vezes usam a privacidade diferencial para proteger a privacidade individual ao calcular estatísticas de uso do produto para diferentes grupos demográficos.

redução de dimensão

Diminuir o número de dimensões usadas para representar um recurso específico em um vetor de atributo, normalmente convertendo em um vetor de incorporação.

dimensões

Termo sobrecarregado com qualquer uma das seguintes definições:

O número de níveis de coordenadas em um Tensor. Exemplo:
- Um escalar tem dimensões zero; por exemplo, ["Hello"].
- Um vetor tem uma dimensão, por exemplo, [3, 5, 7, 11].
- Uma matriz tem duas dimensões, por exemplo, [[2, 4, 18], [5, 7, 14]].
É possível especificar de forma exclusiva uma célula específica em um vetor unidimensional com uma coordenada. São necessárias duas coordenadas para especificar de maneira exclusiva uma célula específica em uma matriz bidimensional.
O número de entradas em um vetor de atributo.
O número de elementos em uma camada de incorporação.

comandos diretos

#language

#IAgenerativa

Sinônimo de comando zero-shot.

atributo discreto

#fundamentals

Um atributo com um conjunto finito de valores possíveis. Por exemplo, um atributo com valores que podem ser apenas animal, vegetal ou mineral é um atributo discreto (ou categórico).

Contraste com o recurso contínuo.

modelo discriminativo

Um model que prevê model de um conjunto de um ou mais model. Mais formalmente, os modelos discriminativos definem a probabilidade condicional de uma saída, considerando os recursos e pesos, ou seja:

p(output | features, weights)

Por exemplo, um modelo que prevê se um e-mail é spam de recursos e pesos é um modelo discriminativo.

A grande maioria dos modelos de aprendizado supervisionado, incluindo os de classificação e regressão, são discriminativos.

Contraste com o modelo generativo.

discriminador

Um sistema que determina se exemplos são reais ou falsos.

Como alternativa, o subsistema em uma rede adversária generativa que determina se os exemplos criados pelo gerador são reais ou falsos.

impacto diferente

#fairness

Tomar decisões sobre pessoas que afetam diferentes subgrupos da população de forma desproporcional. Isso geralmente se refere a situações em que um processo de tomada de decisão algorítmico prejudica ou beneficia alguns subgrupos mais do que outros.

Por exemplo, suponha que um algoritmo que determina a qualificação de um liliputiano para um empréstimo de casa em miniatura tem maior probabilidade de classificá-lo como "não qualificado" se o endereço de correspondência dele contiver um determinado código postal. Se os lilliputians da região Big-Endian têm mais probabilidade de ter endereços de correspondência com esse código postal do que os lilliputians Little-Endian, esse algoritmo pode resultar em um impacto diferente.

Contraste com tratamento diferente, que se concentra nas disparidades que resultam quando as características do subgrupo são entradas explícitas em um processo de tomada de decisão algorítmico.

tratamento diferenciado

#fairness

Consideração dos atributos sensíveis dos participantes em um processo de tomada de decisão algorítmico de modo que subgrupos diferentes de pessoas sejam tratados de maneira diferente.

Por exemplo, pense em um algoritmo que determina a qualificação dos lilliputia para um empréstimo de casa em miniatura com base nos dados fornecidos na solicitação de empréstimo. Se o algoritmo usa a afiliação de um liliputiano como Big-Endian ou Little-Endian como entrada, ele está agindo de forma diferente para essa dimensão.

Contraste com impactos distintos, que se concentram nas disparidades nos impactos sociais das decisões algorítmicas em subgrupos, independentemente de esses subgrupos serem entradas do modelo.

destilação

#IAgenerativa

O processo de reduzir o tamanho de um model (conhecido como model) em um modelo menor (conhecido como model) que emula as previsões do modelo original da maneira mais fiel possível. Ela é útil porque o modelo menor tem dois benefícios principais em relação ao maior (o professor):

Tempo de inferência mais rápido
Redução no uso de memória e energia

No entanto, as previsões do estudante normalmente não são tão boas quanto as do professor.

A extração treina o modelo estudante para minimizar uma função de perda com base na diferença entre os resultados das previsões dos modelos estudante e professor.

Compare e diferencie a destilação com os seguintes termos:

ajustes
aprendizado baseado em comandos

Distribuição

A frequência e o intervalo de valores diferentes para um determinado atributo ou rótulo. Uma distribuição captura a probabilidade de um determinado valor ser considerado.

A imagem a seguir mostra histogramas de duas distribuições diferentes:

À esquerda, uma distribuição da lei de poder da riqueza versus o número de pessoas que a possuem.
À direita, uma distribuição normal da altura versus o número de pessoas com essa altura.

Entender cada atributo e a distribuição do rótulo pode ajudar a determinar como normalizar os valores e detectar outliers.

A frase fora de distribuição refere-se a um valor que não aparece no conjunto de dados ou é muito raro. Por exemplo, uma imagem do planeta Saturno seria considerada fora de distribuição em um conjunto de dados composto por imagens de gatos.

agrupamento divisivo

#clustering

Consulte clustering hierárquico.

redução de amostragem

#image

Termo sobrecarregado que pode significar uma das seguintes opções:

Reduzir a quantidade de informações em um recurso para treinar um modelo com mais eficiência. Por exemplo, antes de treinar um modelo de reconhecimento de imagens, reduza a amostragem de imagens de alta resolução para um formato de resolução mais baixa.
Treinamento em uma porcentagem desproporcionalmente baixa de exemplos de classe super-representados para melhorar o treinamento de modelos em classes sub-representadas. Por exemplo, em um conjunto de dados desequilibrado de classes, os modelos tendem a aprender muito sobre a classe majoritária e não o suficiente sobre a classe minoritária. O downsample ajuda a equilibrar a quantidade de treinamento nas classes majoritárias e minoritárias.

DQN

#rl

Abreviação de Deep Q-Network.

regularização por dropout

Uma forma de regularização útil no treinamento de redes neurais. A regularização por dropout remove uma seleção aleatória de um número fixo de unidades em uma camada de rede para uma única etapa do gradiente. Quanto mais unidades forem descartadas, mais forte será a regularização. Isso é análogo ao treinamento da rede para emular um conjunto exponencialmente grande de redes menores. Para mais detalhes, consulte Dropout: uma maneira simples de evitar o overfitting de redes neurais (em inglês).

dinâmico

#fundamentals

Algo feito com frequência ou continuamente. Os termos dinâmico e on-line são sinônimos em machine learning. Veja a seguir usos comuns de dinâmica e on-line no machine learning:

Um modelo dinâmico (ou modelo on-line) é um modelo retreinado com frequência ou contínua.
O treinamento dinâmico (ou treinamento on-line) é o processo de treinamento frequente ou contínuo.
A inferência dinâmica (ou inferência on-line) é o processo de gerar previsões sob demanda.

modelo dinâmico

#fundamentals

Um model que é frequentemente (talvez até continuamente treinado) novamente. Um modelo dinâmico é um "aprendizado ao longo da vida" que se adapta constantemente aos dados em evolução. Um modelo dinâmico também é conhecido como modelo on-line.

Contraste com o modelo estático.

E

execução rápida

#TensorFlow

Um ambiente de programação do TensorFlow em que as operations são executadas imediatamente. Por outro lado, as operações chamadas na execução de gráfico não são executadas até que sejam explicitamente avaliadas. A execução antecipada é uma interface imperativa, muito semelhante ao código na maioria das linguagens de programação. Programas de execução rápida geralmente são muito mais fáceis de depurar do que programas de execução de gráficos.

parada antecipada

#fundamentals

Um método de regularização que envolve o encerramento do treinamento antes que a perda do treinamento termine de diminuir. Na parada antecipada, você para intencionalmente de treinar o modelo quando a perda em um conjunto de dados de validação começa a aumentar, ou seja, quando o desempenho da generalização piora.

Clique no ícone para ver mais observações.

A parada antecipada pode parecer contraditória. Afinal, pedir para um modelo interromper o treinamento enquanto a perda ainda está diminuindo pode ser semelhante a pedir para um chef parar de cozinhar antes que a sobremesa esteja totalmente assada. No entanto, treinar um modelo por muito tempo pode levar ao overfitting (link em inglês). Ou seja, se você treinar um modelo muito longo, ele poderá ajustar os dados de treinamento a ponto de não fazer boas previsões em novos exemplos.

distância do motor da terra (EMD, na sigla em inglês)

Uma medida da semelhança relativa de duas distribuições. Quanto menor a distância do motor da Terra, mais semelhantes são as distribuições.

editar distância

#language

Uma medida da semelhança entre duas strings de texto. Em machine learning, a edição da distância é útil porque é simples de calcular e é uma maneira eficaz de comparar duas strings conhecidas por serem semelhantes ou encontrar strings semelhantes a uma determinada.

Há várias definições de distância de edição, cada uma usando diferentes operações de string. Por exemplo, a distância de Levenshtein considera o menor número de operações de exclusão, inserção e substituição.

Por exemplo, a distância de Levenshtein entre as palavras "coração" e " dardos" é 3 porque as três edições a seguir são as menores mudanças para transformar uma palavra em outra:

coração → deart (substitua "h" por "d")
deart → dart (excluir "e")
dardos → dardos (inserir "s")

Notação de soma

Uma notação eficiente para descrever como dois tensores devem ser combinados. Os tensores são combinados multiplicando os elementos de um tensor pelos elementos do outro e, em seguida, somando os produtos. A notação de enumeração usa símbolos para identificar os eixos de cada tensor, e esses mesmos símbolos são reorganizados para especificar a forma do novo tensor resultante.

NumPy, uma implementação Einsum comum é fornecida.

camada de embedding

#language

#fundamentals

Uma camada escondida especial que é treinada em um recurso categórico de alta dimensão para aprender gradualmente um vetor de embedding de dimensão mais baixa. Uma camada de incorporação permite que uma rede neural treine com muito mais eficiência do que o treinamento apenas no atributo categórico de alta dimensão.

Por exemplo, a Terra atualmente aceita cerca de 73 mil espécies de árvores. Suponha que espécies de árvores sejam um atributo no seu modelo, portanto,a camada de entrada dele inclui um vetor one-hot de 73.000 elementos. Por exemplo, talvez baobab seja representado algo assim:

Uma matriz de 73.000 elementos. Os primeiros 6.232 elementos contêm o valor 0. O próximo elemento contém o valor 1. Os 66.767 elementos finais mantêm o valor zero.

Uma matriz de 73 mil elementos é muito longa. Se você não adicionar uma camada de embedding ao modelo, o treinamento poderá consumir muito tempo por causa da multiplicação de 72.999 zeros. Talvez você escolha a camada de embedding para consistir em 12 dimensões. Consequentemente, a camada de embedding vai aprender gradualmente um novo vetor de embedding para cada espécie de árvore.

Em determinadas situações, o hash é uma alternativa razoável a uma camada de incorporação.

espaço de embedding

#language

O espaço vetorial d-dimensional para o qual elementos de um espaço vetorial de dimensão superior são mapeados. O ideal é que o espaço de embedding contenha uma estrutura que produza resultados matemáticos significativos. Por exemplo, em um espaço de embedding ideal, a adição e subtração de embeddings pode resolver tarefas de analogia de palavras.

O produto de ponto de dois embeddings é uma medida da semelhança.

vetor de embedding

#language

De um modo geral, uma matriz de números de ponto flutuante retirados de qualquer camada escondida que descreve as entradas dessa camada escondida. Muitas vezes, um vetor de embedding é a matriz de números de ponto flutuante treinados em uma camada de embedding. Por exemplo, suponha que uma camada de embedding precise aprender um vetor de embedding para cada uma das 73 mil espécies de árvores da Terra. Talvez a matriz a seguir seja o vetor de embedding de uma árvore de baobá:

Uma matriz de 12 elementos, cada um contendo um número de ponto flutuante entre 0,0 e 1,0.

Um vetor de embedding não é um monte de números aleatórios. Uma camada de embedding determina esses valores por treinamento, de maneira semelhante à maneira como uma rede neural aprende outros pesos durante o treinamento. Cada elemento da matriz é uma classificação ao longo de alguma característica de uma espécie de árvore. Qual elemento representa a característica de qual espécie de árvore? Isso é muito difícil para os humanos de determinar.

A parte matematicamente notável de um vetor de embedding é que itens semelhantes têm conjuntos semelhantes de números de ponto flutuante. Por exemplo, espécies de árvores semelhantes têm um conjunto mais semelhante de números de ponto flutuante do que espécies de árvores diferentes. As sequoias e as sequoias são espécies de árvores relacionadas, portanto, têm um conjunto mais semelhante de números pontiagudos do que sequoias e coqueiros. Os números no vetor de embedding mudam toda vez que você treina o modelo novamente, mesmo que ele seja treinado outra vez com entradas idênticas.

função de distribuição cumulativa empírica (eCDF ou EDF)

Uma função de distribuição cumulativa com base em medições empíricas de um conjunto de dados real. O valor da função em qualquer ponto ao longo do eixo x é a fração de observações no conjunto de dados que é menor ou igual ao valor especificado.

minimização do risco empírico (ERM)

Escolher a função que minimiza a perda no conjunto de treinamento. Contraste com a minimização do risco estrutural.

codificador

#language

Em geral, qualquer sistema de ML que converta uma representação bruta, esparsa ou externa em uma representação mais processada, densa ou mais interna.

Os codificadores geralmente são um componente de um modelo maior, em que são frequentemente pareados com um decodificador. Alguns Transformers pareiam codificadores com decodificadores, embora outros transformadores usem apenas o codificador ou apenas o decodificador.

Alguns sistemas usam a saída do codificador como entrada para uma rede de classificação ou regressão.

Nas tarefas sequência para sequência, um codificador usa uma sequência de entrada e retorna um estado interno (um vetor). Em seguida, o decodificador usa esse estado interno para prever a próxima sequência.

Consulte Transformer para a definição de um codificador na arquitetura de transformador.

conjunto

Uma coleção de modelos treinados de maneira independente, com previsões que são médias ou agregadas. Em muitos casos, um ensemble produz previsões melhores do que um único modelo. Por exemplo, uma floresta aleatória é um conjunto criado com base em várias árvores de decisão. Nem todas as florestas de decisão são conjuntos.

entropia

#df

Na teoria da informação, uma descrição de quão imprevisível é uma distribuição de probabilidade. Como alternativa, a entropia também é definida como a quantidade de informações que cada exemplo contém (links em inglês). Uma distribuição tem a maior entropia possível quando todos os valores de uma variável aleatória são igualmente prováveis.

A entropia de um conjunto com dois valores possíveis "0" e "1" (por exemplo, os rótulos em um problema de classificação binária) tem a seguinte fórmula:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

onde:

H é a entropia.
p é a fração dos exemplos "1".
q é a fração dos exemplos "0". Observe que q = (1 - p)
log geralmente é ₂. Nesse caso, a unidade de entropia é um pouco.

Por exemplo, suponha que:

100 exemplos contêm o valor "1"
300 exemplos contêm o valor "0"

Portanto, o valor da entropia é:

p = 0,25
q = 0,75
H = (-0,25) log₂(0,25) - (0,75) log₂(0,75) = 0,81 bits por exemplo

Um conjunto perfeitamente equilibrado (por exemplo, 200 "0" e 200 "1") teria uma entropia de 1,0 bit por exemplo. À medida que um conjunto fica mais desequilibrado, a entropia dele se move em direção a 0,0.

Em árvores de decisão, a entropia ajuda a formular o ganho de informações para ajudar o divisor a selecionar as condições durante o crescimento de uma árvore de decisão de classificação.

Comparar entropia com:

impureza gini
Função de perda entropia cruzada

A entropia muitas vezes é chamada de entropia de Shannon.

de produção

#rl

No aprendizado por reforço, o mundo que contém o agente e permite que o agente observe o estado desse mundo. Por exemplo, o mundo representado pode ser um jogo de xadrez ou um mundo físico como um labirinto. Quando o agente aplica uma ação ao ambiente, o ambiente transita entre os estados.

episódio

#rl

No aprendizado por reforço, cada uma das tentativas repetidas do agente de aprender um ambiente.

época

#fundamentals

Uma passagem de treinamento completa que abrange todo o conjunto de treinamento, de modo que cada exemplo tenha sido processado uma vez.

Um período representa N/tamanho do lote de iterações de treinamento, em que N é o número total de exemplos.

Por exemplo, suponha que:

O conjunto de dados consiste em 1.000 exemplos.
O tamanho do lote é de 50 exemplos.

Portanto, um único período requer 20 iterações:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

política gananciosa épsilon

#rl

No aprendizado por reforço, uma política que segue uma política aleatória com probabilidade de épsilon ou uma política gananciosa. Por exemplo, se épsilon for 0,9, a política seguirá uma política aleatória 90% das vezes e uma política gananciosa 10% das vezes.

Ao longo de episódios sucessivos, o algoritmo reduz o valor do épsilon para mudar de uma política aleatória para uma gulosa. Ao mudar a política, o agente primeiro explora aleatoriamente o ambiente e depois explora gananciosamente os resultados da exploração aleatória.

igualdade de oportunidade

#fairness

Uma métrica de imparcialidade para avaliar se um modelo está prevendo o resultado desejado igualmente para todos os valores de um atributo sensível. Em outras palavras, se o resultado desejável para um modelo for a classe positiva, a meta seria ter a taxa de verdadeiro positivo para todos os grupos.

A igualdade de oportunidade está relacionada às chances equalizadas, o que exige que as taxas de verdadeiro positivo e taxas de falsos positivos sejam iguais para todos os grupos.

Suponha que a Universidade Glubbdubdrib admite tanto os lilliputians quanto os Brobdingnagians para um rigoroso programa de matemática. As escolas de ensino médio lilliputinos oferecem um currículo robusto de aulas de matemática, e a grande maioria dos alunos está qualificada para o programa universitário. As escolas secundárias de Brobdingnagians não oferecem aulas de matemática e, como resultado, muito menos alunos são qualificados. A igualdade de oportunidade é satisfeita para o rótulo preferencial de "admitido" em relação à nacionalidade (liliputiano ou brobdingnagian) se estudantes qualificados tiverem a mesma probabilidade de serem admitidos, independentemente de serem liliputados ou brobddings.

Por exemplo, suponha que 100 lilliputianos e 100 brbdingnagians se inscrevam na Universidade Glubbdubdrib, e as decisões de admissão são tomadas da seguinte maneira:

Tabela 1. Candidatos liliputados (90% estão qualificados)

	Qualificado	Não qualificado
Permitido	45	3
Recusada	45	7
Total	90	10
Porcentagem de estudantes qualificados admitidos: 45/90 = 50% Porcentagem de estudantes não qualificados rejeitados: 7/10 = 70% Porcentagem total de estudantes liliputados aceitos: (45+3)/100 = 48%

Tabela 2. Candidatos do Brobdingnagian (10% estão qualificados):

	Qualificado	Não qualificado
Permitido	5	9
Recusada	5	81
Total	10	90
Porcentagem de estudantes qualificados admitidos: 5/10 = 50% Porcentagem de estudantes não qualificados rejeitados: 81/90 = 90% Porcentagem total de estudantes de Brobdingnagian aceitos: (5+9)/100 = 14%

Os exemplos anteriores atendem à igualdade de oportunidade de aceitação de estudantes qualificados, porque os lilitúcias e brobddingnagas qualificados têm 50% de chance de serem admitidos.

Embora a igualdade de oportunidade seja satisfeita, as duas métricas de imparcialidade a seguir não são:

Paridade demográfica: lilliputia e brbdingnagians têm taxas de admissão diferentes na universidade. 48% dos estudantes lilliputinos são aceitos, mas apenas 14% dos estudantes de Brobdingnagian são aceitos.
Riscos iguais: os estudantes liliputianos e brbdingnagian qualificados têm a mesma chance de serem admitidos, mas a restrição adicional de que os lilibutinos e brobddings não qualificados têm a mesma chance de serem rejeitados não é satisfeita. Os lilliputianos não qualificados têm uma taxa de rejeição de 70%, enquanto os brobddings não qualificados têm uma taxa de rejeição de 90%.

Consulte "Igualdade de oportunidade no aprendizado supervisionado" para uma discussão mais detalhada sobre igualdade de oportunidade. Consulte também "Como atacar a discriminação com machine learning mais inteligente" para uma visualização que explora as vantagens e desvantagens da otimização da igualdade de oportunidade.

probabilidades equalizadas

#fairness

Uma métrica de imparcialidade para avaliar se um modelo está prevendo resultados igualmente bem para todos os valores de um atributo sensível em respeito à classe positiva e à classe negativa, não apenas uma ou outra exclusivamente. Em outras palavras, a taxa de verdadeiro positivo e a taxa de falso negativo precisam ser as mesmas para todos os grupos.

As probabilidades equalizadas estão relacionadas à igualdade de oportunidade, que se concentra apenas nas taxas de erro de uma única classe (positiva ou negativa).

Por exemplo, suponha que a Universidade Glubbdubdrib admite tanto os liliputinos quanto os brobdingnagians para um rigoroso programa de matemática. As escolas de ensino médio lilliputinos oferecem um currículo robusto de aulas de matemática, e a grande maioria dos alunos é qualificada para o programa universitário. As escolas secundárias da dinastia Brobdingnagians não oferecem aulas de matemática e, como resultado, muito menos alunos têm a qualificação necessária. As probabilidades iguais são atendidas, desde que não importe se um candidato é liliputiano ou brobdingnagian, se ele for qualificado, ele terá a mesma probabilidade de ser admitido no programa e, se não for, tem a mesma probabilidade de ser rejeitado.

Suponha que 100 lilliputia e 100 brbdingnagians se inscrevam na Glubbdubdrib University e decisões de admissão são tomadas da seguinte maneira:

Tabela 3. Candidatos liliputados (90% estão qualificados)

	Qualificado	Não qualificado
Permitido	45	2
Recusada	45	8
Total	90	10
Porcentagem de estudantes qualificados admitidos: 45/90 = 50% Porcentagem de estudantes não qualificados rejeitados: 8/10 = 80% Porcentagem total de estudantes liliputados aceitos: (45+2)/100 = 47%

Tabela 4. Candidatos do Brobdingnagian (10% estão qualificados):

	Qualificado	Não qualificado
Permitido	5	18
Recusada	5	72
Total	10	90
Porcentagem de estudantes qualificados admitidos: 5/10 = 50% Porcentagem de estudantes não qualificados rejeitados: 72/90 = 80% Porcentagem total de estudantes de Brobdingnagian aceitos: (5+18)/100 = 23%

As probabilidades iguais são satisfeitas porque os estudantes qualificados de Liliputian e Brobdingnagian têm 50% de chance de serem aceitos, e os não qualificados Liliputianos e Brobdingnagian têm 80% de chance de serem rejeitados.

As probabilidades equalizadas são definidas formalmente em "Igualdade de oportunidades no aprendizado supervisionado" (em inglês) da seguinte forma: "o indicador ▾ atende a probabilidades equalizadas em relação ao atributo protegido A e o resultado Y se SET e A forem independentes e condicionais em Y".

Estimator

#TensorFlow

Uma API obsoleta do TensorFlow. Use tf.keras em vez de Estimators.

Avaliação

Processo de medição da qualidade das previsões de um modelo de machine learning. Ao desenvolver um modelo, você normalmente aplica métricas de avaliação não apenas no conjunto de treinamento, mas também em um conjunto de validação e um conjunto de teste. Também é possível usar métricas de avaliação para comparar diferentes modelos entre si.

exemplo.

#fundamentals

Os valores de uma linha de features e possivelmente um rótulo. Os exemplos de aprendizado supervisionado se enquadram em duas categorias gerais:

Um exemplo rotulado consiste em um ou mais recursos e um rótulo. Os exemplos rotulados são usados durante o treinamento.
Um exemplo não rotulado consiste em um ou mais recursos, mas nenhum rótulo. Exemplos não rotulados são usados durante a inferência.

Por exemplo, suponha que você esteja treinando um modelo para determinar a influência das condições climáticas nos resultados das avaliações dos alunos. Aqui estão três exemplos rotulados:

Recursos			Identificador
Temperatura	Umidade	Pressão	Pontuação de teste
15	47	998	Boa
19	34	1020	Excelente
18	92	1012	Ruim

Aqui estão três exemplos não rotulados:

Temperatura	Umidade	Pressão
12	62	1014
21	47	1017
19	41	1021

A linha de um conjunto de dados normalmente é a fonte bruta de um exemplo. Ou seja, um exemplo normalmente consiste em um subconjunto das colunas no conjunto de dados. Além disso, os recursos em um exemplo também podem incluir atributos sintéticos, como cruzamentos de atributos.

repetição da experiência

#rl

No aprendizado por reforço, uma técnica de DQN é usada para reduzir as correlações temporais nos dados de treinamento. O agente armazena as transições de estado em um buffer de reprodução e, em seguida, amostra as transições do buffer de repetição para criar dados de treinamento.

viés do experimentador

#fairness

Consulte o viés de confirmação.

problema de gradientes explosivos

#seq

A tendência de gradientes em redes neurais profundas (especialmente redes neurais recorrentes) de se tornar surpreendentemente íngreme (alta). Gradientes íngremes geralmente causam atualizações muito grandes nos pesos de cada nó em uma rede neural profunda.

Modelos que sofrem com o problema do gradiente em explosão tornam-se difíceis ou impossíveis de treinar. O recorte de gradiente pode reduzir esse problema.

Compare com o problema do gradiente desaparecido.

F

F₁

Uma métrica de classificação binária de visualização completa que depende de precisão e recall. Esta é a fórmula:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Por exemplo, considerando o seguinte:

precisão = 0,6
recall = 0,4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Quando precisão e recall são bastante semelhantes (como no exemplo anterior), F₁ está perto da média. Quando a precisão e o recall diferem significativamente, F₁ fica mais perto do valor mais baixo. Exemplo:

precisão = 0,9
recall = 0,1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

restrição de imparcialidade

#fairness

Aplicar uma restrição a um algoritmo para garantir que uma ou mais definições de imparcialidade sejam atendidas. Exemplos de restrições de imparcialidade incluem:

Pós-processamento da saída do modelo.
Alterar a função de perda para incorporar uma penalidade por violar uma métrica de imparcialidade.
Adicionar diretamente uma restrição matemática a um problema de otimização.

métrica de imparcialidade

#fairness

Uma definição matemática de "imparcialidade" que é mensurável. Algumas métricas de imparcialidade usadas com frequência incluem:

probabilidades iguais
paridade preditiva
imparcialidade contrafatual
paridade demográfica

Muitas métricas de imparcialidade são mutuamente exclusivas. Consulte a incompatibilidade das métricas de imparcialidade.

falso negativo (FN)

#fundamentals

Um exemplo em que o modelo prevê incorretamente a classe negativa. Por exemplo, o modelo prevê que uma mensagem de e-mail específica não é spam (a classe negativa), mas ela na verdade é spam.

taxa de falsos negativos

A proporção de exemplos positivos reais para os quais o modelo previu erroneamente a classe negativa. A fórmula a seguir calcula a taxa de falso negativo:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

falso positivo (FP)

#fundamentals

Exemplo em que o modelo prevê incorretamente a classe positiva. Por exemplo, o modelo prevê que uma mensagem de e-mail específica é spam (a classe positiva), mas ela na verdade não é spam.

taxa de falsos positivos (FPR)

#fundamentals

É a proporção de exemplos negativos reais para os quais o modelo previu erroneamente a classe positiva. A fórmula a seguir calcula a taxa de falsos positivos:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

A taxa de falsos positivos é o eixo x em uma curva ROC.

recurso

#fundamentals

Uma variável de entrada para um modelo de machine learning. Um exemplo consiste em um ou mais atributos. Por exemplo, suponha que você esteja treinando um modelo para determinar a influência das condições climáticas nos resultados das avaliações dos alunos. A tabela a seguir mostra três exemplos, cada um contendo três recursos e um rótulo:

Recursos			Identificador
Temperatura	Umidade	Pressão	Pontuação de teste
15	47	998	92
19	34	1020	84
18	92	1012	87

Contraste com label.

cruzamento de atributos

#fundamentals

Um atributo sintético formado pelo "cruzamento" de atributos categóricos ou em buckets.

Por exemplo, considere um modelo de "previsão de humor" que representa a temperatura em um dos quatro buckets a seguir:

freezing
chilly
temperate
warm

E representa a velocidade do vento em um dos três buckets a seguir:

still
light
windy

Sem os cruzamentos de atributos, o modelo linear é treinado de forma independente em cada um dos sete buckets anteriores. Assim, o modelo é treinado, por exemplo, freezing independentemente do treinamento em, por exemplo, windy.

Outra opção é criar um cruzamento de atributos de temperatura e velocidade do vento. Esse recurso sintético teria os 12 valores possíveis abaixo:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Graças aos cruzamentos de atributos, o modelo pode aprender diferenças de humor entre um dia freezing-windy e um freezing-still.

Se você criar um atributo sintético com base em dois atributos que tenham muitos buckets diferentes, o cruzamento de atributos resultante terá um grande número de combinações possíveis. Por exemplo, se um atributo tiver 1.000 buckets e o outro tiver 2.000 buckets, o cruzamento de atributos resultante terá 2.000.000 de buckets.

Oficialmente, uma cruz é um produto cartesiano.

Os cruzamentos de atributos são usados principalmente com modelos lineares e raramente com redes neurais.

e engenharia de atributos.

#fundamentals

#TensorFlow

Um processo que envolve as seguintes etapas:

Determinar quais recursos podem ser úteis no treinamento de um modelo.
converter dados brutos do conjunto de dados em versões eficientes desses atributos;

Por exemplo, você pode determinar que temperature pode ser um recurso útil. Em seguida, teste o agrupamento por classes para otimizar o que o modelo pode aprender com diferentes intervalos temperature.

A engenharia de atributos às vezes é chamada de extração de atributos ou recursos.

Clique no ícone para ver mais observações sobre o TensorFlow.

No TensorFlow, a engenharia de atributos geralmente significa converter as entradas do arquivo de registro bruto em buffers de protocolo tf.Example. Consulte também tf.Transform.

extração de atributos

Termo sobrecarregado com uma das seguintes definições:

Recuperar representações de atributos intermediários calculados por um modelo não supervisionado ou pré-treinado (por exemplo, valores de camada escondida em uma rede neural) para uso em outro modelo como entrada.
Sinônimo de engenharia de atributos.

importâncias de atributos

#df

Sinônimo de importâncias de variáveis.

conjunto de atributos

#fundamentals

O grupo de recursos em que seu modelo de machine learning é treinado. Por exemplo, código postal, tamanho e condição da propriedade podem compor um conjunto de atributos simples para um modelo que prevê preços de imóveis.

especificação de atributos

#TensorFlow

Descreve as informações necessárias para extrair dados de features do buffer de protocolo tf.Example. Como o buffer de protocolo tf.Example é apenas um contêiner de dados, é preciso especificar:

Os dados a serem extraídos (ou seja, as chaves dos atributos)
O tipo de dados (por exemplo, float ou int)
O comprimento (fixo ou variável)

vetor de atributo

#fundamentals

A matriz de valores de feature, composta por um exemplo. O vetor de recurso é inserido durante o treinamento e durante a inferência. Por exemplo, o vetor de atributo de um modelo com dois atributos distintos pode ser:

[0.92, 0.56]

quatro camadas: uma camada de entrada, duas camadas escondidas e uma camada final.
A camada de entrada contém dois nós, um contendo o valor 0,92 e o outro contendo o valor 0,56.

Cada exemplo fornece valores diferentes para o vetor de atributo, de modo que o vetor de atributo do próximo exemplo pode ser algo como:

[0.73, 0.49]

A engenharia de atributos determina como representar os atributos no vetor de atributos. Por exemplo, um recurso categórico binário com cinco valores possíveis pode ser representado com a codificação one-hot. Nesse caso, a parte do vetor de atributo de um exemplo específico consistiria em quatro zeros e um único 1,0 na terceira posição, da seguinte maneira:

[0.0, 0.0, 1.0, 0.0, 0.0]

Como outro exemplo, suponha que seu modelo seja composto por três atributos:

Um recurso categórico binário com cinco valores possíveis representados com codificação one-hot. Por exemplo: [0.0, 1.0, 0.0, 0.0, 0.0]
outro atributo categórico binário com três valores possíveis representados com codificação one-hot. Por exemplo: [0.0, 0.0, 1.0]
Um atributo de ponto flutuante, por exemplo: 8.3.

Nesse caso, o vetor de recurso de cada exemplo seria representado por nove valores. Considerando os valores de exemplo da lista anterior, o vetor de atributo seria:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

recursos

O processo de extração de recursos de uma fonte de entrada, como um documento ou vídeo, e o mapeamento desses recursos em um vetor de atributos.

Alguns especialistas em ML usam recursos como sinônimo de engenharia de atributos ou extração de atributos.

federated learning

Uma abordagem de machine learning distribuída que treina modelos de machine learning usando exemplos descentralizados que residem em dispositivos como smartphones. No aprendizado federado, um subconjunto de dispositivos faz o download do modelo atual de um servidor de coordenação central. Os dispositivos usam os exemplos armazenados nos dispositivos para fazer melhorias no modelo. Em seguida, os dispositivos fazem upload das melhorias do modelo (mas não dos exemplos de treinamento) para o servidor de coordenação, onde elas são agregadas a outras atualizações para produzir um modelo global aprimorado. Após a agregação, as atualizações do modelo calculadas pelos dispositivos não são mais necessárias e podem ser descartadas.

Como os exemplos de treinamento nunca são enviados, o aprendizado federado segue os princípios de privacidade da coleta de dados focada e da minimização de dados.

Para mais informações sobre aprendizado federado, consulte este tutorial.

ciclo de feedback

#fundamentals

Em machine learning, uma situação em que as previsões de um modelo influenciam os dados de treinamento dele ou de outro. Por exemplo, um modelo que recomenda filmes influenciará aqueles que as pessoas veem, o que influenciará os modelos de recomendação de filmes subsequentes.

rede neural feedforward (FFN, na sigla em inglês)

Uma rede neural sem conexões cíclicas ou recursivas. Por exemplo, redes neurais profundas tradicionais são redes neurais de encaminhamento de feed. Contraste com as redes neurais recorrentes, que são cíclicas.

aprendizado few-shot

Uma abordagem de machine learning, muitas vezes usada para classificação de objetos, projetada para treinar classificadores eficazes usando apenas um pequeno número de exemplos de treinamento.

Consulte também aprendizado one-shot e aprendizado zero-shot.

comandos few-shot

#language

#IAgenerativa

Um comando que contém mais de um (um "pouco") exemplo demonstrando como o modelo de linguagem grande precisa responder. O comando longo a seguir contém dois exemplos que mostram um modelo de linguagem grande como responder a uma consulta.

Partes de um comando	Observações
`Qual é a moeda oficial do país especificado?`	A pergunta que você quer que o LLM responda.
`França: EUR`	Um exemplo.
`Reino Unido: GBP`	Outro exemplo.
`Índia`:	A consulta real.

Os comandos few-shot geralmente produzem resultados mais desejáveis do que os comandos zero-shot e os comandos one-shot. No entanto, os comandos few-shot exigem um comando mais longo.

Os comandos few-shot são uma forma de aprendizado few-shot aplicada ao aprendizado baseado em comandos.

Violino

#language

Uma biblioteca de configuração baseada em Python que define os valores de funções e classes sem código ou infraestrutura invasivos. No caso do Pax e de outras bases de código de ML, essas funções e classes representam modelos e hiperparâmetros de treinamento.

O Fiddle (link em inglês) supõe que as bases de código de machine learning geralmente são divididas em:

Código da biblioteca, que define as camadas e os otimizadores.
Código "agrupador" do conjunto de dados, que chama as bibliotecas e conecta tudo.

O Fiddle captura a estrutura de chamada do código agrupador de forma não avaliada e mutável.

ajuste

#language

#image

#IAgenerativa

Um segundo cartão de treinamento específico da tarefa realizado em um modelo pré-treinado para refinar os parâmetros dele para um caso de uso específico. Por exemplo, a sequência de treinamento completa para alguns modelos de linguagem grandes é a seguinte:

Pré-treinamento:treine um modelo de linguagem grande em um conjunto de dados geral vasto, como todas as páginas da Wikipédia em inglês.
Ajuste: treine o modelo pré-treinado para executar uma tarefa específica, como responder a consultas médicas. O ajuste geralmente envolve centenas ou milhares de exemplos focados na tarefa específica.

Como outro exemplo, a sequência completa de treinamento para um modelo de imagem grande é a seguinte:

Pré-treinamento: treine um modelo de imagem grande em um conjunto de dados de imagens geral vasto, como todas as imagens em Wikimedia commons.
Ajuste:treine o modelo pré-treinado para executar uma tarefa específica, como gerar imagens de orcas.

O ajuste pode envolver qualquer combinação das seguintes estratégias:

Modificar todos os parâmetros do modelo pré-treinado. Isso às vezes é chamado de ajuste completo.
Modificar apenas alguns dos parâmetros atuais do modelo pré-treinado (geralmente, as camadas mais próximas da camada de saída), enquanto mantém os outros parâmetros atuais inalterados (geralmente, as camadas mais próximas da camada de entrada). Consulte ajuste de eficiência de parâmetros.
Adição de mais camadas, geralmente sobre as camadas existentes mais próximas da camada de saída.

O ajuste é uma forma de aprendizado por transferência. Assim, o ajuste fino pode usar uma função de perda diferente ou um tipo de modelo diferente daqueles usados para treinar o modelo pré-treinado. Por exemplo, é possível ajustar um modelo de imagem grande pré-treinado para produzir um modelo de regressão que retorne o número de pássaros em uma imagem de entrada.

Compare e contraste o ajuste fino com os seguintes termos:

destilação
aprendizado baseado em comandos

Flax

#language

Uma biblioteca de código aberto e alto desempenho para aprendizado profundo baseada no JAX (link em inglês). O Flax oferece funções para treinar redes neurais, bem como métodos para avaliar o desempenho delas.

Flaxformer

#language

Uma biblioteca Transformer de código aberto, criada no Flax, projetada principalmente para processamento de linguagem natural e pesquisa multimodal.

esquecer a porta

#seq

A parte de uma célula de memória de curto prazo que regula o fluxo de informações pela célula. As portas de esquecimento mantêm o contexto decidindo quais informações descartar do estado da célula.

softmax completa

Sinônimo de softmax.

Contraste com a amostragem de candidatos.

camada totalmente conectada

Uma camada escondida em que cada nó está conectado a todos os nós na camada escondida subsequente.

Uma camada totalmente conectada também é conhecida como camada densa.

transformação de função

Uma função que usa uma função como entrada e retorna uma função transformada como saída. O JAX usa transformações de função.

G

GAN

Abreviação de rede adversária generativa.

generalização

#fundamentals

Capacidade de um modelo de fazer previsões corretas em dados novos que ainda não foram vistos. Um modelo capaz de generalizar é o oposto de um modelo com overfitting.

Clique no ícone para ver mais observações.

Você vai treinar um modelo com base nos exemplos do conjunto de treinamento. Consequentemente, o modelo aprende as peculiaridades dos dados no conjunto de treinamento. Essencialmente, a generalização pergunta se o modelo pode fazer boas previsões em exemplos que não estão no conjunto de treinamento.

Para incentivar a generalização, a regularização (em inglês) ajuda um modelo a treinar um modelo com menor precisão de acordo com as peculiaridades dos dados no conjunto de treinamento.

curva de generalização

#fundamentals

Um gráfico de perda de treinamento e perda de validação como uma função do número de iterações.

Uma curva de generalização pode ajudar a detectar um possível overfitting (link em inglês). Por exemplo, a curva de generalização a seguir sugere overfitting, porque a perda de validação, em última análise, se torna significativamente maior do que a perda de treinamento.

Um gráfico cartesiano em que o eixo y é rotulado como perda e o eixo x é rotulado como iterações. Dois gráficos aparecem. Um gráfico mostra a perda de treinamento, e o outro mostra a perda de validação.
Os dois gráficos começam de maneira semelhante, mas a perda de treinamento eventualmente cai muito menor que a perda de validação.

modelo linear generalizado

Uma generalização dos modelos de regressão dos mínimos quadrados, que são baseados em ruído gaussiano, para outros tipos de modelos baseados em outros tipos de ruído, como ruído de Poisson ou ruído categórico. Exemplos de modelos lineares generalizados:

regressão logística
regressão multiclasse
regressão dos mínimos quadrados

Os parâmetros de um modelo linear generalizado podem ser encontrados por meio da otimização convexa.

Os modelos lineares generalizados exibem as seguintes propriedades:

A previsão média do modelo de regressão dos mínimos quadrados ideal é igual ao rótulo médio nos dados de treinamento.
A probabilidade média prevista pelo modelo de regressão logística ideal é igual ao rótulo médio nos dados de treinamento.

O poder de um modelo linear generalizado é limitado pelos atributos dele. Ao contrário do modelo profundo, o modelo linear generalizado não pode "aprender novos atributos".

rede adversária generativa (GAN)

Um sistema para criar novos dados em que um gerador cria dados e um discriminador determina se esses dados criados são válidos ou inválidos.

IA generativa

#language

#image

#IAgenerativa

Um campo transformador emergente sem definição formal. Dito isso, a maioria dos especialistas concorda que os modelos de IA generativa podem criar ("gerar") conteúdo que é tudo o seguinte:

complexo
coerentes
original

Por exemplo, um modelo de IA generativa pode criar ensaios ou imagens sofisticadas.

Algumas tecnologias anteriores, incluindo LSTMs e RNNs, também podem gerar conteúdo original e coerente. Alguns especialistas veem essas tecnologias anteriores como IA generativa, enquanto outros acreditam que a verdadeira IA generativa requer resultados mais complexos do que essas tecnologias anteriores podem produzir.

Contraste com o ML preditivo.

modelo generativo

Na prática, um modelo que realiza uma das seguintes ações:

Cria (gera) novos exemplos do conjunto de dados de treinamento. Por exemplo, um modelo generativo poderia criar poesias após treinar em um conjunto de dados de poemas. A parte do gerador de uma rede adversária generativa se enquadra nessa categoria.
Determina a probabilidade de um novo exemplo vir do conjunto de treinamento ou de ter sido criado a partir do mesmo mecanismo que criou o conjunto de treinamento. Por exemplo, após o treinamento em um conjunto de dados composto de frases em inglês, um modelo generativo poderia determinar a probabilidade de que uma nova entrada seja uma frase válida em inglês.

Teoricamente, um modelo generativo pode discernir a distribuição de exemplos ou atributos específicos em um conjunto de dados. Ou seja:

p(examples)

Modelos de aprendizado não supervisionados são generativos.

Contraste com modelos discriminativos.

generator

O subsistema em uma rede adversária generativa que cria novos exemplos (link em inglês).

Contraste com o modelo discriminativo.

impureza de gini

#df

Uma métrica semelhante à entropia. Divisores usam valores derivados da impureza gini ou da entropia para compor condições para as árvores de decisão de classificação. O ganho de informações é derivado da entropia. Não existe um termo equivalente universalmente aceito para a métrica derivada da impureza gini. No entanto, essa métrica sem nome é tão importante quanto o ganho de informações.

A impureza de Gini também é chamada de índice de gini, ou simplesmente gini.

Clique no ícone para ver detalhes matemáticos sobre a impureza do gini.

A impureza de Gini é a probabilidade de classificar incorretamente um novo dado extraído da mesma distribuição. A impureza gini de um conjunto com dois valores possíveis "0" e "1" (por exemplo, os rótulos em um problema de classificação binária) é calculada a partir da seguinte fórmula:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

onde:

I é a impureza gini.
p é a fração dos exemplos "1".
q é a fração dos exemplos "0". Observe que q = 1-p

Por exemplo, considere o conjunto de dados a seguir:

100 rótulos (0,25 do conjunto de dados) contêm o valor "1"
300 rótulos (0,75 do conjunto de dados) contêm o valor "0"

Portanto, a impureza gini é:

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Consequentemente, um rótulo aleatório do mesmo conjunto de dados teria 37,5% de chance de ser classificado incorretamente e 62,5% de ser classificado corretamente.

Um rótulo perfeitamente equilibrado (por exemplo, 200 "0" e 200 "1") teria uma impureza gini de 0,5. Um rótulo altamente desequilibrado teria uma impureza gini próxima de 0,0.

conjunto de dados de ouro

Um conjunto de dados selecionados manualmente que capturam informações empíricas. As equipes podem usar um ou mais conjuntos de dados de ouro para avaliar a qualidade de um modelo.

Alguns conjuntos de dados de ouro capturam subdomínios diferentes de informações empíricas. Por exemplo, um conjunto de dados ouro para classificação de imagens pode capturar condições de iluminação e resolução da imagem.

GPT: transformador pré-treinado generativo

#language

Uma família de modelos de linguagem grandes baseados em Transformer desenvolvidos pela OpenAI.

As variantes da GPT podem ser aplicadas a várias modalidades, incluindo:

geração de imagens (por exemplo, ImageGPT)
geração de texto para imagem (por exemplo, DALL-E).

gradient

O vetor de derivadas parciais em relação a todas as variáveis independentes. Em machine learning, o gradiente é o vetor das derivadas parciais da função de modelo. O gradiente aponta na direção de subida mais acentuada.

acúmulo de gradiente

Uma técnica de retropropagação que atualiza os parâmetros somente uma vez por período e não por iteração. Depois de processar cada minilote, o acúmulo de gradiente simplesmente atualiza um total executado de gradientes. Em seguida, após processar o último minilote na época, o sistema finalmente atualiza os parâmetros com base no total de todas as mudanças de gradiente.

O acúmulo de gradiente é útil quando o tamanho do lote é muito grande em comparação com a quantidade de memória disponível para treinamento. Quando a memória é um problema, a tendência natural é reduzir o tamanho do lote. No entanto, a redução do tamanho do lote na retropropagação normal aumenta o número de atualizações de parâmetro. O acúmulo de gradiente permite que o modelo evite problemas de memória, mas treine de forma eficiente.

árvores (de decisão) com aumento de gradiente (GBT)

#df

Um tipo de floresta de decisão em que:

O treinamento depende do aumento do gradiente.
O modelo fraco é uma árvore de decisão.

aumento de gradiente

#df

Algoritmo de treinamento em que modelos fracos são treinados para melhorar de forma iterativa a qualidade (reduzir a perda) de um modelo forte. Por exemplo, um modelo fraco pode ser linear ou pequeno de árvore de decisão. O modelo forte se torna a soma de todos os modelos fracos treinados anteriormente.

Na forma mais simples de otimização de gradiente, a cada iteração, um modelo fraco é treinado para prever o gradiente de perda do modelo forte. Em seguida, a saída do modelo forte é atualizada subtraindo o gradiente previsto, semelhante ao gradiente descendente.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

onde:

$F_{0}$ é o modelo inicial forte.
$F_{i+1}$ é o próximo modelo forte.
$F_{i}$ é o modelo forte atual.
$\xi$ é um valor entre 0,0 e 1,0 chamado redução, que é análogo à taxa de aprendizado no gradiente descendente.
$f_{i}$ é o modelo fraco treinado para prever o gradiente de perda de $F_{i}$.

As variações modernas de otimização de gradiente também incluem a segunda derivada (hessiano) da perda no cálculo.

As árvores de decisão são comumente usadas como modelos fracos no gradiente de otimização. Consulte árvores com gradiente otimizado (decisão).

truncamento de gradiente

#seq

Um mecanismo usado com frequência para atenuar o problema do gradiente explosivo por meio da limitação artificial (recorte) do valor máximo dos gradientes ao usar o gradiente descendente para treinar um modelo.

gradiente descendente

#fundamentals

Uma técnica matemática para minimizar a perda. O gradiente descendente ajusta iterativamente os pesos e os vieses, encontrando gradualmente a melhor combinação para minimizar a perda.

O gradiente descendente é mais antigo (muito mais antigo) do que o aprendizado de máquina.

gráfico

#TensorFlow

No TensorFlow, uma especificação de computação. Os nós no gráfico representam as operações. As bordas são direcionadas e representam a transmissão do resultado de uma operação (um Tensor) como um operando para outra operação. Use o TensorBoard para visualizar um gráfico.

execução de grafo

#TensorFlow

Um ambiente de programação do TensorFlow em que o programa constrói primeiro um gráfico e depois executa esse gráfico inteiro ou parte dele. A execução de grafos é o modo de execução padrão no TensorFlow 1.x.

Contraste com a execução antecipada.

política gananciosa

#rl

No aprendizado por reforço, uma política que sempre escolhe a ação com o maior retorno esperado.

informações empíricas

#fundamentals

Verdade.

O que realmente aconteceu.

Por exemplo, considere um modelo de classificação binária que prevê se um estudante do primeiro ano da universidade se formará em seis anos. A informação empírica desse modelo é se o estudante realmente se graduou em seis anos.

Clique no ícone para ver mais observações.

Avaliamos a qualidade do modelo com base em informações empíricas. No entanto, as informações empíricas nem sempre são totalmente verdadeiras. Por exemplo, considere os seguintes exemplos de possíveis imperfeições nas informações empíricas:

No exemplo de graduação, temos certeza de que os registros de graduação de cada aluno estão sempre corretos? O registro da universidade é impecável?
Suponha que o rótulo seja um valor de ponto flutuante medido por instrumentos (por exemplo, barômetros). Como podemos ter certeza de que cada instrumento foi calibrado de maneira idêntica ou de que cada leitura foi feita nas mesmas circunstâncias?
Se o rótulo é uma questão de opinião humana, como podemos ter certeza de que cada avaliador humano está avaliando eventos da mesma maneira? Para melhorar a consistência, avaliadores humanos especialistas às vezes intervem.

viés de atribuição a grupos

#fairness

Supor que o que é verdade para um indivíduo também é verdade para todos desse grupo. Os efeitos do viés de atribuição de grupo podem ser exacerbados se uma amostragem por conveniência for usada para coleta de dados. Em uma amostra não representativa, podem ser feitas atribuições que não refletem a realidade.

Consulte também viés de homogeneidade externa ao grupo e viés de homogeneidade dentro do grupo.

H

alucinação artificial

#language

A produção de resultados aparentemente plausíveis, mas factualmente incorretos, por um modelo de IA generativa que parece fazer uma declaração sobre o mundo real. Por exemplo, um modelo de IA generativa que alega que Barack Obama morreu em 1865 está alucinante.

hash

Em machine learning, um mecanismo para agrupar dados categóricos por classes, especialmente quando o número de categorias é grande, mas o número de categorias que realmente aparecem no conjunto de dados é comparativamente pequeno.

Por exemplo, a Terra é lar de cerca de 73 mil espécies de árvores. É possível representar cada uma das 73 mil espécies de árvores em 73 mil buckets categóricos separados. Como alternativa, se apenas 200 dessas espécies de árvores realmente aparecerem em um conjunto de dados, você poderá usar o hash para dividir as espécies de árvores em cerca de 500 buckets.

Um único balde pode conter várias espécies de árvores. Por exemplo, o hash pode colocar baobá e bordo vermelho, duas espécies geneticamente diferentes, no mesmo bucket. O hash ainda é uma boa maneira de mapear grandes conjuntos categóricos no número selecionado de buckets. O hash transforma um atributo categórico que tem um grande número de valores possíveis em um número muito menor de valores, agrupando valores de maneira determinista.

heurística

Uma solução simples e rápida para um problema. Por exemplo, "Com uma heurística, alcançamos 86% de precisão. Quando mudamos para uma rede neural profunda, a precisão subiu para 98%."

camada escondida

#fundamentals

Uma camada em uma rede neural entre a camada de entrada (os atributos) e a camada de saída (a previsão). Cada camada escondida consiste em um ou mais neurônios. Por exemplo, a rede neural a seguir contém duas camadas escondidas, a primeira com três neurônios e a segunda com dois:

Uma rede neural profunda contém mais de uma camada escondida. Por exemplo, a ilustração anterior mostra uma rede neural profunda porque o modelo contém duas camadas escondidas.

clustering hierárquico

#clustering

Uma categoria de algoritmos de clustering que criam uma árvore de clusters. O clustering hierárquico é adequado para dados hierárquicos, como taxonomias botânicas. Há dois tipos de algoritmos de clustering hierárquicos:

Primeiro, o clustering aglomerativo atribui cada exemplo ao próprio cluster e mescla iterativamente os clusters mais próximos para criar uma árvore hierárquica.
Primeiro, o clustering divisivo agrupa todos os exemplos em um único cluster e, em seguida, o divide iterativamente em uma árvore hierárquica.

Contraste com o clustering baseado em centroide.

perda de articulação

Uma família de funções de perda para classificação projetada para encontrar o limite de decisão o mais distante possível de cada exemplo de treinamento, maximizando a margem entre os exemplos e o limite. As KSVMs usam a perda de articulação ou uma função relacionada, como a perda de articulação quadrada. Para classificação binária, a função de perda de articulação é definida da seguinte maneira:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

em que y é o rótulo verdadeiro, -1 ou +1, e y' é a saída bruta do modelo de classificador:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Consequentemente, um gráfico de perda de articulação versus (y * y') fica assim:

Um gráfico cartesiano que consiste em dois segmentos de linha unidos. O primeiro segmento de linha começa em (-3, 4) e termina em (1, 0). O segmento da segunda linha começa em (1, 0) e continua indefinidamente com uma inclinação de 0.

viés histórico

#fairness

Um tipo de viés que já existe no mundo e entrou em um conjunto de dados. Esses vieses tendem a refletir estereótipos culturais, desigualdades demográficas e preconceitos contra determinados grupos sociais.

Por exemplo, considere um modelo de classificação que prevê se um solicitante de empréstimo vai ficar inadimplente ou não, que foi treinado com base em dados históricos de inadimplência dos anos 1980 de bancos locais em duas comunidades diferentes. Se os candidatos anteriores da Comunidade A tivessem seis vezes mais probabilidades de inadimplência dos empréstimos do que os da Comunidade B, o modelo poderia aprender um viés histórico, resultando em uma menor probabilidade de aprovar empréstimos na Comunidade A, mesmo que as condições históricas que resultaram nas taxas de inadimplência mais altas dessa comunidade não fossem mais relevantes.

dados não incluídos

Exemplos: não usados intencionalmente ("fornecidos") durante o treinamento. O conjunto de dados de validação e o conjunto de dados de teste são exemplos de dados não incluídos. Os dados de validação ajudam a avaliar a capacidade do modelo de generalizar para dados diferentes daqueles em que foi treinado. A perda no conjunto de validação oferece uma estimativa melhor da perda em um conjunto de dados não visto do que a perda no conjunto de treinamento.

anfitrião

#TensorFlow

#GoogleCloud

Ao treinar um modelo de ML em ícones de acelerador (GPUs ou TPUs), a parte do sistema que controla o seguinte:

O fluxo geral do código.
A extração e transformação do pipeline de entrada.

O host normalmente é executado em uma CPU, não em um chip acelerador. O dispositivo manipula tensores nos ícones do acelerador.

hiperparâmetro

#fundamentals

As variáveis que você ou um serviço de ajuste de hiperparâmetros ajustam durante execuções sucessivas de treinamento de um modelo. Por exemplo, a taxa de aprendizado é um hiperparâmetro. É possível definir a taxa de aprendizado como 0,01 antes de uma sessão de treinamento. Se você determinar que 0,01 é muito alto, defina a taxa de aprendizado como 0,003 na próxima sessão de treinamento.

Por outro lado, os parâmetros são os diversos pesos e viés que o modelo aprende durante o treinamento.

hiperplano

Um limite que separa um espaço em dois subespaços. Por exemplo, uma linha é um hiperplano em duas dimensões, e um plano é um hiperplano em três dimensões. Normalmente, em machine learning, um hiperplano é o limite que separa um espaço de alta dimensão. Máquinas de vetores com suporte do kernel usam hiperplanos para separar classes positivas de classes negativas, geralmente em um espaço de dimensão muito alta.

I

i.i.d.

Abreviação de distribuído de maneira independente e idêntica.

Reconhecimento de imagem

#image

Um processo que classifica objetos, padrões ou conceitos em uma imagem. O reconhecimento de imagem também é conhecido como classificação de imagem.

Para mais informações, consulte Prática de ML: classificação de imagens.

conjunto de dados desequilibrado

Sinônimo de conjunto de dados desequilibrado de classe.

viés implícito

#fairness

Fazer automaticamente uma associação ou suposição com base nos modelos e na memória da pessoa. O viés implícito pode afetar:

Como os dados são coletados e classificados.
Como os sistemas de machine learning são projetados e desenvolvidos.

Por exemplo, ao criar um classificador para identificar fotos de casamento, um engenheiro pode usar a presença de um vestido branco em uma foto como atributo. No entanto, vestidos brancos eram costumes apenas durante certas eras e em certas culturas.

Consulte também viés de confirmação.

imputação

Forma abreviada de imputação de valor.

incompatibilidade das métricas de imparcialidade

#fairness

A ideia de que algumas noções de imparcialidade são mutuamente incompatíveis e não podem ser satisfeitas simultaneamente. Como resultado, não há uma métrica universal que possa ser aplicada a todos os problemas de ML para quantificar a imparcialidade.

Isso pode parecer desanimador, mas a incompatibilidade das métricas de imparcialidade não implica que os esforços dessa imparcialidade são inúteis. Em vez disso, sugere que a imparcialidade precisa ser definida contextualmente para um determinado problema de ML, com o objetivo de evitar danos específicos aos casos de uso.

Consulte "Sobre a (im)possibilidade da imparcialidade" para conferir uma discussão mais detalhada sobre esse tópico.

aprendizado em contexto

#language

#IAgenerativa

Sinônimo de comandos few-shot.

distribuído de maneira independente e idêntica

#fundamentals

Dados extraídos de uma distribuição que não muda e em que cada valor renderizado não depende de valores que foram desenhados anteriormente. Uma i.i.d. é o gás ideal do machine learning, uma construção matemática útil, mas quase nunca encontrada no mundo real. Por exemplo, a distribuição de visitantes de uma página da Web pode ser, ou seja, durante um breve período, ou seja, a distribuição não muda durante esse breve período e a visita de uma pessoa geralmente é independente da visita de outra. No entanto, se você expandir esse período, podem aparecer diferenças sazonais nos visitantes da página da Web.

Consulte também não estacionário.

imparcialidade individual

#fairness

Uma métrica de imparcialidade que verifica se indivíduos semelhantes são classificados de maneira semelhante. Por exemplo, a Brobdingnagian Academy pode querer satisfazer a imparcialidade individual, garantindo que dois estudantes com notas idênticas e pontuações de teste padronizadas tenham a mesma probabilidade de receber admissão.

A imparcialidade individual depende inteiramente de como você define "similaridade" (neste caso, notas e pontuações de teste). Você corre o risco de introduzir novos problemas de imparcialidade se sua métrica de similaridade não tiver informações importantes, como o rigor do currículo de um estudante.

Consulte "Imparcialidade com base na consciência para uma discussão mais detalhada sobre imparcialidade individual.

inferência

#fundamentals

Em machine learning, o processo de fazer previsões aplicando um modelo treinado a exemplos não rotulados.

A inferência tem um significado um pouco diferente na estatística. Consulte o artigo da Wikipédia sobre inferência estatística para saber mais detalhes.

caminho de inferência

#df

Em uma árvore de decisão, durante a inferência, a rota que um exemplo específico usa da raiz para outras condições, terminando com uma folha. Por exemplo, na árvore de decisão a seguir, as setas mais grossas mostram o caminho de inferência de um exemplo com estes valores de atributo:

x = 7
y = 12
z = -3

O caminho de inferência na ilustração abaixo percorre três condições antes de chegar à folha (Zeta).

Uma árvore de decisão composta de quatro condições e cinco folhas.
A condição raiz é (x > 0). Como a resposta é "Sim", o caminho de inferência viaja da raiz até a próxima condição (y > 0).
Como a resposta é "Sim", o caminho de inferência vai para a
próxima condição (z > 0). Como a resposta é "Não", o caminho de inferência
vai até o nó do terminal, que é a folha (Zeta).

As três setas grossas mostram o caminho de inferência.

ganho de informações

#df

Em florestas de decisão, a diferença entre a entropia de um nó e a soma ponderada (por número de exemplos) da entropia dos nós filhos. A entropia de um nó é a entropia dos exemplos nesse nó.

Por exemplo, considere os seguintes valores de entropia:

entropia do nó pai = 0,6
entropia de um nó filho com 16 exemplos relevantes = 0,2
entropia de outro nó filho com 24 exemplos relevantes = 0,1

Portanto, 40% dos exemplos estão em um nó filho e 60% no outro. Assim:

Soma da entropia ponderada dos nós filhos = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Então, o ganho de informações é:

ganho de informações = entropia do nó pai - soma da entropia ponderada dos nós filhos
ganho de informação = 0,6 - 0,14 = 0,46

A maioria dos divisores busca criar condições que maximizam o ganho de informações.

viés de grupo

#fairness

Mostrar parcialidade com relação ao próprio grupo ou características próprias. Se os testadores ou avaliadores consistirem nos amigos, familiares ou colegas do desenvolvedor de machine learning, o viés de grupo poderá invalidar o teste do produto ou o conjunto de dados.

O viés de grupo é uma forma de viés de atribuição em grupo (link em inglês). Consulte também o viés de homogeneidade externa ao grupo.

gerador de entradas

Mecanismo pelo qual os dados são carregados em uma rede neural.

Um gerador de entrada pode ser considerado um componente responsável pelo processamento de dados brutos em tensores que são iterados para gerar lotes para treinamento, avaliação e inferência.

camada de entrada

#fundamentals

A camada de uma rede neural que contém o vetor de atributos. Ou seja, a camada de entrada fornece exemplos de treinamento ou inferência. Por exemplo, a camada de entrada na rede neural abaixo consiste em dois recursos:

quatro camadas: uma camada de entrada, duas camadas escondidas e uma camada final.

condição inserida

#df

Em uma árvore de decisão, uma condição que testa a presença de um item em um conjunto de itens. Por exemplo, esta é uma condição inserida:

  house-style in [tudor, colonial, cape]

Durante a inferência, se o valor do recurso de estilo interno for tudor, colonial ou cape, essa condição será avaliada como Sim. Se o valor do recurso de estilo interno for outro (por exemplo, ranch), essa condição será avaliada como Não.

As condições inseridas geralmente levam a árvores de decisão mais eficientes do que as condições que testam recursos com codificação one-hot.

instância

Sinônimo de example.

ajuste de instruções

#IAgenerativa

Uma forma de ajuste que melhora a capacidade de um modelo de IA generativa seguir as instruções. O ajuste de instruções envolve o treinamento de um modelo em uma série de prompts, geralmente abrangendo uma ampla variedade de tarefas. O modelo ajustado por instruções resultante tende a gerar respostas úteis a comandos zero-shot em várias tarefas.

Comparar e contrastar com:

ajustes de eficiência de parâmetros
ajuste de comandos

interpretabilidade

#fundamentals

A capacidade de explicar ou apresentar o raciocínio de um modelo de ML em termos compreensíveis para um ser humano.

Por exemplo, a maioria dos modelos de regressão linear é altamente interpretável. Você só precisa analisar os pesos treinados para cada atributo. As florestas de decisão também são altamente interpretáveis. No entanto, alguns modelos precisam de uma visualização sofisticada para se tornarem interpretáveis.

É possível usar a Ferramenta de aprendizado de interpretabilidade (LIT, na sigla em inglês) para interpretar modelos de ML.

concordância entre avaliadores

Uma medida da frequência com que avaliadores humanos concordam ao realizar uma tarefa. Se os avaliadores discordarem, talvez seja necessário melhorar as instruções da tarefa. Também chamada de concordância entre anotadores ou confiabilidade entre avaliadores. Consulte também o kappa de Cohen (link em inglês), que é uma das medidas de concordância entre avaliadores mais conhecidas.

Interseção sobre união (IoU, na sigla em inglês)

#image

A interseção de dois conjuntos dividido pela união. Em tarefas de detecção de imagens de machine learning, a IoU é usada para medir a precisão da caixa delimitadora prevista do modelo em relação à caixa delimitadora de informações empíricas. Nesse caso, a IoU das duas caixas é a proporção entre a área sobreposta e a área total, e o valor varia de 0 (sem sobreposição de caixa delimitadora prevista e de informações empíricas) a 1 (a caixa delimitadora prevista e a caixa delimitadora das informações empíricas têm exatamente as mesmas coordenadas).

Por exemplo, na imagem abaixo:

A caixa delimitadora prevista (as coordenadas que delimitam o local em que o modelo prevê a localização da mesa à noite na pintura) é destacada em roxo.
A caixa delimitadora de informações empíricas (as coordenadas que delimitam onde a tabela noturna na pintura está realmente localizada) é destacada em verde.

Aqui, a interseção das caixas delimitadoras para previsão e informações empíricas (abaixo à esquerda) é 1, e a união das caixas delimitadoras para previsão e informações empíricas (abaixo à direita) é 7, então a IoU é $\frac{1}{7}$.

A mesma imagem acima, mas com cada caixa delimitadora dividida em quatro
quadrantes. Há sete quadrantes no total, já que o quadrante inferior direito da caixa delimitadora de informações empíricas e o quadrante superior esquerdo da caixa delimitadora prevista se sobrepõem um ao outro. Essa seção sobreposta (destacada em verde) representa a interseção e tem uma área de 1.

IoU

Abreviação de intersecção sobre união.

matriz de itens

#recsystems

Em sistemas de recomendação, uma matriz de vetores de incorporação gerados pela fatoração de matrizes que contém sinais latentes sobre cada item. Cada linha da matriz de itens contém o valor de um único atributo latente para todos os itens. Por exemplo, considere um sistema de recomendação de filmes. Cada coluna na matriz de itens representa um único filme. Os sinais latentes podem representar gêneros ou ser mais difíceis de interpretar que envolvem interações complexas entre gênero, estrelas, idade do filme ou outros fatores.

A matriz de itens tem o mesmo número de colunas que a matriz de destino que está sendo fatorada. Por exemplo, considerando um sistema de recomendação de filmes que avalia 10 mil títulos de filmes, a matriz de itens terá 10 mil colunas.

items

#recsystems

Em um sistema de recomendação, as entidades que um sistema recomenda. Por exemplo, vídeos são os itens que uma locadora de vídeos recomenda, enquanto livros são os itens que uma livraria recomenda.

iteração

#fundamentals

Uma única atualização dos parâmetros de um modelo (os pesos e vieses do modelo) durante o treinamento. O tamanho do lote determina quantos exemplos o modelo processa em uma única iteração. Por exemplo, se o tamanho do lote for 20, o modelo processará 20 exemplos antes de ajustar os parâmetros.

Ao treinar uma rede neural, uma única iteração envolve as duas transmissões a seguir:

Uma passagem direta para avaliar a perda em um único lote.
Um passe para trás (retropropagação) para ajustar os parâmetros do modelo com base na perda e na taxa de aprendizado.

J

JAX

Uma biblioteca de computação de matriz que reúne XLA (álgebra linear acelerada) e diferenciação automática para computação numérica de alto desempenho. O JAX oferece uma API simples e poderosa para escrever código numérico acelerado com transformações combináveis. O JAX oferece recursos como:

grad (diferenciação automática)
jit (compilação just-in-time)
vmap (vetorização automática ou lote)
pmap (paralelização)

O JAX é uma linguagem para expressar e compor transformações de código numérico, análoga, mas muito maior em escopo, à biblioteca NumPy do Python. Na verdade, a biblioteca .numpy no JAX é uma versão funcionalmente equivalente, mas totalmente reescrita da biblioteca NumPy do Python.

O JAX é particularmente adequado para acelerar muitas tarefas de machine learning ao transformar os modelos e dados em um formato adequado para paralelismo entre GPU e chips de acelerador de TPU.

Flax, Optax, Pax e muitas outras bibliotecas são criados na infraestrutura do JAX.

K

Keras

Uma API de machine learning do Python conhecida. O Keras é executado em vários frameworks de aprendizado profundo, incluindo o TensorFlow, em que é disponibilizado como tf.keras.

Máquinas de vetor de suporte de kernel (KSVMs)

Um algoritmo de classificação que busca maximizar a margem entre classes positivas e negativas, mapeando vetores de dados de entrada para um espaço dimensional maior. Por exemplo, considere um problema de classificação em que o conjunto de dados de entrada tem centenas de atributos. Para maximizar a margem entre classes positivas e negativas, uma KSVM pode mapear internamente esses atributos em um espaço de um milhão de dimensões. As KSVMs usam uma função de perda chamada perda de articulação.

pontos-chave

#image

As coordenadas de elementos específicos em uma imagem. Por exemplo, para um modelo de reconhecimento de imagem que diferencia espécies de flores, os pontos-chave podem ser o centro de cada pétala, o caule, o estômen e assim por diante.

validação cruzada em k-dobras

Um algoritmo para prever a capacidade de um modelo de generalizar para novos dados. O k em k-dobra refere-se ao número de grupos iguais em que os exemplos de um conjunto de dados são divididos, ou seja, você treina e testa o modelo k vezes. Para cada rodada de treinamento e teste, um grupo diferente é o conjunto de teste, e todos os grupos restantes se tornam o conjunto de treinamento. Após k rodadas de treinamento e teste, calcule a média e o desvio padrão das métricas de teste escolhidas.

Por exemplo, suponha que seu conjunto de dados seja composto por 120 exemplos. Suponha ainda que você decida definir k como 4. Portanto, depois de embaralhar os exemplos, divida o conjunto de dados em quatro grupos iguais de 30 exemplos e realize quatro rodadas de treinamento/teste:

Por exemplo, o Erro quadrático médio (EQM) pode ser a métrica mais significativa para um modelo de regressão linear. Portanto, você encontraria os desvios médio e padrão do EQM nas quatro rodadas.

k-means

#clustering

Um algoritmo de clustering conhecido que agrupa exemplos em aprendizado não supervisionado. O algoritmo k-means basicamente faz o seguinte:

Determina iterativamente os melhores k pontos centrais (conhecidos como centróides).
Atribui cada exemplo ao centroide mais próximo. Os exemplos mais próximos do mesmo centroide pertencem ao mesmo grupo.

O algoritmo k-means escolhe locais centroides para minimizar o quadrado cumulativo das distâncias de cada exemplo até o centroide mais próximo.

Por exemplo, considere o seguinte gráfico da altura e da largura dos cachorros:

Um gráfico cartesiano com dezenas de pontos de dados.

Se k=3, o algoritmo k-means vai determinar três centroides. Cada exemplo é atribuído ao centroide mais próximo, produzindo três grupos:

O mesmo gráfico cartesiano da ilustração anterior, exceto com três centroides adicionados.
Os pontos de dados anteriores são agrupados em três grupos distintos, com cada grupo representando os pontos de dados mais próximos de um centroide específico.

Imagine que um fabricante quer determinar os tamanhos ideais para suéteres pequenos, médios e grandes para cães. Os três centroides identificam a altura e a largura médias de cada cachorro nesse cluster. Portanto, o fabricante provavelmente deve basear os tamanhos de suéteres nesses três centroides. Observe que o centroide de um cluster normalmente não é um exemplo no cluster.

As ilustrações anteriores mostram k-means para exemplos com apenas dois elementos (altura e largura). Observe que o k-means pode agrupar exemplos em muitos atributos.

k-mediana

#clustering

Um algoritmo de clustering relacionado a k-means. A diferença prática entre as duas é a seguinte:

Em k-means, os centroides são determinados minimizando a soma dos quadrados da distância entre um candidato a centroide e cada um de seus exemplos.
Em k-mediana, os centroides são determinados minimizando a soma da distância entre um candidato a centroide e cada um dos seus exemplos.

As definições de distância também são diferentes:

k-means depende da distância euclidiana do centroide até um exemplo. Em duas dimensões, a distância euclidiana significa usar o teorema de Pitágoras para calcular a hipotenusa. Por exemplo, a distância k-means entre (2,2) e (5,-2) seria:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-median depende da distância de Manhattan do centroide até um exemplo. Essa distância é a soma dos deltas absolutos de cada dimensão. Por exemplo, a distância k-mediana entre (2,2) e (5,-2) seria:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regularização de L₀

#fundamentals

Um tipo de regularização que penaliza o número total de pesos diferentes de zero em um modelo. Por exemplo, um modelo com 11 pesos diferentes de zero será penalizado mais do que um modelo semelhante com 10 pesos diferentes de zero.

A regularização de L₀ às vezes é chamada de regularização de norma L0.

Clique no ícone para ver mais observações.

Geralmente, a regularização L₀ é impraticável em modelos grandes porque a regularização L₀ transforma o treinamento em um problema de otimização convexo.

Perda L₁

#fundamentals

Uma função de perda que calcula o valor absoluto da diferença entre os valores reais de rótulo e os valores que um modelo prevê. Confira abaixo o cálculo da perda de L₁ para um lote de cinco exemplos:

Valor real do exemplo	Valor previsto do modelo	Valor absoluto do delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = perda L₁

A perda L₁ é menos sensível a outliers do que a perda L₂ (links em inglês).

O erro médio absoluto é a perda média de L₁ por exemplo.

Clique no ícone para conferir a matemática formal.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

em que:

$n$ é o número de exemplos.
$y$ é o valor real do rótulo.
$\hat{y}$ é o valor que o modelo prevê para $y$.

Regularização L₁

#fundamentals

Um tipo de regularização que penaliza os pesos em proporção à soma do valor absoluto dos pesos. A regularização L₁ ajuda a direcionar os pesos de atributos irrelevantes ou pouco relevantes para exatamente 0. Um atributo com um peso de 0 é efetivamente removido do modelo.

Contraste com a regularização L₂.

Perda L₂

#fundamentals

Uma função de perda que calcula o quadrado da diferença entre os valores reais de rótulo e os valores que um modelo prevê. Confira abaixo o cálculo da perda de L₂ de um lote de cinco exemplos:

Valor real do exemplo	Valor previsto do modelo	Quadrado do delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = perda L₂

Devido ao quadrado, a perda de L₂ amplifica a influência de outliers (link em inglês). Ou seja, a perda de L₂ reage mais fortemente a previsões ruins do que a perda L₁ (em inglês). Por exemplo, a perda L₁ do lote anterior seria 8 em vez de 16. Observe que um único outlier representa 9 dos 16.

Modelos de regressão geralmente usam a perda L₂ como a função de perda.

O Erro quadrático médio é a perda média de L₂ por exemplo. Perda quadrada é outro nome para perda L₂.

Clique no ícone para conferir a matemática formal.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

em que:

$n$ é o número de exemplos.
$y$ é o valor real do rótulo.
$\hat{y}$ é o valor que o modelo prevê para $y$.

Regularização de L₂

#fundamentals

Um tipo de regularização que penaliza os pesos na proporção à soma dos quadrados das ponderações. A regularização L₂ ajuda a aproximar pesos outliers (aqueles com valores positivos altos ou baixos) mais próximos de 0, mas não exatamente de 0. Recursos com valores muito próximos de 0 permanecem no modelo, mas não influenciam muito a previsão dele.

A regularização de L₂ sempre melhora a generalização em modelos lineares.

Contraste com a regularização L₁.

o rótulo.

#fundamentals

Em machine learning supervisionado, a parte de "resposta" ou "resultado" de um exemplo.

Cada exemplo rotulado consiste em um ou mais recursos e um rótulo. Por exemplo, em um conjunto de dados de detecção de spam, o rótulo provavelmente seria "spam" ou "não é spam". Em um conjunto de dados de chuvas, o rótulo pode ser a quantidade de chuva que caiu durante um determinado período.

exemplo rotulado

#fundamentals

Um exemplo que contém um ou mais atributos e um rótulo. A tabela a seguir mostra três exemplos rotulados de um modelo de avaliação interna, cada um com três atributos e um rótulo:

Número de quartos	Número de banheiros	Idade da casa	Preço da casa (rótulo)
3	2	15	US$ 345.000
2	1	72	US$ 179.000
4	2	34	US$ 392.000

No machine learning supervisionado, os modelos são treinados em exemplos rotulados e fazem previsões em exemplos não rotulados.

Compare os exemplos rotulados com outros sem rótulos.

vazamento de rótulos

Uma falha no design do modelo em que um recurso é um proxy para o rótulo. Por exemplo, considere um modelo de classificação binária que prevê se um cliente em potencial comprará ou não um produto específico. Suponha que um dos recursos do modelo seja um booleano chamado SpokeToCustomerAgent. Suponha também que um agente de cliente só seja atribuído após o cliente em potencial comprar o produto. Durante o treinamento, o modelo aprenderá rapidamente a associação entre SpokeToCustomerAgent e o rótulo.

Lambda

#fundamentals

Sinônimo de taxa de regularização.

Lambda é um termo sobrecarregado. Aqui, vamos nos concentrar na definição do termo na regularização.

LaMDA (Language Model for Dialogue Applications)

#language

Um modelo de linguagem grande baseado em Transformer, desenvolvido pelo Google e treinado em um grande conjunto de dados de diálogos que pode gerar respostas de conversação realistas.

LaMDA: nossa tecnologia de conversação inovadora fornece uma visão geral.

pontos de referência

#image

Sinônimo de keypoints.

modelo de linguagem

#language

Um model que estima a probabilidade de um model ou uma sequência de tokens ocorrer em uma sequência mais longa.

Clique no ícone para ver mais observações.

Embora não sejam intuitivos, muitos modelos que avaliam texto não são modelos de linguagem. Por exemplo, modelos de classificação de texto e de análise de sentimento não são modelos de linguagem.

modelo de linguagem grande

#language

Um termo informal sem definição estrita que geralmente significa um modelo de linguagem com um alto número de parâmetros. Alguns modelos de linguagem grandes contêm mais de 100 bilhões de parâmetros.

Clique no ícone para ver mais observações.

Talvez você esteja se perguntando quando um modelo de linguagem se torna grande o suficiente para ser chamado de modelo de linguagem grande. Atualmente, não há uma linha de definição acordada para o número de parâmetros.

A maioria dos modelos de linguagem grandes atuais (por exemplo, GPT) é baseada na arquitetura Transformer.

espaço latente

#language

Sinônimo de incorporação de espaço.

layer

#fundamentals

Um conjunto de neurônios em uma rede neural. Três tipos comuns de camadas são os seguintes:

A camada de entrada, que fornece valores para todos os recursos.
Uma ou mais camadas escondidas, que encontram relações não lineares entre os elementos e o rótulo.
A camada de saída, que fornece a previsão.

Por exemplo, a ilustração a seguir mostra uma rede neural com uma camada de entrada, duas camadas escondidas e uma camada final:

Uma rede neural com uma camada de entrada, duas camadas escondidas e uma camada final. A camada de entrada consiste em dois recursos. A primeira camada escondida consiste em três neurônios e a segunda camada escondida consiste em dois. A camada final consiste em um único nó.

No TensorFlow, as camadas também são funções do Python que usam Tensors e opções de configuração como entrada e produzem outros tensores como saída.

API Layers (tf.layers)

#TensorFlow

Uma API do TensorFlow para criar uma rede neural profunda como uma composição de camadas. A API Layers permite criar diferentes tipos de camadas, como:

tf.layers.Dense para uma camada totalmente conectada.
tf.layers.Conv2D para uma camada convolucional.

A API Layers segue as convenções da API de camadas Keras. Ou seja, além de um prefixo diferente, todas as funções na API Layers têm os mesmos nomes e assinaturas que as contrapartes na API Keras layers.

folha

#df

Qualquer endpoint em uma árvore de decisão. Ao contrário de uma condição, uma folha não executa um teste. Em vez disso, uma folha é uma previsão possível. Uma folha também é o nó terminal de um caminho de inferência.

Por exemplo, a árvore de decisão a seguir contém três folhas:

Uma árvore de decisão com duas condições que levam a três folhas.

Ferramenta de aprendizado de interpretabilidade (LIT)

Uma ferramenta visual e interativa de visualização de dados e compreensão de modelos.

É possível usar a LIT de código aberto para interpretar modelos ou visualizar texto, imagem e dados tabulares.

taxa de aprendizado

#fundamentals

Um número de ponto flutuante que informa ao algoritmo do gradiente descendente qual será o ajuste dos pesos e vieses em cada iteração. Por exemplo, uma taxa de aprendizado de 0,3 ajustaria pesos e vieses três vezes mais potentes do que uma taxa de aprendizado de 0,1.

A taxa de aprendizado é um hiperparâmetro fundamental. Se a taxa de aprendizado for muito baixa, o treinamento demorará muito. Se você definir uma taxa de aprendizado muito alta, o gradiente descendente geralmente terá problemas para alcançar a convergência.

Clique no ícone para ver uma explicação mais matemática.

Durante cada iteração, o algoritmo gradiente descendente multiplica a taxa de aprendizado pelo gradiente. O produto resultante é chamado de etapa do gradiente.

regressão dos mínimos quadrados

Um modelo de regressão linear treinado minimizando a perda de L₂ (link em inglês).

linear

#fundamentals

Relação entre duas ou mais variáveis que podem ser representadas exclusivamente por adição e multiplicação.

O enredo de uma relação linear é uma linha.

Contraste com nonlinear.

modelo linear

#fundamentals

Um model que atribui um model por model para fazer model. Modelos lineares também incorporam um viés. Por outro lado, a relação entre os atributos e as previsões em modelos profundos geralmente é não linear.

Modelos lineares geralmente são mais fáceis de treinar e mais interpretáveis do que modelos profundos. No entanto, os modelos profundos podem aprender relações complexas entre atributos.

Regressão linear e regressão logística são dois tipos de modelos lineares.

Clique no ícone para ver os cálculos.

Um modelo linear segue esta fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

em que:

y' é a previsão bruta. Em determinados tipos de modelos lineares, essa previsão bruta será modificada ainda mais. Por exemplo, consulte Regressão logística.
b é o viés.
w é um peso, portanto, w₁ é o peso do primeiro atributo, w₂ é o peso do segundo atributo e assim por diante.
x é um atributo, portanto, x₁ é o valor do primeiro atributo, x₂ é o valor do segundo e assim por diante.

Por exemplo, suponha que um modelo linear para três recursos aprenda os seguintes vieses e pesos:

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Portanto, considerando os três atributos (x₁, x₂ e x₃), o modelo linear usa a seguinte equação para gerar cada previsão:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Suponha que um exemplo específico contenha os seguintes valores:

x₁ = 4
x₂ = -10
x₃ = 5

Conectar esses valores na fórmula gera uma previsão para este exemplo:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Os modelos lineares incluem não apenas modelos que usam apenas uma equação linear para fazer previsões, mas também um conjunto mais amplo de modelos que usam uma equação linear como apenas um componente da fórmula que faz previsões. Por exemplo, a regressão logística pós-processa a previsão bruta (y') para produzir um valor de previsão final entre 0 e 1, exclusivamente.

regressão linear

#fundamentals

Um tipo de modelo de machine learning em que as duas afirmações a seguir são verdadeiras:

O modelo é linear.
A previsão é um valor de ponto flutuante. Esta é a parte de regressão da regressão linear.

Comparar regressão linear com regressão logística. Além disso, a regressão de contraste com classificação.

LIT

Abreviação de Ferramenta de aprendizado de interpretabilidade (LIT, na sigla em inglês), que era conhecida como ferramenta de interpretabilidade de linguagem.

LLM

#language

Abreviação de modelo de linguagem grande.

regressão logística

#fundamentals

Um tipo de modelo de regressão que prevê uma probabilidade. Os modelos de regressão logística têm as seguintes características:

O rótulo é categórico. O termo "regressão logística" geralmente se refere à regressão logística binária, ou seja, a um modelo que calcula probabilidades de rótulos com dois valores possíveis. Uma variante menos comum, a regressão logística multinomial, calcula as probabilidades de rótulos com mais de dois valores possíveis.
A função de perda durante o treinamento é Log Loss. É possível colocar várias unidades de perda de registro em paralelo para rótulos com mais de dois valores possíveis.
O modelo tem uma arquitetura linear, não uma rede neural profunda. No entanto, o restante desta definição também se aplica a modelos profundos que preveem probabilidades de rótulos categóricos.

Por exemplo, considere um modelo de regressão logística que calcula a probabilidade de um e-mail de entrada ser spam ou não. Durante a inferência, suponha que o modelo preveja 0,72. Portanto, o modelo está estimando:

72% de chance de o e-mail ser spam.
28% de chance de o e-mail não ser spam.

Um modelo de regressão logística usa a seguinte arquitetura de duas etapas:

O modelo gera uma previsão bruta (y') ao aplicar uma função linear de atributos de entrada.
O modelo usa essa previsão bruta como entrada para uma função sigmoide, que converte a previsão bruta em um valor entre 0 e 1, exclusivo.

Como qualquer modelo de regressão, o modelo de regressão logística prevê um número. No entanto, esse número normalmente se torna parte de um modelo de classificação binária da seguinte maneira:

Se o número previsto for maior que o limite de classificação, o modelo de classificação binária preverá a classe positiva.
Se o número previsto for menor que o limiar de classificação, o modelo de classificação binária preverá a classe negativa.

logits

O vetor de previsões brutas (não normalizadas) que um modelo de classificação gera, que normalmente é transmitida para uma função de normalização. Se o modelo estiver resolvendo um problema de classificação multiclasse, os logits normalmente se tornam uma entrada para a função softmax. A função softmax gera um vetor de probabilidades (normalizadas) com um valor para cada classe possível.

Log Perda

#fundamentals

A função de perda usada na regressão logística binária.

Clique no ícone para ver os cálculos.

A fórmula a seguir calcula a Log Loss:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

em que:

$(x,y)\in D$ é o conjunto de dados que contém muitos exemplos rotulados, que são pares $(x,y)$ .
$y$ é o rótulo em um exemplo com rótulo. Como esta é uma regressão logística, todo valor de $y$ precisa ser 0 ou 1.
$y'$ é o valor previsto (algum entre 0 e 1, excluído), dado o conjunto de atributos em $x$.

log-chance

#fundamentals

O logaritmo da probabilidade de algum evento.

Clique no ícone para ver os cálculos.

Se o evento for uma probabilidade binária, odds faz referência à proporção entre a probabilidade de sucesso (p) e a probabilidade de falha (1-p). Por exemplo, suponha que um determinado evento tenha 90% de probabilidade de sucesso e 10% de probabilidade de falha. Nesse caso, as chances são calculadas da seguinte maneira:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

As log-chances são simplesmente o logaritmo da probabilidade. Por convenção, "logaritmo" refere-se ao logaritmo natural, mas o logaritmo pode ser qualquer base maior que 1. Aderindo à convenção, os log-chances do nosso exemplo são, portanto:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

A função log-odds é o inverso da função sigmoide.

Memória de longo e curto prazo (LSTM, na sigla em inglês)

#seq

Um tipo de célula em uma rede neural recorrente usada para processar sequências de dados em aplicativos como reconhecimento de escrita manual, tradução automática e legendagem de imagens. Os LSTMs resolvem o problema do gradiente desaparecido que ocorre ao treinar RNNs devido a longas sequências de dados, mantendo o histórico em um estado de memória interna com base na nova entrada e no contexto de células anteriores na RNN.

LoRA

#language

#IAgenerativa

Abreviação de Adaptabilidade na classificação baixa.

perda

#fundamentals

Durante o treinamento de um modelo supervisionado, uma medida da distância entre a previsão do modelo e o rótulo.

Uma função de perda calcula a perda.

agregador de perda

Um tipo de algoritmo de machine learning que melhora o desempenho de um modelo combinando as previsões de vários modelos e usando essas previsões para fazer uma única previsão. Consequentemente, um agregador de perda pode reduzir a variação das previsões e melhorar a precisão delas.

curva de perda

#fundamentals

Um gráfico de perda como uma função do número de iterações de treinamento. O gráfico a seguir mostra uma curva de perda típica:

Um gráfico cartesiano de perda em comparação com iterações de treinamento, mostrando uma queda rápida na perda das iterações iniciais, seguida por uma queda gradual e, em seguida, uma inclinação plana durante as iterações finais.

As curvas de perda podem ajudar a determinar quando o modelo está convergente ou overfitting (link em inglês).

As curvas de perda podem traçar todos os tipos de perda a seguir:

perda de treinamento
perda de validação
perda no teste

Consulte também curva de generalização.

função de perda

#fundamentals

Durante o treinamento ou o teste, uma função matemática que calcula a perda em um lote de exemplos. Uma função de perda retorna uma perda menor para modelos que fazem boas previsões do que para modelos que fazem previsões ruins.

Normalmente, o objetivo do treinamento é minimizar a perda que uma função de perda retorna.

Existem muitos tipos diferentes de funções de perda. Escolha a função de perda adequada para o tipo de modelo que você está criando. Exemplo:

Perda de L₂ (ou Erro quadrático médio) é a função de perda da regressão linear.

Log Loss é a função de perda da regressão logística.

superfície de perda

Um gráfico de pesos versus perda. O gradiente descendente busca encontrar os pesos para os quais a superfície de perda tem um mínimo local.

Adaptabilidade na classificação baixa (LoRA, na sigla em inglês)

#language

#IAgenerativa

Um algoritmo para realizar ajustes com eficiência de parâmetros que ajusta apenas um subconjunto dos parâmetros de um modelo de linguagem grande. Ela oferece os seguintes benefícios:

Ajusta mais rapidamente do que técnicas que exigem o ajuste correto de todos os parâmetros de um modelo.

Reduz o custo computacional de inferência no modelo ajustado.

Um modelo ajustado com a LoRA mantém ou melhora a qualidade das previsões.

A LoRA ativa várias versões especializadas de um modelo.

LSTM

#seq

Abreviação de Memória de longo e curto prazo.

M

machine learning

#fundamentals

Um programa ou sistema que treina um modelo usando dados de entrada. O modelo treinado pode fazer previsões úteis com base em dados novos (nunca acessados) coletados da mesma distribuição usada para treinar o modelo.

Machine learning também é uma área de estudo relacionada a esses programas ou sistemas.

classe majoritária

#fundamentals

O rótulo mais comum em um conjunto de dados desequilibrado de classes. Por exemplo, considerando um conjunto de dados contendo 99% de rótulos negativos e 1% de rótulos positivos, os rótulos negativos são a classe majoritária.

Contraste com a classe minoritária.

Processo de decisão de Markov (MDP)

#rl

Um grafo que representa o modelo de tomada de decisões em que as decisões (ou ações) são tomadas para navegar por uma sequência de estados, supondo que a propriedade de Markov seja válida. No aprendizado por reforço, essas transições entre estados retornam uma recompensa numérica.

Propriedade de Markov

#rl

Uma propriedade de certos ambientes, em que as transições de estado são totalmente determinadas por informações implícitas no estado atual e pela ação do agente.

modelo de linguagem mascarada

#language

Um modelo de linguagem que prevê a probabilidade de tokens candidatos preencherem espaços em branco em uma sequência. Por exemplo, um modelo de linguagem mascarado pode calcular as probabilidades de uma ou mais palavras candidatas para substituir o sublinhado na frase a seguir:

O(a) ____ que está usando o chapéu voltou.

A literatura normalmente usa a string "MASK" em vez de um sublinhado. Exemplo:

A "MÁSCARA" do chapéu voltou.

A maioria dos modelos modernos de linguagem mascarada é bidirecional.

matplotlib

Uma biblioteca de plotagem 2D do Python de código aberto. matplotlib, ajuda a visualizar diferentes aspectos do machine learning.

fatoração de matrizes

#recsystems

Em matemática, um mecanismo para encontrar as matrizes cujo produto escalar se aproxima de uma matriz de destino.

Em sistemas de recomendação, a matriz de destino geralmente contém classificações dos usuários em itens. Por exemplo, a matriz de destino de um sistema de recomendação de filmes pode ser semelhante à seguinte, em que os números inteiros positivos são as avaliações dos usuários e 0 significa que o usuário não avaliou o filme:

Casablanca A história da Filadélfia Pantera Negra Mulher-Maravilha Ficção pulp

Usuário 1 5,0 3.0 0,0 2.0 0,0

Usuário 2 4.0 0,0 0,0 1.0 5,0

Usuário 3 3.0 1.0 4.0 5.0 0,0

O sistema de recomendação de filmes tem como objetivo prever as classificações de usuários para filmes sem classificação. Por exemplo, o Usuário 1 vai gostar de Pantera Negra?

Uma abordagem para sistemas de recomendação é usar fatoração de matrizes para gerar as duas matrizes a seguir:

Uma matriz de usuários, definida como o número de usuários X o número de dimensões de embedding.

Uma matriz de itens, moldada como o número de dimensões de embedding X o número de itens.

Por exemplo, usar a fatoração de matrizes em nossos três usuários e cinco itens pode gerar a seguinte matriz de usuário e de item:

User Matrix Item Matrix 1.1 2.3 0.9 0.2 1.4 2.0 1.2 0.6 2.0 1.7 1.2 1.2 -0.1 2.1 2.5 0.5

O produto escalar da matriz de usuário e de item gera uma matriz de recomendação que contém não apenas as classificações originais dos usuários, mas também previsões para os filmes que cada usuário nunca viu. Por exemplo, considere a classificação do Usuário 1 de Casablanca, que era 5,0. O produto escalar correspondente a essa célula na matriz de recomendação deve estar em torno de 5, 0 e é:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

E o mais importante: o Usuário 1 gostará de Pantera Negra? Pegar o produto escalar correspondente à primeira linha e à terceira coluna gera uma classificação prevista de 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Normalmente, a fatoração de matrizes produz uma matriz de usuário e uma matriz de itens que, juntas, são significativamente mais compactas do que a matriz de destino.

Erro médio absoluto (MAE)

A perda média por exemplo quando L₁ perda é usada. Calcule o erro médio absoluto da seguinte forma:

Calcular a perda L₁ de um lote.

Divida a perda de L₁ pelo número de exemplos no lote.

Clique no ícone para conferir a matemática formal.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

onde:

$n$ é o número de exemplos.

$y$ é o valor real do rótulo.

$\hat{y}$ é o valor que o modelo prevê para $y$.

Por exemplo, considere o cálculo de perda de L₁ no lote de cinco exemplos a seguir:

Valor real do exemplo Valor previsto do modelo Perda (diferença entre o valor real e o previsto)

7 6 1

5 4 1

8 11 3

4 6 2

9 8 1

8 = perda L₁

Portanto, a perda de L₁ é 8, e o número de exemplos é 5. Portanto, o erro médio absoluto é:

Mean Absolute Error = L₁ loss / Number of Examples Mean Absolute Error = 8/5 = 1.6

Compare o erro absoluto médio com o erro quadrático médio e a raiz do erro quadrático médio.

Erro quadrático médio (EQM)

A perda média por exemplo quando a perda L₂ é usada. Calcule o erro quadrático médio da seguinte forma:

Calcular a perda L₂ de um lote.

Divida a perda de L₂ pelo número de exemplos no lote.

Clique no ícone para conferir a matemática formal.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ em que:

$n$ é o número de exemplos.

$y$ é o valor real do rótulo.

$\hat{y}$ é a previsão do modelo para $y$.

Por exemplo, considere a perda no lote de cinco exemplos a seguir:

Valor real Previsão do modelo Perda Perda ao quadrado

7 6 1 1

5 4 1 1

8 11 3 9

4 6 2 4

9 8 1 1

16 = perda L₂

Portanto, o Erro quadrático médio é:

Mean Squared Error = L₂ loss / Number of Examples Mean Squared Error = 16/5 = 3.2

O Erro quadrático médio é um otimizador de treinamento muito usado, especialmente para regressão linear.

Compare o erro quadrático médio com erro médio absoluto e raiz do erro quadrático médio.

O TensorFlow Playground usa o erro quadrático médio para calcular os valores de perda.

Clique no ícone para ver mais detalhes sobre os valores atípicos.

As discrepâncias influenciam muito o erro quadrático médio. Por exemplo, uma perda de 1 é uma perda quadrática de 1, mas uma perda de 3 é uma perda ao quadrado de 9. Na tabela anterior, o exemplo com uma perda de três representa cerca de 56% do Erro quadrático médio, enquanto cada um dos exemplos com perda de 1 é responsável por apenas 6% do Erro quadrático médio.

Os outliers não influenciam o erro absoluto médio tanto quanto o erro quadrático médio. Por exemplo, uma perda de três é responsável apenas por cerca de 38% do erro médio absoluto.

O recorte é uma maneira de evitar que outliers extremos prejudicam a capacidade preditiva do modelo.

malha

#TensorFlow

#GoogleCloud

Na programação paralela de ML, um termo associado à atribuição de dados e modelo a ícones de TPU e à definição de como esses valores serão fragmentados ou replicados.

Malha é um termo sobrecarregado que pode significar um dos seguintes:

Um layout físico de chips de TPU.

Uma construção lógica abstrata para mapear os dados e o modelo para os chips de TPU.

Em ambos os casos, a malha é especificada como uma shape.

meta-aprendizado

#language

Um subconjunto do machine learning que descobre ou melhora um algoritmo de aprendizado. Um sistema de metaaprendizado também pode ter como objetivo treinar um modelo para aprender rapidamente uma nova tarefa com uma pequena quantidade de dados ou com a experiência adquirida em tarefas anteriores. Os algoritmos de metaaprendizagem geralmente tentam:

Aprimore ou aprenda recursos criados manualmente, como um inicializador ou um otimizador.

Ter mais eficiência em dados e computação.

Melhorar a generalização.

O metaaprendizado está relacionado ao few-shot learning.

metric

#TensorFlow

Uma estatística importante para você.

Um objetivo é uma métrica que um sistema de machine learning tenta otimizar.

API Metrics (tf.metrics)

Uma API do TensorFlow para avaliar modelos. Por exemplo, tf.metrics.accuracy determina com que frequência as previsões de um modelo correspondem aos rótulos.

minilote

#fundamentals

Um pequeno subconjunto selecionado aleatoriamente de um lote processado em uma iteração. O tamanho do lote de um minilote geralmente está entre 10 e 1.000 exemplos.

Por exemplo, suponha que todo o conjunto de treinamento (o lote completo) seja composto por 1.000 exemplos. Suponha também que você definiu o tamanho do lote de cada minilote como 20. Portanto, cada iteração determina a perda em uma lista aleatória de 20 dos 1.000 exemplos e, em seguida, ajusta os pesos e os vieses (links em inglês).

É muito mais eficiente calcular a perda em um minilote do que a perda em todos os exemplos no lote completo.

gradiente descendente estocástico de minilote

Um algoritmo de gradiente descendente que usa minilotes. Em outras palavras, o gradiente descendente estocástico do minilote estima o gradiente com base em um pequeno subconjunto dos dados de treinamento. O gradiente descendente estocástico regular usa um minilote de tamanho 1.

perda minimax

Uma função de perda para redes adversárias generativas com base na entropia cruzada entre a distribuição dos dados gerados e dos dados reais.

A perda minimax é usada no primeiro documento para descrever redes adversárias generativas.

classe minoritária

#fundamentals

O rótulo menos comum em um conjunto de dados desequilibrado de classes. Por exemplo, considerando um conjunto de dados contendo 99% de rótulos negativos e 1% de rótulos positivos, os rótulos positivos são a classe minoritária.

Contraste com a classe majoritária.

Clique no ícone para ver mais observações.

Um conjunto de treinamento com um milhão de exemplos parece impressionante. No entanto, se a classe minoritária for mal representada, até mesmo um conjunto de treinamento muito grande poderá ser insuficiente. Concentre-se menos no número total de exemplos no conjunto de dados e mais no número de exemplos na classe minoritária.

Se o conjunto de dados não contiver exemplos suficientes de classe minoritária, use downsample (a definição no segundo item) para complementar a classe minoritária.

ML

Abreviação de machine learning.

MNIST

#image

Conjunto de dados de domínio público compilado por LeCun, Cortes e Burges com 60.000 imagens. Cada imagem mostra como um ser humano escreveu manualmente um dígito específico de 0 a 9. Cada imagem é armazenada como uma matriz de números inteiros de 28x28, em que cada número inteiro é um valor em escala de cinza entre 0 e 255, inclusive.

O MNIST é um conjunto de dados canônico para machine learning, muitas vezes usado para testar novas abordagens de aprendizado de máquina. Para mais detalhes, consulte O banco de dados MNIST de dígitos manuscritos.

modality

#language

Uma categoria de dados de alto nível. Por exemplo, números, texto, imagens, vídeo e áudio são cinco modalidades diferentes.

model

#fundamentals

Em geral, qualquer construção matemática que processa dados de entrada e retorna saída. Em outras palavras, um modelo é o conjunto de parâmetros e a estrutura necessários para que um sistema faça previsões. No machine learning supervisionado, um modelo usa um exemplo como entrada e infere uma previsão como saída. No machine learning supervisionado, os modelos são um pouco diferentes. Exemplo:

Um modelo de regressão linear consiste em um conjunto de pesos e um viés.

Um modelo de rede neural consiste em:

Um conjunto de camadas escondidas, cada uma contendo um ou mais neurônios.

Os pesos e o viés associados a cada neurônio.

Um modelo de árvore de decisão consiste em:

A forma da árvore, ou seja, o padrão em que as condições e as folhas estão conectadas.

As condições e folhas.

Você pode salvar, restaurar ou fazer cópias de um modelo.

O machine learning não supervisionado também gera modelos, normalmente uma função que pode mapear um exemplo de entrada para o cluster mais apropriado.

Clique no ícone para comparar as funções algébricas e de programação com os modelos de ML.

Uma função algébrica como a seguinte é um modelo:

f(x, y) = 3x -5xy + y² + 17

A função anterior mapeia valores de entrada (x e y) para a saída.

Da mesma forma, uma função de programação como a seguinte também é um modelo:

def half_of_greater(x, y): if (x > y): return(x / 2) else return(y / 2)

O autor da chamada transmite argumentos para a função Python anterior, e a função Python gera a saída (por meio da instrução return).

Embora uma rede neural profunda tenha uma estrutura matemática muito diferente de uma função algébrica ou de programação, uma rede neural profunda ainda recebe entradas (um exemplo) e retorna saída (uma previsão).

Um programador humano codifica uma função de programação manualmente. Por outro lado, um modelo de machine learning aprende gradualmente os parâmetros ideais durante o treinamento automatizado.

capacidade do modelo

A complexidade dos problemas que um modelo pode aprender. Quanto mais complexos forem os problemas que o modelo conseguir aprender, maior será a capacidade dele. Normalmente, a capacidade de um modelo aumenta com o número de parâmetros dele. Para uma definição formal da capacidade do classificador, consulte Dimensão do VC.

modelo em cascata

#IAgenerativa

Um sistema que escolhe o model ideal para uma consulta de inferência específica.

Imagine um grupo de modelos, desde muito grande (muitos parâmetros) até muito menor (muito menos parâmetros). Modelos muito grandes consomem mais recursos computacionais no momento da inferência do que modelos menores. No entanto, modelos muito grandes costumam inferir solicitações mais complexas do que modelos menores. A cascata de modelo determina a complexidade da consulta de inferência e, em seguida, escolhe o modelo apropriado para realizar a inferência. A principal motivação para a cascata de modelo é reduzir os custos de inferência geralmente selecionando modelos menores e apenas um modelo maior para consultas mais complexas.

Imagine que um modelo pequeno seja executado em um smartphone e uma versão maior dele seja executada em um servidor remoto. A boa cascata de modelos reduz o custo e a latência. Isso permite que o modelo menor processe solicitações simples e chame apenas o modelo remoto para processar solicitações complexas.

Consulte também modelo de roteador.

paralelismo de modelos

#language

Uma maneira de escalonar treinamento ou inferência que coloca diferentes partes de um model em diferentes model. O paralelismo de modelos permite modelos grandes demais para caber em um único dispositivo.

Para implementar o paralelismo de modelos, um sistema normalmente faz o seguinte:

Fragmenta (divide) o modelo em partes menores.

Distribui o treinamento dessas partes menores em vários processadores. Cada processador treina a própria parte do modelo.

Combina os resultados para criar um único modelo.

O paralelismo de modelos atrasa o treinamento.

Consulte também paralelismo de dados.

roteador modelo

#IAgenerativa

O algoritmo que determina o model ideal para a model em model. Um roteador de modelo normalmente é um modelo de machine learning que aprende gradualmente a escolher o melhor modelo para uma determinada entrada. No entanto, um roteador de modelo pode, às vezes, ser um algoritmo mais simples que não seja de machine learning.

treinamento de modelo

O processo para determinar o melhor model.

Momentum

Um algoritmo sofisticado de gradiente descendente em que uma etapa de aprendizado depende não apenas da derivada da etapa atual, mas também das derivadas das etapas que a precederam imediatamente. O momento envolve o cálculo de uma média móvel ponderada exponencial dos gradientes ao longo do tempo, análogo ao momentum na física. Às vezes, o momento impede que o aprendizado fique preso nos mínimos locais.

classificação multiclasse

#fundamentals

No aprendizado supervisionado, é um problema de classificação em que o conjunto de dados contém mais de duas classes de rótulos. Por exemplo, os rótulos no conjunto de dados da Iris precisam ser uma das três classes a seguir:

Iris setosa

Iris virginica

Íris versicolor

Um modelo treinado com o conjunto de dados Iris que prevê o tipo de íris em novos exemplos está realizando uma classificação multiclasse.

Por outro lado, os problemas de classificação que distinguem exatamente duas classes são modelos de classificação binária. Por exemplo, um modelo de e-mail que prevê spam ou não é spam é um modelo de classificação binária.

Nos problemas de clustering, a classificação multiclasse se refere a mais de dois clusters.

regressão logística multiclasse

Usar regressão logística em problemas de classificação multiclasse.

autoatenção de várias cabeças

#language

Uma extensão de autoatenção que aplica o mecanismo de autoatenção várias vezes para cada posição na sequência de entrada.

Os Transformers introduziram a autoatenção de várias cabeças.

modelo multimodal

#language

Um modelo com entradas e/ou saídas que incluem mais de uma modalidade. Por exemplo, considere um modelo que usa uma imagem e uma legenda de texto (duas modalidades) como recursos e gera uma pontuação indicando a adequação da legenda de texto para a imagem. Portanto, as entradas deste modelo são multimodais, e a saída, unimodal.

classificação multinomial

Sinônimo de classificação multiclasse.

regressão multinomial

Sinônimo de regressão logística multiclasse.

multitarefa

Uma técnica de machine learning em que um único model é treinado para executar várias model.

Os modelos multitarefa são criados com treinamento em dados apropriados para cada uma das diferentes tarefas. Isso permite que o modelo aprenda a compartilhar informações entre as tarefas, o que ajuda o modelo a aprender de maneira mais eficaz.

Um modelo treinado para várias tarefas geralmente tem capacidades de generalização aprimoradas e pode ser mais robusto no processamento de diferentes tipos de dados.

N

armadilha de NaN

Quando um número no modelo se torna um NaN durante o treinamento, o que faz com que muitos ou todos os outros números no modelo se tornem NaN.

NaN é uma abreviação para Not a num.

processamento de linguagem natural

#language

Determinar as intenções de um usuário com base no que ele digitou ou disse. Por exemplo, um mecanismo de pesquisa usa processamento de linguagem natural para determinar o que o usuário está pesquisando com base no que o usuário digitou ou disse.

classe negativa

#fundamentals

Na classificação binária, uma classe é denominada positiva e a outra é negativa. A classe positiva é a coisa ou o evento que o modelo está testando, e a classe negativa é a outra possibilidade. Exemplo:

A classe negativa em um exame médico pode ser "não tumor".

A classe negativa em um classificador de e-mails pode ser "não é spam".

Contraste com a classe positiva.

amostragem negativa

Sinônimo de amostragem de candidatos.

Pesquisa de arquitetura neural (NAS)

Uma técnica para projetar automaticamente a arquitetura de uma rede neural. Os algoritmos NAS podem reduzir o tempo e os recursos necessários para treinar uma rede neural.

A NAS geralmente usa:

Um espaço de pesquisa, que é um conjunto de arquiteturas possíveis.

Uma função de condicionamento físico, que é uma medida do desempenho de uma arquitetura específica em uma determinada tarefa.

Os algoritmos NAS geralmente começam com um pequeno conjunto de arquiteturas possíveis e expandem gradualmente o espaço de pesquisa à medida que o algoritmo aprende mais sobre quais arquiteturas são eficazes. A função de condicionamento físico é normalmente baseada no desempenho da arquitetura em um conjunto de treinamento, e o algoritmo costuma ser treinado usando uma técnica de aprendizado por reforço.

Os algoritmos NAS se mostraram eficazes em encontrar arquiteturas de alto desempenho para várias tarefas, incluindo a classificação de imagens, classificação de texto e tradução automática.

do feedforward

#fundamentals

Um model que contém pelo menos uma model. Uma rede neural profunda é um tipo de rede neural que contém mais de uma camada escondida. Por exemplo, o diagrama a seguir mostra uma rede neural profunda contendo duas camadas escondidas.

Cada neurônio de uma rede neural se conecta a todos os nós da camada seguinte. Por exemplo, no diagrama anterior, observe que cada um dos três neurônios na primeira camada escondida se conecta separadamente a ambos os dois na segunda camada escondida.

As redes neurais implementadas em computadores às vezes são chamadas de redes neurais artificiais para diferenciá-las das redes neurais encontradas no cérebro e em outros sistemas nervosos.

Algumas redes neurais podem imitar relações não lineares extremamente complexas entre diferentes recursos e o rótulo.

Consulte também rede neural convolucional e rede neural recorrente.

neurônio

#fundamentals

Em machine learning, uma unidade distinta dentro de uma camada escondida de uma rede neural. Cada neurônio realiza a ação de duas etapas a seguir:

Calcula a soma dos pesos de valores de entrada multiplicada pelos pesos correspondentes.

Transmite a soma ponderada como entrada para uma função de ativação.

Um neurônio na primeira camada escondida aceita entradas dos valores de recursos na camada de entrada. Um neurônio em qualquer camada escondida além do primeiro aceita as entradas dos neurônios na camada escondida anterior. Por exemplo, um neurônio na segunda camada escondida aceita entradas dos neurônios da primeira camada escondida.

A ilustração a seguir destaca dois neurônios e as entradas deles.

Um neurônio em uma rede neural imita o comportamento dos neurônios no cérebro e em outras partes dos sistemas nervosos.

N-grama

#seq

#language

Uma sequência ordenada de N palavras. Por exemplo, verdadeiramente maluco é um grama de 2 gramas. Como a ordem é relevante, de verdade é um 2 grama diferente do que realmente loucamente.

N Nomes para este tipo de n-grama Exemplos

2 bigrama ou 2-grama ir, almoçar, jantar

3 trigrama ou 3-gramas comeu demais, três ratos cegos, o sino gira

4 4 gramas caminhar no parque, poeira ao vento, o menino comeu lentilhas

Muitos modelos de compreensão de linguagem natural dependem de N-gramas para prever a próxima palavra que o usuário digitará ou dirá. Por exemplo, suponha que um usuário digite três cegos. Um modelo PLN baseado em trigramas provavelmente prevê que o usuário digitará ratos em seguida.

Compare N-gramas com bag of words, que são conjuntos de palavras não ordenados.

PLN

#language

Abreviação de compreensão de linguagem natural.

nó (árvore de decisão)

#df

Em uma árvore de decisão, qualquer condição ou folha.

nó (rede neural)

#fundamentals

Um neurônio em uma camada escondida.

nó (gráfico do TensorFlow)

#TensorFlow

Uma operação em um gráfico do TensorFlow

ruído

Em termos gerais, é qualquer coisa que oculte o sinal em um conjunto de dados. O ruído pode ser introduzido nos dados de várias maneiras. Exemplo:

Os avaliadores humanos cometem erros na rotulagem.

Humanos e instrumentos registram ou omitem valores de atributos incorretamente.

condição não binária

#df

Uma condição que contém mais de dois resultados possíveis. Por exemplo, a condição não binária a seguir contém três resultados possíveis:

não linear

#fundamentals

Uma relação entre duas ou mais variáveis que não podem ser representadas exclusivamente por adição e multiplicação. Uma relação linear pode ser representada como uma linha, uma relação não linear não pode ser representada como uma linha. Por exemplo, considere dois modelos em que cada um relaciona um único atributo a um único rótulo. O modelo à esquerda é linear, e o modelo à direita não é linear:

viés de não resposta

#fairness

Consulte viés de seleção.

não estacionário

#fundamentals

Um recurso cujos valores mudam em uma ou mais dimensões, geralmente tempo. Por exemplo, considere os seguintes exemplos de não estacionário:

O número de trajes de banho vendidos em uma loja específica varia de acordo com a estação do ano.

A quantidade de uma fruta específica colhida em uma determinada região é zero para grande parte do ano, mas grande por um breve período.

Devido à mudança climática, as temperaturas médias anuais estão mudando.

Contraste com estacionamento.

normalização

#fundamentals

De modo geral, o processo de conversão do intervalo real de valores de uma variável em um intervalo padrão, como:

-1 a +1

0 a 1

a distribuição normal

Por exemplo, suponha que o intervalo real de valores de um determinado atributo seja 800 a 2.400. Como parte da engenharia de atributos, é possível normalizar os valores reais para um intervalo padrão, como -1 para +1.

A normalização é uma tarefa comum na engenharia de atributos. Os modelos geralmente são treinados mais rapidamente e produzem previsões melhores quando cada atributo numérico no vetor de atributos tem aproximadamente o mesmo intervalo.

detecção de novidades

É o processo para determinar se um novo exemplo (novo) vem da mesma distribuição que o conjunto de treinamento. Em outras palavras, após o treinamento no conjunto de treinamento, a detecção de inovações determina se um novo exemplo (durante a inferência ou durante o treinamento adicional) é um outlier (em inglês).

Contraste com a detecção de outliers.

dados numéricos

#fundamentals

Atributos representados como números inteiros ou números com valor real. Por exemplo, um modelo de avaliação de casas provavelmente representa o tamanho de uma casa (em pés quadrados ou metros quadrados) como dados numéricos. Representar um atributo como dados numéricos indica que os valores dele têm uma relação matemática com o rótulo. Ou seja, o número de metros quadrados em uma casa provavelmente tem alguma relação matemática com o valor da casa.

Nem todos os dados de números inteiros precisam ser representados como numéricos. Por exemplo, códigos postais em algumas partes do mundo são números inteiros. No entanto, esses códigos não podem ser representados como dados numéricos nos modelos. Isso ocorre porque um código postal 20000 não é duas vezes (ou metade) mais potente que um código postal 10000. Além disso, embora códigos postais diferentes façam correlação com valores imobiliários diferentes, não podemos presumir que os valores de imóveis no código postal 20000 são duas vezes mais valiosos que os valores imobiliários no código postal 10000. Os códigos postais precisam ser representados como dados categóricos.

Os recursos numéricos às vezes são chamados de recursos contínuos.

NumPy

Uma biblioteca matemática de código aberto que fornece operações de matriz eficientes no Python. pandas (links em inglês) é criada no NumPy.

O

objetivo

Uma métrica que seu algoritmo está tentando otimizar.

função objetiva

A fórmula matemática ou métrica que um modelo visa otimizar. Por exemplo, a função objetiva de uma regressão linear geralmente é perda quadrática média. Portanto, ao treinar um modelo de regressão linear, o treinamento visa minimizar a perda quadrática média.

Em alguns casos, a meta é maximizar a função objetiva. Por exemplo, se a função objetiva for acurácia, o objetivo será maximizar a acurácia.

Consulte também perda.

condição oblíqua

#df

Em uma árvore de decisão, uma condição que envolve mais de um atributo. Por exemplo, se altura e largura forem atributos, o seguinte será uma condição oblíqua:

height > width

Contraste com a condição alinhada ao eixo.

offline

#fundamentals

Sinônimo de static.

inferência off-line

#fundamentals

O processo de um modelo que gera um lote de previsões e, em seguida, armazena essas previsões em cache (salvando). Assim, os apps podem acessar a previsão inferida pelo cache em vez de executar novamente o modelo.

Por exemplo, considere um modelo que gera previsões meteorológicas locais a cada quatro horas. Após a execução de cada modelo, o sistema armazena em cache todas as previsões do tempo locais. Os apps de clima recuperam as previsões do cache.

A inferência off-line também é chamada de inferência estática.

Contraste com a inferência on-line.

codificação one-hot

#fundamentals

Representação de dados categóricos como um vetor em que:

Um elemento é definido como 1.

Todos os outros elementos são definidos como 0.

A codificação one-hot geralmente é usada para representar strings ou identificadores que têm um conjunto finito de valores possíveis. Por exemplo, suponha que um determinado atributo categórico chamado Scandinavia tenha cinco valores possíveis:

"Dinamarca"

"Suécia"

"Noruega"

"Finlândia"

"Islândia"

A codificação one-hot pode representar cada um dos cinco valores da seguinte maneira:

country Vetor

"Dinamarca" 1 0 0 0 0

"Suécia" 0 1 0 0 0

"Noruega" 0 0 1 0 0

"Finlândia" 0 0 0 1 0

"Islândia" 0 0 0 0 1

Graças à codificação one-hot, um modelo pode aprender diferentes conexões com base em cada um dos cinco países.

Representar um atributo como dados numéricos é uma alternativa à codificação one-hot. Infelizmente, representar numericamente os países escandinavos não é uma boa escolha. Por exemplo, considere a seguinte representação numérica:

"Dinamarca" é 0

"Suécia" é 1

"Noruega" é 2

"Finlândia" é 3

"Islândia" é 4

Com a codificação numérica, um modelo interpretaria os números brutos matematicamente e tentaria treinar com esses números. No entanto, a Islândia não é duas vezes mais (ou metade) do que a Noruega, então o modelo chegaria a algumas conclusões estranhas.

aprendizado one-shot

Uma abordagem de aprendizado de máquina, muitas vezes usada para classificação de objetos, projetada para aprender classificadores eficazes a partir de um único exemplo de treinamento.

Consulte também aprendizado few-shot e aprendizado zero-shot.

comandos one-shot

#language

#IAgenerativa

Um comando que contém um exemplo que demonstra como o modelo de linguagem grande deve responder. Por exemplo, o comando a seguir contém um exemplo que mostra um modelo de linguagem grande como ele deve responder a uma consulta.

Partes de um comando Observações

Qual é a moeda oficial do país especificado? A pergunta que você quer que o LLM responda.

França: EUR Um exemplo.

Índia: A consulta real.

Compare os comandos one-shot e os seguintes termos:

comandos zero-shot

Comandos few-shot

um-contra-todos

#fundamentals

Dado um problema de classificação com N classes, uma solução que consiste em N classificadores binários separados, ou seja, um classificador binário para cada resultado possível Por exemplo, considerando um modelo que classifica exemplos como animal, vegetal ou mineral, uma solução de um x todos forneceria os três classificadores binários a seguir:

animal versus não animal

vegetal ou não vegetal

mineral versus não mineral

online

#fundamentals

Sinônimo de dynamic.

inferência on-line

#fundamentals

Gerar previsões sob demanda. Por exemplo, suponha que um aplicativo passe a entrada para um modelo e emita uma solicitação de previsão. Um sistema que usa inferência on-line responde à solicitação executando o modelo e retornando a previsão para o app.

Contraste com a inferência off-line.

operação (op)

#TensorFlow

No TensorFlow, qualquer procedimento que crie, manipule ou destrua um Tensor (link em inglês). Por exemplo, a multiplicação de matrizes é uma operação que usa dois tensores como entrada e gera um deles como saída.

Optax

Uma biblioteca de otimização e processamento de gradiente para JAX. O Optax facilita a pesquisa fornecendo elementos básicos que podem ser recombinados de maneiras personalizadas para otimizar modelos paramétricos, como redes neurais profundas. Outras metas incluem:

Fornecer implementações legíveis, bem testadas e eficientes dos principais componentes.

Aumento da produtividade, possibilitando a combinação de ingredientes de baixo nível em otimizadores personalizados (ou outros componentes de processamento de gradiente).

Aceleração da adoção de novas ideias, facilitando a contribuição de todos.

otimizador

Uma implementação específica do algoritmo de gradiente descendente. Os otimizadores conhecidos incluem:

AdaGrad, que significa descendência ADAptiva.

Adam, que significa "ADAptive with Momentum".

viés de homogeneidade externa ao grupo

#fairness

A tendência de considerar os membros de fora do grupo mais parecidos do que os membros do grupo ao comparar atitudes, valores, traços de personalidade e outras características. Dentro de grupo se refere a pessoas com quem você interage regularmente, out-group se refere às pessoas com quem você não interage regularmente. Se você criar um conjunto de dados pedindo às pessoas para fornecer atributos sobre fora dos grupos, esses atributos poderão ser menos sutis e mais estereotipados do que os atributos listados pelos participantes para as pessoas no próprio grupo.

Por exemplo, os lilliputianos podem descrever as casas de outros lilicitatistas com muitos detalhes, citando pequenas diferenças em estilos arquitetônicos, janelas, portas e tamanhos. No entanto, os mesmos lilliputia podem simplesmente declarar que todos os irmãos vivem em casas idênticas.

O viés de homogeneidade externa ao grupo é uma forma de viés de atribuição de grupo.

Consulte também viés de grupo.

detecção de outliers

Processo de identificação de outliers em um conjunto de treinamento.

Contraste com a detecção de novidades.

as exceções

Valores distantes da maioria dos outros valores. No machine learning, qualquer um dos seguintes são outliers:

Dados de entrada com valores a mais de três desvios padrão da média.

Pesos com valores absolutos altos.

Valores previstos relativamente longe dos valores reais.

Por exemplo, suponha que widget-price seja um atributo de um determinado modelo. Suponha que o widget-price médio seja 7 euros com um desvio padrão de 1 euro. Exemplos que contêm um widget-price de 12 euros ou 2 euros serão considerados outliers, porque cada um desses preços está a cinco desvios padrão da média.

As exceções geralmente são causadas por erros de digitação ou outros erros de entrada. Em outros casos, os outliers não são erros. Afinal, valores cinco desvios padrão de distância da média são raros, mas dificilmente impossíveis.

Outliers geralmente causam problemas no treinamento do modelo. O recorte é uma maneira de gerenciar outliers.

avaliação fora do pacote (avaliação de OOB)

#df

Um mecanismo para avaliar a qualidade de uma floresta de decisão testando cada árvore de decisão em relação aos exemplos não usados durante o treinamento dessa árvore de decisão. Por exemplo, no diagrama a seguir, observe que o sistema treina cada árvore de decisão em cerca de dois terços dos exemplos e, em seguida, avalia em relação ao um terço restante dos exemplos.

A avaliação fora do pacote é uma aproximação computacionalmente eficiente e conservadora do mecanismo de validação cruzada. Na validação cruzada, um modelo é treinado para cada rodada de validação cruzada (por exemplo, 10 modelos são treinados em uma validação cruzada de 10 vezes). Com a avaliação OOB, um único modelo é treinado. Como o bagging retém alguns dados de cada árvore durante o treinamento, a avaliação OOB pode usar esses dados para estimar a validação cruzada.

camada final

#fundamentals

A camada "final" de uma rede neural. A camada final contém a previsão.

A ilustração a seguir mostra uma pequena rede neural profunda com uma camada de entrada, duas camadas escondidas e uma camada final:

overfitting

#fundamentals

Criar um model que corresponda aos model de modo que o modelo não consiga fazer previsões corretas sobre dados novos.

A regularização pode reduzir o overfitting. Treinar em um conjunto de treinamento grande e diversificado também pode reduzir o overfitting.

Clique no ícone para ver mais observações.

O overfitting é como seguir estritamente os conselhos do seu professor favorito. Você provavelmente terá sucesso na aula desse professor, mas pode se "exagerar" nas ideias dele e não ter sucesso em outras classes. Seguir os conselhos de vários professores permitirá que você se adapte melhor às novas situações.

sobreamostragem

Reutilizar os exemplos de uma classe minoritária em um conjunto de dados desequilibrado de classes para criar um conjunto de treinamento mais equilibrado.

Por exemplo, considere um problema de classificação binária em que a proporção da classe majoritária e da classe minoritária é de 5.000:1. Se o conjunto de dados contiver um milhão de exemplos, ele conterá apenas cerca de 200 exemplos da classe minoritária, o que pode ser insuficiente para um treinamento eficaz. Para superar essa deficiência, você pode coletar amostras (reutilizar) desses 200 exemplos várias vezes, possivelmente produzindo exemplos suficientes para um treinamento útil.

Tenha cuidado com o overfitting (em inglês) ao overfitting.

Contraste com subamostragem.

P

dados compactados

Uma abordagem para armazenar dados com mais eficiência.

Os dados em pacote armazenam dados usando um formato compactado ou de alguma outra forma que permita que eles sejam acessados com mais eficiência. Os dados compactados minimizam a quantidade de memória e computação necessárias para acessá-los, levando a um treinamento mais rápido e a uma inferência de modelo mais eficiente.

Os dados compactados costumam ser usados com outras técnicas, como o aumento de dados e a regularização, para melhorar ainda mais o desempenho dos modelos.

pandas

#fundamentals

Uma API de análise de dados orientada por colunas criada com base em numpy. Muitos frameworks de machine learning, incluindo o TensorFlow, oferecem suporte a estruturas de dados pandas como entradas. Consulte a documentação do pandas para mais detalhes.

parâmetro

#fundamentals

Os pesos e vieses que um modelo aprende durante o treinamento. Por exemplo, em um modelo de regressão linear, os parâmetros consistem no viés (b) e em todos os pesos (w₁, w₂ e assim por diante) na seguinte fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Por outro lado, os hiperparâmetros são os valores que você (ou um serviço de geração de hiperparâmetros) fornece ao modelo. Por exemplo, a taxa de aprendizado é um hiperparâmetro.

ajuste de eficiência de parâmetros

#language

#IAgenerativa

Um conjunto de técnicas para ajustar um grande modelo de linguagem pré-treinado (PLM, na sigla em inglês) de forma mais eficiente do que ajustes completos. O ajuste com eficiência de parâmetros normalmente ajusta muito menos parâmetros do que o ajuste fino completo. No entanto, geralmente produz um modelo de linguagem grande que tem um desempenho tão bom (ou quase tão bom) quanto um modelo de linguagem grande criado com base em ajustes completos.

Compare e contraste o ajuste com eficiência de parâmetros usando:

ajuste de instruções

ajuste de comandos

O ajuste da eficiência de parâmetros também é conhecido como ajustes finos com eficiência de parâmetros.

Servidor de parâmetros (PS, na sigla em inglês)

#TensorFlow

Um job que monitora os parâmetros de um modelo em uma configuração distribuída.

atualização de parâmetro

A operação de ajuste dos parâmetros de um modelo durante o treinamento, normalmente em uma única iteração de gradiente descendente.

derivada parcial

Uma derivada em que todas as variáveis, exceto uma, é considerada uma constante. Por exemplo, a derivada parcial de f(x, y) em relação a x é a derivada de f considerada uma função somente de x (ou seja, mantendo y constante). A derivada parcial de f em relação a x se concentra apenas em como x está mudando e ignora todas as outras variáveis na equação.

viés de participação

#fairness

Sinônimo de viés de não resposta. Consulte viés de seleção.

estratégia de particionamento

O algoritmo usado para dividir as variáveis nos servidores de parâmetros.

Pax

Um framework de programação projetado para treinar modelos de rede neural em grande escala que abranjam vários chips de acelerador de TPU frações ou pods.

O Pax é baseado no Flax, que usa o JAX (em inglês).

perceptron

Um sistema (hardware ou software) que aceita um ou mais valores de entrada, executa uma função na soma ponderada das entradas e calcula um único valor de saída. Em machine learning, a função normalmente não é linear, como ReLU, sigmoide ou tanh. Por exemplo, o perceptron a seguir depende da função sigmoide para processar três valores de entrada:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Na ilustração a seguir, o perceptron recebe três entradas, cada uma modificada por um peso antes de entrar no perceptron:

Os perceptrons são os neurônios das redes neurais (em inglês).

desempenho

Termo sobrecarregado com os seguintes significados:

O significado padrão na engenharia de software. Ou seja: com que rapidez (ou com eficiência) esse software é executado?

O significado dentro do machine learning. Aqui, o desempenho responde à seguinte pergunta: o quanto esse model está correto? Ou seja, as previsões do modelo são boas?

importâncias da variável de permutação

#df

Um tipo de importância variável que avalia o aumento no erro de previsão de um modelo após trocar os valores do atributo. A importância da variável de troca é uma métrica independente do modelo.

perplexidade

Uma medida de como um model está realizando sua tarefa. Por exemplo, suponha que sua tarefa seja ler as primeiras letras de uma palavra que o usuário está digitando no teclado do smartphone e oferecer uma lista de possíveis palavras de conclusão. A perplexidade, P, nesta tarefa, é aproximadamente o número de suposições que você precisa oferecer para que a lista contenha a palavra real que o usuário está tentando digitar.

A perplexidade está relacionada à entropia cruzada da seguinte forma:

$$P= 2^{-\text{cross entropy}}$$

pipeline

A infraestrutura que circunda um algoritmo de machine learning. Um pipeline inclui coletar os dados, colocá-los em arquivos de dados de treinamento, treinar um ou mais modelos e exportá-los para produção.

pipeline

#language

Uma forma de paralelismo de modelos em que o processamento de um modelo é dividido em estágios consecutivos, e cada um deles é executado em um dispositivo diferente. Enquanto um estágio está processando um lote, o estágio anterior pode trabalhar no lote seguinte.

Consulte também o treinamento em etapas.

pjit

Uma função JAX que divide o código para execução em vários ícones de acelerador. O usuário passa uma função para pjit, que retorna uma função que tem a semântica equivalente, mas é compilada em um cálculo de XLA que é executado em vários dispositivos (como GPUs ou núcleos de TPU).

O pjit permite que os usuários fragmentem cálculos sem reescrevê-los usando o particionador SPMD.

Em março de 2023, o pjit foi mesclado com o jit. Para mais detalhes, consulte Matrizes distribuídas e carregamento em paralelo automático.

PLM

#language

#IAgenerativa

Abreviação de modelo de linguagem pré-treinado.

pmap

Uma função JAX que executa cópias de uma função de entrada em vários dispositivos de hardware subjacentes (CPUs, GPUs ou TPUs), com diferentes valores de entrada. Opmap depende de SPMD.

policy

#rl

No aprendizado por reforço, é o mapeamento probabilístico de um agente de estados para ações.

pool

#image

Reduzir uma matriz (ou matrizes) criada por uma camada convolucional anterior para uma matriz menor. O pooling geralmente envolve o valor máximo ou médio da área. Por exemplo, suponha que temos a seguinte matriz 3x3:

Assim como uma operação convolucional, uma operação de pooling divide a matriz em frações e desliza a operação convolucional por passos (em inglês). Por exemplo, suponha que a operação de pool divida a matriz convolucional em frações 2x2 com um salto de 1x1. Conforme ilustrado no diagrama a seguir, ocorrem quatro operações de pooling. Imagine que cada operação de pooling escolha o valor máximo dos quatro nessa fração:

O pool ajuda a aplicar a invariância translacional (link em inglês) na matriz de entrada.

O pooling para aplicativos de visão é conhecido mais formalmente como pooling espacial. Os aplicativos de série temporal geralmente se referem ao pooling como pooling temporal. Menos formalmente, o pooling é frequentemente chamado de subamostragem ou redução.

codificação posicional

#language

Uma técnica para adicionar informações sobre a posição de um token em uma sequência ao embedding do token. Os modelos de transformador usam a codificação de posicionamento para entender melhor a relação entre partes diferentes da sequência.

Uma implementação comum de codificação posicional usa uma função senoidal. Especificamente, a frequência e a amplitude da função senoidal são determinadas pela posição do token na sequência. Essa técnica permite que um modelo de transformador aprenda a atender a diferentes partes da sequência com base na posição delas.

classe positiva

#fundamentals

É a turma que você está testando.

Por exemplo, a classe positiva em um modelo de câncer pode ser "tumor". A classe positiva em um classificador de e-mails pode ser "spam".

Contraste com classe negativa.

Clique no ícone para ver mais observações.

O termo classe positiva pode ser confuso, porque o resultado "positivo" de muitos testes geralmente é indesejável. Por exemplo, a classe positiva em muitos testes médicos corresponde a tumores ou doenças. Em geral, você quer que um médico diga: "Parabéns! Os resultados do seu teste foram negativos". Independentemente disso, a classe positiva é o evento que o teste está procurando encontrar.

É claro que você está testando simultaneamente as classes positivas e negativas.

pós-processamento

#fairness

#fundamentals

Ajustar a saída de um modelo após a execução dele. O pós-processamento pode ser usado para impor restrições de imparcialidade sem modificar os modelos.

Por exemplo, é possível aplicar o pós-processamento a um classificador binário configurando um limiar de classificação de modo que a igualdade de oportunidade seja mantida para algum atributo, verificando se a taxa de verdadeiro positivo é a mesma para todos os valores desse atributo.

PR AUC (área sob a curva PR)

Área sob a curva de precisão/recall interpolada, obtida plotando pontos (recall, precisão) para valores diferentes do limite de classificação. Dependendo de como ele é calculado, a PR AUC pode ser equivalente à precisão média do modelo.

Páxis

Uma biblioteca de ML central e de alto desempenho do Pax. O Praxis é muitas vezes chamado de "biblioteca de camadas".

O Praxis contém não apenas as definições da classe da camada, mas também a maioria dos componentes de suporte, incluindo:

entradas de dados

bibliotecas de configuração (HParam e Fiddle)

otimizadores

O Praxis fornece as definições para a classe Model.

precision

Uma métrica para modelos de classificação que responde à seguinte pergunta:

Quando o modelo previu a classe positiva, a porcentagem das previsões estava correta?

Esta é a fórmula:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

onde:

verdadeiro positivo significa que o modelo previu corretamente a classe positiva.

falso positivo significa que o modelo previu equivocadamente a classe positiva.

Por exemplo, suponha que um modelo tenha feito 200 previsões positivas. Dessas 200 previsões positivas:

150 foram verdadeiros positivos.

50 eram falsos positivos.

Neste caso:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Contraste com acurácia e recall.

curva de precisão/recall

Uma curva de precisão em comparação com recall em diferentes limites de classificação.

previsão.

#fundamentals

A saída de um modelo. Exemplo:

A previsão de um modelo de classificação binária é a classe positiva ou negativa.

A previsão de um modelo de classificação multiclasse é uma classe.

A previsão de um modelo de regressão linear é um número.

viés de previsão

Um valor que indica a distância entre a média das previsões e a média dos rótulos no conjunto de dados.

Não confunda com o termo vieses dos modelos de machine learning ou com viés na ética e na imparcialidade.

ML preditivo

Qualquer sistema de machine learning padrão ("clássico").

O termo ML preditivo não tem uma definição formal. Em vez disso, o termo distingue uma categoria de sistemas de ML que não se baseia na IA generativa.

paridade preditiva

#fairness

Uma métrica de imparcialidade que verifica se, para um determinado classificador, as taxas de precisão são equivalentes para subgrupos em consideração.

Por exemplo, um modelo que prevê a aceitação da faculdade atenderia à paridade preditiva da nacionalidade se a taxa de precisão for a mesma para os lilliputinos e brbdingnagians.

A paridade preditiva às vezes também é chamada de paridade de taxa preditiva.

Consulte Explicações sobre a imparcialidade (seção 3.2.1) para conferir uma discussão mais detalhada sobre a paridade preditiva.

paridade de taxa preditiva

#fairness

Outro nome para paridade preditiva.

pré-processamento

#fairness

Processamento de dados antes de serem usados para treinar um modelo. O pré-processamento pode ser tão simples quanto remover palavras de um corpus de texto em inglês que não ocorrem no dicionário de inglês ou pode ser tão complexo quanto reexpressar pontos de dados para eliminar o máximo possível de atributos correlacionados com atributos confidenciais. O pré-processamento pode ajudar a cumprir as restrições de imparcialidade.

modelo pré-treinado

#language

#image

#IAgenerativa

Modelos ou componentes do modelo (como um vetor de embedding) que já foram treinados. Às vezes, você alimenta os vetores de embedding pré-treinados em uma rede neural. Outras vezes, o modelo treinará os próprios vetores de embedding em vez de depender de embeddings pré-treinados.

O termo modelo de linguagem pré-treinado refere-se a um modelo de linguagem grande que passou por pré-treinamento.

pré-treinamento

#language

#image

#IAgenerativa

O treinamento inicial de um modelo em um grande conjunto de dados. Alguns modelos pré-treinados são gigantes desajeitados e normalmente precisam ser refinados com treinamento adicional. Por exemplo, os especialistas em ML podem pré-treinar um modelo de linguagem grande em um vasto conjunto de dados de texto, como todas as páginas em inglês na Wikipédia. Após o pré-treinamento, o modelo resultante pode ser refinado ainda mais por meio de qualquer uma das técnicas a seguir:

destilação

ajustes

ajuste de instruções

ajustes de eficiência de parâmetros

ajuste de comandos

crença a priori

O que você acredita sobre os dados antes de começar o treinamento neles. Por exemplo, a regularização L₂ depende de uma crença prévia de que os pesos precisam ser pequenos e normalmente distribuídos em torno de zero.

modelo de regressão probabilística

Um modelo de regressão que usa não apenas os pesos de cada atributo, mas também a incerteza desses pesos. Um modelo de regressão probabilística gera uma previsão e a incerteza dela. Por exemplo, um modelo de regressão probabilística pode gerar uma previsão de 325 com um desvio padrão de 12. Para mais informações sobre modelos de regressão probabilística, consulte este Colab em tensorflow.org.

função da densidade de probabilidade

Função que identifica a frequência de amostras de dados que têm exatamente um valor específico. Quando os valores de um conjunto de dados são números contínuos de ponto flutuante, raramente ocorrem correspondências exatas. No entanto, integrating uma função de densidade de probabilidade do valor x ao valor y gera a frequência esperada de amostras de dados entre x e y.

Por exemplo, considere uma distribuição normal com uma média de 200 e um desvio padrão de 30. Para determinar a frequência esperada de amostras de dados no intervalo de 211,4 a 218,7, é possível integrar a função de densidade de probabilidade para uma distribuição normal de 211,4 a 218,7.

prompt

#language

#IAgenerativa

Qualquer texto inserido como entrada em um modelo de linguagem grande para condicionar o modelo a se comportar de determinada maneira. Os comandos podem ser tão curtos quanto uma frase ou arbitrariamente longos (por exemplo, o texto inteiro de um romance). Os comandos se enquadram em várias categorias, incluindo as mostradas na tabela abaixo:

Categoria da solicitação Exemplo Observações

Pergunta Qual é a velocidade máxima de um pombo?

Instrução Escreva um poema engraçado sobre arbitragem. Um prompt que pede para o modelo de linguagem grande fazer algo.

Exemplo Traduza o código Markdown para HTML. Por exemplo: Markdown: * item da lista HTML: <ul> <li>list item</li> </ul> A primeira frase do comando de exemplo é uma instrução. O restante do comando é o exemplo.

Papel Explicar por que o gradiente descendente é usado no treinamento de machine learning para um PhD em física. A primeira parte da frase é uma instrução. A frase "para um PhD em física" é a parte da função.

Entrada parcial para o modelo concluir O primeiro-ministro do Reino Unido mora em Um comando de entrada parcial pode terminar abruptamente, como no exemplo, ou terminar com um sublinhado.

Um modelo de IA generativa pode responder a um comando com texto, código, imagens, embeddings, vídeos... quase tudo.

aprendizado baseado em comandos

#language

#IAgenerativa

Um recurso de determinados modelos que permite adaptar o comportamento em resposta a entradas de texto arbitrárias (solicitações). Em um paradigma típico de aprendizado baseado em comandos, um modelo de linguagem grande responde a um comando gerando texto. Por exemplo, suponha que um usuário digite o seguinte comando:

Resumir a terceira lei de Newton.

Um modelo capaz de aprendizado baseado em comandos não é treinado especificamente para responder ao comando anterior. Em vez disso, o modelo "sabe" muitos fatos sobre física, muito sobre regras de linguagem gerais e muito sobre o que constitui respostas geralmente úteis. Esse conhecimento é suficiente para fornecer uma resposta (esperamos) útil. Mais feedback humano ("Essa resposta foi muito complicada" ou "O que é uma reação?") permite que alguns sistemas de aprendizado baseados em comandos melhorem gradualmente a utilidade das respostas.

design de comandos

#language

#IAgenerativa

Sinônimo de engenharia de comando.

engenharia de comando

#language

#IAgenerativa

A arte de criar comandos que recebem as respostas desejadas de um modelo de linguagem grande. Os humanos executam a engenharia de comandos. Escrever comandos bem estruturados é essencial para garantir respostas úteis de um modelo de linguagem grande. A engenharia de prompts depende de muitos fatores, incluindo:

O conjunto de dados usado para pré-treinar e possivelmente ajustar o modelo de linguagem grande.

A temperatura e outros parâmetros de decodificação que o modelo usa para gerar respostas.

Consulte Introdução à criação de comandos para saber como escrever comandos úteis.

O design de comandos é um sinônimo de engenharia de comandos.

ajuste de comandos

#language

#IAgenerativa

Um mecanismo de ajuste eficiente de parâmetros que aprende um "prefixo" anexado ao prompt real.

Uma variação do ajuste de comandos, às vezes chamado de ajuste de prefixo, consiste em preparar o prefixo em cada camada. Por outro lado, a maioria dos ajustes de comandos só adiciona um prefixo à camada de entrada.

Clique no ícone para saber mais sobre prefixos.

Para o ajuste de comandos, o "prefixo" (também conhecido como "prompt flexível") é um conjunto de vetores aprendidos específicos da tarefa anexados aos embeddings de token de texto do comando real. O sistema aprende o comando flexível congelando todos os outros parâmetros do modelo e ajustando uma tarefa específica.

rótulos de proxy

#fundamentals

Dados usados para aproximar rótulos não disponíveis diretamente em um conjunto de dados.

Por exemplo, suponha que você precise treinar um modelo para prever o nível de estresse do funcionário. Seu conjunto de dados contém muitos atributos preditivos, mas não contém um rótulo chamado nível de estresse. Não se assuste, você escolhe "acidentes no local de trabalho" como um identificador de nível de estresse. Afinal, funcionários sob alto estresse entram em mais acidentes do que funcionários calmos. Ou não? Talvez os acidentes de trabalho realmente aumentem e diminuam por vários motivos.

Como segundo exemplo, suponha que você queira que is it raining? seja um rótulo booleano para o seu conjunto de dados, mas seu conjunto de dados não contenha dados de chuva. Se houver fotos disponíveis, você pode fazer fotos de pessoas com guarda-chuvas como substituto de está chovendo? Esse é um bom rótulo de proxy? Possivelmente, mas as pessoas em algumas culturas são mais propensas a levar guarda-chuvas para se proteger contra o sol do que a chuva.

Os rótulos de proxy geralmente são imperfeitos. Quando possível, escolha rótulos reais em vez de proxy. Dito isso, quando um rótulo real estiver ausente, escolha o rótulo de proxy com muito cuidado e escolha o menor candidato a rótulo de proxy.

Proxy (atributos confidenciais)

#fairness

Um atributo usado como substituto de um atributo confidencial. Por exemplo, o CEP de uma pessoa pode ser usado como um substituto de renda, raça ou etnia.

função pura

Uma função com saídas baseadas apenas nas entradas e que não tem efeitos colaterais. Especificamente, uma função pura não usa nem altera nenhum estado global, como o conteúdo de um arquivo ou o valor de uma variável fora da função.

As funções puras podem ser usadas para criar um código seguro para linhas de execução, o que é útil ao fragmentar o código do model em vários model.

Os métodos de transformação de função do JAX exigem que as funções de entrada sejam funções puras.

P

Função Q

#rl

No aprendizado por reforço, a função que prevê o retorno esperado de realizar uma ação em um estado e seguir uma determinada política.

A função Q também é conhecida como função de valor de ação de estado.

Aprendizagem comparativa

#rl

No aprendizado por reforço, um algoritmo que permite que um agente aprenda a função Q ideal de um processo de decisão de Markov aplicando a equação de Bellman. O processo de decisão de Markov modela um ambiente.

quantil

Cada bucket no agrupamento por classes de quantil.

agrupamento de quantis

Distribuir os valores de um recurso em buckets para que cada bucket contenha o mesmo número (ou quase o mesmo) de exemplos. Por exemplo, a figura a seguir divide 44 pontos em 4 buckets, cada um contendo 11 pontos. Para que cada bucket na figura contenha o mesmo número de pontos, alguns buckets abrangem uma largura diferente de valores de x.

quantização

Termo sobrecarregado que pode ser usado das seguintes maneiras:

Implementar o agrupamento por classes de quantil em um atributo específico.

Transformação de dados em zeros e 1s para agilizar o armazenamento, o treinamento e a inferência. Como os dados booleanos são mais robustos contra ruídos e erros do que outros formatos, a quantização pode melhorar a exatidão do modelo. As técnicas de quantização incluem arredondamento, truncamento e agrupamento por classes.

Reduzir o número de bits usados para armazenar os parâmetros de um modelo. Por exemplo, suponha que os parâmetros de um modelo sejam armazenados como números de ponto flutuante de 32 bits. A quantização converte esses parâmetros de 32 bits para 4, 8 ou 16 bits. A quantização reduz:

Uso de computação, memória, disco e rede

Tempo para inferir uma previsão

Consumo de energia

No entanto, a quantização às vezes diminui a exatidão das previsões de um modelo.

fila

#TensorFlow

Uma operação do TensorFlow que implementa uma estrutura de dados de fila. Geralmente usado em E/S.

R

RAG

#fundamentals

Abreviação de geração de recuperação aumentada.

Floresta aleatória

#df

Um conjunto de árvores de decisão em que cada árvore de decisão é treinada com um ruído aleatório específico, como bagging (link em inglês).

Florestas aleatórias são um tipo de floresta de decisão.

política aleatória

#rl

No aprendizado por reforço, uma política que escolhe uma ação aleatoriamente.

classificação

Um tipo de aprendizado supervisionado que tem o objetivo de ordenar uma lista de itens.

Classificação (ordinalidade)

A posição ordinal de uma classe em um problema de machine learning que categoriza as classes da maior para a menor. Por exemplo, um sistema de classificação de comportamento pode classificar as recompensas de um cachorro da maior (um bife) a menor (couve murcha).

Classificação (Tensor)

#TensorFlow

O número de dimensões em um Tensor. Por exemplo, um escalar tem classificação 0, um vetor tem classificação 1 e uma matriz tem classificação 2.

Não confunda com classificação (ordinalidade).

avaliador

#fundamentals

Uma pessoa que fornece rótulos para exemplos. "Anotador" é outro nome para avaliador.

recall

Uma métrica para modelos de classificação que responde à seguinte pergunta:

Quando as informações empíricas eram a classe positiva, qual porcentagem de previsões o modelo identificou corretamente como a classe positiva?

Esta é a fórmula:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

onde:

verdadeiro positivo significa que o modelo previu corretamente a classe positiva.

Falso negativo significa que o modelo previu equivocadamente a classe negativa.

Por exemplo, suponha que o modelo tenha feito 200 previsões em exemplos em que informações empíricas eram a classe positiva. Dessas 200 previsões:

180 foram verdadeiros positivos.

20 eram falsos negativos.

Neste caso:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Clique no ícone para anotações sobre conjuntos de dados desequilibrados por classes.

Recall é particularmente útil para determinar o poder preditivo de modelos de classificação em que a classe positiva é rara. Por exemplo, considere um conjunto de dados desequilibrado de classes, em que a classe positiva de uma determinada doença ocorre em apenas 10 pacientes de um milhão. Suponha que o modelo faça cinco milhões de previsões que produzam os seguintes resultados:

30 verdadeiros positivos

20 falsos negativos

4.999.000 verdadeiros negativos

950 Falsos Positivos

Portanto, o recall desse modelo é:

recall = TP / (TP + FN) recall = 30 / (30 + 20) = 0.6 = 60%
Por outro lado, a precisão desse modelo é:
accuracy = (TP + TN) / (TP + TN + FP + FN) accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Esse alto valor de precisão parece impressionante, mas é essencialmente insignificante. Recall é uma métrica muito mais útil para conjuntos de dados desequilibrados por classes do que acurácia.

sistema de recomendação

#recsystems

Um sistema que seleciona para cada usuário um conjunto relativamente pequeno de itens desejáveis de um grande corpus. Por exemplo, um sistema de recomendação de vídeos pode recomendar dois vídeos de um corpus de 100 mil vídeos, selecionando Casablanca e A História da Filadélfia para um usuário e Mulheres Maravilha e Pantera Negra para outro. Um sistema de recomendação de vídeos pode basear as recomendações em fatores como:

Filmes avaliados ou assistidos por usuários semelhantes.

Gênero, diretores, atores, público-alvo...

Unidade Linear Retificada (ReLU)

#fundamentals

Uma função de ativação com o seguinte comportamento:

Se a entrada for negativa ou zero, a saída será 0.

Se a entrada for positiva, a saída será igual à entrada.

Exemplo:

Se a entrada for -3, a saída será 0.

Se a entrada for +3, a saída será 3,0.

Aqui está um gráfico de ReLU:

A ReLU é uma função de ativação muito conhecida. Apesar do comportamento simples, a ReLU ainda permite que uma rede neural aprenda relações não lineares entre os atributos e o rótulo (links em inglês).

rede neural recorrente

#seq

Uma rede neural que é executada intencionalmente várias vezes, em que partes de cada execução alimentam a próxima execução. Especificamente, camadas escondidas da execução anterior fornecem parte da entrada para a mesma camada escondida na próxima execução. As redes neurais recorrentes são particularmente úteis na avaliação de sequências, para que as camadas escondidas possam aprender com execuções anteriores da rede neural em partes anteriores da sequência.

Por exemplo, a figura a seguir mostra uma rede neural recorrente que é executada quatro vezes. Os valores aprendidos nas camadas escondidas da primeira execução se tornam parte da entrada para as mesmas camadas escondidas na segunda execução. Da mesma forma, os valores aprendidos na camada escondida na segunda execução se tornam parte da entrada para a mesma camada escondida na terceira execução. Dessa forma, a rede neural recorrente treina gradualmente e prevê o significado de toda a sequência, em vez de apenas o de palavras individuais.

modelo de regressão

#fundamentals

informalmente, um modelo que gera uma previsão numérica. Por outro lado, um modelo de classificação gera uma previsão de classe. Por exemplo, estes são todos os modelos de regressão:

Modelo que prevê o valor de uma determinada casa, como 423.000 euros.

Modelo que prevê a expectativa de vida de uma determinada árvore, como 23,2 anos.

Um modelo que prevê a quantidade de chuva que cairá em uma determinada cidade nas próximas seis horas, como 0,18 polegadas.

Dois tipos comuns de modelos de regressão são:

Regressão linear, que encontra a linha que melhor ajusta os valores de rótulo aos atributos.

Regressão logística, que gera uma probabilidade entre 0,0 e 1,0 de que um sistema normalmente mapeia para uma previsão de classe.

Nem todo modelo que gera previsões numéricas é um modelo de regressão. Em alguns casos, uma previsão numérica é, na verdade, apenas um modelo de classificação que tem nomes de classes numéricas. Por exemplo, um modelo que prevê um código postal numérico é um modelo de classificação, não de regressão.

regularização

#fundamentals

Qualquer mecanismo que reduza o overfitting (link em inglês). Os tipos conhecidos de regularização incluem:

Regularização L₁

L₂ regularização

regularização de dropout

parada antecipada (não é um método de regularização formal, mas pode limitar efetivamente o overfitting)

A regularização também pode ser definida como a penalidade na complexidade de um modelo.

Clique no ícone para ver mais observações.

A regularização não é intuitiva. Aumentar a regularização geralmente aumenta a perda de treinamento, o que é confuso, porque o objetivo não é minimizar a perda de treinamento?

Na verdade, não. O objetivo não é minimizar a perda do treinamento. O objetivo é fazer excelentes previsões com base em exemplos do mundo real. É interessante notar que, embora o aumento da regularização aumente a perda do treinamento, isso geralmente ajuda os modelos a fazer previsões melhores em exemplos do mundo real.

taxa de regularização

#fundamentals

Um número que especifica a importância relativa da regularização durante o treinamento. Aumentar a taxa de regularização reduz o overfitting, mas pode reduzir o poder preditivo do modelo. Por outro lado, reduzir ou omitir a taxa de regularização aumenta o overfitting.

Clique no ícone para ver os cálculos.

A taxa de regularização geralmente é representada como a letra grega lambda. A equação de loss simplificada abaixo mostra a influência da lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

em que regularização é qualquer mecanismo de regularização, incluindo:

Regularização L₁

L₂ regularização

aprendizado por reforço (RL)

#rl

Uma família de algoritmos que aprendem uma política ideal, com o objetivo de maximizar o retorno ao interagir com um ambiente. Por exemplo, a recompensa final da maioria dos jogos é a vitória. Os sistemas de aprendizado por reforço podem se tornar especialistas em jogos complexos, avaliando sequências de movimentos anteriores de jogos que resultaram em vitórias e sequências que resultaram em derrotas.

Aprendizado por reforço com feedback humano (RLHF)

#IAgenerativa

#rl

Usar feedback de avaliadores humanos para melhorar a qualidade das respostas de um modelo. Por exemplo, um mecanismo de RLHF pode pedir que os usuários classifiquem a qualidade da resposta de um modelo com um emoji 👍 ou 👎. O sistema pode ajustar as respostas futuras com base nesse feedback.

ReLU

#fundamentals

Abreviação de Unidade Linear Retificada.

buffer de repetição

#rl

Em algoritmos do tipo DQN, a memória usada pelo agente para armazenar transições de estado para uso na repetição da experiência.

réplica

Uma cópia do conjunto de treinamento ou do modelo, geralmente em outra máquina. Por exemplo, um sistema pode usar a seguinte estratégia para implementar o paralelismo de dados:

Coloque réplicas de um modelo em várias máquinas.

Enviar subconjuntos diferentes do conjunto de treinamento para cada réplica.

Agregar as atualizações de parâmetro.

viés de relatório

#fairness

O fato de que a frequência com que as pessoas escrevem sobre ações, resultados ou propriedades não é um reflexo das frequências no mundo real ou do grau em que uma propriedade é característica de uma classe de indivíduos. O viés de relatório pode influenciar a composição dos dados com os quais os sistemas de machine learning aprendem.

Por exemplo, nos livros, a palavra ri é mais prevalente do que respirado. Um modelo de machine learning que estima a frequência relativa de risos e respiração de um corpus de livro provavelmente determinaria que rir é mais comum do que respirar.

representação de vetor

Processo de mapeamento de dados para recursos úteis.

reclassificação

#recsystems

O estágio final de um sistema de recomendação, em que os itens pontuados podem ser avaliados novamente de acordo com algum outro algoritmo (geralmente que não seja de ML). A reclassificação avalia a lista de itens gerada pela fase de pontuação, realizando ações como:

Eliminar itens que o usuário já comprou.

Aumentar a pontuação dos itens mais recentes.

Geração aumentada pela recuperação (RAG, na sigla em inglês)

#fundamentals

Uma técnica para melhorar a qualidade da saída do modelo de linguagem grande (LLM) com base em fontes de conhecimento extraídas após o treinamento do modelo. O RAG melhora a precisão das respostas do LLM fornecendo ao LLM treinado acesso a informações recuperadas de bases de conhecimento ou documentos confiáveis.

As motivações comuns para usar a geração aumentada por recuperação incluem:

Aumentar a precisão factual das respostas geradas por um modelo

Dar ao modelo acesso ao conhecimento sobre o qual ele não foi treinado.

Mudar o conhecimento usado pelo modelo.

Permitir que o modelo cite fontes.

Por exemplo, suponha que um app de química use a API PaLM para gerar resumos relacionados às consultas do usuário. Quando o back-end do app recebe uma consulta, ele:

Pesquisa ("recupera") dados relevantes para a consulta do usuário.

Anexa ("aumenta") os dados químicos relevantes à consulta do usuário.

Instrui o LLM a criar um resumo com base nos dados anexados.

return

#rl

No aprendizado por reforço, dada uma determinada política e um determinado estado, o retorno é a soma de todas as recompensas que o agente espera receber ao seguir a política do estado até o final do episódio. O agente considera a natureza atrasada das recompensas esperadas, descontando as recompensas de acordo com as transições de estado necessárias para receber a recompensa.

Portanto, se o fator de desconto for $\gamma$e $r_0, \ldots, r_{N}$ denotar os prêmios até o final do episódio, o cálculo de retorno será este:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

recompensa (recompensar)

#rl

No aprendizado por reforço, o resultado numérico de realizar uma ação em um estado, conforme definido pelo ambiente.

regularização de Riscos

Sinônimo de regularização L₂. O termo regularização de crista é usado com mais frequência em contextos de estatística pura, enquanto a L₂regularização é usada com mais frequência em machine learning.

RNN

#seq

Abreviação de redes neurais recorrentes (link em inglês).

Curva ROC

#fundamentals

Um gráfico de taxa de verdadeiro positivo em comparação com a taxa de falso positivo para diferentes limites de classificação na classificação binária.

O formato de uma curva ROC sugere a capacidade de um modelo de classificação binária de separar classes positivas de classes negativas. Suponha, por exemplo, que um modelo de classificação binária separa perfeitamente todas as classes negativas de todas as classes positivas:

A curva ROC do modelo anterior tem a seguinte aparência:

Em contraste, a ilustração abaixo mostra os valores brutos de regressão logística de um modelo terrível que não consegue separar classes negativas de classes positivas:

A curva ROC desse modelo tem a seguinte aparência:

Enquanto isso, no mundo real, a maioria dos modelos de classificação binária separam classes positivas e negativas até certo ponto, mas geralmente não perfeitamente. Assim, uma curva ROC típica fica entre os dois extremos:

Teoricamente, o ponto em uma curva ROC mais próximo de (0,0,1,0) identifica o limiar de classificação ideal. No entanto, vários outros problemas reais influenciam a seleção do limiar de classificação ideal. Por exemplo, talvez os falsos negativos causem muito mais problemas do que os falsos positivos.

Uma métrica numérica chamada AUC resume a curva ROC em um único valor de ponto flutuante.

comandos de função

#language

#IAgenerativa

Uma parte opcional de um comando que identifica um público-alvo para a resposta de um modelo de IA generativa. Sem um comando de papel, um modelo de linguagem grande fornece uma resposta que pode ou não ser útil para a pessoa que faz as perguntas. Com um prompt de papel, um modelo de linguagem grande pode responder de maneira mais apropriada e mais útil para um público-alvo específico. Por exemplo, a parte do prompt de papel dos comandos a seguir está em negrito:

Resuma este artigo sobre um PhD em economia.

Descreva como as marés funcionam para uma criança de 10 anos.

Explicar a crise financeira de 2008. Fale como se fosse com uma criança ou um golden retriever.

root

#df

O nó inicial (a primeira condição) em uma árvore de decisão. Por convenção, os diagramas colocam a raiz no topo da árvore de decisão. Exemplo:

diretório raiz

#TensorFlow

O diretório especificado para hospedar subdiretórios do checkpoint do TensorFlow e arquivos de eventos de vários modelos.

Raiz do erro quadrático médio (RMSE)

#fundamentals

A raiz quadrada do erro quadrático médio.

invariância rotacional

#image

Em um problema de classificação de imagens, a capacidade do algoritmo de classificar imagens com êxito, mesmo quando a orientação delas é alterada. Por exemplo, o algoritmo ainda pode identificar se uma raquete de tênis está apontando para cima, de lado ou para baixo. Observe que a invariância rotacional nem sempre é desejável. Por exemplo, um 9 de cabeça para baixo não deve ser classificado como 9.

Consulte também invariância translacional e invariância de tamanho.

R ao quadrado

Uma métrica de regressão que indica a variação em um rótulo devido a um recurso individual ou a um conjunto de atributos. R ao quadrado é um valor entre 0 e 1, que pode ser interpretado da seguinte forma:

Um R ao quadrado de 0 significa que nenhuma variação de um rótulo se deve ao conjunto de atributos.

Um R ao quadrado de 1 significa que toda a variação de um rótulo se deve ao conjunto de atributos.

Um R ao quadrado entre 0 e 1 indica até onde a variação do rótulo pode ser prevista de um determinado atributo ou conjunto de atributos. Por exemplo, um R ao quadrado de 0,10 significa que 10% da variação no rótulo é devido ao conjunto de atributos, um R ao quadrado de 0,20 significa que 20% é devido ao conjunto de atributos e assim por diante.

R ao quadrado é o quadrado do coeficiente de correlação de Pearson entre os valores previstos por um modelo e a informações empíricas (links em inglês).

S

viés de amostragem

#fairness

Consulte viés de seleção.

amostragem com substituição

#df

Um método para escolher itens de um conjunto de itens candidatos em que o mesmo item pode ser escolhido várias vezes. A frase "com substituição" significa que, após cada seleção, o item selecionado é retornado ao conjunto de itens candidatos. O método inverso, amostragem sem substituição, significa que um item candidato só pode ser selecionado uma vez.

Por exemplo, considere o seguinte conjunto de frutas:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Suponha que o sistema escolha aleatoriamente fig como o primeiro item. Se estiver usando amostragem com substituição, o sistema escolherá o segundo item do conjunto a seguir:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sim, esse é o mesmo conjunto de antes, então o sistema pode escolher fig novamente.

Se estiver usando amostragem sem substituição, uma vez selecionada, uma amostra não poderá ser escolhida novamente. Por exemplo, se o sistema escolher aleatoriamente fig como a primeira amostra, fig não poderá ser selecionado de novo. Portanto, o sistema escolhe a segunda amostra do conjunto (reduzido) a seguir:

fruit = {kiwi, apple, pear, cherry, lime, mango}

Clique no ícone para ver mais observações.

A palavra substituição em amostragem com substituição confunde muitas pessoas. Em inglês, substituição significa "substituição". No entanto, amostragem com substituição usa, na verdade, a definição em francês para substituição, o que significa "colocar algo de volta".

A palavra em inglês replacement é traduzida como remplacement em francês.

SavedModel

#TensorFlow

O formato recomendado para salvar e recuperar modelos do TensorFlow. O SavedModel é um formato de serialização recuperável de linguagem neutra, que permite que sistemas e ferramentas de nível superior produzam, consumam e transformem modelos do TensorFlow.

Consulte o capítulo Como salvar e restaurar no Guia do programador do TensorFlow para detalhes completos.

Econômico

#TensorFlow

Um objeto do TensorFlow responsável por salvar os checkpoints do modelo.

escalar

Um único número ou uma única string que pode ser representada como um tensor de rank 0. Por exemplo, cada uma das linhas de código a seguir cria um escalar no TensorFlow:

breed = tf.Variable("poodle", tf.string) temperature = tf.Variable(27, tf.int16) precision = tf.Variable(0.982375101275, tf.float64)

escalonamento

Qualquer transformação ou técnica matemática que muda o intervalo de um valor de rótulo e/ou de atributo. Algumas formas de escalonamento são muito úteis para transformações como a normalização.

Formas comuns de escalonamento úteis em machine learning incluem:

escala linear, que normalmente usa uma combinação de subtração e divisão para substituir o valor original por um número entre -1 e +1 ou entre 0 e 1.

escala logarítmica, que substitui o valor original pelo logaritmo.

Normalização de pontuação Z, que substitui o valor original por um valor de ponto flutuante que representa o número de desvios padrão da média desse atributo.

scikit-learn

uma plataforma de machine learning de código aberto conhecida. Consulte scikit-learn.org.

em lote

#recsystems

A parte de um sistema de recomendação que fornece um valor ou classificação para cada item produzido pela fase de geração de candidatos.

viés de seleção

#fairness

Erros em conclusões retirados de dados de amostra devido a um processo de seleção que gera diferenças sistemáticas entre as amostras observadas nos dados e as não observadas. Existem as seguintes formas de viés de seleção:

viés de cobertura: a população representada no conjunto de dados não corresponde àquela sobre a qual o modelo de machine learning está fazendo previsões.

Viés de amostragem: os dados não são coletados aleatoriamente no grupo de destino.

Viés de não resposta (também chamado de viés de participação): usuários de determinados grupos recusam pesquisas em taxas diferentes das usuários de outros grupos.

Por exemplo, suponha que você esteja criando um modelo de machine learning que prevê como as pessoas gostam de um filme. Para coletar dados de treinamento, você distribui uma pesquisa para todos na primeira fila de um cinema que exibe o filme. Fora isso, essa pode parecer uma maneira razoável de reunir um conjunto de dados. No entanto, essa forma de coleta de dados pode introduzir as seguintes formas de viés de seleção:

viés de cobertura: ao usar uma amostragem de uma população que escolheu assistir ao filme, as previsões do modelo podem não ser generalizadas para pessoas que ainda não expressaram esse nível de interesse no filme.

viés de amostragem: em vez de coletar amostras aleatoriamente da população pretendida (todas as pessoas no filme), você usou apenas as pessoas na primeira fila. É possível que as pessoas sentadas na primeira fila tenham mais interesse no filme do que as outras filas.

viés de não resposta: em geral, pessoas com opiniões fortes tendem a responder a pesquisas opcionais com mais frequência do que pessoas com opiniões moderadas. Como a pesquisa sobre filmes é opcional, é mais provável que as respostas formem uma distribuição bimodal do que uma distribuição normal (em forma de sino).

autoatenção (também chamada de camada de autoatenção)

#language

Uma camada de rede neural que transforma uma sequência de embeddings (por exemplo, embeddings de token) em outra sequência de embeddings. Cada embedding na sequência de saída é construído integrando informações dos elementos da sequência de entrada por um mecanismo de atenção.

A parte própria da autoatenção refere-se à sequência que atende a si mesma em vez de a algum outro contexto. A autoatenção é um dos principais elementos básicos dos Transformers e usa terminologia de pesquisa de dicionário, como "consulta", "chave" e "valor".

Uma camada de autoatenção começa com uma sequência de representações de entrada, uma para cada palavra. A representação de entrada de uma palavra pode ser uma incorporação simples. Para cada palavra em uma sequência de entrada, a rede pontua a relevância da palavra para cada elemento na sequência inteira. As pontuações de relevância determinam quanto a representação final da palavra incorpora as representações de outras palavras.

Por exemplo, considere a seguinte frase:

O animal não atravessou a rua porque estava muito cansado.

A ilustração a seguir (de Transformer: uma nova arquitetura de rede neural para compreensão de linguagem) mostra o padrão de atenção da camada de autoatenção para o pronome it, com a escuridão de cada linha indicando o quanto cada palavra contribui para a representação:

A camada de autoatenção destaca as palavras relevantes para "ele". Nesse caso, a camada de atenção aprendeu a destacar as palavras a que ela pode se referir, atribuindo o maior peso a animal.

Para uma sequência de n tokens, a autoatenção transforma uma sequência de embeddings n vezes separadas, uma vez em cada posição na sequência.

Consulte também atenção e autoatenção em várias cabeças.

aprendizado autossupervisionado

Uma família de técnicas para converter um problema de machine learning não supervisionado em um problema de machine learning supervisionado criando rótulos alternativos a partir de exemplos não rotulados.

Alguns modelos baseados em Transformer, como o BERT, usam o aprendizado autossupervisionado.

O treinamento autossupervisionado é uma abordagem de aprendizado semi-supervisionado.

autotreinamento

Uma variante do aprendizado autossupervisionado que é particularmente útil quando todas as condições a seguir são verdadeiras:

A proporção de exemplos não rotulados para exemplos rotulados no conjunto de dados é alta.

Esse é um problema de classificação.

O autotreinamento funciona por meio da iteração das duas etapas a seguir até que o modelo pare de melhorar:

Use o machine learning supervisionado para treinar um modelo nos exemplos rotulados.

Use o modelo criado na Etapa 1 para gerar previsões (rótulos) nos exemplos não rotulados, movendo aqueles em que há alta confiança para os exemplos rotulados com o rótulo previsto.

Observe que cada iteração da Etapa 2 adiciona mais exemplos rotulados para a Etapa 1 para o treinamento.

aprendizado semi-supervisionado

Treinar um modelo com dados em que alguns dos exemplos de treinamento têm rótulos, mas outros não. Uma técnica do aprendizado semi-supervisionado é inferir rótulos para os exemplos não rotulados e, em seguida, treinar nos rótulos inferidos para criar um novo modelo. O aprendizado semissupervisionado pode ser útil se os rótulos forem caros de obter, mas os exemplos não rotulados forem abundantes.

O autotreinamento é uma técnica de aprendizado semissupervisionado.

atributo confidencial

#fairness

Um atributo humano que pode receber atenção especial por motivos legais, éticos, sociais ou pessoais.

análise de sentimento

#language

Usar algoritmos estatísticos ou de machine learning para determinar a atitude geral de um grupo, positiva ou negativa, em relação a um serviço, produto, organização ou tópico. Por exemplo, usando o processamento de linguagem natural, um algoritmo pode realizar uma análise de sentimento no feedback textual de um curso universitário para determinar o quanto os alunos gostaram ou não do curso.

modelo sequencial

#seq

Um modelo com entradas que têm uma dependência sequencial. Por exemplo, prever o próximo vídeo assistido em uma sequência de vídeos assistidos anteriormente.

tarefa sequência para sequência

#language

Uma tarefa que converte uma sequência de entrada de tokens em uma sequência de saída de tokens. Por exemplo, dois tipos conhecidos de tarefas sequência para sequência são:

Tradutores:

Exemplo de sequência de entrada: "Eu te amo".

Exemplo de sequência de saída: "Je t'aime".

Resposta:

Exemplo de sequência de entrada: "Preciso do meu carro em Nova York?"

Exemplo de sequência de saída: "Não. Mantenha seu carro em casa".

do modelo

O processo de disponibilizar um modelo treinado para fornecer previsões por meio de inferência on-line ou off-line.

forma (Tensor)

O número de elementos em cada dimensão de um tensor. A forma é representada como uma lista de números inteiros. Por exemplo, o tensor bidimensional tem a forma [3,4]:

[[5, 7, 6, 4], [2, 9, 4, 8], [3, 6, 5, 1]]

O TensorFlow usa o formato de linha principal (estilo C) para representar a ordem das dimensões. É por isso que a forma no TensorFlow é [3,4] em vez de [4,3]. Em outras palavras, em um Tensor bidimensional do TensorFlow, o formato é [número de linhas, número de colunas].

fragmento

#TensorFlow

#GoogleCloud

Uma divisão lógica do conjunto de treinamento ou do modelo. Normalmente, algum processo cria fragmentos dividindo os exemplos ou parâmetros em blocos com o mesmo tamanho. Cada fragmento é atribuído a uma máquina diferente.

A fragmentação de um modelo é chamada de paralelismo de modelos e a fragmentação de dados é chamada de paralelismo de dados.

encolhimento

#df

Um hiperparâmetro no aumento do gradiente que controla o overfitting. A redução na otimização do gradiente é análoga à taxa de aprendizado no gradiente descendente. A redução é um valor decimal entre 0,0 e 1,0. Um valor de redução menor reduz mais o overfitting do que um valor de redução maior.

função sigmoide

#fundamentals

Uma função matemática que "comprime" um valor de entrada em um intervalo restrito, geralmente de 0 a 1 ou de -1 a +1. Ou seja, é possível passar qualquer número (dois, um milhão, um bilhão negativo etc.) a um sigmoide e a saída ainda estará no intervalo restrito. Um gráfico da função de ativação sigmoide tem a seguinte aparência:

A função sigmoide tem vários usos no machine learning, incluindo:

Converter a saída bruta de um modelo de regressão logística ou regressão multinomial em uma probabilidade.

atuando como uma função de ativação em algumas redes neurais.

Clique no ícone para ver os cálculos.

A função sigmoide sobre um número de entrada x tem a seguinte fórmula:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Em machine learning, x geralmente é uma soma de peso.

medida de similaridade

#clustering

Nos algoritmos de clustering, a métrica usada para determinar a semelhança entre dois exemplos.

programa único / vários dados (SPMD)

Uma técnica de paralelismo em que o mesmo cálculo é executado em diferentes dados de entrada em paralelo em dispositivos diferentes. O objetivo do SPMD é conseguir resultados mais rapidamente. É o estilo mais comum de programação paralela.

variância de tamanho

#image

Em um problema de classificação de imagens, a capacidade do algoritmo de classificar imagens com sucesso, mesmo quando o tamanho delas muda. Por exemplo, o algoritmo ainda pode identificar um gato se ele consome 2 milhões de pixels ou 200 mil pixels. Até mesmo os melhores algoritmos de classificação de imagens ainda têm limites práticos de invariância de tamanho. Por exemplo, é improvável que um algoritmo (ou humano) classifique corretamente uma imagem de gato que consuma apenas 20 pixels.

Consulte também invariância translacional e invariância rotacional.

esboços

#clustering

Em machine learning não supervisionado, uma categoria de algoritmos que realizam uma análise preliminar de similaridade em exemplos. Os algoritmos de esboço usam uma função de hash sensível à localidade para identificar pontos que provavelmente são semelhantes e, em seguida, agrupá-los em buckets.

Os esboços reduzem o cálculo necessário para cálculos de similaridade em grandes conjuntos de dados. Em vez de calcular a semelhança para cada par de exemplos no conjunto de dados, calculamos a semelhança apenas para cada par de pontos dentro de cada bucket.

pular-grama

#language

Um n-grama que pode omitir (ou "pular") palavras do contexto original, o que significa que as palavras N podem não ter sido originalmente adjacentes. Mais precisamente, um "k-skip-n-gram" é um n-grama em que até k palavras podem ter sido ignoradas.

Por exemplo, "a raposa marrom rápida" tem estes 2 gramas possíveis:

“o rápido”

"marrom rápido"

"raposa marrom"

"1-skip-2-gram" é um par de palavras que tem no máximo uma palavra entre elas. Portanto, "a rápida raposa marrom" tem os seguintes 2-gramas de um salto:

"marrom"

"raposa rápida"

Além disso, todos os 2-gramas também são 1-skip-2-grams, já que menos de uma palavra pode ser ignorada.

Skip-gramas são úteis para entender mais o contexto ao redor de uma palavra. No exemplo, "raposa" foi diretamente associada a "rápido" no conjunto de 1-skip-2-grams, mas não no conjunto de 2-grams.

Os ignorados ajudam a treinar modelos de incorporação de palavras.

softmax

#fundamentals

Uma função que determina as probabilidades de cada classe possível em um modelo de classificação multiclasse. As probabilidades somam exatamente 1,0. Por exemplo, a tabela a seguir mostra como a softmax distribui várias probabilidades:

A imagem é um... Probabilidade

cachorro 0,85

cat 0,13

cavalo 0,02

A softmax também é chamada de softmax completa.

Contraste com a amostragem de candidatos.

Clique no ícone para ver os cálculos.

A equação de softmax é a seguinte:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$
em que:

$\sigma_i$ é o vetor de saída. Cada elemento do vetor de saída especifica a probabilidade desse elemento. A soma de todos os elementos no vetor de saída é 1,0. O vetor de saída contém o mesmo número de elementos que o vetor de entrada, $z$.

$z$ é o vetor de entrada. Cada elemento do vetor de entrada contém um valor de ponto flutuante.

$K$ é o número de elementos no vetor de entrada (e no vetor de saída).

Por exemplo, suponha que o vetor de entrada seja:

[1.2, 2.5, 1.8]

Portanto, a softmax calcula o denominador da seguinte maneira:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Portanto, a probabilidade softmax de cada elemento é:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Assim, o vetor de saída é:

$$\sigma = [0.154, 0.565, 0.281]$$

A soma dos três elementos em $\sigma$ é 1,0. Ufa.

ajuste de prompts flexíveis

#language

#IAgenerativa

Uma técnica para ajustar um modelo de linguagem grande para uma tarefa específica, sem ajustes que consomem muitos recursos. Em vez de treinar novamente todos os pesos no modelo, o ajuste de prompts flexíveis ajusta automaticamente um comando para alcançar o mesmo objetivo.

Dado um prompt textual, o ajuste de prompts flexíveis normalmente anexa outros embeddings de token ao prompt e usa a retropropagação para otimizar a entrada.

Um prompt "hard" contém tokens reais em vez de embeddings de token.

atributo esparso

#language

#fundamentals

Um atributo com valores predominantemente zero ou vazios. Por exemplo, um atributo que contém um único valor 1 e um milhão de valores 0 é esparso. Por outro lado, um atributo denso tem valores predominantemente não zero ou vazios.

Em machine learning, um número surpreendente de atributos são esparsos. Atributos categóricos costumam ser esparsos. Por exemplo, das 300 espécies de árvores possíveis em uma floresta, um único exemplo pode identificar apenas uma árvore de bordo. Ou, dos milhões de vídeos possíveis em uma biblioteca de vídeos, um único exemplo poderia identificar apenas "Casablanca".

Em um modelo, você normalmente representa atributos esparsos com codificação one-hot. Se a codificação one-hot for grande, você pode colocar uma camada de incorporação sobre a codificação one-hot para maior eficiência.

representação esparsa

#language

#fundamentals

Armazenar apenas as posições de elementos diferentes de zero em um atributo esparso.

Por exemplo, suponha que um recurso categórico chamado species identifique as 36 espécies de árvores em uma floresta específica. Suponha também que cada exemplo identifica somente uma espécie.

Você pode usar um vetor one-hot para representar as espécies de árvores em cada exemplo. Um vetor one-hot contém uma única 1 (para representar a espécie de árvore específica neste exemplo) e 35 0s (para representar as 35 espécies de árvores que não nesse exemplo). Assim, a representação one-hot de maple pode ser semelhante a esta:

Como alternativa, a representação esparsa identificaria simplesmente a posição da espécie em particular. Se maple estiver na posição 24, a representação esparsa de maple será simplesmente:

24

Observe que a representação esparsa é muito mais compacta que a representação one-hot.

Observação: não transmita uma representação esparsa como uma entrada de recurso direta para um modelo. Em vez disso, converta a representação esparsa em uma representação one-hot antes de treinar nela.

Clique no ícone para ver um exemplo um pouco mais complexo.

Suponha que cada exemplo no seu modelo represente as palavras, mas não a ordem delas, em uma frase em inglês. O inglês tem cerca de 170.000 palavras, portanto, é um atributo categórico com cerca de 170.000 elementos. A maioria das frases em inglês usa uma fração extremamente pequena dessas 170.000 palavras, de modo que o conjunto de palavras em um único exemplo provavelmente será de dados esparsos.

Considere a seguinte frase:

My dog is a great dog

Você pode usar uma variante do vetor one-hot para representar as palavras da frase. Nessa variante, várias células no vetor podem conter um valor diferente de zero. Além disso, nessa variante, uma célula pode conter um número inteiro diferente de um. Embora as palavras "my", "is", "a" e "great" apareçam apenas uma vez na frase, a palavra "dog" aparece duas vezes. O uso dessa variante de vetores one-hot para representar as palavras nesta frase gera o seguinte vetor de 170.000 elementos:

Uma representação esparsa da mesma frase seria simplesmente:

0: 1 26100: 2 45770: 1 58906: 1 91520: 1

Clique no ícone se estiver confuso.

O termo "representação esparsa" confunde muitas pessoas porque a representação esparsa não é um vetor esparso em si. Em vez disso, a representação esparsa é, na verdade, uma representação densa de um vetor esparso (link em inglês). A representação do índice de sinônimos é um pouco mais clara do que "representação esparsa".

vetor esparso

#fundamentals

Um vetor com valores que são principalmente zero. Consulte também atributo esparso e sparsidade.

esparsidade

O número de elementos definidos como zero (ou nulo) em um vetor ou matriz dividido pelo número total de entradas nesse vetor ou matriz. Por exemplo, considere uma matriz de 100 elementos em que 98 células contêm zero. O cálculo da esparsidade é o seguinte:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

A esparsidade do atributo se refere à esparsidade de um vetor de atributo. Já a esparsidade do modelo se refere à esparsidade dos pesos do modelo.

pooling espacial

#image

Consulte pooling.

dividir

#df

Em uma árvore de decisão, outro nome para uma condição.

divisor

#df

Ao treinar uma árvore de decisão, a rotina e o algoritmo) responsável por encontrar a melhor condição em cada nó.

SPMD

Abreviação de um único programa / vários dados.

perda de articulação quadrática

O quadrado da perda da articulação. A perda de articulação quadrada penaliza os outliers com mais severidade do que a perda de articulação regular.

perda quadrática

#fundamentals

Sinônimo de L₂ perda.

treinamento em etapas

#language

Uma tática de treinar um modelo em uma sequência de etapas distintas. A meta pode ser acelerar o processo de treinamento ou alcançar uma melhor qualidade do modelo.

Uma ilustração da abordagem de empilhamento progressivo é mostrada abaixo:

A fase 1 contém 3 camadas escondidas, a 2 contém 6 camadas escondidas e a 3 contém 12 camadas escondidas.

O estágio 2 começa o treinamento com os pesos aprendidos nas três camadas escondidas do estágio 1. O estágio 3 começa o treinamento com os pesos aprendidos nas seis camadas escondidas do estágio 2.

Consulte também pipelining.

state

#rl

No aprendizado por reforço, os valores de parâmetro que descrevem a configuração atual do ambiente, que o agente usa para escolher uma ação.

função de valor da ação de estado

#rl

Sinônimo de Q-function.

static

#fundamentals

Algo é feito uma vez, e não continuamente. Os termos estático e off-line são sinônimos. Veja a seguir usos comuns de estático e off-line no machine learning:

modelo estático (ou modelo off-line) é um modelo treinado uma vez e usado por um tempo.

O treinamento estático (ou treinamento off-line) é o processo de treinamento de um modelo estático.

A inferência estática (ou inferência off-line) é um processo em que um modelo gera um lote de previsões por vez.

Contraste com dinâmico.

inferência estática

#fundamentals

Sinônimo de inferência off-line.

estacionidade

#fundamentals

Um atributo cujos valores não mudam em uma ou mais dimensões, geralmente tempo. Por exemplo, um atributo com valores parecidos em 2021 e 2023 exibe estaaridade.

No mundo real, poucos elementos exibem estacionidade. Até mesmo recursos sinônimos de estabilidade (como o nível do mar) mudam com o tempo.

Contraste com não estacionária.

etapa

Um passe para frente e para trás de um lote.

Consulte retropropagação para mais informações sobre os passes para frente e para trás.

taxa de aprendizado

Sinônimo de taxa de aprendizado.

gradiente descendente estocástico (GDE)

#fundamentals

Um algoritmo de gradiente descendente em que o tamanho do lote é um. Em outras palavras, o SGD treina em um único exemplo escolhido de maneira uniforme e aleatória de um conjunto de treinamentos.

stride

#image

Em uma operação convolucional ou pooling, o delta em cada dimensão da próxima série de frações de entrada. Por exemplo, a animação a seguir demonstra um salto (1,1) durante uma operação convolucional. Portanto, a próxima fração de entrada começa uma posição à direita da fração de entrada anterior. Quando a operação atinge a borda direita, a próxima fração está totalmente à esquerda, mas uma posição abaixo.

O exemplo anterior demonstra um salto bidimensional. Se a matriz de entrada for tridimensional, o salto também será tridimensional.

minimização do risco estrutural (SRM)

Um algoritmo que equilibra duas metas:

A necessidade de criar o modelo mais preditivo (por exemplo, menor perda).

A necessidade de manter o modelo o mais simples possível (por exemplo, regularização forte).

Por exemplo, uma função que minimiza a perda+regularização no conjunto de treinamento é um algoritmo de minimização do risco estrutural.

Contraste com a minimização do risco empírico.

subamostragem

#image

Consulte pooling.

token de subpalavra

#language

Em modelos de linguagem, um token que é uma substring de uma palavra, que pode ser a palavra inteira.

Por exemplo, uma palavra como "item" pode ser dividida em partes: "item" (uma palavra raiz) e "ize" (um sufixo), cada uma representada pelo próprio token. A divisão de palavras incomuns, chamadas de subpalavras, permite que os modelos de linguagem operem nas partes constituintes mais comuns da palavra, como prefixos e sufixos.

Por outro lado, palavras comuns como "vai" podem não ser divididas e podem ser representadas por um único token.

resumo

#TensorFlow

No TensorFlow, um valor ou conjunto de valores calculados em uma etapa específica, geralmente usado para rastrear métricas do modelo durante o treinamento.

machine learning supervisionado

#fundamentals

Treinamento de um model usando model e os model correspondentes. O machine learning supervisionado é análogo ao aprendizado de um assunto, estudando um conjunto de perguntas e as respostas correspondentes. Depois de dominar o mapeamento entre perguntas e respostas, um estudante pode fornecer respostas para perguntas novas (nunca vistas) sobre o mesmo tópico.

Compare com o machine learning não supervisionado.

atributo sintético

#fundamentals

Um atributo que não está presente entre os recursos de entrada, mas criado a partir de um ou mais deles. Os métodos para criar atributos sintéticos incluem os seguintes:

Agrupar um atributo contínuo em agrupamentos por intervalo.

Criar um cruzamento de atributos.

Multiplicar (ou dividir) um valor de atributo por outros valores de atributos ou por si mesmo. Por exemplo, se a e b forem recursos de entrada, estes são exemplos de recursos sintéticos:

ab

a²

Aplicando uma função transcendental a um valor de atributo. Por exemplo, se c for um recurso de entrada, estes são exemplos de recursos sintéticos:

sin(c)

ln(c)

Os recursos criados por normalização ou escalonamento apenas não são considerados recursos sintéticos.

T

T5

#language

Um modelo de aprendizado por transferência de texto para texto introduzido pela IA do Google em 2020. T5 é um modelo de codificador-decodificador baseado na arquitetura Transformer, treinado em um conjunto de dados extremamente grande. Ele é eficaz em várias tarefas de processamento de linguagem natural, como gerar texto, traduzir idiomas e responder a perguntas de maneira conversacional.

O nome T5 vem dos cinco Ts do "Transformer de transferência de texto para texto".

Conexão T5X

#language

Um framework de machine learning de código aberto projetado para criar e treinar modelos de processamento de linguagem natural (PLN) em grande escala. A T5 é implementada na base de código do T5X, criada com base no JAX e no Flax (links em inglês).

Q-learning tabular

#rl

No aprendizado por reforço, implementar Q-learning usando uma tabela para armazenar as funções Q de cada combinação de estado e ação.

destino

Sinônimo de label.

rede de destino

#rl

No aprendizado de qualidade profundo, uma rede neural que é uma aproximação estável da rede neural principal, em que a rede neural principal implementa uma função Q ou uma política. Em seguida, você pode treinar a rede principal com os valores Q previstos pela rede de destino. Portanto, você evita o loop de feedback que ocorre quando a rede principal treina com valores Q previstos por si só. Ao evitar esse feedback, a estabilidade do treinamento aumenta.

tarefa

Um problema que pode ser resolvido usando técnicas de machine learning, como:

classificação

regressão

clustering (em inglês)

Detecção de anomalias

temperatura

#language

#image

#IAgenerativa

Um hiperparâmetro que controla o grau de aleatoriedade da saída de um modelo. Temperaturas mais altas resultam em uma saída mais aleatória, enquanto temperaturas mais baixas resultam em uma saída menos aleatória.

Escolher a melhor temperatura depende do aplicativo específico e das propriedades preferenciais da saída do modelo. Por exemplo, você provavelmente aumentaria a temperatura ao criar um aplicativo que gera resultados criativos. Por outro lado, você provavelmente diminuiria a temperatura ao criar um modelo que classifica imagens ou textos para melhorar a precisão e consistência.

A temperatura costuma ser usada com softmax.

dados temporais

Dados registrados em diferentes momentos. Por exemplo, as vendas de casacos de inverno registradas para cada dia do ano seriam dados temporais.

Tensor

#TensorFlow

A estrutura de dados primária em programas do TensorFlow. Os tensores são estruturas de dados N-dimensionais (em que N pode ser muito grandes), geralmente escalares, vetores ou matrizes. Os elementos de um tensor podem conter valores inteiros, de ponto flutuante ou de string.

TensorBoard

#TensorFlow

O painel que exibe os resumos salvos durante a execução de um ou mais programas do TensorFlow.

TensorFlow

#TensorFlow

Uma plataforma de machine learning distribuída e em grande escala. O termo também se refere à camada de API básica na pilha do TensorFlow, que é compatível com computação geral em gráficos de fluxo de dados.

O TensorFlow é usado principalmente para machine learning, mas é possível usá-lo para tarefas não relacionadas a ML que exigem computação numérica com gráficos do Dataflow.

TensorFlow Playground

#TensorFlow

Um programa que visualiza como diferentes hiperparâmetros influenciam o treinamento do modelo (principalmente rede neural). Acesse http://playground.tensorflow.org para testar o TensorFlow Playground.

TensorFlow Serving

#TensorFlow

Uma plataforma para implantar modelos treinados em produção.

Unidade de Processamento de Tensor (TPU)

#TensorFlow

#GoogleCloud

Um circuito integrado específico de aplicativo (ASIC, na sigla em inglês) que otimiza o desempenho de cargas de trabalho de machine learning. Esses ASICs são implantados como vários chips de TPU em um dispositivo TPU.

Classificação do tensor

#TensorFlow

Consulte rank (Tensor).

Forma do tensor

#TensorFlow

O número de elementos que um Tensor contém em várias dimensões. Por exemplo, um tensor [5, 10] tem uma forma de 5 em uma dimensão e de 10 em outra.

Tamanho do tensor

#TensorFlow

O número total de escalares que um Tensor contém. Por exemplo, um tensor [5, 10] tem um tamanho de 50.

TensorStore

Uma biblioteca para ler e gravar com eficiência grandes matrizes multidimensionais.

condição de encerramento

#rl

No aprendizado por reforço, as condições que determinam quando um episódio termina, como quando o agente atinge um determinado estado ou excede um número limite de transições de estado. Por exemplo, em tic-tac-toe, também conhecido como quebras e cruzes, um episódio termina quando um jogador marca três espaços consecutivos ou quando todos os espaços são marcados.

teste

#df

Em uma árvore de decisão, outro nome para uma condição.

perda de teste

#fundamentals

Uma métrica que representa a perda de um modelo em relação ao conjunto de teste. Ao criar um model, normalmente você tenta minimizar a perda no teste. Isso ocorre porque uma perda baixa no teste é um sinal de qualidade mais forte do que uma baixa perda de treinamento ou baixa perda de validação.

Uma grande lacuna entre a perda de teste e a perda de treinamento ou de validação às vezes sugere que você precisa aumentar a taxa de regularização.

conjunto de teste

Um subconjunto do conjunto de dados reservado para testar um modelo treinado.

Tradicionalmente, você divide exemplos no conjunto de dados nos três subconjuntos distintos a seguir:

Um conjunto de treinamento

Um conjunto de validação

um conjunto de teste

Cada exemplo em um conjunto de dados deve pertencer a apenas um dos subconjuntos anteriores. Por exemplo, um único exemplo não pode pertencer aos conjuntos de treinamento e de teste.

Os conjuntos de treinamento e de validação estão intimamente ligados ao treinamento de um modelo. Como o conjunto de teste é associado apenas indiretamente ao treinamento, a perda de teste é uma métrica menos enviesada e de qualidade superior do que a perda de treinamento ou a perda de validação.

período de texto

#language

O período do índice da matriz associado a uma subseção específica de uma string de texto. Por exemplo, a palavra good na string Python s="Be good now" ocupa o período de texto de 3 a 6.

tf.Example

#TensorFlow

Um buffer de protocolo padrão para descrever dados de entrada para treinamento ou inferência de modelos de machine learning.

tf.keras

#TensorFlow

Uma implementação do Keras integrada ao TensorFlow.

limite (para árvores de decisão)

#df

Em uma condição alinhada ao eixo, o valor com o qual um atributo está sendo comparado. Por exemplo, 75 é o valor do limite na seguinte condição:

grade >= 75

Essa forma do termo limite é diferente do limite de classificação.

análise de série temporal

#clustering

Um subcampo de machine learning e estatística que analisa dados temporais. Muitos tipos de problemas de machine learning exigem análise de séries temporais, incluindo classificação, clustering, previsão e detecção de anomalias. Por exemplo, é possível usar a análise de série temporal para prever as vendas futuras de casacos de inverno por mês com base nos dados históricos.

intervalo de tempo

#seq

Uma célula "desenrolada" dentro de uma rede neural recorrente. Por exemplo, a figura a seguir mostra três etapas de tempo (rotuladas com os subscritos t-1, t e t+1):

token

#language

Em um modelo de linguagem, a unidade atômica em que o modelo está treinando e fazendo previsões. Geralmente, um token é um dos seguintes:

uma palavra. Por exemplo, a frase "cães como gatos" consiste em três tokens de palavras: "cães", "gostei" e "gatos".

um caractere, por exemplo, a frase "peixe bicicleta" consiste em nove tokens de caracteres. O espaço em branco conta como um dos tokens.

subpalavras, em que uma única palavra pode ser um único token ou vários. Uma subpalavra consiste em uma palavra raiz, um prefixo ou um sufixo. Por exemplo, um modelo de linguagem que usa subpalavras como tokens pode ver a palavra "cães" como dois tokens (a palavra raiz "cão" e o sufixo no plural "s"). Nesse mesmo modelo de linguagem, a palavra única "mais alto" pode ser vista como duas subpalavras (a palavra raiz "alto" e o sufixo "er").

Em domínios fora dos modelos de linguagem, os tokens podem representar outros tipos de unidades atômicas. Por exemplo, em visão computacional, um token pode ser um subconjunto de uma imagem.

Tower

um componente de uma rede neural profunda que é, em si, uma rede neural profunda. Em alguns casos, cada torre lê a partir de uma fonte de dados independente, e essas torres permanecem independentes até que a saída seja combinada em uma camada final. Em outros casos, como na pilha/torre do codificador e do decodificador de muitos transformadores, as torres têm conexões cruzadas entre si.

TPU

#TensorFlow

#GoogleCloud

Abreviação de Unidade de Processamento de Tensor.

Ícone de TPU

#TensorFlow

#GoogleCloud

Um acelerador de álgebra linear programável com memória de alta largura de banda on-chip otimizado para cargas de trabalho de machine learning. Vários chips de TPU são implantados em um dispositivo TPU.

Dispositivo TPU

#TensorFlow

#GoogleCloud

Uma placa de circuito impresso (PCB, na sigla em inglês) com vários chips de TPU, interfaces de rede de alta largura de banda e hardware de resfriamento do sistema.

Mestre da TPU

#TensorFlow

#GoogleCloud

O processo de coordenação central executado em uma máquina host que envia e recebe dados, resultados, programas, desempenho e informações de integridade do sistema para os workers de TPU. O mestre da TPU também gerencia a configuração e o encerramento dos dispositivos TPU.

Nó da TPU

#TensorFlow

#GoogleCloud

Um recurso de TPU no Google Cloud com um tipo de TPU específico. O nó da TPU se conecta à rede VPC por uma rede VPC com peering. Os nós da TPU são um recurso definido na API Cloud TPU.

Pod de TPU

#TensorFlow

#GoogleCloud

Uma configuração específica de dispositivos TPU em um data center do Google. Todos os dispositivos em um Pod de TPU são conectados entre si por uma rede dedicada de alta velocidade. Um Pod de TPU é a maior configuração de dispositivos de TPU disponíveis para uma versão específica de TPU.

Recurso de TPU

#TensorFlow

#GoogleCloud

Uma entidade de TPU no Google Cloud que você cria, gerencia ou consome. Por exemplo, nós da TPU e tipos de TPU são recursos de TPU.

Fração de TPU

#TensorFlow

#GoogleCloud

Uma fração de TPU é uma parte fracionária dos dispositivos de TPU em um Pod de TPU. Todos os dispositivos em uma fração de TPU são conectados entre si por meio de uma rede dedicada de alta velocidade.

Tipo de TPU

#TensorFlow

#GoogleCloud

Uma configuração de um ou mais dispositivos de TPU com uma versão específica de hardware de TPU. Você seleciona um tipo de TPU ao criar um nó de TPU no Google Cloud. Por exemplo, um tipo de TPU v2-8 é um único dispositivo TPU v2 com 8 núcleos. Um tipo de TPU v3-2048 tem 256 dispositivos TPU v3 em rede e um total de 2.048 núcleos. Os tipos de TPU são um recurso definido na API Cloud TPU.

Worker da TPU

#TensorFlow

#GoogleCloud

Um processo que é executado em uma máquina host e executa programas de machine learning em dispositivos TPU.

Treinamento

#fundamentals

O processo para determinar os parâmetros ideais (pesos e vieses) que compõem um modelo. Durante o treinamento, um sistema lê exemplos e ajusta gradualmente os parâmetros. O treinamento usa cada exemplo em qualquer lugar, de algumas a bilhões de vezes.

perda de treinamento

#fundamentals

Uma métrica que representa a perda de um modelo durante uma iteração de treinamento específica. Por exemplo, suponha que a função de perda seja Erro quadrático médio. Talvez a perda de treinamento (o erro médio quadrado) da 10a iteração seja 2,2 e a perda de treinamento da 100a iteração seja 1,9.

Uma curva de perda representa a perda de treinamento em relação ao número de iterações. Uma curva de perda oferece as seguintes dicas sobre o treinamento:

Uma inclinação para baixo indica que o modelo está melhorando.

Uma inclinação para cima indica que o modelo está piorando.

Uma inclinação plana indica que o modelo atingiu a convergência.

Por exemplo, a seguinte curva de perda um pouco idealizada mostra:

Uma inclinação para baixo íngreme durante as iterações iniciais, o que implica uma rápida melhoria do modelo.

Uma inclinação gradual (mas ainda decrescente) até perto do fim do treinamento, o que implica melhoria contínua do modelo em um ritmo um pouco mais lento do que durante as iterações iniciais.

Uma inclinação plana em direção ao final do treinamento, o que sugere convergência.

Ainda que a perda de treinamento seja importante, consulte também a generalização.

desvio entre treinamento e disponibilização

#fundamentals

A diferença entre o desempenho de um modelo durante o treinamento e o desempenho do mesmo modelo durante a disponibilização.

conjunto de treinamento

#fundamentals

O subconjunto do conjunto de dados usado para treinar um modelo.

Tradicionalmente, os exemplos no conjunto de dados são divididos em três subconjuntos distintos:

um conjunto de treinamento

Um conjunto de validação

Um conjunto de teste

O ideal é que cada exemplo no conjunto de dados pertença a apenas um dos subconjuntos anteriores. Por exemplo, um único exemplo não pode pertencer aos conjuntos de treinamento e de validação.

trajetória

#rl

No aprendizado por reforço, uma sequência de tuplas que representa uma sequência de transições de estado do agente, em que cada tupla corresponde ao estado, ação, recompensa e ao próximo estado de uma determinada transição de estado.

aprendizado por transferência

Transferir informações de uma tarefa de machine learning para outra. Por exemplo, no aprendizado de várias tarefas, um único modelo resolve várias tarefas, como um modelo profundo que tem diferentes nós de saída para diferentes tarefas. O aprendizado por transferência pode envolver a transferência de conhecimento da solução de uma tarefa mais simples para uma mais complexa ou a transferência de conhecimento de uma tarefa em que há mais dados para uma em que há menos dados.

A maioria dos sistemas de machine learning resolve uma única tarefa. O aprendizado por transferência é uma etapa inicial em direção à inteligência artificial em que um único programa pode resolver várias tarefas.

Transformer

#language

Uma arquitetura de rede neural desenvolvida no Google que depende de mecanismos de autoatenção para transformar uma sequência de embeddings de entrada em uma sequência de embeddings de saída sem depender de convoluções ou redes neurais recorrentes. Um transformador pode ser visto como uma pilha de camadas de autoatenção.

Um transformador pode incluir o seguinte:

um codificador

um decodificador

um codificador e um decodificador

Um codificador transforma uma sequência de embeddings em uma nova sequência do mesmo comprimento. Um codificador inclui N camadas idênticas, cada uma contendo duas subcamadas. Essas duas subcamadas são aplicadas em cada posição da sequência de embedding de entrada, transformando cada elemento da sequência em uma nova incorporação. A primeira subcamada de codificador agrega informações de toda a sequência de entrada. A segunda subcamada de codificador transforma as informações agregadas em um embedding de saída.

Um decodificador transforma uma sequência de embeddings de entrada em uma sequência de embeddings de saída, possivelmente com um comprimento diferente. Um decodificador também inclui N camadas idênticas com três subcamadas, duas das quais são semelhantes às subcamadas do codificador. A terceira subcamada de decodificador usa a saída do codificador e aplica o mecanismo de autoatenção para coletar informações dela.

A postagem do blog Transformer: uma nova arquitetura de rede neural para compreensão de linguagem (em inglês) apresenta uma boa introdução aos transformadores.

invariância translacional

#image

Em um problema de classificação de imagens, a capacidade do algoritmo de classificar imagens com sucesso mesmo quando a posição dos objetos dentro delas muda. Por exemplo, o algoritmo ainda pode identificar um cachorro, esteja no centro ou na extremidade esquerda do frame.

Consulte também a invariância de tamanho e a invariância por rotação.

trigrama

#seq

#language

Um N-grama em que N=3.

verdadeiro negativo (VN)

#fundamentals

Um exemplo em que o modelo prevê corretamente a classe negativa. Por exemplo, o modelo infere que uma mensagem de e-mail específica não é spam e que realmente não é spam.

verdadeiro positivo (VP)

#fundamentals

Exemplo em que o modelo prevê corretamente a classe positiva. Por exemplo, o modelo infere que uma mensagem de e-mail específica é spam e que ela realmente é.

taxa de verdadeiro positivo (TPR)

#fundamentals

Sinônimo de recall. Ou seja:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

A taxa de verdadeiro positivo é o eixo y em uma curva ROC.

U

falta de reconhecimento (para um atributo sensível);

#fairness

Uma situação em que atributos confidenciais estão presentes, mas não são incluídos nos dados de treinamento. Como atributos confidenciais geralmente estão correlacionados a outros atributos dos dados, um modelo treinado sem saber sobre um atributo sensível ainda pode ter impactos diferentes em relação a esse atributo ou violar outras restrições de imparcialidade.

abaixo do ajuste

#fundamentals

Produzir um model com baixa capacidade de previsão porque o modelo não capturou totalmente a complexidade dos dados de treinamento. Muitos problemas podem causar underfitting, incluindo:

Treinamento no conjunto errado de recursos.

Treinamento por muito poucas períodos ou com uma taxa de aprendizado muito baixa.

Treinamento com uma taxa de regularização muito alta.

Fornecer poucas camadas escondidas em uma rede neural profunda.

subamostragem

Remover exemplos da classe principal de um conjunto de dados desequilibrado de classes para criar um conjunto de treinamento mais equilibrado.

Por exemplo, considere um conjunto de dados em que a proporção da classe majoritária para a classe minoritária seja de 20:1. Para superar esse desequilíbrio de classes, você pode criar um conjunto de treinamento com todos os exemplos de classes minoritárias, mas apenas um décimo dos exemplos da classe majoritária, o que criaria uma proporção de 2:1 para a classe do conjunto de treinamento. Graças à subamostragem, esse conjunto de treinamento mais equilibrado pode produzir um modelo melhor. Como alternativa, esse conjunto de treinamento mais equilibrado pode conter exemplos insuficientes para treinar um modelo efetivo.

Contraste com overamostragem.

unidirecional

#language

Um sistema que avalia somente o texto que antecede uma seção de destino. Por outro lado, um sistema bidirecional avalia o texto que antecede e segue uma seção de destino do texto. Consulte bidirecional para mais detalhes.

modelo de linguagem unidirecional

#language

Um modelo de linguagem que baseia as probabilidades apenas nos tokens que aparecem antes, e não depois dos tokens de destino. Contraste com o modelo de linguagem bidirecional.

exemplo não rotulado

#fundamentals

Um exemplo que contém recursos, mas nenhum rótulo. A tabela a seguir mostra três exemplos não rotulados de um modelo de avaliação de casas, cada um com três atributos, mas nenhum valor de casa:

Número de quartos Número de banheiros Idade da casa

3 2 15

2 1 72

4 2 34

No machine learning supervisionado, os modelos são treinados em exemplos rotulados e fazem previsões em exemplos não rotulados.

No aprendizado semissupervisionado e não supervisionado, exemplos não rotulados são usados durante o treinamento.

Compare o exemplo não rotulado com o exemplo rotulado.

machine learning não supervisionado

#clustering

#fundamentals

Treinar um model para encontrar padrões em um conjunto de dados, normalmente um conjunto de dados não rotulado.

O uso mais comum do machine learning não supervisionado é cluster de dados em grupos de exemplos semelhantes. Por exemplo, um algoritmo de aprendizado de máquina não supervisionado pode agrupar músicas com base em várias propriedades delas. Os clusters resultantes podem se tornar uma entrada para outros algoritmos de machine learning (por exemplo, para um serviço de recomendação de músicas). O clustering pode ajudar quando os rótulos úteis estiverem escassos ou ausentes. Por exemplo, em domínios como antiabuso e fraude, os clusters podem ajudar os humanos a entender melhor os dados.

Contraste com o machine learning supervisionado.

Clique no ícone para ver mais observações.

Outro exemplo de machine learning não supervisionado é a análise de componentes principais (PCA, na sigla em inglês). Por exemplo, aplicar PCA a um conjunto de dados com o conteúdo de milhões de carrinhos de compras pode revelar que carrinhos de compras contendo limões frequentemente também contêm antiácidos.

modelagem de aumento

Uma técnica de modelagem, comumente usada no marketing, que modela o "efeito causal" (também conhecido como o "impacto incremental") de um "tratamento" em um "indivíduo". Veja dois exemplos:

Os médicos podem usar a modelagem de aumento para prever a diminuição da mortalidade (efeito causal) de um procedimento médico (tratamento), dependendo da idade e do histórico médico de um paciente (indivíduo).

Os profissionais de marketing podem usar a modelagem de aumento para prever o aumento na probabilidade de uma compra (efeito causal) devido a um anúncio (tratamento) em uma pessoa (indivíduo).

O modelo de melhoria é diferente da classificação ou da regressão porque alguns rótulos (por exemplo, metade dos rótulos em tratamentos binários) estão sempre ausentes na modelagem de aumento. Por exemplo, um paciente pode receber ou não um tratamento. Portanto, só podemos observar se o paciente vai se curar ou não em apenas uma dessas duas situações, mas nunca em ambas. A principal vantagem de um modelo de aumento é que ele pode gerar previsões para a situação não observada (o contrafatual) e usá-la para calcular o efeito causal.

aumentando de peso

Aplicar um peso à classe downsampled igual ao fator que você reduziu a amostragem.

matriz de usuários

#recsystems

Em sistemas de recomendação, um vetor de incorporação gerado por fatoração de matrizes (link em inglês) que contém sinais latentes sobre as preferências do usuário. Cada linha da matriz do usuário contém informações sobre a força relativa de vários sinais latentes para um único usuário. Por exemplo, considere um sistema de recomendação de filmes. Nesse sistema, os sinais latentes na matriz do usuário podem representar o interesse de cada usuário em gêneros específicos ou ser sinais mais difíceis de interpretar que envolvem interações complexas em vários fatores.

A matriz de usuário tem uma coluna para cada atributo latente e uma linha para cada usuário. Ou seja, a matriz do usuário tem o mesmo número de linhas que a matriz de destino que está sendo fatorada. Por exemplo, considerando um sistema de recomendação de filmes para 1.000.000 de usuários, a matriz de usuários terá 1.000.000 linhas.

V

da política.

#fundamentals

A avaliação inicial da qualidade de um modelo. A validação verifica a qualidade das previsões de um modelo em relação ao conjunto de validação.

Como o conjunto de validação é diferente do conjunto de treinamento, a validação ajuda a proteger contra overfitting (link em inglês).

Pense em avaliar o modelo em relação ao conjunto de validação como a primeira rodada de testes e avaliar o modelo em relação ao conjunto de teste como a segunda rodada de testes.

perda de validação

#fundamentals

Uma métrica que representa a perda de um modelo no conjunto de validação durante uma iteração específica do treinamento.

Consulte também curva de generalização.

conjunto de validação

#fundamentals

O subconjunto do conjunto de dados que realiza a avaliação inicial em relação a um modelo treinado. Normalmente, você avalia o modelo treinado com o conjunto de validação várias vezes antes de avaliá-lo em relação ao conjunto de teste.

Tradicionalmente, você divide os exemplos no conjunto de dados nos três subconjuntos distintos a seguir:

Um conjunto de treinamento

um conjunto de validação

Um conjunto de teste

O ideal é que cada exemplo no conjunto de dados pertença a apenas um dos subconjuntos anteriores. Por exemplo, um único exemplo não pode pertencer aos conjuntos de treinamento e de validação.

imputação de valor

O processo de substituir um valor ausente por um substituto aceitável. Quando um valor estiver ausente, será possível descartar o exemplo inteiro ou usar a imputação de valor para recuperá-lo.

Por exemplo, considere um conjunto de dados que contenha um atributo temperature que será registrado a cada hora. No entanto, a leitura da temperatura ficou indisponível por uma hora específica. Aqui está uma seção do conjunto de dados:

Carimbo de data/hora Temperatura

1680561000 10

1680564600 12

1680568200 errando

1680571800 20

1680575400 21

1680579000 21

Um sistema pode excluir o exemplo ausente ou aplicar a temperatura ausente como 12, 16, 18 ou 20, dependendo do algoritmo de imputação.

problema de gradiente de fuga

#seq

A tendência dos gradientes das primeiras camadas escondidas de algumas redes neurais profundas de se tornarem surpreendentemente planos (baixas). Gradientes cada vez menores resultam em mudanças cada vez menores nos pesos dos nós em uma rede neural profunda, levando a pouco ou nenhum aprendizado. Os modelos que sofrem com o problema do gradiente que desaparecem se tornam difíceis ou impossíveis de treinar. As células de memória de curto prazo de longo prazo resolvem esse problema.

Compare com o problema do gradiente em explosão.

importâncias das variáveis

#df

Um conjunto de pontuações que indica a importância relativa de cada atributo para o modelo.

Por exemplo, considere uma árvore de decisão que estima preços de casas. Suponha que essa árvore de decisão use três recursos: tamanho, idade e estilo. Se um conjunto de importâncias de variáveis para os três atributos for calculado como {size=5.8, age=2.5, style=4.7}, o tamanho é mais importante para a árvore de decisão do que idade ou estilo.

Existem diferentes métricas de importância variável, que podem informar a especialistas de ML sobre diferentes aspectos dos modelos.

codificador automático variacional (VAE, na sigla em inglês)

#language

Um tipo de codificador automático que aproveita a discrepância entre entradas e saídas para gerar versões modificadas das entradas. Codificadores automáticos variacionais são úteis para a IA generativa.

Os VAEs são baseados na inferência variacional: uma técnica para estimar os parâmetros de um modelo de probabilidade.

vetor

Termo muito sobrecarregado, cujo significado varia entre diferentes campos matemáticos e científicos. Em machine learning, um vetor tem duas propriedades:

Tipo de dados: os vetores em machine learning geralmente contêm números de ponto flutuante.

Número de elementos: é o comprimento ou a dimensão do vetor.

Por exemplo, considere um vetor de atributo que contenha oito números de pontos flutuantes. Esse vetor de atributo tem um comprimento ou dimensão de oito. Os vetores de machine learning geralmente têm um grande número de dimensões.

É possível representar muitos tipos diferentes de informações como um vetor. Exemplo:

Qualquer posição na superfície da Terra pode ser representada como um vetor bidimensional, em que uma dimensão é a latitude e a outra é a longitude.

Os preços atuais de cada uma das 500 ações podem ser representados como um vetor de 500 dimensões.

Uma distribuição de probabilidade em um número finito de classes pode ser representada como um vetor. Por exemplo, um sistema de classificação multiclasse que prevê uma das três cores de saída (vermelho, verde ou amarelo) pode gerar o vetor (0.3, 0.2, 0.5) para significar P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Os vetores podem ser concatenados. Portanto, várias mídias diferentes podem ser representadas como um único vetor. Alguns modelos operam diretamente na concatenação de muitas codificações one-hot.

Processadores especializados, como TPUs, são otimizados para executar operações matemáticas em vetores.

Um vetor é um tensor de rank 1.

W

Perda de Wasserstein

Uma das funções de perda comumente usadas em redes adversárias generativas, baseada na distância do movimento da Terra entre a distribuição dos dados gerados e os dados reais.

weight

#fundamentals

Um valor que um modelo multiplica por outro valor. O treinamento é o processo de determinar os pesos ideais de um modelo. A inferência é o processo de usar esses pesos aprendidos para fazer previsões.

Clique no ícone para ver um exemplo de pesos em um modelo linear.

Imagine um modelo linear com dois atributos. Suponha que o treinamento determine os seguintes pesos (e viés):

O viés, b, tem um valor de 2,2

O peso, w₁ associado a um atributo, é 1,5.

O peso, w₂ associado ao outro atributo, é 0,4.

Agora imagine um exemplo com os seguintes valores de atributo:

O valor de um atributo, x₁, é 6.

O valor do outro atributo, x₂, é 10.

Este modelo linear usa a seguinte fórmula para gerar uma previsão, "y":

$$y' = b + w_1x_1 + w_2x_2$$

Portanto, a previsão é:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Se um peso for 0, o atributo correspondente não vai contribuir para o modelo. Por exemplo, se w₁ for 0, o valor de x₁ será irrelevante.

Mínimos quadrados alternados ponderados (WALS)

#recsystems

Um algoritmo para minimizar a função objetiva durante a fatoração de matrizes em sistemas de recomendação, o que permite uma redução dos exemplos ausentes. O WALS minimiza o erro quadrático ponderado entre a matriz original e a reconstrução, alternando entre a correção da fatoração de linhas e de colunas. Cada uma dessas otimizações pode ser resolvida usando a otimização convexa de mínimos quadrados. Para mais detalhes, consulte o curso "Sistemas de recomendação".

soma de pesos

#fundamentals

A soma de todos os valores de entrada relevantes multiplicados pelos pesos correspondentes. Por exemplo, suponha que as entradas relevantes consistam no seguinte:

valor de entrada peso de entrada

2 -1,3

-1 0,6

3 0,4

Portanto, a soma ponderada é:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Uma soma ponderada é o argumento de entrada para uma função de ativação.

modelo esparso

Um modelo linear que normalmente tem muitos recursos de entrada esparsos. Nos referimos a ele como "ampla", porque esse modelo é um tipo especial de rede neural com um grande número de entradas que se conectam diretamente ao nó de saída. Modelos esparsos costumam ser mais fáceis de depurar e inspecionar do que modelos profundos. Embora os modelos amplos não possam expressar não linearidades por camadas escondidas, eles podem usar transformações como o cruzamento de atributos e a segmentação por buckets para modelar as não linearidades de maneiras diferentes.

Contraste com o modelo profundo.

width

O número de neurônios em uma camada específica de uma rede neural.

a sabedoria da multidão

#df

A ideia de que calcular a média de opiniões ou estimativas de um grande grupo de pessoas ("a multidão") geralmente produz resultados surpreendentemente bons. Por exemplo, considere um jogo em que as pessoas adivinham o número de jujubas embaladas em um pote grande. Embora a maioria dos palpites seja imprecisa, demonstrou-se empiricamente que a média de todos os palpites é surpreendentemente próxima do número real de jujubas no pote.

Ensembles são um software análogo da sabedoria da multidão. Mesmo que os modelos individuais façam previsões extremamente imprecisas, a média das previsões de muitos modelos costuma gerar previsões surpreendentemente boas. Por exemplo, embora uma árvore de decisão individual possa fazer previsões ruins, uma floresta de decisão geralmente faz previsões muito boas.

incorporação de palavras

#language

Representar cada palavra de um conjunto dentro de um vetor de embedding, ou seja, representar cada palavra como um vetor de valores de ponto flutuante entre 0,0 e 1,0. Palavras com significados semelhantes têm representações mais semelhantes do que palavras com significados diferentes. Por exemplo, cenoura, aipo e pepino têm representações relativamente semelhantes, que são muito diferentes das representações de avião, óculos de sol e pasta de dentes.

X

XLA (álgebra linear acelerada)

Um compilador de machine learning de código aberto para GPUs, CPUs e aceleradores de ML.

O compilador XLA usa modelos de frameworks de ML conhecidos, como PyTorch, TensorFlow e JAX, e os otimiza para execução de alto desempenho em diferentes plataformas de hardware, incluindo GPUs, CPUs e aceleradores de ML.

Z

aprendizado zero-shot

Um tipo de treinamento de machine learning em que o modelo infere uma previsão de uma tarefa em que ainda não foi treinado especificamente. Em outras palavras, o modelo não recebe exemplos de treinamento específicos para tarefas, mas precisa fazer uma inferência sobre essa tarefa.

comandos zero-shot

#language

#IAgenerativa

Um comando que não forneça um exemplo de como você quer que o modelo de linguagem grande responda. Exemplo:

Partes de um comando Observações

Qual é a moeda oficial do país especificado? A pergunta que você quer que o LLM responda.

Índia: A consulta real.

O modelo de linguagem grande pode responder com qualquer uma das seguintes opções:

Rúpia

INR

₹

Rúpias indianas

A rúpia

A rúpia indiana

Todas as respostas estão corretas, mas você pode preferir um formato específico.

Compare os comandos zero-shot e os seguintes termos:

Comandos one-shot

Comandos few-shot

Normalização do valor Z

#fundamentals

Uma técnica de escalonamento que substitui um valor bruto de atributo por um valor de ponto flutuante que representa o número de desvios padrão da média desse atributo. Por exemplo, considere um atributo em que a média é 800 e o desvio padrão é 100. A tabela a seguir mostra como a normalização do valor Z mapearia o valor bruto para o Z-score:

Valor bruto Pontuação Z

800 0

950 +1,5

575 -2,25

O modelo de machine learning é treinado com base nas pontuações Z desse atributo, e não com base nos valores brutos.

	Casablanca	A história da Filadélfia	Pantera Negra	Mulher-Maravilha	Ficção pulp
Usuário 1	5,0	3.0	0,0	2.0	0,0
Usuário 2	4.0	0,0	0,0	1.0	5,0
Usuário 3	3.0	1.0	4.0	5.0	0,0

N	Nomes para este tipo de n-grama	Exemplos
2	bigrama ou 2-grama	ir, almoçar, jantar
3	trigrama ou 3-gramas	comeu demais, três ratos cegos, o sino gira
4	4 gramas	caminhar no parque, poeira ao vento, o menino comeu lentilhas

country	Vetor
"Dinamarca"	1	0	0	0	0
"Suécia"	0	1	0	0	0
"Noruega"	0	0	1	0	0
"Finlândia"	0	0	0	1	0
"Islândia"	0	0	0	0	1

Categoria da solicitação	Exemplo	Observações
Pergunta	`Qual é a velocidade máxima de um pombo?`
Instrução	`Escreva um poema engraçado sobre arbitragem.`	Um prompt que pede para o modelo de linguagem grande fazer algo.
Exemplo	`Traduza o código Markdown para HTML. Por exemplo: Markdown: * item da lista HTML: <ul> <li>list item</li> </ul>`	A primeira frase do comando de exemplo é uma instrução. O restante do comando é o exemplo.
Papel	`Explicar por que o gradiente descendente é usado no treinamento de machine learning para um PhD em física.`	A primeira parte da frase é uma instrução. A frase "para um PhD em física" é a parte da função.
Entrada parcial para o modelo concluir	`O primeiro-ministro do Reino Unido mora em`	Um comando de entrada parcial pode terminar abruptamente, como no exemplo, ou terminar com um sublinhado.

Carimbo de data/hora	Temperatura
1680561000	10
1680564600	12
1680568200	errando
1680571800	20
1680575400	21
1680579000	21