Glossário de machine learning

Este glossário define os termos de machine learning.

A

ablação

Uma técnica para avaliar a importância de um recurso ou componente removendo-o temporariamente de um modelo. Em seguida, treine o modelo novamente sem esse recurso ou componente. Se o modelo treinado tiver um desempenho significativamente pior, é provável que o recurso ou componente removido tenha sido importante.

Por exemplo, suponha que você treine um modelo de classificação em 10 recursos e alcance 88% de precisão no conjunto de teste. Para verificar a importância do primeiro recurso, você pode treinar novamente o modelo usando apenas os outros nove recursos. Se o desempenho do modelo recondicionado for significativamente pior (por exemplo, 55% de precisão), o recurso removido provavelmente era importante. Por outro lado, se o modelo retreinado tiver um desempenho igualmente bom, esse recurso provavelmente não será tão importante.

A ablação também pode ajudar a determinar a importância de:

  • Componentes maiores, como um subsistema inteiro de um sistema de ML maior
  • Processos ou técnicas, como uma etapa de pré-processamento de dados

Em ambos os casos, você vai observar como o desempenho do sistema muda (ou não muda) depois que você remove o componente.

Teste A/B

Uma maneira estatística de comparar duas (ou mais) técnicas: A e B. Normalmente, a A é uma técnica existente, e a B é uma nova técnica. O teste A/B não apenas determina qual técnica tem melhor desempenho, mas também se a diferença é estatisticamente significativa.

O teste A/B geralmente compara uma única métrica em duas técnicas. Por exemplo, como a precisão do modelo se compara em duas técnicas? No entanto, os testes A/B também podem comparar qualquer número finito de métricas.

chip do acelerador

#GoogleCloud

Uma categoria de componentes de hardware especializados projetados para realizar cálculos principais necessários para algoritmos de aprendizado profundo.

Os chips de aceleração (ou simplesmente aceleradores) podem aumentar significativamente a velocidade e a eficiência das tarefas de treinamento e inferência em comparação com uma CPU de uso geral. Eles são ideais para treinar redes neurais e tarefas semelhantes de uso intensivo de computação.

Exemplos de chips de aceleração incluem:

  • Unidades de Processamento de Tensor do Google (TPUs) com hardware dedicado para aprendizado profundo.
  • As GPUs da NVIDIA, que, embora inicialmente projetadas para processamento gráfico, foram projetadas para permitir o processamento paralelo, o que pode aumentar significativamente a velocidade de processamento.

precisão

#fundamentals

O número de previsões de classificação corretas dividido pelo número total de previsões. Ou seja:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Por exemplo, um modelo que fez 40 previsões corretas e 10 incorretas teria uma precisão de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

A classificação binária fornece nomes específicos para as diferentes categorias de previsões corretas e previsões incorretas. A fórmula de precisão para classificação binária é a seguinte:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

em que:

Compare a acurácia com a precisão e o recall.

Consulte Classificação: precisão, recall, precisão e métricas relacionadas no Curso intensivo de machine learning para mais informações.

ação

#rl

No aprendizado por reforço, o mecanismo pelo qual o agente faz transições entre estados do ambiente. O agente escolhe a ação usando uma política.

função de ativação

#fundamentals

Uma função que permite que as redes neurais aprendam relações não lineares (complexas) entre os recursos e o rótulo.

As funções de ativação mais usadas incluem:

Os gráficos das funções de ativação nunca são linhas retas. Por exemplo, o gráfico da função de ativação ReLU consiste em duas linhas retas:

Um gráfico cartesiano de duas linhas. A primeira linha tem um valor y constante
          de 0, percorrendo o eixo x de -infinito,0 a 0,-0.
          A segunda linha começa em 0,0. Essa linha tem uma inclinação de +1, então
          ela vai de 0,0 a +infinito,+infinito.

Um gráfico da função de ativação sigmoid tem esta aparência:

Um gráfico bidimensional com valores x que variam de -infinito a +positivo, enquanto os valores y variam de quase 0 a quase 1. Quando x é 0, y é 0,5. A inclinação da curva é sempre
          positiva, com a inclinação mais alta em 0,0,5 e inclinações decrescentes
          à medida que o valor absoluto de x aumenta.

Consulte Redes neurais: funções de ativação no Curso intensivo de machine learning para mais informações.

aprendizagem ativa

Uma abordagem de treinamento em que o algoritmo escolhe alguns dos dados que ele aprende. A aprendizagem ativa é particularmente valiosa quando os exemplos rotulados são escassos ou caros. Em vez de buscar cegamente uma variedade de exemplos rotulados, um algoritmo de aprendizado ativo busca seletivamente a faixa específica de exemplos necessários para a aprendizagem.

AdaGrad

Um algoritmo de gradiente descendente sofisticado que redimensiona os gradientes de cada parâmetro, a cada parâmetro uma taxa de aprendizado independente. Para uma explicação completa, consulte este artigo sobre o AdaGrad (em inglês).

agente

#rl

No aprendizado por reforço, a entidade que usa uma política para maximizar o retorno esperado da transição entre estados do ambiente.

De forma mais geral, um agente é um software que planeja e executa de forma autônoma uma série de ações em busca de uma meta, com a capacidade de se adaptar a mudanças no ambiente. Por exemplo, um agente baseado em LLM pode usar um LLM para gerar um plano, em vez de aplicar uma política de aprendizado por reforço.

clustering aglomerativo

#clustering

Consulte clustering hierárquico.

Detecção de anomalias

O processo de identificação de outliers. Por exemplo, se a média de um determinado recurso for 100 com um desvio padrão de 10, a detecção de anomalias vai sinalizar um valor de 200 como suspeito.

AR

Abreviação de realidade aumentada.

área sob a curva de PR

Consulte AUC PR (área sob a curva PR).

área sob a curva ROC

Consulte AUC (área sob a curva ROC).

inteligência artificial geral

Um mecanismo não humano que demonstra uma ampla gama de resolução de problemas, criatividade e adaptabilidade. Por exemplo, um programa que demonstra inteligência geral artificial pode traduzir textos, compor sinfonias e se destacar em jogos que ainda não foram inventados.

inteligência artificial

#fundamentals

Um programa ou modelo não humano que pode resolver tarefas sofisticadas. Por exemplo, programas ou modelos que traduzem texto ou que identificam doenças usando imagens radiológicas usam inteligência artificial.

Formalmente, o aprendizado de máquina é um subcampo da inteligência artificial. No entanto, nos últimos anos, algumas organizações começaram a usar os termos inteligência artificial e aprendizado de máquina como sinônimos.

atenção

#language

Um mecanismo usado em uma rede neural que indica a importância de uma palavra ou parte de uma palavra específica. A atenção compacta a quantidade de informações que um modelo precisa para prever o próximo token/palavra. Um mecanismo de atenção típico pode consistir em uma soma ponderada sobre um conjunto de entradas, em que o peso de cada entrada é calculado por outra parte da rede neural.

Consulte também autoatenção e autoatenção multicabeça, que são os blocos de construção dos transformadores.

Consulte LLMs: What's a large language model? no Curso intensivo de machine learning para mais informações sobre a auto-atenção.

atributo

#fairness

Sinônimo de feature.

Na imparcialidade do aprendizado de máquina, os atributos geralmente se referem a características pertencentes a indivíduos.

amostragem de atributos

#df

Uma tática para treinar uma floresta de decisão em que cada árvore de decisão considera apenas um subconjunto aleatório de possíveis recursos ao aprender a condição. Geralmente, um subconjunto diferente de recursos é amostrado para cada . Por outro lado, ao treinar uma árvore de decisão sem a amostragem de atributos, todos os recursos possíveis são considerados para cada nó.

AUC (área sob a curva ROC)

#fundamentals

Um número entre 0,0 e 1,0 que representa a capacidade de um modelo de classificação binária de separar classes positivas de classes negativas. Quanto mais próxima da 1,0, melhor será a capacidade do modelo de separar as classes.

Por exemplo, a ilustração a seguir mostra um modelo de classificador que separa perfeitamente as classes positivas (ovals verdes) das classes negativas (retângulos roxos). Esse modelo perfeito tem uma AUC de 1,0:

Uma linha numérica com 8 exemplos positivos de um lado e
          9 exemplos negativos do outro.

Por outro lado, a ilustração a seguir mostra os resultados de um modelo de classificador que gerou resultados aleatórios. Esse modelo tem uma AUC de 0,5:

Uma linha numérica com seis exemplos positivos e seis negativos.
          A sequência de exemplos é positiva, negativa,
          positiva, negativa, positiva, negativa, positiva, negativa, positiva
          negativa, positiva, negativa.

Sim, o modelo anterior tem um AUC de 0,5, não 0,0.

A maioria dos modelos fica entre os dois extremos. Por exemplo, o modelo a seguir separa os positivos dos negativos e, portanto, tem uma AUC entre 0,5 e 1,0:

Uma linha numérica com seis exemplos positivos e seis negativos.
          A sequência de exemplos é negativo, negativo, negativo, negativo,
          positivo, negativo, positivo, positivo, negativo, positivo, positivo,
          positivo.

O AUC ignora qualquer valor definido para o limite de classificação. Em vez disso, a AUC considera todos os limiares de classificação possíveis.

Consulte Classificação: ROC e AUC no Curso intensivo de machine learning para mais informações.

realidade aumentada

#image

Uma tecnologia que sobrepõe uma imagem gerada por computador à visão do mundo real de um usuário, fornecendo uma visualização composta.

codificador automático

#language
#image

Um sistema que aprende a extrair as informações mais importantes da entrada. Os autoencoders são uma combinação de um codificador e decodificador. Os autoencoders dependem do seguinte processo em duas etapas:

  1. O codificador mapeia a entrada para um formato (normalmente) com perda de menor dimensão (intermediário).
  2. O decodificador cria uma versão com perdas da entrada original mapeando o formato de menor dimensão para o formato de entrada de maior dimensão original.

Os autoencoders são treinados de ponta a ponta, fazendo com que o decodificador tente reconstruir a entrada original do formato intermediário do codificador o mais próximo possível. Como o formato intermediário é menor (de menor dimensão) do que o original, o autoencoder é forçado a aprender quais informações na entrada são essenciais, e a saída não será perfeitamente idêntica à entrada.

Exemplo:

  • Se os dados de entrada forem um gráfico, a cópia não exata será semelhante ao gráfico original, mas um pouco modificada. Talvez a cópia não exata remova o ruído do gráfico original ou preencha alguns pixels ausentes.
  • Se os dados de entrada forem de texto, um autoencoder vai gerar um novo texto que imita (mas não é idêntico) ao texto original.

Consulte também autocodificadores variacionais.

avaliação automática

#language
#generativeAI

Usar software para avaliar a qualidade da saída de um modelo.

Quando a saída do modelo é relativamente simples, um script ou programa pode comparar a saída do modelo com uma resposta ideal. Esse tipo de avaliação automática às vezes é chamado de avaliação programática. Métricas como ROUGE ou BLEU geralmente são úteis para avaliação programática.

Quando a saída do modelo é complexa ou não tem uma única resposta correta, um programa de ML separado chamado de autoavaliador às vezes realiza a avaliação automática.

Compare com a avaliação humana.

viés de automação

#fairness

Quando um responsável pela tomada de decisões humanas favorece as recomendações feitas por um sistema automatizado de tomada de decisões em vez de informações feitas sem automação, mesmo quando o sistema automatizado de tomada de decisões comete erros.

Consulte Imparcialidade: tipos de viés no Curso intensivo de machine learning para mais informações.

AutoML

Qualquer processo automatizado para criar modelos de machine learning . O AutoML pode realizar tarefas automaticamente, como:

O AutoML é útil para cientistas de dados porque pode economizar tempo e esforço no desenvolvimento de pipelines de aprendizado de máquina e melhorar a precisão da previsão. Ele também é útil para pessoas que não são especialistas, tornando as tarefas complicadas de aprendizado de máquina mais acessíveis.

Consulte Machine Learning automatizado (AutoML) no Curso intensivo de machine learning para mais informações.

avaliação do autor automático

#language
#generativeAI
Um mecanismo híbrido para avaliar a qualidade da saída de um modelo de IA generativa que combina avaliação humana com avaliação automática. Um autor é um modelo de ML treinado com dados criados por avaliação humana. O ideal é que um autor aprenda a imitar um avaliador humano.

Há autores automáticos pré-criados disponíveis, mas os melhores são ajustados especificamente para a tarefa que você está avaliando.

modelo autorregressivo

#language
#image
#generativeAI

Um modelo que infere uma previsão com base nas próprias previsões anteriores. Por exemplo, os modelos de linguagem auto-regressivos preveem o próximo token com base nos tokens previstos anteriormente. Todos os modelos de linguagem grandes baseados no Transformer são autoregressivos.

Por outro lado, os modelos de imagem baseados em GAN geralmente não são autorregressivos, porque geram uma imagem em uma única passagem para frente e não iterativamente em etapas. No entanto, alguns modelos de geração de imagens são autorregressivos porque geram uma imagem em etapas.

perda auxiliar

Uma função de perda, usada em conjunto com uma rede neural do modelo, que ajuda a acelerar o treinamento durante as primeiras iterações, quando os pesos são inicializados aleatoriamente.

As funções de perda auxiliares enviam gradientes eficazes para as camadas anteriores. Isso facilita a convergencia durante o treinamento, combatendo o problema de gradiente de desaparecimento.

precisão média em k

#language

Uma métrica para resumir a performance de um modelo em uma única solicitação que gera resultados classificados, como uma lista numerada de recomendações de livros. A precisão média em k é a média dos valores de precisão em k para cada resultado relevante. A fórmula para a precisão média em k é a seguinte:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

em que:

  • \(n\) é o número de itens relevantes na lista.

Compare com a recordação em k.

condição alinhada ao eixo

#df

Em uma árvore de decisão, uma condição envolve apenas um recurso. Por exemplo, se area for um recurso, a seguir está uma condição alinhada ao eixo:

area > 200

Contraste com a condição oblíqua.

B

retropropagação

#fundamentals

O algoritmo que implementa a gradiente descendente em redes neurais.

Treinar uma rede neural envolve muitas iterations do seguinte ciclo de duas etapas:

  1. Durante o passo para frente, o sistema processa um lote de exemplos para gerar previsões. O sistema compara cada previsão com cada valor de rótulo. A diferença entre a previsão e o valor do rótulo é a perda para esse exemplo. O sistema agrega as perdas de todos os exemplos para calcular a perda total do lote atual.
  2. Durante o passo reverso (retropropagação), o sistema reduz a perda ajustando os pesos de todos os neurônios em todas as camadas ocultas.

As redes neurais geralmente contêm muitos neurônios em muitas camadas ocultas. Cada um desses neurônios contribui para a perda geral de maneiras diferentes. A retropropagação determina se os pesos aplicados a neurônios específicos vão aumentar ou diminuir.

A taxa de aprendizado é um multiplicador que controla o grau em que cada passagem reversa aumenta ou diminui cada peso. Uma taxa de aprendizado grande aumenta ou diminui cada peso mais do que uma pequena.

Em termos de cálculo, a retropropagação implementa a regra de cadeia. do cálculo. Ou seja, a propagação para trás calcula a derivada parcial do erro em relação a cada parâmetro.

Há anos, os profissionais de ML precisavam escrever código para implementar a retropropagação. APIs modernas de ML, como o Keras, agora implementam a propagação de retorno para você. Ufa.

Consulte Redes neurais no Curso intensivo de machine learning para mais informações.

sacolas

#df

Um método para treinar um conjunto em que cada modelo constituinte é treinado em um subconjunto aleatório de exemplos de treinamento amostrado com substituição. Por exemplo, uma floresta aleatória é um conjunto de árvores de decisão treinadas com agrupamento.

O termo bagging é a abreviação de bootstrap aggregating.

Consulte Florestas aleatórias no curso de florestas de decisão para mais informações.

saco de palavras

#language

Uma representação das palavras em uma frase ou passagem, independentemente da ordem. Por exemplo, o bag of words representa as seguintes três frases de forma idêntica:

  • o cachorro pula
  • pula o cachorro
  • cachorro pula o

Cada palavra é mapeada para um índice em um vetor esparsa, em que o vetor tem um índice para cada palavra no vocabulário. Por exemplo, a frase the dog jumps é mapeada para um vetor de recursos com valores não nulos nos três índices correspondentes às palavras the, dog e jumps. O valor diferente de zero pode ser um dos seguintes:

  • Um 1 para indicar a presença de uma palavra.
  • Uma contagem do número de vezes que uma palavra aparece no saco. Por exemplo, se a frase fosse o cachorro marrom é um cachorro com pelagem marrom, marrom e cachorro seriam representados como 2, enquanto as outras palavras seriam representadas como 1.
  • Outro valor, como o logaritmo da contagem do número de vezes que uma palavra aparece no conjunto.

baseline

Um modelo usado como ponto de referência para comparar o desempenho de outro modelo (geralmente, um mais complexo). Por exemplo, um modelo de regressão logística pode servir como uma boa referência para um modelo profundo.

Para um problema específico, a referência ajuda os desenvolvedores a quantificar a performance mínima esperada que um novo modelo precisa alcançar para ser útil.

lote

#fundamentals

O conjunto de exemplos usados em uma iteração de treinamento. O tamanho do lote determina o número de exemplos em um lote.

Consulte época para uma explicação de como um lote se relaciona a uma época.

Consulte Regressão linear: hiperparâmetros no Curso intensivo de machine learning para mais informações.

inferência em lote

#TensorFlow
#GoogleCloud

O processo de inferir previsões em vários exemplos não rotulados divididos em subconjuntos menores ("lotes").

A inferência em lote pode aproveitar os recursos de paralelização de chips de aceleração. Ou seja, vários aceleradores podem inferir previsões simultaneamente em diferentes lotes de exemplos não rotulados, aumentando drasticamente o número de inferências por segundo.

Consulte Sistemas de ML de produção: inferência estática versus dinâmica no Curso intensivo de machine learning para mais informações.

normalização em lote

Normalizar a entrada ou saída das funções de ativação em uma camada oculta. A normalização em lote pode oferecer os seguintes benefícios:

tamanho do lote

#fundamentals

O número de exemplos em um lote. Por exemplo, se o tamanho do lote for 100, o modelo processará 100 exemplos por iteração.

Confira a seguir as estratégias de tamanho de lote mais conhecidas:

  • Gradiente descendente estocástico (SGD), em que o tamanho do lote é 1.
  • Lote completo, em que o tamanho do lote é o número de exemplos em todo o conjunto de treinamento. Por exemplo, se o conjunto de treinamento contiver um milhão de exemplos, o tamanho do lote será de um milhão de exemplos. O lote completo geralmente é uma estratégia ineficiente.
  • minilote, em que o tamanho do lote geralmente fica entre 10 e 1.000. O minilote geralmente é a estratégia mais eficiente.

Para saber mais, consulte os seguintes artigos:

Rede neural bayesiana

Uma rede neural probabilística que considera a incerteza em pesos e saídas. Um modelo de regressão de rede neural padrão normalmente prevê um valor escalar. Por exemplo, um modelo padrão prevê um preço de casa de 853.000. Por outro lado, uma rede neural bayesiana prevê uma distribuição de valores. Por exemplo, um modelo bayesiano prevê um preço de casa de 853.000 com um desvio padrão de 67.200.

Uma rede neural bayesiana depende do teorema de Bayes para calcular as incertezas em pesos e previsões. Uma rede neural bayesiana pode ser útil quando é importante quantificar a incerteza, como em modelos relacionados a produtos farmacêuticos. As redes neurais bayesianas também podem ajudar a evitar overfitting.

Otimização bayesiana

Uma técnica de modelo de regressão probabilística para otimizar funções objetivas computacionalmente caras, otimizando um substituto que quantifica a incerteza usando uma técnica de aprendizado bayesiano. Como a otimização bayesiana é muito cara, ela geralmente é usada para otimizar tarefas caras de avaliar que têm um pequeno número de parâmetros, como selecionar hiperparâmetros.

Equação de Bellman

#rl

No aprendizado por reforço, a seguinte identidade é satisfeita pela função Q ideal:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Os algoritmos de aprendizagem por reforço aplicam essa identidade para criar aprendizagem Q usando a seguinte regra de atualização:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Além do aprendizado por reforço, a equação de Bellman tem aplicações para programação dinâmica. Consulte a entrada da Wikipédia sobre a equação de Bellman.

BERT (representações de codificador bidirecional de transformadores)

#language

Uma arquitetura de modelo para a representação de texto. Um modelo BERT treinado pode atuar como parte de um modelo maior para classificação de texto ou outras tarefas de ML.

O BERT tem as seguintes características:

As variantes do BERT incluem:

  • ALBERT, que é um acrônimo para A Light BERT.
  • LaBSE.

Consulte Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing para ter uma visão geral do BERT.

viés (ética/justiça)

#fairness
#fundamentals

1. Estereótipos, preconceito ou favoritismo em relação a algumas coisas, pessoas ou grupos em detrimento de outras. Esses vieses podem afetar a coleta e a interpretação de dados, o design de um sistema e a forma como os usuários interagem com ele. As formas desse tipo de viés incluem:

2. Erro sistemático causado por um procedimento de amostragem ou relatório. As formas desse tipo de viés incluem:

Não confundir com o termo viés em modelos de aprendizado de máquina ou viés de previsão.

Consulte Imparcialidade: tipos de viés no Curso intensivo de machine learning para mais informações.

viés (matemática) ou termo de viés

#fundamentals

Uma interseção ou compensação de uma origem. O viés é um parâmetro em modelos de aprendizado de máquina, simbolizado por um dos seguintes:

  • b
  • w0

Por exemplo, a viés é b na seguinte fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Em uma linha bidimensional simples, a viés significa apenas "intercepto em y". Por exemplo, a inclinação da linha na ilustração a seguir é 2.

O gráfico de uma linha com uma inclinação de 0,5 e um viés (intercepto y) de 2.

O viés existe porque nem todos os modelos começam na origem (0,0). Por exemplo, suponha que um parque de diversões custa 2 euros para entrar e mais 0,5 euro por hora que um cliente fica. Portanto, um modelo que mapeia o custo total tem uma viés de 2 porque o custo mais baixo é de 2 euros.

Não confunda viés com viés de ética e justiça ou viés de previsão.

Consulte Regressão linear no Curso intensivo de machine learning para mais informações.

bidirecional

#language

Termo usado para descrever um sistema que avalia o texto que antecede e segue uma seção de texto de destino. Por outro lado, um sistema unidirecional avalia apenas o texto que precede uma seção de texto de destino.

Por exemplo, considere um modelo de linguagem mascarado que precisa determinar as probabilidades da palavra ou das palavras que representam o sublinhado na seguinte pergunta:

Como você está?

Um modelo de linguagem unidirecional precisaria basear as probabilidades apenas no contexto fornecido pelas palavras "What", "is" e "the". Em contraste, um modelo de linguagem bidirecional também pode receber contexto de "com" e "você", o que pode ajudar o modelo a gerar previsões melhores.

modelo de linguagem bidirecional

#language

Um modelo de linguagem que determina a probabilidade de um determinado token estar presente em um determinado local em um trecho de texto com base no texto anterior e seguinte.

bigram

#seq
#language

Um n-grama em que N=2.

classificação binária

#fundamentals

Um tipo de tarefa de classificação que prevê uma de duas classes mutuamente exclusivas:

Por exemplo, os dois modelos de aprendizado de máquina a seguir realizam a classificação binária:

  • Um modelo que determina se as mensagens de e-mail são spam (a classe positiva) ou não spam (a classe negativa).
  • Um modelo que avalia sintomas médicos para determinar se uma pessoa tem uma doença específica (a classe positiva) ou não (a classe negativa).

Compare com a classificação multiclasse.

Consulte também regressão logística e limite de classificação.

Consulte Classificação no Curso intensivo de machine learning para mais informações.

condição binária

#df

Em uma árvore de decisão, uma condição que tem apenas dois resultados possíveis, normalmente sim ou não. Por exemplo, a seguir está uma condição binária:

temperature >= 100

Compare com a condição não binária.

Consulte Tipos de condições no curso sobre florestas de decisão para mais informações.

agrupamento por classes

Sinônimo de bucketing.

BLEU (assistente de avaliação bilíngue)

#language

Uma métrica entre 0,0 e 1,0 para avaliar traduções automáticas, por exemplo, do espanhol para o japonês.

Para calcular uma pontuação, o BLEU normalmente compara a tradução de um modelo de ML (texto gerado) com a tradução de um especialista humano (texto de referência). O grau em que os n-gramas no texto gerado e no texto de referência correspondem determina a pontuação BLEU.

O artigo original sobre essa métrica é BLEU: a Method for Automatic Evaluation of Machine Translation.

Consulte também BLEURT.

BLEURT (assistente de avaliação bilíngue de transformadores)

#language

Uma métrica para avaliar as traduções automáticas de um idioma para outro, principalmente do e para o inglês.

Para traduções de e para o inglês, o BLEURT se alinha mais às classificações humanas do que o BLEU. Ao contrário do BLEU, o BLEURT enfatiza as semelhanças semânticas (de significado) e pode acomodar paráfrases.

O BLEURT usa um modelo de linguagem grande pré-treinado (BERT, para ser exato) que é ajustado em textos de tradutores humanos.

O artigo original sobre essa métrica é BLEURT: Learning Robust Metrics for Text Generation.

aumento

Uma técnica de aprendizado de máquina que combina de forma iterativa um conjunto de classificadores simples e não muito precisos (chamados de "fracos") em um classificador com alta precisão (um "forte") aumentando o peso dos exemplos que o modelo está classificando incorretamente.

Consulte Árvores de decisão com escalonamento gradual? no curso de florestas de decisão para mais informações.

caixa delimitadora

#image

Em uma imagem, as coordenadas (x, y) de um retângulo em torno de uma área de interesse, como o cachorro na imagem abaixo.

Foto de um cachorro sentado em um sofá. Uma caixa delimitadora verde
          com coordenadas no canto superior esquerdo de (275, 1271) e coordenadas
          no canto inferior direito de (2954, 2761) circunscreve o corpo do cachorro

transmissão

Expandir a forma de um operando em uma operação matemática de matriz para dimensões compatíveis com essa operação. Por exemplo, a álgebra linear exige que os dois operandos em uma operação de adição de matriz tenham as mesmas dimensões. Consequentemente, não é possível adicionar uma matriz de forma (m, n) a um vetor de comprimento n. A transmissão permite essa operação ao expandir virtualmente o vetor de comprimento n para uma matriz de forma (m, n) replicando os mesmos valores em cada coluna.

Por exemplo, considerando as seguintes definições, a álgebra linear proíbe A+B porque A e B têm dimensões diferentes:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

No entanto, a transmissão permite a operação A+B expandindo virtualmente B para:

 [[2, 2, 2],
  [2, 2, 2]]

Assim, A+B agora é uma operação válida:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Consulte a descrição a seguir de broadcasting no NumPy para mais detalhes.

agrupamento por classes

#fundamentals

Conversão de um único atributo em vários atributos binários, chamados de buckets ou bins, geralmente com base em um intervalo de valores. O atributo picado é normalmente um atributo contínuo.

Por exemplo, em vez de representar a temperatura como um único atributo de ponto flutuante contínuo, você pode dividir intervalos de temperatura em intervalos discretos, como:

  • <= 10 graus Celsius seria o balde "frio".
  • 11 a 24 graus Celsius seria o intervalo "temperate".
  • >= 25 graus Celsius seria o intervalo "quente".

O modelo vai tratar todos os valores no mesmo bucket de forma idêntica. Por exemplo, os valores 13 e 22 estão no bucket "temperate", então o modelo trata os dois valores de forma idêntica.

Consulte Dados numéricos: binarização no Curso intensivo de machine learning para mais informações.

C

camada de calibração

Um ajuste pós-previsão, normalmente para considerar a tendência de previsão. As previsões e probabilidades ajustadas precisam corresponder à distribuição de um conjunto de rótulos observado.

geração de candidatos

#recsystems

O conjunto inicial de recomendações escolhido por um sistema de recomendação. Por exemplo, considere uma livraria que oferece 100.000 títulos. A fase de geração de candidatos cria uma lista muito menor de livros adequados para um usuário específico, digamos 500. Mas mesmo 500 livros são muitos para recomendar a um usuário. Fases subsequentes e mais caras de um sistema de recomendação (como pontuação e reclassificação) reduzem essas 500 para um conjunto de recomendações muito menor e mais útil.

Consulte a Visão geral da geração de candidatos no curso de sistemas de recomendação para mais informações.

amostragem de candidatos

Uma otimização no momento do treinamento que calcula uma probabilidade para todos os rótulos positivos, usando, por exemplo, softmax, mas apenas para uma amostra aleatória de rótulos negativos. Por exemplo, dado um exemplo rotulado beagle e dog, a amostragem de candidatos calcula as probabilidades previstas e os termos de perda correspondentes para:

  • beagle
  • dog
  • um subconjunto aleatório das classes negativas restantes (por exemplo, cat, lollipop, fence).

A ideia é que as classes negativas possam aprender com reforços negativos menos frequentes, desde que as classes positivas sempre recebam o reforço positivo adequado, e isso é observado empiricamente.

A amostragem de candidatos é mais eficiente em termos computacionais do que os algoritmos de treinamento que calculam previsões para todas as classes negativas, principalmente quando o número de classes negativas é muito grande.

dados categóricos

#fundamentals

Recursos com um conjunto específico de valores possíveis. Por exemplo, considere um recurso categórico chamado traffic-light-state, que só pode ter um dos três valores possíveis a seguir:

  • red
  • yellow
  • green

Ao representar traffic-light-state como um atributo categórico, um modelo pode aprender os impactos diferentes de red, green e yellow no comportamento do motorista.

Às vezes, os recursos categóricos são chamados de recursos discretos.

Compare com dados numéricos.

Consulte Como trabalhar com dados categóricos no Curso intensivo de machine learning para mais informações.

modelo de linguagem causal

#language

Sinônimo de modelo de linguagem unidirecional.

Consulte modelo de linguagem bidirecional para contrastar diferentes abordagens direcionais na modelagem de linguagem.

centroid

#clustering

O centro de um cluster determinado por um algoritmo k-means ou k-mediana. Por exemplo, se k for 3, o algoritmo k-means ou k-median vai encontrar três centróides.

Consulte Algoritmos de agrupamento no curso de agrupamento para mais informações.

Clustering com base no centroide

#clustering

Uma categoria de algoritmos de agrupamento que organiza dados em clusters não hierárquicos. O k-means é o algoritmo de agrupamento baseado em centroide mais usado.

Compare com os algoritmos de agrupamento hierárquico.

Consulte Algoritmos de agrupamento no curso de agrupamento para mais informações.

comandos de fluxo de consciência

#language
#generativeAI

Uma técnica de engenharia de comandos que incentiva um modelo de linguagem grande (LLM) a explicar o raciocínio, passo a passo. Por exemplo, considere o seguinte comando, prestando atenção especial à segunda frase:

Quantas forças g um motorista sentiria em um carro que vai de 0 a 100 km/h em 7 segundos? Na resposta, mostre todos os cálculos relevantes.

A resposta do LLM provavelmente:

  • Mostre uma sequência de fórmulas de física, inserindo os valores 0, 60 e 7 nos lugares apropriados.
  • Explique por que escolheu essas fórmulas e o significado das várias variáveis.

O comando de fluxo de pensamento força o LLM a realizar todos os cálculos, o que pode levar a uma resposta mais correta. Além disso, a solicitação de cadeia de pensamento permite que o usuário examine as etapas do LLM para determinar se a resposta faz sentido ou não.

chat

#language
#generativeAI

O conteúdo de uma conversa com um sistema de ML, geralmente um modelo de linguagem grande. A interação anterior em um chat (o que você digitou e como o modelo de linguagem grande respondeu) se torna o contexto para as partes subsequentes do chat.

Um chatbot é uma aplicação de um modelo de linguagem grande.

checkpoint

Dados que capturam o estado dos parâmetros de um modelo, seja durante o treinamento ou após a conclusão dele. Por exemplo, durante o treinamento, você pode:

  1. Interromper o treinamento, talvez intencionalmente ou como resultado de alguns erros.
  2. Capture o checkpoint.
  3. Mais tarde, recarregue o ponto de verificação, possivelmente em hardware diferente.
  4. Reinicie o treinamento.

classe

#fundamentals

Uma categoria à qual um rótulo pode pertencer. Exemplo:

Um modelo de classificação prevê uma classe. Por outro lado, um modelo de regressão prevê um número em vez de uma classe.

Consulte Classificação no Curso intensivo de machine learning para mais informações.

modelo de classificação

#fundamentals

Um modelo cuja previsão é uma classe. Por exemplo, os modelos de classificação a seguir:

  • Um modelo que prevê o idioma de uma frase de entrada (francês? Espanhol? Italiano?).
  • Um modelo que prevê espécies de árvores (maple? Carvalho? Baobá?).
  • Um modelo que prevê a classe positiva ou negativa para uma condição médica específica.

Por outro lado, os modelos de regressão preveem números em vez de classes.

Dois tipos comuns de modelos de classificação são:

limite de classificação

#fundamentals

Em uma classificação binária, um número entre 0 e 1 que converte a saída bruta de um modelo de regressão logística em uma previsão da classe positiva ou da classe negativa. O limite de classificação é um valor escolhido por humanos, não pelo treinamento do modelo.

Um modelo de regressão logística gera um valor bruto entre 0 e 1. Em seguida:

  • Se esse valor bruto for maior que o limite de classificação, a classe positiva será prevista.
  • Se esse valor bruto for menor do limite de classificação, a classe negativa será prevista.

Por exemplo, suponha que o limite de classificação seja 0,8. Se o valor bruto for 0,9, o modelo vai prever a classe positiva. Se o valor bruto for 0,7, o modelo vai prever a classe negativa.

A escolha do limite de classificação influencia muito o número de falsos positivos e falsos negativos.

Consulte Limites e a matriz de confusão no Curso intensivo de machine learning para mais informações.

conjunto de dados não balanceado

#fundamentals

Um conjunto de dados para um problema de classificação em que o número total de rótulos de cada classe difere significativamente. Por exemplo, considere um conjunto de dados de classificação binária em que os dois rótulos são divididos da seguinte maneira:

  • 1.000.000 de rótulos negativos
  • 10 rótulos positivos

A proporção de rótulos negativos para positivos é de 100.000 para 1, então este é um conjunto de dados com desequilíbrio de classes.

Por outro lado, o conjunto de dados a seguir não está desequilibrado porque a proporção de rótulos negativos para rótulos positivos é relativamente próxima de 1:

  • 517 rótulos negativos
  • 483 rótulos positivos

Os conjuntos de dados com várias classes também podem ser não balanceados. Por exemplo, o conjunto de dados de classificação de várias classes a seguir também está desequilibrado porque um rótulo tem muito mais exemplos do que os outros dois:

  • 1.000.000 rótulos com a classe "verde"
  • 200 rótulos com a classe "purple"
  • 350 rótulos com a classe "laranja"

Consulte também entropia, classe majoritária e classe minoritária.

recorte

#fundamentals

Uma técnica para lidar com valores discrepantes fazendo uma ou ambas as seguintes ações:

  • Redução dos valores de feature maiores que um limite máximo para esse limite.
  • Aumente os valores de recursos que são menores que um limite mínimo até esse limite mínimo.

Por exemplo, suponha que menos de 0,5% dos valores de um recurso específico estejam fora do intervalo de 40 a 60. Nesse caso, você pode fazer o seguinte:

  • Corta todos os valores acima de 60 (o limite máximo) para exatamente 60.
  • Corta todos os valores abaixo de 40 (o limite mínimo) para exatamente 40.

Os valores atípicos podem danificar os modelos, às vezes fazendo com que os pesos transbordem durante o treinamento. Alguns valores atípicos também podem prejudicar bastante as métricas, como a precisão. O recorte é uma técnica comum para limitar os danos.

A redução de gradiente força os valores de gradiente dentro de um intervalo designado durante o treinamento.

Consulte Dados numéricos: normalização no Curso intensivo de machine learning para mais informações.

Cloud TPU

#TensorFlow
#GoogleCloud

Um acelerador de hardware especializado projetado para acelerar cargas de trabalho de machine learning no Google Cloud.

clustering

#clustering

Agrupar exemplos relacionados, principalmente durante o aprendizado não supervisionado. Depois que todos os exemplos forem agrupados, uma pessoa pode fornecer significado a cada cluster.

Existem muitos algoritmos de agrupamento. Por exemplo, o algoritmo k-means agrupa exemplos com base na proximidade de um centroide, como no diagrama a seguir:

Um gráfico bidimensional em que o eixo x é rotulado como largura da árvore e o eixo y é rotulado como altura da árvore. O gráfico contém dois
          centroides e várias dezenas de pontos de dados. Os pontos de dados são categorizados com base na proximidade. Ou seja, os pontos de dados
          mais próximos de um centroide são categorizados como cluster 1, enquanto aqueles
          mais próximos do outro centroide são categorizados como cluster 2.

Um pesquisador humano pode analisar os clusters e, por exemplo, rotular o cluster 1 como "árvores anãs" e o cluster 2 como "árvores de tamanho normal".

Como outro exemplo, considere um algoritmo de agrupamento baseado na distância de um exemplo de um ponto central, ilustrado da seguinte maneira:

Dezenas de pontos de dados são organizados em círculos concêntricos, quase
          como buracos ao redor do centro de um alvo. O círculo mais interno
          de pontos de dados é categorizado como cluster 1, o círculo do meio
          é categorizado como cluster 2 e o círculo mais externo como
          cluster 3.

Consulte o curso sobre agrupamento para mais informações.

adaptação colaborativa

Quando os neurônios preveem padrões nos dados de treinamento, contando quase exclusivamente com as saídas de outros neurônios específicos, em vez de depender do comportamento da rede como um todo. Quando os padrões que causam a coadaptação não estão presentes nos dados de validação, a coadaptação causa overfitting. A regularização de desistência reduz a coadaptação, porque ela garante que os neurônios não dependam apenas de outros neurônios específicos.

filtragem colaborativa

#recsystems

Fazer previsões sobre os interesses de um usuário com base nos interesses de muitos outros usuários. A filtragem colaborativa é usada com frequência em sistemas de recomendação.

Consulte Filtragem colaborativa no curso de sistemas de recomendação para mais informações.

Desvio de conceito

Uma mudança na relação entre os recursos e o rótulo. Com o tempo, o deslocamento de conceito reduz a qualidade de um modelo.

Durante o treinamento, o modelo aprende a relação entre os atributos e os rótulos no conjunto de treinamento. Se os rótulos no conjunto de treinamento forem bons substitutos do mundo real, o modelo deve fazer boas previsões do mundo real. No entanto, devido ao deslocamento de conceito, as previsões do modelo tendem a se degradar com o tempo.

Por exemplo, considere um modelo de classificação binária que prevê se um determinado modelo de carro é "eficiente em termos de combustível" ou não. Ou seja, os recursos podem ser:

  • peso do carro
  • compactação do mecanismo
  • tipo de transmissão

enquanto o rótulo é:

  • economia de combustível
  • não é econômico

No entanto, o conceito de "carro econômico" continua mudando. Um modelo de carro rotulado como eficiente em combustível em 1994 quase certamente seria rotulado como não eficiente em combustível em 2024. Um modelo que sofre de deriva de conceito tende a fazer previsões cada vez menos úteis ao longo do tempo.

Compare e contraste com a não estacionalidade.

transição

#df

Em uma árvore de decisão, qualquer que avalia uma expressão. Por exemplo, a parte a seguir de uma árvore de decisão contém duas condições:

Uma árvore de decisão que consiste em duas condições: (x > 0) e (y > 0).

Uma condição também é chamada de divisão ou teste.

Contraste a condição com folha.

Consulte também:

Consulte Tipos de condições no curso sobre florestas de decisão para mais informações.

confabulação

#language

Sinônimo de alucinação.

A confabulação é provavelmente um termo mais preciso do que a alucinação. No entanto, a alucinação se tornou popular primeiro.

configuração

O processo de atribuição dos valores iniciais da propriedade usados para treinar um modelo, incluindo:

Em projetos de aprendizado de máquina, a configuração pode ser feita por um arquivo de configuração especial ou usando bibliotecas de configuração, como:

viés de confirmação

#fairness

A tendência de buscar, interpretar, favorecer e lembrar informações de forma a confirmar crenças ou hipóteses preexistentes. Os desenvolvedores de machine learning podem coletar ou rotular dados inadvertentemente de maneiras que influenciam um resultado que apoia as crenças existentes. O viés de confirmação é uma forma de viés implícito.

O viés do experimentador é uma forma de viés de confirmação em que um experimentador continua treinando modelos até que uma hipótese preexistente seja confirmada.

matriz de confusão

#fundamentals

Uma tabela NxN que resume o número de previsões corretas e incorretas feitas por um modelo de classificação. Por exemplo, considere a matriz de confusão a seguir para um modelo de classificação binária:

Tumor (previsto) Não é um tumor (previsto)
Tumor (informações empíricas) 18 (TP) 1 (FN)
Não é tumor (informações empíricas) 6 (FP) 452 (TN)

A matriz de confusão anterior mostra o seguinte:

  • Das 19 previsões em que a informação real era "Tumor", o modelo classificou 18 corretamente e 1 incorretamente.
  • Das 458 previsões em que a verdade de campo era "Não-tumor", o modelo classificou 452 corretamente e 6 incorretamente.

A matriz de confusão para um problema de classificação multiclasse pode ajudar a identificar padrões de erros. Por exemplo, considere a matriz de confusão a seguir para um modelo de classificação de três classes que categoriza três tipos diferentes de íris (Virginica, Versicolor e Setosa). Quando a informação empírica era Virginica, a matriz de confusão mostrava que o modelo tinha muito mais probabilidade de prever Versicolor do que Setosa:

  Setosa (previsto) Versicolor (previsto) Virginica (previsto)
Setosa (informações empíricas) 88 12 0
Versicolor (informações empíricas) 6 141 7
Virginica (informações empíricas) 2 27 109

Como outro exemplo, uma matriz de confusão pode revelar que um modelo treinado para reconhecer dígitos escritos à mão tende a prever 9 em vez de 4 ou 1 em vez de 7.

As matrizes de confusão contêm informações suficientes para calcular várias métricas de performance, incluindo precisão e recall.

Análise de distrito eleitoral

#language

Divida uma frase em estruturas gramaticais menores ("constituintes"). Uma parte posterior do sistema de ML, como um modelo de compreensão de linguagem natural, pode analisar os elementos de maneira mais fácil do que a frase original. Por exemplo, considere a seguinte frase:

Meu amigo adotou dois gatos.

Um analisador de constituintes pode dividir esta frase nos seguintes elementos:

  • Meu amigo é uma frase nominal.
  • adotou dois gatos é uma frase verbal.

Esses elementos podem ser subdivididos em elementos menores. Por exemplo, a frase verbal

adotou dois gatos

pode ser subdividido em:

  • Adopted é um verbo.
  • dois gatos é outro sintagma nominal.

Incorporação de linguagem contextualizada

#language
#generativeAI

Um embedding que se aproxima de "entender" palavras e frases da mesma forma que falantes nativos. Os embeddings de linguagem contextualizados podem entender sintaxe, semântica e contexto complexos.

Por exemplo, considere as inclusões da palavra em inglês cow. Incorporações mais antigas, como o word2vec, podem representar palavras em inglês de modo que a distância no espaço de incorporação de cow (vaca) a bull (boi) seja semelhante à distância de ewe (ovelha) a ram (bode) ou de female (fêmea) a male (macho). As representações de linguagem contextualizadas podem ir além, reconhecendo que os falantes de inglês às vezes usam casualmente a palavra cow para se referir a vaca ou touro.

janela de contexto

#language
#generativeAI

O número de tokens que um modelo pode processar em um determinado comando. Quanto maior a janela de contexto, mais informações o modelo pode usar para fornecer respostas coerentes e consistentes ao comando.

atributo de valor contínuo

#fundamentals

Um recurso de ponto flutuante com um intervalo infinito de valores possíveis, como temperatura ou peso.

Compare com o recurso discreto.

amostragem por conveniência

Usar um conjunto de dados não coletado de maneira científica para realizar experimentos rápidos. Mais tarde, é essencial mudar para um conjunto de dados coletado de forma científica.

convergência

#fundamentals

Um estado alcançado quando os valores de loss mudam muito pouco ou nenhum com cada iteração. Por exemplo, a curva de perda a seguir sugere convergência em cerca de 700 iterações:

Gráfico cartesiano. O eixo X é a perda. O eixo Y é o número de iterações
          de treinamento. A perda é muito alta durante as primeiras iterações, mas
          cai drasticamente. Após cerca de 100 iterações, a perda ainda
          está diminuindo, mas de forma muito mais gradual. Após cerca de 700 iterações,
          a perda permanece estável.

Um modelo converge quando o treinamento adicional não melhora o modelo.

No aprendizado de profundidade, os valores de perda às vezes permanecem constantes ou quase constantes por muitas iterações antes de finalmente diminuírem. Durante um longo período de valores de perda constantes, você pode ter uma falsa sensação de convergência.

Consulte também parada antecipada.

Consulte Curvas de convergência e perda de modelos no Curso intensivo de machine learning para mais informações.

função convexa

Uma função em que a região acima do gráfico da função é um conjunto convexo. A função convexa prototípica tem a forma da letra U. Por exemplo, as seguintes são todas funções convexas:

Curvas em forma de U, cada uma com um único ponto mínimo.

Em contraste, a função a seguir não é convexa. Observe como a região acima do gráfico não é um conjunto convexo:

Uma curva em forma de W com dois pontos mínimos locais diferentes.

Uma função estritamente convexa tem exatamente um ponto mínimo local, que também é o ponto mínimo global. As funções clássicas em forma de U são estritamente convexas. No entanto, algumas funções convexas (por exemplo, linhas retas) não têm formato de U.

Consulte Funções de convergência e convexas no Curso intensivo de machine learning para mais informações.

otimização convexa

O processo de usar técnicas matemáticas, como gradiente descendente, para encontrar o mínimo de uma função convexa. Muitas pesquisas em aprendizado de máquina se concentram em formular vários problemas como problemas de otimização convexa e resolvê-los de maneira mais eficiente.

Para detalhes completos, consulte Boyd e Vandenberghe, Convex Optimization.

conjunto convexo

Um subconjunto do espaço euclidiano, de modo que uma linha traçada entre dois pontos no subconjunto permaneça completamente dentro dele. Por exemplo, as duas formas a seguir são conjuntos convexos:

Uma ilustração de um retângulo. Outra ilustração de um oval.

Em contraste, as duas formas a seguir não são conjuntos convexos:

Ilustração de um gráfico de pizza com uma fatia ausente.
          Outra ilustração de um polígono muito irregular.

convolução

#image

Em matemática, casualmente, uma mistura de duas funções. No aprendizado de máquina, uma convolução mistura o filtro convolucional e a matriz de entrada para treinar pesos.

O termo "convolução" no aprendizado de máquina geralmente é uma forma abreviada de se referir a operação de convolução ou camada de convolução.

Sem as convoluções, um algoritmo de aprendizado de máquina precisaria aprender um peso separado para cada célula em um grande tensor. Por exemplo, um treinamento de algoritmo de aprendizado de máquina em imagens 2K x 2K seria forçado a encontrar 4 milhões de pesos separados. Graças às convoluções, um algoritmo de aprendizado de máquina precisa encontrar pesos para cada célula no filtro convolucional, reduzindo drasticamente a memória necessária para treinar o modelo. Quando o filtro convolucional é aplicado, ele é simplesmente replicado em células, de modo que cada uma seja multiplicada pelo filtro.

Consulte Introdução às redes neurais convolucionais no curso de classificação de imagens para mais informações.

filtro convolucional

#image

Um dos dois atores em uma operação de convolução. O outro ator é uma fatia de uma matriz de entrada. Um filtro convolucional é uma matriz que tem o mesmo nível que a matriz de entrada, mas uma forma menor. Por exemplo, dada uma matriz de entrada de 28 x 28, o filtro pode ser qualquer matriz 2D menor que 28 x 28.

Na manipulação fotográfica, todas as células em um filtro convolucional são normalmente definidas como um padrão constante de uns e zeros. No aprendizado de máquina, os filtros convolucionais geralmente são inicializados com números aleatórios e, em seguida, a rede treina os valores ideais.

Consulte Convolução no curso de classificação de imagens para mais informações.

camada convolucional

#image

Uma camada de uma rede neural profunda em que um filtro convolucional transmite uma matriz de entrada. Por exemplo, considere o seguinte filtro convolucional de 3 x 3:

Uma matriz 3x3 com os seguintes valores: [[0,1,0], [1,0,1], [0,1,0]]

A animação a seguir mostra uma camada de convolução composta por nove operações de convolução que envolvem a matriz de entrada 5x5. Observe que cada operação de convolução funciona em uma fatia 3x3 diferente da matriz de entrada. A matriz 3x3 resultante (à direita) consiste nos resultados das nove operações de convolução:

Uma animação mostrando duas matrizes. A primeira matriz é a matriz de 5 x 5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          A segunda matriz é a matriz 3x3:
          [[181,303,618], [115,338,605], [169,351,560]].
          A segunda matriz é calculada aplicando o filtro convolucional
          [[0, 1, 0], [1, 0, 1], [0, 1, 0]] em
          diferentes subconjuntos 3x3 da matriz 5x5.

Consulte Camadas totalmente conectadas no curso de classificação de imagens para mais informações.

rede neural convolucional

#image

Uma rede neural em que pelo menos uma camada é convolucional. Uma rede neural convolucional típica consiste em alguma combinação das seguintes camadas:

As redes neurais convolucionais tiveram muito sucesso em determinados tipos de problemas, como reconhecimento de imagem.

operação convolucional

#image

A seguinte operação matemática em duas etapas:

  1. Multiplicação elemento a elemento do filtro convolucional e uma fatia de uma matriz de entrada. A fatia da matriz de entrada tem o mesmo nível e tamanho do filtro convolucional.
  2. Soma de todos os valores na matriz de produtos resultante.

Por exemplo, considere a matriz de entrada 5x5 a seguir:

Matriz de 5 x 5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Agora imagine o seguinte filtro convolucional 2x2:

A matriz 2x2: [[1, 0], [0, 1]]

Cada operação de convolução envolve uma única fatia 2x2 da matriz de entrada. Por exemplo, suponha que usemos a fatia 2x2 no canto superior esquerdo da matriz de entrada. A operação de convolução nesta fatia é a seguinte:

Aplicação do filtro convolucional [[1, 0], [0, 1]] à seção 2x2
          de canto superior esquerdo da matriz de entrada, que é [[128,97], [35,22]].
          O filtro convolucional deixa os valores 128 e 22 intactos, mas zeram
          os valores 97 e 35. Consequentemente, a operação de convolução produz
          o valor 150 (128+22).

Uma camada convolucional consiste em uma série de operações convolucionais, cada uma atuando em uma fatia diferente da matriz de entrada.

custo

Sinônimo de loss.

treinamento colaborativo

Uma abordagem de aprendizagem semisupervisionada é particularmente útil quando todas as condições a seguir são verdadeiras:

O treinamento conjunto basicamente amplifica sinais independentes em um sinal mais forte. Por exemplo, considere um modelo de classificação que categoriza carros usados individuais como Bom ou Ruim. Um conjunto de recursos preditivos pode se concentrar em características agregadas, como ano, marca e modelo do carro. Outro conjunto de recursos preditivos pode se concentrar no histórico de direção do proprietário anterior e no histórico de manutenção do carro.

O artigo seminal sobre co-treinamento é Combining Labeled and Unlabeled Data with Co-Training, de Blum e Mitchell.

imparcialidade contrafactual

#fairness

Uma métrica de justiça que verifica se um classificador produz o mesmo resultado para um indivíduo que para outro indivíduo idêntico ao primeiro, exceto em relação a um ou mais atributos sensíveis. Avaliar um classificador para imparcialidade contrafactual é um método para identificar possíveis fontes de viés em um modelo.

Consulte um dos seguintes links para mais informações:

viés de cobertura

#fairness

Consulte viés de seleção.

crash blossom

#language

Uma frase ou expressão com um significado ambíguo. As flores de acidente representam um problema significativo na compreensão de linguagem natural. Por exemplo, o título Burocratismo impede a construção de arranha-céus é um crash blossom porque um modelo de NLU pode interpretar o título literalmente ou figurativamente.

crítico

#rl

Sinônimo de rede Q profunda.

entropia cruzada

Uma generalização da perda de registro para problemas de classificação multiclasse. A entropia cruzada quantifica a diferença entre duas distribuições de probabilidade. Consulte também perplexidade.

validação cruzada

Um mecanismo para estimar o quanto um modelo seria generalizado para novos dados, testando o modelo em relação a um ou mais subconjuntos de dados não sobrepostos retidos do conjunto de treinamento.

função de distribuição cumulativa (FDA)

Uma função que define a frequência de amostras menores ou iguais a um valor de destino. Por exemplo, considere uma distribuição normal de valores contínuos. Uma CDF informa que aproximadamente 50% das amostras precisam ser menores ou iguais à média e que aproximadamente 84% das amostras precisam ser menores ou iguais a uma variação padrão acima da média.

D

análise de dados

Entender os dados considerando amostras, medições e visualização. A análise de dados pode ser particularmente útil quando um conjunto de dados é recebido pela primeira vez, antes de criar o primeiro modelo. Também é crucial para entender experimentos e depurar problemas com o sistema.

ampliação de dados

#image

Aumentar artificialmente o intervalo e o número de exemplos de treinamento transformando os exemplos atuais para criar outros. Por exemplo, suponha que as imagens sejam um dos seus recursos, mas que o conjunto de dados não tenha exemplos de imagens suficientes para que o modelo aprenda associações úteis. O ideal é adicionar imagens rotuladas suficientes ao conjunto de dados para permitir que o modelo seja treinado corretamente. Se isso não for possível, o aumento de dados poderá girar, esticar e refletir cada imagem para produzir muitas variantes da imagem original, possivelmente gerando dados rotulados suficientes para permitir um excelente treinamento.

DataFrame

#fundamentals

Um tipo de dados pandas conhecido para representar conjuntos de dados na memória.

Um DataFrame é análogo a uma tabela ou planilha. Cada coluna de um DataFrame tem um nome (um cabeçalho) e cada linha é identificada por um número exclusivo.

Cada coluna em um DataFrame é estruturada como uma matriz 2D, exceto que cada coluna pode receber o próprio tipo de dados.

Consulte também a página oficial de referência pandas.DataFrame.

paralelismo de dados

Uma maneira de dimensionar o treinamento ou a inferência, que replica um modelo inteiro para vários dispositivos e transmite um subconjunto dos dados de entrada para cada dispositivo. O paralelismo de dados pode permitir o treinamento e a inferência em tamanhos de lote muito grandes. No entanto, o paralelismo de dados exige que o modelo seja pequeno o suficiente para caber em todos os dispositivos.

O paralelismo de dados geralmente acelera o treinamento e a inferência.

Consulte também paralelismo de modelos.

API Dataset (tf.data)

#TensorFlow

Uma API TensorFlow de alto nível para ler dados e transformá-los em um formato exigido por um algoritmo de machine learning. Um objeto tf.data.Dataset representa uma sequência de elementos, em que cada elemento contém um ou mais Tensors. Um objeto tf.data.Iterator oferece acesso aos elementos de um Dataset.

conjunto de dados

#fundamentals

Uma coleção de dados brutos, geralmente (mas não exclusivamente) organizada em um destes formatos:

  • uma planilha
  • um arquivo no formato CSV (valores separados por vírgulas)

fronteira de decisão

O separador entre classes aprendidas por um modelo em uma classe binária ou problemas de classificação multiclasse. Por exemplo, na imagem a seguir que representa um problema de classificação binária, a fronteira de decisão é a fronteira entre a classe laranja e a classe azul:

Um limite bem definido entre uma classe e outra.

floresta de decisão

#df

Um modelo criado a partir de várias árvores de decisão. Uma floresta de decisão faz uma previsão agrupando as previsões das árvores de decisão. Os tipos mais conhecidos de florestas de decisão incluem florestas aleatórias e árvores impulsionadas por gradiente.

Consulte a seção Decision Forests no curso de Decision Forests para mais informações.

limite de decisão

Sinônimo de limiar de classificação.

árvore de decisão

#df

Um modelo de aprendizado supervisionado composto por um conjunto de condições e folhas organizadas hierarquicamente. Por exemplo, confira a árvore de decisões a seguir:

Uma árvore de decisão composta por quatro condições organizadas
          hierarquicamente, que levam a cinco folhas.

decodificador

#language

Em geral, qualquer sistema de ML que converta de uma representação processada, densa ou interna para uma representação mais bruta, esparsa ou externa.

Os decodificadores geralmente são um componente de um modelo maior, em que são frequentemente associados a um codificador.

Em tarefas de sequência para sequência, um decodificador começa com o estado interno gerado pelo codificador para prever a próxima sequência.

Consulte Transformer para ver a definição de um decodificador na arquitetura do Transformer.

Consulte Modelos de linguagem grandes no Curso intensivo de machine learning para mais informações.

modelo profundo

#fundamentals

Uma rede neural que contém mais de uma camada oculta.

Um modelo profundo também é chamado de rede neural profunda.

Contraste com o modelo amplo.

de rede neural profunda, amplamente utilizado

Sinônimo de modelo profundo.

Rede Q profunda (DQN)

#rl

No aprendizado por Q, uma rede neural profunda prevê funções Q.

Critic é um sinônimo de rede Q profunda.

paridade demográfica

#fairness

Uma métrica de imparcialidade que é atendida se os resultados da classificação de um modelo não dependerem de um atributo sensível.

Por exemplo, se os liliputianos e os brobdingnagianos se inscreverem na Universidade Glubbdubdrib, a paridade demográfica será alcançada se a porcentagem de Lilliputianos admitidos for a mesma que a porcentagem de Brobdingnagianos admitidos, independentemente de um grupo ser, em média, mais qualificado do que o outro.

Compare com as odds iguais e a igualdade de oportunidades, que permitem que os resultados de classificação em agregado dependam de atributos sensíveis, mas não permitem que os resultados de classificação para determinados dados reais especificados dependam de atributos sensíveis. Consulte "Como combater a discriminação com um aprendizado de máquina mais inteligente" para conferir uma visualização que mostra as compensações ao otimizar para paridade demográfica.

Consulte Imparcialidade: paridade demográfica no Curso intensivo de machine learning para mais informações.

redução de ruído

#language

Uma abordagem comum de aprendizado autosupervisionado em que:

  1. O ruído é adicionado artificialmente ao conjunto de dados.
  2. O modelo tenta remover o ruído.

A remoção de ruídos permite o aprendizado com exemplos não rotulados. O dataset original serve como destino ou rótulo, e os dados com ruído como entrada.

Alguns modelos de linguagem mascarados usam a redução de ruído da seguinte maneira:

  1. O ruído é adicionado artificialmente a uma frase não rotulada mascarando alguns dos tokens.
  2. O modelo tenta prever os tokens originais.

atributo denso

#fundamentals

Uma característica em que a maioria ou todos os valores são diferentes de zero, normalmente um tensor de valores de ponto flutuante. Por exemplo, o Tensor de 10 elementos a seguir é denso porque 9 dos valores não são iguais a zero:

8 3 7 5 2 4 0 4 9 6

Compare com o recurso esparso.

camada densa

Sinônimo de camada totalmente conectada.

profundidade

#fundamentals

A soma dos seguintes elementos em uma rede neural:

Por exemplo, uma rede neural com cinco camadas ocultas e uma camada de saída tem uma profundidade de 6.

A camada de entrada não influencia a profundidade.

rede neural convolucional separável em profundidade (sepCNN)

#image

Uma arquitetura de rede neural convolucional baseada em Inception, mas em que os módulos Inception são substituídos por convoluções separáveis em profundidade. Também conhecida como Xception.

Uma convolução separável por profundidade (também abreviada como convolução separável) divide uma convolução 3D padrão em duas operações de convolução separadas que são mais eficientes computacionalmente: primeiro, uma convolução por profundidade, com uma profundidade de 1 (n ✕ n ✕ 1), e depois uma convolução pontual, com comprimento e largura de 1 (1 ✕ 1 ✕ n).

Para saber mais, consulte Xception: Deep Learning with Depthwise Separable Convolutions.

rótulo derivado

Sinônimo de rótulo de proxy.

dispositivo

#TensorFlow
#GoogleCloud

Um termo sobrecarregado com as duas definições possíveis a seguir:

  1. Uma categoria de hardware que pode executar uma sessão do TensorFlow, incluindo CPUs, GPUs e TPUs.
  2. Ao treinar um modelo de ML em chips de aceleração (GPUs ou TPUs), a parte do sistema que manipula tensores e embeddings. O dispositivo funciona com chips de aceleração. Por outro lado, o host normalmente é executado em uma CPU.

privacidade diferencial

No aprendizado de máquina, uma abordagem de anonimização para proteger dados sensíveis (por exemplo, informações pessoais de um indivíduo) incluídos no conjunto de treinamento de um modelo de exposição. Essa abordagem garante que o modelo não aprenda ou se lembre muito de um indivíduo específico. Isso é feito com a amostragem e a adição de ruído durante o treinamento do modelo para ocultar pontos de dados individuais, reduzindo o risco de expor dados de treinamento confidenciais.

A privacidade diferencial também é usada fora do aprendizado de máquina. Por exemplo, os cientistas de dados às vezes usam a privacidade diferencial para proteger a privacidade individual ao calcular estatísticas de uso do produto para diferentes dados demográficos.

redução de dimensão

Diminuir o número de dimensões usadas para representar um recurso específico em um vetor de recursos, normalmente convertendo-o em um vetor de embedding.

dimensões

Termo sobrecarregado com qualquer uma das seguintes definições:

  • O número de níveis de coordenadas em um Tensor. Por exemplo:

    • Um escalar tem dimensões zero, por exemplo, ["Hello"].
    • Um vetor tem uma dimensão, por exemplo, [3, 5, 7, 11].
    • Uma matriz tem duas dimensões, por exemplo, [[2, 4, 18], [5, 7, 14]]. É possível especificar uma célula específica em um vetor unidimensional com uma coordenada. Você precisa de duas coordenadas para especificar uma célula específica em uma matriz bidimensional.
  • O número de entradas em um vetor de recursos.

  • O número de elementos em uma camada de embedding.

comando direto

#language
#generativeAI

Sinônimo de comando zero-shot.

atributo discreto

#fundamentals

Uma característica com um conjunto finito de valores possíveis. Por exemplo, um atributo cujos valores só podem ser animal, vegetal ou mineral é um atributo discreto (ou categórico).

Compare com o atributo contínuo.

modelo discriminativo

Um modelo que prevê rótulos de um conjunto de um ou mais atributos. Mais formalmente, os modelos discriminativos definem a probabilidade condicional de uma saída, considerando os recursos e pesos, ou seja:

p(output | features, weights)

Por exemplo, um modelo que prevê se um e-mail é spam com base em recursos e pesos é um modelo discriminativo.

A grande maioria dos modelos de aprendizado supervisionado, incluindo modelos de classificação e regressão, são modelos discriminativos.

Contraste com o modelo generativo.

discriminador

Um sistema que determina se os exemplos são reais ou falsos.

Como alternativa, o subsistema em uma rede generativa adversária que determina se os exemplos criados pelo gerador são reais ou falsos.

Consulte O discriminador no curso de GAN para mais informações.

impacto desigual

#fairness

Tomar decisões sobre pessoas que afetam subgrupos de população diferentes de forma desproporcional. Isso geralmente se refere a situações em que um processo de tomada de decisão algorítmica prejudica ou beneficia alguns subgrupos mais do que outros.

Por exemplo, suponha que um algoritmo que determina a qualificação de um liliputiano para um empréstimo para casa em miniatura tenha mais probabilidade de classificá-lo como "não qualificado" se o endereço de correspondência dele contiver um determinado CEP. Se os Lilliputianos Big-Endian tiverem mais probabilidade de ter endereços de correspondência com esse código postal do que os Lilliputianos Little-Endian, esse algoritmo poderá resultar em um impacto diferente.

Compare com o tratamento desigual, que se concentra nas disparidades que ocorrem quando as características do subgrupo são entradas explícitas em um processo de tomada de decisão algorítmica.

tratamento desigual

#fairness

Agrupar os atributos sensíveis dos sujeitos em um processo de tomada de decisão algorítmica, de modo que diferentes subgrupos de pessoas sejam tratados de maneira diferente.

Por exemplo, considere um algoritmo que determina a qualificação dos liliputianos para um empréstimo de casa em miniatura com base nos dados fornecidos na solicitação de empréstimo. Se o algoritmo usa uma afinidade de liliputiano como Big-Endian ou Little-Endian como entrada, ele está executando um tratamento diferente nessa dimensão.

Contraste com impacto desigual, que se concentra nas disparidades nos impactos sociais das decisões algorítmicas em subgrupos, independentemente de esses subgrupos serem entradas para o modelo.

destilação

#generativeAI

O processo de redução do tamanho de um modelo (conhecido como professor) em um modelo menor (conhecido como aluno) que emula as previsões do modelo original da maneira mais fiel possível. A destilação é útil porque o modelo menor tem dois benefícios importantes em relação ao modelo maior (o professor):

  • Tempo de inferência mais rápido
  • Uso reduzido de memória e energia

No entanto, as previsões do aluno geralmente não são tão boas quanto as do professor.

A destilação treina o modelo estudante para minimizar uma função de perda com base na diferença entre as saídas das previsões dos modelos de estudante e professor.

Compare e contraste a destilação com os seguintes termos:

Consulte LLMs: Fine-tuning, distillation, and prompt engineering no Curso intensivo de machine learning para mais informações.

Distribuição

A frequência e o intervalo de valores diferentes para um determinado atributo ou rótulo. Uma distribuição captura a probabilidade de um valor específico.

A imagem a seguir mostra histogramas de duas distribuições diferentes:

  • À esquerda, uma distribuição de lei de potência da riqueza em relação ao número de pessoas que a possuem.
  • À direita, uma distribuição normal de altura em relação ao número de pessoas com essa altura.

Dois histogramas. Um histograma mostra uma distribuição de lei de potência com
          riqueza no eixo x e o número de pessoas com essa riqueza no
          eixo y. A maioria das pessoas tem muito pouca riqueza, e poucas pessoas têm
          muita riqueza. O outro histograma mostra uma distribuição normal
          com a altura no eixo x e o número de pessoas com essa altura
          no eixo y. A maioria das pessoas está agrupada perto da média.

Entender a distribuição de cada recurso e rótulo pode ajudar você a determinar como normalizar valores e detectar valores discrepantes.

A frase fora da distribuição se refere a um valor que não aparece no conjunto de dados ou é muito raro. Por exemplo, uma imagem do planeta Saturno seria considerada fora da distribuição de um conjunto de dados composto por imagens de gatos.

clustering divisive

#clustering

Consulte clustering hierárquico.

redução de amostragem

#image

Termo sobrecarregado que pode significar uma das seguintes opções:

  • Reduzir a quantidade de informações em um recurso para treinar um modelo com mais eficiência. Por exemplo, antes de treinar um modelo de reconhecimento de imagem, reduza a amostragem de imagens de alta resolução para um formato de resolução mais baixa.
  • Treinar com uma porcentagem desproporcionalmente baixa de exemplos de classe superrepresentadas para melhorar o treinamento do modelo em classes sub-representadas. Por exemplo, em um conjunto de dados com classes desequilibradas, os modelos tendem a aprender muito sobre a classe majoritária e não o suficiente sobre a classe minoritária. A subamostragem ajuda a equilibrar a quantidade de treinamento nas classes majoritárias e minoritárias.

Consulte Conjuntos de dados: conjuntos de dados desbalanceados no Curso intensivo de machine learning para mais informações.

DQN

#rl

Abreviação de rede Q profunda.

regularização por dropout

Uma forma de regularização útil no treinamento de redes neurais. A regularização de dropout remove uma seleção aleatória de um número fixo de unidades em uma camada de rede para uma única etapa de gradiente. Quanto mais unidades forem eliminadas, mais forte será a regularização. Isso é análogo ao treinamento da rede para emular um conjunto exponencialmente grande de redes menores. Para mais detalhes, consulte Dropout: uma maneira simples de evitar que as redes neurais se ajustem demais.

dinâmico

#fundamentals

Algo feito com frequência ou continuamente. Os termos dinâmico e on-line são sinônimos no aprendizado de máquina. Confira a seguir usos comuns de dinâmico e on-line no aprendizado de máquina:

  • Um modelo dinâmico (ou modelo on-line) é um modelo que é treinado com frequência ou continuamente.
  • O treinamento dinâmico (ou treinamento on-line) é o processo de treinamento com frequência ou continuamente.
  • A inferência dinâmica (ou on-line) é o processo de gerar previsões sob demanda.

modelo dinâmico

#fundamentals

Um modelo que é frequentemente (talvez até continuamente) re treinado. Um modelo dinâmico é um "aprendiz para toda a vida" que se adapta constantemente aos dados em evolução. Um modelo dinâmico também é conhecido como um modelo on-line.

Compare com o modelo estático.

E

execução rápida

#TensorFlow

Um ambiente de programação do TensorFlow em que as operações são executadas imediatamente. Por outro lado, as operações chamadas na execução de gráfico não são executadas até serem explicitamente avaliadas. A execução ansiosa é uma interface imperativa, muito semelhante ao código na maioria das linguagens de programação. Os programas de execução rápida geralmente são muito mais fáceis de depurar do que os programas de execução de gráficos.

parada antecipada

#fundamentals

Um método de regularização que envolve o encerramento do treinamento antes de a perda de treinamento terminar de diminuir. Na parada antecipada, você interrompe intencionalmente o treinamento do modelo quando a perda em um conjunto de dados de validação começa a aumentar, ou seja, quando a generalização piora.

Distância de movimentação da Terra (EMD)

Uma medida da semelhança relativa de duas distribuições. Quanto menor a distância do movimento de terra, mais semelhantes são as distribuições.

editar distância

#language

Uma medida de quão semelhantes duas strings de texto são uma à outra. No aprendizado de máquina, a distância de edição é útil pelos seguintes motivos:

  • A distância de edição é fácil de calcular.
  • A distância de edição pode comparar duas strings conhecidas por serem semelhantes.
  • A distância de edição pode determinar o grau em que strings diferentes são semelhantes a uma determinada string.

Há várias definições de distância de edição, cada uma usando operações de string diferentes. Consulte Distância de Levenshtein para conferir um exemplo.

Notação de Einsum

Uma notação eficiente para descrever como dois tensores são combinados. Os tensores são combinados multiplicando os elementos de um tensor pelos elementos do outro tensor e somando os produtos. A notação Einsum usa símbolos para identificar os eixos de cada tensor, e esses mesmos símbolos são reorganizados para especificar a forma do novo tensor resultante.

O NumPy fornece uma implementação comum de Einsum.

camada de embedding

#language
#fundamentals

Uma camada oculta especial que é treinada em um recurso categórico de alta dimensão para aprender gradualmente um vetor de incorporação de dimensão inferior. Uma camada de incorporação permite que uma rede neural seja treinada de maneira muito mais eficiente do que apenas com o recurso categórico de alta dimensão.

Por exemplo, o Earth atualmente oferece suporte a cerca de 73 mil espécies de árvores. Suponha que a espécie de árvore seja um atributo no modelo. Assim, a camada de entrada do modelo inclui um vetor único de 73.000 elementos. Por exemplo, baobab seria representado da seguinte maneira:

Uma matriz de 73.000 elementos. Os primeiros 6.232 elementos contêm o valor
     0. O próximo elemento contém o valor 1. Os 66.767 elementos finais contêm
     o valor zero.

Uma matriz de 73.000 elementos é muito longa. Se você não adicionar uma camada de incorporação ao modelo, o treinamento vai consumir muito tempo devido à multiplicação de 72.999 zeros. Talvez você escolha a camada de embedding para consistir em 12 dimensões. Consequentemente, a camada de incorporação vai aprender gradualmente um novo vetor de incorporação para cada espécie de árvore.

Em determinadas situações, a criação de hash é uma alternativa razoável para uma camada de incorporação.

Consulte Incorporações no Curso intensivo de machine learning para mais informações.

espaço de embedding

#language

O espaço vetorial d-dimensional que apresenta recursos de um espaço vetorial de dimensão superior. O espaço de incorporação é treinado para capturar a estrutura que é significativa para o aplicativo pretendido.

O produto escalar de duas embeddings é uma medida de similaridade.

embedding de vetor

#language

De modo geral, uma matriz de números de ponto flutuante extraída de qualquer camada oculta que descreve as entradas para essa camada oculta. Muitas vezes, um vetor de embedding é a matriz de números de ponto flutuante treinada em uma camada de embedding. Por exemplo, suponha que uma camada de embedding precise aprender um vetor de embedding para cada uma das 73.000 espécies de árvores da Terra. Talvez a matriz a seguir seja o vetor de embedding de uma árvore de baobá:

Uma matriz de 12 elementos, cada um contendo um número de ponto flutuante
          entre 0,0 e 1,0.

Um vetor de inserção não é um monte de números aleatórios. Uma camada de embedding determina esses valores durante o treinamento, de forma semelhante à maneira como uma rede neural aprende outros pesos durante o treinamento. Cada elemento da matriz é uma classificação com algumas características de uma espécie de árvore. Qual elemento representa a característica de qual espécie de árvore? Isso é muito difícil para os humanos determinarem.

A parte matematicamente notável de um vetor de embedding é que itens semelhantes têm conjuntos semelhantes de números de ponto flutuante. Por exemplo, espécies de árvores semelhantes têm um conjunto de números de ponto flutuante mais semelhante do que espécies de árvores diferentes. As sequoias e as sequoias-vermelhas são espécies de árvores relacionadas, portanto, elas terão um conjunto mais semelhante de números de ponto flutuante do que as sequoias-vermelhas e as palmeiras de coco. Os números no vetor de incorporação vão mudar sempre que você treinar o modelo novamente, mesmo que com uma entrada idêntica.

função de distribuição cumulativa empírica (eCDF ou EDF, na sigla em inglês)

Uma função de distribuição cumulativa com base em medições empíricas de um conjunto de dados real. O valor da função em qualquer ponto ao longo do eixo x é a fração de observações no conjunto de dados que são menores ou iguais ao valor especificado.

minimização de risco empírico (ERM, na sigla em inglês)

Escolher a função que minimiza a perda no conjunto de treinamento. Compare com a minimização de risco estrutural.

codificador

#language

Em geral, qualquer sistema de ML que converta de uma representação bruta, esparsa ou externa em uma representação mais processada, densa ou interna.

Os codificadores geralmente são um componente de um modelo maior, em que são frequentemente associados a um decodificador. Alguns Transformers emparelham codificadores com decodificadores, mas outros Transformers usam apenas o codificador ou apenas o decodificador.

Alguns sistemas usam a saída do codificador como entrada para uma rede de classificação ou regressão.

Em tarefas de sequência para sequência, um codificador recebe uma sequência de entrada e retorna um estado interno (um vetor). Em seguida, o decodificador usa esse estado interno para prever a próxima sequência.

Consulte Transformer para ver a definição de um codificador na arquitetura do Transformer.

Consulte LLMs: What's a large language model no Curso intensivo de machine learning para mais informações.

conjunto

Uma coleção de modelos treinados de forma independente, com previsões que são agregadas ou têm uma média. Em muitos casos, um conjunto produz previsões melhores do que um único modelo. Por exemplo, uma floresta aleatória é um conjunto criado a partir de várias árvores de decisão. Nem todas as florestas de decisão são conjuntos.

Consulte Random Forest no Curso intensivo de machine learning para mais informações.

entropia

#df

Na teoria da informação, uma descrição de como uma distribuição de probabilidade é imprevisível. Como alternativa, a entropia também é definida como a quantidade de informações que cada exemplo contém. Uma distribuição tem a entropia mais alta possível quando todos os valores de uma variável aleatória têm a mesma probabilidade.

A entropia de um conjunto com dois valores possíveis "0" e "1" (por exemplo, os rótulos em um problema de classificação binária) tem a seguinte fórmula:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

em que:

  • H é a entropia.
  • p é a fração dos exemplos "1".
  • q é a fração dos exemplos "0". Observe que q = (1 - p)
  • log geralmente é log2. Nesse caso, a unidade de entropia é um bit.

Por exemplo, suponha que:

  • 100 exemplos contêm o valor "1"
  • 300 exemplos contêm o valor "0"

Portanto, o valor de entropia é:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bits por exemplo

Um conjunto perfeitamente equilibrado (por exemplo, 200 "0"s e 200 "1"s) teria uma entropia de 1,0 bit por exemplo. À medida que um conjunto fica mais desbalanceado, a entropia dele se move em direção a 0,0.

Nas árvores de decisão, a entropia ajuda a formular ganho de informação para ajudar o divisor a selecionar as condições durante o crescimento de uma árvore de decisão de classificação.

Compare a entropia com:

A entropia é frequentemente chamada de entropia de Shannon.

Consulte Divisor exato para classificação binária com recursos numéricos no curso de florestas de decisão para mais informações.

ambiente

#rl

No aprendizado por reforço, o mundo que contém o agente e permite que ele observe o estado desse mundo. Por exemplo, o mundo representado pode ser um jogo como o xadrez ou um mundo físico como um labirinto. Quando o agente aplica uma ação ao ambiente, ele transita entre os estados.

episódio

#rl

No aprendizado por reforço, cada uma das tentativas repetidas do agente para aprender um ambiente.

época

#fundamentals

Um treinamento completo em todo o conjunto de treinamento, de modo que cada exemplo seja processado uma vez.

Uma época representa N/tamanho do lote iterações de treinamento, em que N é o número total de exemplos.

Por exemplo, suponha o seguinte:

  • O conjunto de dados é composto por 1.000 exemplos.
  • O tamanho do lote é de 50 exemplos.

Portanto, uma única época requer 20 iterações:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Consulte Regressão linear: hiperparâmetros no Curso intensivo de machine learning para mais informações.

política de epsilon greedy

#rl

No aprendizado por reforço, uma política que segue uma política aleatória com probabilidade ϵ ou uma política gananciosa. Por exemplo, se epsilon for 0,9, a política vai seguir uma política aleatória 90% do tempo e uma política gananciosa 10% do tempo.

Em episódios sucessivos, o algoritmo reduz o valor de epsilon para mudar de uma política aleatória para uma política avarenta. Ao mudar a política, o agente primeiro explora o ambiente aleatoriamente e depois explora avidamente os resultados da exploração aleatória.

igualdade de oportunidades

#fairness

Uma métrica de imparcialidade para avaliar se um modelo está prevendo o resultado desejado igualmente bem para todos os valores de um atributo sensível. Em outras palavras, se o resultado desejado para um modelo for a classe positiva, o objetivo será ter a taxa de verdadeiro positivo igual para todos os grupos.

A igualdade de oportunidades está relacionada às chances iguais, que exige que ambas as taxas de verdadeiro positivo e falso positivo sejam iguais para todos os grupos.

Suponha que a Universidade Glubbdubdrib admita liliputianos e brobdingnagianos em um programa rigoroso de matemática. As escolas secundárias dos liliputianos oferecem um currículo robusto de aulas de matemática, e a grande maioria dos estudantes está qualificada para o programa universitário. As escolas secundárias de Brobdingnag não oferecem aulas de matemática e, como resultado, muito menos estudantes se qualificam. A igualdade de oportunidades é atendida para o rótulo preferido de "admitido" em relação à nacionalidade (Lilliputian ou Brobdingnagian) se os estudantes qualificados tiverem a mesma probabilidade de serem admitidos, independentemente de serem Lilliputian ou Brobdingnagian.

Por exemplo, suponha que 100 liliputianos e 100 brobdingnagianos se inscrevam na Universidade Glubbdubdrib, e as decisões de admissão sejam feitas da seguinte maneira:

Tabela 1. Candidatos Lilliputianos (90% estão qualificados)

  Qualificado Não qualificado
Admitido 45 3
Recusado 45 7
Total 90 10
Porcentagem de estudantes qualificados admitidos: 45/90 = 50%
Porcentagem de estudantes não qualificados rejeitados: 7/10 = 70%
Porcentagem total de estudantes liliputianos admitidos: (45+3)/100 = 48%

 

Tabela 2. Candidatos Brobdingnagian (10% qualificados):

  Qualificado Não qualificado
Admitido 5 9
Recusado 5 81
Total 10 90
Porcentagem de estudantes qualificados admitidos: 5/10 = 50%
Porcentagem de estudantes não qualificados rejeitados: 81/90 = 90%
Porcentagem total de estudantes de Brobdingnag admitidos: (5+9)/100 = 14%

Os exemplos anteriores atendem à igualdade de oportunidades para a admissão de alunos qualificados, porque os liliputianos e os brobdingnagianos qualificados têm 50% de chance de serem admitidos.

Embora a igualdade de oportunidades seja atendida, as duas métricas de imparcialidade a seguir não são atendidas:

  • Paridade demográfica: os estudantes de Lilliput e Brobdingnag são admitidos na universidade em taxas diferentes. 48% dos estudantes de Lilliput são admitidos, mas apenas 14% dos estudantes de Brobdingnag são admitidos.
  • Chances iguais: embora os estudantes qualificados de Lilliput e Brobdingnag tenham a mesma chance de serem admitidos, a restrição adicional de que os estudantes não qualificados de Lilliput e Brobdingnag têm a mesma chance de serem rejeitados não é satisfeita. Os liliputianos não qualificados têm uma taxa de rejeição de 70%, enquanto os brobdingnagianos não qualificados têm uma taxa de rejeição de 90%.

Consulte Imparcialidade: igualdade de oportunidades no Curso intensivo de machine learning para mais informações.

probabilidades iguais

#fairness

Uma métrica de justiça para avaliar se um modelo está prevendo resultados igualmente para todos os valores de um atributo sensível em relação à classe positiva e classe negativa, não apenas uma ou outra exclusivamente. Em outras palavras, a taxa de verdadeiro positivo e a taxa de falso negativo precisam ser as mesmas para todos os grupos.

As probabilidades iguais estão relacionadas à igualdade de oportunidades, que se concentra apenas nas taxas de erro de uma única classe (positiva ou negativa).

Por exemplo, suponha que a Universidade Glubbdubdrib admita liliputianos e brobdingnagianos em um programa de matemática rigoroso. As escolas secundárias dos liliputianos oferecem um currículo robusto de aulas de matemática, e a grande maioria dos alunos está qualificada para o programa universitário. As escolas secundárias de Brobdingnag não oferecem aulas de matemática. Como resultado, muito menos alunos estão qualificados. As chances iguais são satisfeitas, desde que não importe se um candidato é um liliputiano ou um brobdingnaguense, se ele é qualificado, ele tem a mesma probabilidade de ser admitido no programa, e se ele não é qualificado, ele tem a mesma probabilidade de ser rejeitado.

Suponha que 100 liliputianos e 100 brobdingnagianos se inscrevam na Universidade Glubbdubdrib e que as decisões de admissão sejam feitas da seguinte maneira:

Tabela 3. Candidatos Lilliputianos (90% estão qualificados)

  Qualificado Não qualificado
Admitido 45 2
Recusado 45 8
Total 90 10
Porcentagem de estudantes qualificados admitidos: 45/90 = 50%
Porcentagem de estudantes não qualificados reprovados: 8/10 = 80%
Porcentagem total de estudantes Lilliputianos admitidos: (45+2)/100 = 47%

 

Tabela 4. Candidatos Brobdingnagian (10% qualificados):

  Qualificado Não qualificado
Admitido 5 18
Recusado 5 72
Total 10 90
Porcentagem de estudantes qualificados admitidos: 5/10 = 50%
Porcentagem de estudantes não qualificados rejeitados: 72/90 = 80%
Porcentagem total de estudantes de Brobdingnag admitidos: (5+18)/100 = 23%

As chances iguais são satisfeitas porque os estudantes qualificados de Lilliput e Brobdingnag têm 50% de chance de serem admitidos, e os estudantes não qualificados de Lilliput e Brobdingnag têm 80% de chance de serem rejeitados.

As chances iguais são definidas formalmente em "Igualdade de oportunidades no aprendizado supervisionado" da seguinte maneira: "O preditor Ŷ satisfaz as chances iguais em relação ao atributo protegido A e ao resultado Y se Ŷ e A forem independentes, condicionados a Y".

Estimator

#TensorFlow

Uma API do TensorFlow descontinuada. Use tf.keras em vez de estimadores.

evals

#language
#generativeAI

É usado principalmente como uma abreviação para avaliações de LLM. De forma mais ampla, avaliações é uma abreviação para qualquer forma de avaliação.

Avaliação

#language
#generativeAI

O processo de medir a qualidade de um modelo ou comparar modelos diferentes.

Para avaliar um modelo de aprendizado de máquina supervisionado, normalmente você o compara a um conjunto de validação e um conjunto de teste. A avaliação de um LLM normalmente envolve avaliações mais amplas de qualidade e segurança.

exemplo

#fundamentals

Os valores de uma linha de recursos e, possivelmente, um rótulo. Os exemplos de aprendizado supervisionado se dividem em duas categorias gerais:

  • Um exemplo rotulado consiste em um ou mais recursos e um rótulo. Os exemplos rotulados são usados durante o treinamento.
  • Um exemplo sem rótulo consiste em um ou mais recursos, mas sem rótulo. Os exemplos não rotulados são usados durante a inferência.

Por exemplo, suponha que você esteja treinando um modelo para determinar a influência das condições climáticas nas notas dos alunos. Confira três exemplos com rótulos:

Recursos Rótulo
Temperatura Umidade Pressão Pontuação do teste
15 47 998 Boa
19 34 1020 Excelente
18 92 1012 Ruim

Confira três exemplos sem rótulos:

Temperatura Umidade Pressão  
12 62 1014  
21 47 1017  
19 41 1021  

A linha de um conjunto de dados geralmente é a origem bruta de um exemplo. Ou seja, um exemplo geralmente consiste em um subconjunto das colunas no conjunto de dados. Além disso, os exemplos também podem incluir recursos sintéticos, como cruzamentos de atributos.

Consulte Aprendizagem supervisionada no curso Introdução ao Machine Learning para mais informações.

Repetição da experiência

#rl

No aprendizado por reforço, uma técnica de DQN usada para reduzir correlações temporais nos dados de treinamento. O agente armazena transições de estado em um buffer de repetição e, em seguida, amostra transições do buffer de repetição para criar dados de treinamento.

viés do experimentador

#fairness

Consulte viés de confirmação.

Problema de gradiente em explosão

#seq

A tendência de gradientes em redes neurais profundas (especialmente redes neurais recorrentes) se tornar surpreendentemente íngremes (altos). Gradientes íngremes geralmente causam atualizações muito grandes nos pesos de cada em uma rede neural profunda.

Os modelos que sofrem com o problema de gradiente explosivo ficam difíceis ou impossíveis de treinar. O clipping de gradiente pode reduzir esse problema.

Compare com o problema de gradiente de desaparecimento.

F

F1

Uma métrica de classificação binária "resumida" que depende de precisão e recall. Esta é a fórmula:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

veracidade

#generativeAI

No mundo do ML, uma propriedade que descreve um modelo com saída baseada na realidade. A factualidade é um conceito, não uma métrica. Por exemplo, suponha que você envie o seguinte comando para um modelo de linguagem grande:

Qual é a fórmula química do sal de cozinha?

Um modelo que otimiza a factualidade responderia:

NaCl

É tentador presumir que todos os modelos precisam ser baseados em fatos. No entanto, alguns comandos, como o seguinte, fazem com que um modelo de IA generativa otimize a criatividade em vez da realidade.

Conte uma paródia sobre um astronauta e uma lagarta.

É improvável que a rima resultante seja baseada na realidade.

Contraste com a base.

restrição de imparcialidade

#fairness
Aplicar uma restrição a um algoritmo para garantir que uma ou mais definições de imparcialidade sejam atendidas. Exemplos de restrições de imparcialidade incluem:

métrica de imparcialidade

#fairness

Uma definição matemática de "justiça" que pode ser medida. Confira algumas métricas de imparcialidade usadas com frequência:

Muitas métricas de imparcialidade são mutuamente exclusivas. Consulte Incompatibilidade das métricas de imparcialidade.

falso negativo (FN)

#fundamentals

Um exemplo em que o modelo prevê erroneamente a classe negativa. Por exemplo, o modelo prevê que uma mensagem de e-mail específica não é spam (a classe negativa), mas essa mensagem de e-mail na verdade é spam.

taxa de falsos negativos

A proporção de exemplos positivos reais para os quais o modelo previu incorretamente a classe negativa. A fórmula a seguir calcula a taxa negativa falsa:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Consulte Limites e a matriz de confusão no Curso intensivo de machine learning para mais informações.

falso positivo (FP)

#fundamentals

Um exemplo em que o modelo prevê incorretamente a classe positiva. Por exemplo, o modelo prevê que uma mensagem de e-mail específica é spam (a classe positiva), mas essa mensagem de e-mail na verdade não é spam.

Consulte Limites e a matriz de confusão no Curso intensivo de machine learning para mais informações.

taxa de falso positivo (FPR)

#fundamentals

A proporção de exemplos negativos reais para os quais o modelo previu incorretamente a classe positiva. A fórmula a seguir calcula a taxa positiva falsa:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

A taxa de falsos positivos é o eixo x em uma curva ROC.

Consulte Classificação: ROC e AUC no Curso intensivo de machine learning para mais informações.

recurso

#fundamentals

Uma variável de entrada para um modelo de machine learning. Um exemplo consiste em um ou mais recursos. Por exemplo, suponha que você esteja treinando um modelo para determinar a influência das condições climáticas nas notas dos testes dos estudantes. A tabela a seguir mostra três exemplos, cada um com três recursos e um rótulo:

Recursos Rótulo
Temperatura Umidade Pressão Pontuação do teste
15 47 998 92
19 34 1020 84
18 92 1012 87

Contraste com o rótulo.

Consulte Aprendizagem supervisionada no curso Introdução ao aprendizado de máquina para mais informações.

cruzamento de atributos

#fundamentals

Um atributo sintético formado pelo "cruzamento" de atributos categóricos ou agrupados por classes.

Por exemplo, considere um modelo de "previsão de humor" que represente a temperatura em um dos quatro buckets a seguir:

  • freezing
  • chilly
  • temperate
  • warm

E representa a velocidade do vento em um dos três buckets a seguir:

  • still
  • light
  • windy

Sem cruzamentos de atributos, o modelo linear é treinado de forma independente em cada um dos sete buckets anteriores. Assim, o modelo é treinado em, por exemplo, freezing, independentemente do treinamento em, por exemplo, windy.

Como alternativa, você pode criar um cruzamento de atributos de temperatura e velocidade do vento. Esse recurso sintético teria os seguintes 12 valores possíveis:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Graças ao cruzamento de atributos, o modelo pode aprender as diferenças de humor entre um dia freezing-windy e um dia freezing-still.

Se você criar um atributo sintético a partir de dois atributos que têm muitos buckets diferentes, o cruzamento de atributos resultante terá um número enorme de combinações possíveis. Por exemplo, se um recurso tiver 1.000 buckets e o outro tiver 2.000, a interseção resultante terá 2.000.000 buckets.

Formalmente, uma interseção é um produto cartesiano.

As combinações de recursos são usadas principalmente com modelos lineares e raramente com redes neurais.

Consulte Dados categóricos: cruzamentos de características no Curso intensivo de machine learning para mais informações.

engenharia de atributos

#fundamentals
#TensorFlow

Um processo que envolve as seguintes etapas:

  1. Determinar quais recursos podem ser úteis no treinamento de um modelo.
  2. Converter dados brutos do conjunto de dados em versões eficientes desses atributos.

Por exemplo, você pode determinar que temperature pode ser um recurso útil. Em seguida, teste o agrupamento para otimizar o que o modelo pode aprender com diferentes intervalos de temperature.

Às vezes, a engenharia de atributos é chamada de extração de atributos ou featurização.

Consulte Dados numéricos: como um modelo ingere dados usando vetores de características no Curso intensivo de aprendizado de máquina para mais informações.

extração de atributos

Termo sobrecarregado com uma das seguintes definições:

importância dos recursos

#df

Sinônimo de importâncias de variáveis.

conjunto de recursos

#fundamentals

O grupo de atributos em que o modelo de aprendizado de máquina é treinado. Por exemplo, o CEP, o tamanho e a condição do imóvel podem fazer parte de um conjunto de recursos simples para um modelo que prevê os preços de imóveis.

especificação de atributos

#TensorFlow

Descreve as informações necessárias para extrair dados de features do buffer de protocolo tf.Example. Como o buffer de protocolo tf.Example é apenas um contêiner de dados, é necessário especificar o seguinte:

  • Os dados a serem extraídos (ou seja, as chaves dos recursos)
  • O tipo de dados (por exemplo, float ou int)
  • A duração (fixa ou variável)

vetor de recursos

#fundamentals

A matriz de valores de feature que compreende um exemplo. O vetor de recursos é inserido durante o treinamento e a inferência. Por exemplo, o vetor de recursos de um modelo com dois recursos discretos pode ser:

[0.92, 0.56]

Quatro camadas: uma de entrada, duas ocultas e uma de saída.
          A camada de entrada contém dois nós, um com o valor 0,92 e o outro com o valor 0,56.

Cada exemplo fornece valores diferentes para o vetor de atributos. Assim, o vetor de atributos do próximo exemplo pode ser algo como:

[0.73, 0.49]

A engenharia de atributos determina como representar atributos no vetor de atributos. Por exemplo, um atributo categórico binário com cinco valores possíveis pode ser representado com codificação one-hot. Nesse caso, a parte do vetor de características de um exemplo específico consistiria em quatro zeros e um único 1,0 na terceira posição, conforme mostrado abaixo:

[0.0, 0.0, 1.0, 0.0, 0.0]

Como outro exemplo, suponha que seu modelo consiste em três recursos:

  • um atributo categórico binário com cinco valores possíveis representados com codificação one-hot, por exemplo: [0.0, 1.0, 0.0, 0.0, 0.0]
  • outro atributo categórico binário com três valores possíveis representados com codificação one-hot. Por exemplo: [0.0, 0.0, 1.0]
  • uma característica de ponto flutuante, por exemplo: 8.3.

Nesse caso, o vetor de recursos de cada exemplo seria representado por nove valores. Considerando os valores de exemplo na lista anterior, o vetor de recursos seria:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Consulte Dados numéricos: como um modelo ingere dados usando vetores de características no Curso intensivo de aprendizado de máquina para mais informações.

caracterização

O processo de extrair recursos de uma fonte de entrada, como um documento ou vídeo, e mapear esses recursos em um vetor de recursos.

Alguns especialistas em ML usam a caracterização como sinônimo de engenharia de atributos ou extração de atributos.

federated learning

Uma abordagem de machine learning distribuído que treina modelos de machine learning usando exemplos descentralizados em dispositivos como smartphones. No aprendizado federado, um subconjunto de dispositivos faz o download do modelo atual de um servidor central de coordenação. Os dispositivos usam os exemplos armazenados para melhorar o modelo. Em seguida, os dispositivos fazem upload das melhorias do modelo (mas não dos exemplos de treinamento) para o servidor de coordenação, onde elas são agregadas a outras atualizações para gerar um modelo global melhorado. Após a agregação, as atualizações do modelo computadas pelos dispositivos não são mais necessárias e podem ser descartadas.

Como os exemplos de treinamento nunca são enviados, o aprendizado federado segue os princípios de privacidade da coleta de dados focada e da minimização de dados.

Para mais informações sobre o aprendizado federado, consulte este tutorial.

ciclo de feedback

#fundamentals

No aprendizado de máquina, uma situação em que as previsões de um modelo influenciam os dados de treinamento do mesmo modelo ou de outro. Por exemplo, um modelo que recomende filmes vai influenciar os filmes que as pessoas assistem, o que vai influenciar os modelos de recomendação de filmes seguintes.

Consulte Sistemas de ML de produção: perguntas a fazer no Curso intensivo de aprendizado de máquina para mais informações.

rede neural feedforward (FFN)

Uma rede neural sem conexões cíclicas ou recursivas. Por exemplo, redes neurais profundas tradicionais são redes neurais feedforward. Compare com as redes neurais recorrentes, que são cíclicas.

aprendizado de poucas imagens

Uma abordagem de aprendizado de máquina, muitas vezes usada para classificação de objetos, projetada para treinar classificadores eficazes com apenas um pequeno número de exemplos de treinamento.

Consulte também aprendizado one-shot e aprendizado zero-shot.

comando de poucos disparos

#language
#generativeAI

Um comando que contém mais de um (um "pouco") exemplo demonstrando como o modelo de linguagem grande precisa responder. Por exemplo, o comando longo a seguir contém dois exemplos que mostram a um modelo de linguagem grande como responder a uma consulta.

Partes de uma instrução Observações
Qual é a moeda oficial do país especificado? A pergunta que você quer que o LLM responda.
França: EUR Um exemplo.
Reino Unido: GBP Outro exemplo.
Índia: A consulta real.

Os comandos de poucos disparos geralmente produzem resultados mais desejáveis do que comandos sem disparos e comandos de um disparo. No entanto, o comando de poucos disparos exige uma solicitação mais longa.

Comandos de poucos disparos (few-shot) são uma forma de aprendizado de poucos disparos aplicada à aprendizagem baseada em comandos.

Consulte Engenharia de comandos no Curso intensivo de machine learning para mais informações.

Violino

#language

Uma biblioteca de configuração com prioridade em Python que define os valores de funções e classes sem código ou infraestrutura invasivos. No caso do Pax e de outros códigos-base de ML, essas funções e classes representam modelos e treinamento hiperparâmetros.

O Fiddle pressupõe que as bases de código de machine learning geralmente são divididas em:

  • Código da biblioteca, que define as camadas e os otimizadores.
  • Código de "cola" do conjunto de dados, que chama as bibliotecas e conecta tudo.

O Fiddle captura a estrutura de chamada do código de união em uma forma não avaliada e mutável.

ajuste fino

#language
#image
#generativeAI

Uma segunda passagem de treinamento específica para a tarefa realizada em um modelo pré-treinado para refinar os parâmetros de um caso de uso específico. Por exemplo, a sequência de treinamento completa para alguns modelos de linguagem grandes é a seguinte:

  1. Pré-treinamento:treine um modelo de linguagem grande em um vasto conjunto de dados geral, como todas as páginas da Wikipedia em inglês.
  2. Ajuste fino:treine o modelo pré-treinado para realizar uma tarefa específica, como responder a consultas médicas. O ajuste fino normalmente envolve centenas ou milhares de exemplos focados na tarefa específica.

Como outro exemplo, a sequência de treinamento completa para um modelo de imagem grande é esta:

  1. Pré-treinamento:treine um modelo de imagem grande em um vasto conjunto de imagens geral, como todas as imagens no Wikimedia Commons.
  2. Ajuste fino:treine o modelo pré-treinado para realizar uma tarefa específica, como gerar imagens de orcas.

O ajuste fino pode envolver qualquer combinação das seguintes estratégias:

  • Modificar todos os parâmetros do modelo pré-treinado. Às vezes, isso é chamado de ajuste fino completo.
  • Modificar apenas alguns dos parâmetros do modelo pré-treinado (normalmente, as camadas mais próximas da camada de saída), mantendo os outros parâmetros inalterados (normalmente, as camadas mais próximas da camada de entrada). Consulte ajustes de eficiência de parâmetros.
  • Adicionar mais camadas, normalmente sobre as camadas existentes mais próximas da camada de saída.

O ajuste fino é uma forma de aprendizado por transferência. Assim, o ajuste fino pode usar uma função de perda ou um tipo de modelo diferente daqueles usados para treinar o modelo pré-treinado. Por exemplo, você pode ajustar um modelo de imagem grande pré-treinado para produzir um modelo de regressão que retorna o número de pássaros em uma imagem de entrada.

Compare e contraste o ajuste fino com os seguintes termos:

Consulte Ajuste fino no Curso intensivo de machine learning para mais informações.

Linho

#language

Uma biblioteca de código aberto de alto desempenho para aprendizado profundo criada com base no JAX. O Flax fornece funções para treinar redes neurais, bem como métodos para avaliar a performance delas.

Flaxformer

#language

Uma biblioteca de Transformer de código aberto, criada com base no Flax, projetada principalmente para processamento de linguagem natural e pesquisa multimodal.

esquecer a porta

#seq

A parte de uma célula de memória de curto prazo que regula o fluxo de informações pela célula. As portas de esquecimento mantêm o contexto decidindo quais informações descartar do estado da célula.

fração de sucessos

#generativeAI

Uma métrica para avaliar o texto gerado de um modelo de ML. A fração de sucessos é o número de saídas de texto geradas dividido pelo número total de saídas de texto geradas. Por exemplo, se um modelo de linguagem grande gerar 10 blocos de código, sendo que cinco deles tiveram sucesso, a fração de sucessos será de 50%.

Embora a fração de sucessos seja amplamente útil em estatísticas, no ML, essa métrica é útil principalmente para medir tarefas verificáveis, como a geração de código ou problemas matemáticos.

softmax completa

Sinônimo de softmax.

Compare com a amostragem de candidatos.

Consulte Redes neurais: classificação multiclasse no Curso intensivo de machine learning para mais informações.

camada totalmente conectada

Uma camada oculta em que cada é conectado a todos os nós na camada oculta seguinte.

Uma camada totalmente conectada também é conhecida como camada densa.

transformação de função

Uma função que recebe uma função como entrada e retorna uma função transformada como saída. O JAX usa transformações de função.

G

GAN

Abreviação de rede adversarial generativa.

Gemini

#language
#image
#generativeAI

O ecossistema que inclui a IA mais avançada do Google. Os elementos desse ecossistema incluem:

  • Vários modelos Gemini.
  • A interface de conversação interativa de um modelo Gemini. Os usuários digitam comandos, e o Gemini responde a eles.
  • Várias APIs Gemini.
  • Vários produtos empresariais com base nos modelos Gemini, por exemplo, o Gemini para Google Cloud.

Modelos do Gemini

#language
#image
#generativeAI

Modelos multimodais baseados em Transformer de última geração do Google. Os modelos do Gemini foram criados especificamente para serem integrados a agentes.

Os usuários podem interagir com os modelos do Gemini de várias maneiras, incluindo uma interface de diálogo interativa e SDKs.

generalização

#fundamentals

A capacidade de um modelo de fazer previsões corretas com dados novos e que não foram vistos anteriormente. Um modelo que pode ser generalizado é o oposto de um modelo que está overfitting.

Consulte Generalização no Curso intensivo de machine learning para mais informações.

curva de generalização

#fundamentals

Um gráfico da perda de treinamento e da perda de validação como uma função do número de iterações.

Uma curva de generalização pode ajudar a detectar possíveis ajustes excessivos. Por exemplo, a curva de generalização a seguir sugere um ajuste excessivo porque a perda de validação acaba se tornando significativamente maior que a perda de treinamento.

Um gráfico cartesiano em que o eixo y é rotulado como &quot;perda&quot; e o eixo x é rotulado como &quot;iterações&quot;. Duas parcelas aparecem. Um gráfico mostra a perda de treinamento e o outro mostra a perda de validação.
          As duas representações começam de maneira semelhante, mas a perda de treinamento diminui muito mais do que a perda de validação.

Consulte Generalização no Curso intensivo de machine learning para mais informações.

modelo linear generalizado

Uma generalização de modelos de regressão de mínimos quadrados, que são baseados em ruído Gaussiano, para outros tipos de modelos baseados em outros tipos de ruído, como ruído de Poisson ou ruído categórico. Exemplos de modelos lineares generalizados incluem:

Os parâmetros de um modelo linear generalizado podem ser encontrados com a otimização convexa.

Os modelos lineares generalizados apresentam as seguintes propriedades:

  • A previsão média do modelo de regressão de mínimos quadrados ideal é igual ao rótulo médio nos dados de treinamento.
  • A probabilidade média prevista pelo modelo de regressão logística ideal é igual ao rótulo médio nos dados de treinamento.

A potência de um modelo linear generalizado é limitada pelos recursos dele. Ao contrário de um modelo profundo, um modelo linear generalizado não pode "aprender novos recursos".

texto gerado

#language
#generativeAI

Em geral, o texto que um modelo de ML gera. Ao avaliar modelos de linguagem grandes, algumas métricas comparam o texto gerado com o texto de referência. Por exemplo, suponha que você esteja tentando determinar a eficácia da tradução de um modelo de ML do francês para o holandês. Nesse caso:

  • O texto gerado é a tradução em holandês que o modelo de ML gera.
  • O texto de referência é a tradução para o holandês que um tradutor humano (ou software) cria.

Algumas estratégias de avaliação não envolvem texto de referência.

rede adversária generativa (GAN)

Um sistema para criar novos dados em que um gerador cria dados e um discriminador determina se esses dados criados são válidos ou inválidos.

Consulte o curso de redes generativas adversarial (GANs) para mais informações.

IA generativa

#language
#image
#generativeAI

Um campo transformador emergente sem definição formal. A maioria dos especialistas concorda que os modelos de IA generativa podem criar ("gerar") conteúdo que seja:

  • complexo
  • coerente
  • original

Por exemplo, um modelo de IA generativa pode criar textos ou imagens sofisticados.

Algumas tecnologias anteriores, incluindo LSTMs e RNNs, também podem gerar conteúdo original e coerente. Alguns especialistas consideram essas tecnologias anteriores como IA generativa, enquanto outros acreditam que a verdadeira IA generativa exige uma saída mais complexa do que essas tecnologias anteriores.

Compare com o ML preditivo.

modelo generativo

Na prática, um modelo que faz uma destas ações:

  • Cria (gera) novos exemplos com base no conjunto de dados de treinamento. Por exemplo, um modelo generativo pode criar poesias depois de treinar em um conjunto de dados de poemas. A parte do gerador de uma rede adversarial generativa se enquadra nessa categoria.
  • Determina a probabilidade de um novo exemplo vir do conjunto de treinamento ou ter sido criado com o mesmo mecanismo que criou o conjunto de treinamento. Por exemplo, depois de treinar em um conjunto de dados composto por frases em inglês, um modelo generativo pode determinar a probabilidade de que a nova entrada seja uma frase válida em inglês.

Um modelo generativo pode, teoricamente, discernir a distribuição de exemplos ou recursos específicos em um conjunto de dados. Ou seja:

p(examples)

Os modelos de aprendizado não supervisionado são generativos.

Compare com os modelos discriminativos.

gerador

O subsistema em uma rede generativa adversária que cria novos exemplos.

Compare com o modelo discriminativo.

impureza de Gini

#df

Uma métrica semelhante à entropia. Os divisores usam valores derivados da impureza de Gini ou da entropia para compor condições para a classificação árvores de decisão. O ganho de informação é derivado da entropia. Não há um termo equivalente universalmente aceito para a métrica derivada da impureza de Gini. No entanto, essa métrica sem nome é tão importante quanto o ganho de informação.

A impureza de Gini também é chamada de índice de Gini ou simplesmente Gini.

conjunto de dados de ouro

Um conjunto de dados selecionados manualmente que captura informações empíricas. As equipes podem usar um ou mais conjuntos de dados de ouro para avaliar a qualidade de um modelo.

Alguns conjuntos de dados de ouro capturam diferentes subdomínios de evidências empíricas. Por exemplo, um conjunto de dados de ouro para classificação de imagens pode capturar condições de iluminação e resolução da imagem.

resposta dourada

#language
#generativeAI

Uma resposta conhecida por ser boa. Por exemplo, considerando o seguinte prompt:

2 + 2

A resposta ideal é:

4

GPT (transformador generativo pré-treinado)

#language

Uma família de modelos de linguagem grandes baseados em Transformer desenvolvidos pela OpenAI.

As variantes da GPT podem ser aplicadas a várias modalidades, incluindo:

  • geração de imagens (por exemplo, ImageGPT)
  • Geração de texto para imagem (por exemplo, DALL-E).

gradiente

O vetor de derivadas parciais em relação a todas as variáveis independentes. No aprendizado de máquina, o gradiente é o vetor de derivadas parciais da função do modelo. O gradiente aponta na direção da subida mais íngreme.

acúmulo de gradiente

Uma técnica de retropropagação que atualiza os parâmetros apenas uma vez por época, em vez de uma vez por iteração. Depois de processar cada minilote, a acumulação de gradientes simplesmente atualiza um total em execução de gradientes. Depois, após processar o último minilote na época, o sistema finalmente atualiza os parâmetros com base no total de todas as mudanças de gradiente.

A acumulação de gradiente é útil quando o tamanho do lote é muito grande em comparação com a quantidade de memória disponível para treinamento. Quando a memória é um problema, a tendência natural é reduzir o tamanho do lote. No entanto, reduzir o tamanho do lote na retropropagação normal aumenta o número de atualizações de parâmetros. A acumulação de gradiente permite que o modelo evite problemas de memória, mas ainda treine de maneira eficiente.

árvores de decisão aprimoradas por gradiente (GBTs)

#df

Um tipo de floresta de decisão em que:

Consulte Árvores de decisão com aprimoramento por gradiente no curso de florestas de decisão para mais informações.

aumento do gradiente

#df

Um algoritmo de treinamento em que modelos fracos são treinados para melhorar de forma iterativa a qualidade (reduzir a perda) de um modelo forte. Por exemplo, um modelo fraco pode ser um modelo linear ou uma pequena árvore de decisões. O modelo forte se torna a soma de todos os modelos fracos treinados anteriormente.

Na forma mais simples de otimização em gradiente, em cada iteração, um modelo fraco é treinado para prever o gradiente de perda do modelo forte. Em seguida, a saída do modelo forte é atualizada subtraindo o gradiente previsto, semelhante à gradiente descendente.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

em que:

  • $F_{0}$ é o modelo forte inicial.
  • $F_{i+1}$ é o próximo modelo forte.
  • $F_{i}$ é o modelo forte atual.
  • $\xi$ é um valor entre 0,0 e 1,0 chamado de redução, que é análogo à taxa de aprendizado em gradiente descendente.
  • $f_{i}$ é o modelo fraco treinado para prever o gradiente de perda de $F_{i}$.

As variações modernas do aumento de gradiente também incluem a segunda derivada (Hessian) da perda na computação.

As árvores de decisão são usadas com frequência como modelos fracos no otimização por gradiente. Consulte árvores de decisão aprimoradas por gradiente.

truncamento de gradiente

#seq

Um mecanismo usado com frequência para atenuar o problema de gradiente explosivo limitando artificialmente o valor máximo de gradientes ao usar o gradiente descendente para treinar um modelo.

gradiente descendente

#fundamentals

Uma técnica matemática para minimizar a perda. O gradiente descendente ajusta iterativamente pesos e viés, encontrando gradualmente a melhor combinação para minimizar a perda.

A regressão linear é mais antiga do que o machine learning.

Consulte Regressão linear: gradiente de descida no Curso intensivo de machine learning para mais informações.

gráfico

#TensorFlow

No TensorFlow, uma especificação de computação. Os nós no gráfico representam operações. As bordas são direcionadas e representam a transmissão do resultado de uma operação (um Tensor) como um operando para outra operação. Use o TensorBoard para visualizar um gráfico.

execução de gráfico

#TensorFlow

Um ambiente de programação do TensorFlow em que o programa primeiro constrói um gráfico e depois executa todo ou parte dele. A execução de gráficos é o modo de execução padrão no TensorFlow 1.x.

Compare com a execução imediata.

política gananciosa

#rl

No aprendizado por reforço, uma política que sempre escolhe a ação com a maior retorno esperado.

Embasamento

Uma propriedade de um modelo cuja saída é baseada em (ou "fundamentada em") um material de origem específico. Por exemplo, suponha que você forneça um livro de física inteiro como entrada ("contexto") para um modelo de linguagem grande. Em seguida, você solicita esse modelo de linguagem grande com uma pergunta de física. Se a resposta do modelo refletir as informações do livro, ele será fundamentado nesse livro.

Um modelo com base não é sempre um modelo factual. Por exemplo, o livro de física de entrada pode conter erros.

informações empíricas

#fundamentals

Realidade.

O que realmente aconteceu.

Por exemplo, considere um modelo de classificação binária que prevê se um estudante no primeiro ano da universidade se formará em até seis anos. A verdade para esse modelo é se o estudante se formou ou não em seis anos.

viés de atribuição a grupos

#fairness

A suposição de que o que é verdadeiro para um indivíduo também é verdadeiro para todos no grupo. Os efeitos do viés de atribuição de grupo podem ser exacerbados se uma amostragem por conveniência for usada para a coleta de dados. Em uma amostra não representativa, podem ser feitas atribuições que não refletem a realidade.

Consulte também viés de homogeneidade externa ao grupo e viés de grupo. Consulte também Imparcialidade: tipos de viés no Curso intensivo de machine learning para mais informações.

H

alucinação

#language

A produção de uma saída aparentemente plausível, mas factualmente incorreta, por um modelo de IA generativa que pretende fazer uma declaração sobre o mundo real. Por exemplo, um modelo de IA generativa que afirma que Barack Obama morreu em 1865 está alucinando.

hash

No aprendizado de máquina, um mecanismo para agrupar dados categóricos, principalmente quando o número de categorias é grande, mas o número de categorias que realmente aparecem no conjunto de dados é relativamente pequeno.

Por exemplo, a Terra é o lar de cerca de 73.000 espécies de árvores. Você pode representar cada uma das 73.000 espécies de árvores em 73.000 intervalos categóricos separados. Como alternativa, se apenas 200 dessas espécies de árvores aparecerem em um conjunto de dados, use o hash para dividir as espécies em talvez 500 buckets.

Um único bucket pode conter várias espécies de árvores. Por exemplo, o hash poderia colocar baobá e maple vermelho, duas espécies geneticamente diferentes, no mesmo bucket. De qualquer forma, o hash ainda é uma boa maneira de mapear grandes conjuntos categóricos para o número selecionado de buckets. A hash transforma um recurso categórico com um grande número de valores possíveis em um número muito menor de valores agrupando-os de maneira determinística.

Consulte Dados categóricos: vocabulário e codificação one-hot no Curso intensivo de machine learning para mais informações.

heurística

Uma solução simples e rápida para um problema. Por exemplo, "Com uma heurística, alcançamos 86% de precisão. Quando mudamos para uma rede neural profunda, a precisão aumentou para 98%."

camada oculta

#fundamentals

Uma camada em uma rede neural entre a camada de entrada (os atributos) e a camada de saída (a previsão). Cada camada oculta consiste em um ou mais neurônios. Por exemplo, a rede neural a seguir contém duas camadas ocultas, a primeira com três neurônios e a segunda com dois neurônios:

Quatro camadas. A primeira camada é uma camada de entrada que contém dois
          recursos. A segunda camada é uma camada oculta que contém três
          neurônios. A terceira camada é uma camada oculta que contém dois neurônios. A quarta camada é uma camada de saída. Cada elemento
          contém três arestas, cada uma apontando para um neurônio diferente
          na segunda camada. Cada um dos neurônios da segunda camada
          contém duas bordas, cada uma apontando para um neurônio diferente
          na terceira camada. Cada um dos neurônios na terceira camada contém
          uma borda, cada uma apontando para a camada de saída.

Uma rede neural profunda contém mais de uma camada oculta. Por exemplo, a ilustração anterior é uma rede neural profunda porque o modelo contém duas camadas ocultas.

Consulte Redes neurais: nós e camadas ocultas no Curso intensivo de machine learning para mais informações.

clustering hierárquico

#clustering

Uma categoria de algoritmos de clustering que cria uma árvore de clusters. O agrupamento hierárquico é adequado para dados hierárquicos, como as taxonomias botânicas. Há dois tipos de algoritmos de agrupamento hierárquico:

  • O clustering aglomerativo primeiro atribui cada exemplo ao próprio cluster e mescla de forma iterativa os clusters mais próximos para criar uma árvore hierárquica.
  • O clustering divisivo agrupa primeiro todos os exemplos em um cluster e, em seguida, divide o cluster de forma iterativa em uma árvore hierárquica.

Compare com a agrupamento com base no centroide.

Consulte Algoritmos de clustering no curso de clustering para mais informações.

subida de morro

Um algoritmo para melhorar iterativamente ("caminhar morro acima") um modelo de ML até que ele pare de melhorar ("alcançar o topo de uma colina"). A forma geral do algoritmo é a seguinte:

  1. Crie um modelo inicial.
  2. Crie novos modelos candidatos fazendo pequenos ajustes na forma como você treina ou ajusta. Isso pode envolver trabalhar com um conjunto de treinamento ou hiperparâmetros diferentes.
  3. Avalie os novos modelos candidatos e realize uma das seguintes ações:
    • Se um modelo candidato for melhor que o inicial, ele vai se tornar o novo modelo inicial. Nesse caso, repita as etapas 1, 2 e 3.
    • Se nenhum modelo for melhor do que o inicial, você terá alcançado o ponto máximo e precisará parar de iterar.

Consulte o Playbook de ajuste de aprendizado profundo para receber orientações sobre o ajuste de hiperparâmetros. Consulte os módulos de dados do Curso intensivo de machine learning para orientações sobre a engenharia de atributos.

perda de articulação

Uma família de funções de perda para classificação projetada para encontrar o limite de decisão o mais distante possível de cada exemplo de treinamento, maximizando a margem entre os exemplos e o limite. KSVMs usam a perda de articulação (ou uma função relacionada, como a perda de articulação ao quadrado). Para a classificação binária, a função de perda de articulação é definida da seguinte maneira:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

em que y é o rótulo verdadeiro, -1 ou +1, e y' é a saída bruta do modelo de classificador:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Consequentemente, um gráfico de perda de articulação em relação a (y * y') é exibido da seguinte maneira:

Um gráfico cartesiano composto por dois segmentos de linha unidos. O primeiro
          segmento de linha começa em (-3, 4) e termina em (1, 0). O segundo segmento
          começa em (1, 0) e continua indefinidamente com uma inclinação
          de 0.

viés histórico

#fairness

Um tipo de viés que já existe no mundo e chegou a um conjunto de dados. Esses vieses tendem a refletir estereótipos culturais, desigualdades demográficas e preconceitos contra determinados grupos sociais.

Por exemplo, considere um modelo de classificação que prevê se um solicitante de empréstimo vai ou não inadimplir. Ele foi treinado com dados históricos de inadimplência de empréstimos dos anos 1980 de bancos locais em duas comunidades diferentes. Se os candidatos anteriores da Comunidade A tivessem seis vezes mais chances de inadimplência do que os candidatos da Comunidade B, o modelo poderia aprender um viés histórico, resultando em uma probabilidade menor de aprovação de empréstimos na Comunidade A, mesmo que as condições históricas que resultaram em taxas de inadimplência mais altas na comunidade não fossem mais relevantes.

Consulte Imparcialidade: tipos de viés no Curso intensivo de machine learning para mais informações.

dados de validação

Exemplos intencionalmente não usados ("retidos") durante o treinamento. O conjunto de dados de validação e o conjunto de dados de teste são exemplos de dados de reserva. Os dados de reserva ajudam a avaliar a capacidade do modelo de generalização para dados diferentes daqueles em que ele foi treinado. A perda no conjunto de holdout fornece uma estimativa melhor da perda em um conjunto de dados não visto do que a perda no conjunto de treinamento.

host

#TensorFlow
#GoogleCloud

Ao treinar um modelo de ML em chips de aceleração (GPUs ou TPUs), a parte do sistema que controla o seguinte:

  • O fluxo geral do código.
  • A extração e transformação do pipeline de entrada.

O host geralmente é executado em uma CPU, não em um chip de aceleração. O dispositivo manipula tensores nos chips de aceleração.

avaliação humana

#language
#generativeAI

Um processo em que pessoas avaliam a qualidade da saída de um modelo de ML. Por exemplo, pessoas bilíngues podem avaliar a qualidade de um modelo de tradução de ML. A avaliação humana é particularmente útil para avaliar modelos que não têm uma resposta certa.

Compare com a avaliação automática e a avaliação do autoavaliador.

human in the loop (HITL)

#generativeAI

Um idioma vagamente definido que pode significar uma das seguintes opções:

  • Uma política de visualização crítica ou cética da saída da IA generativa. Por exemplo, as pessoas que escrevem este glossário de ML ficam maravilhadas com o que os modelos de linguagem grandes podem fazer, mas conhecem os erros que eles cometem.
  • Uma estratégia ou sistema para garantir que as pessoas ajudem a moldar, avaliar e refinar o comportamento de um modelo. Manter um humano no processo permite que a IA se beneficie da inteligência da máquina e da humana. Por exemplo, um sistema em que uma IA gera código que os engenheiros de software analisam é um sistema humano no processo.

hiperparâmetro

#fundamentals

As variáveis que você ou um serviço de ajuste de hiperparâmetro ajusta durante execuções sucessivas de treinamento de um modelo. Por exemplo, taxa de aprendizado é um hiperparâmetro. Você pode definir a taxa de aprendizado como 0,01 antes de uma sessão de treinamento. Se você determinar que 0,01 é muito alto, talvez seja possível definir a taxa de aprendizado como 0,003 para a próxima sessão de treinamento.

Por outro lado, os parâmetros são os vários pesos e viés que o modelo aprende durante o treinamento.

Consulte Regressão linear: hiperparâmetros no Curso intensivo de machine learning para mais informações.

hiperplano

Um limite que separa um espaço em dois subespaços. Por exemplo, uma linha é um hiperplano em duas dimensões, e um plano é um hiperplano em três dimensões. Mais comumente no aprendizado de máquina, um hiperplano é o limite que separa um espaço de alta dimensão. As máquinas de vetores de suporte baseadas em kernels usam hiperplanos para separar classes positivas de classes negativas, geralmente em um espaço de alta dimensionalidade.

I

i.i.d.

Abreviação de independente e identicamente distribuído.

Reconhecimento de imagem

#image

Um processo que classifica objetos, padrões ou conceitos em uma imagem. O reconhecimento de imagem também é conhecido como classificação de imagem.

Para mais informações, consulte Prática de ML: classificação de imagens.

Consulte o curso ML Practicum: classificação de imagens para mais informações.

conjunto de dados desequilibrado

Sinônimo de conjunto de dados não balanceado.

viés implícito

#fairness

Fazer uma associação ou suposição automaticamente com base nos modelos mentais e nas memórias. O viés implícito pode afetar o seguinte:

  • Como os dados são coletados e classificados.
  • Como os sistemas de aprendizado de máquina são projetados e desenvolvidos.

Por exemplo, ao criar um classificador para identificar fotos de casamento, um engenheiro pode usar a presença de um vestido branco em uma foto como um atributo. No entanto, os vestidos brancos são costume apenas em certas épocas e em certas culturas.

Consulte também viés de confirmação.

imputação

Forma abreviada de imputação de valor.

Incompatibilidade das métricas de imparcialidade

#fairness

A ideia de que algumas noções de justiça são mutuamente incompatíveis e não podem ser atendidas simultaneamente. Como resultado, não há uma única métrica universal para quantificar a imparcialidade que possa ser aplicada a todos os problemas de ML.

Embora isso possa parecer desanimador, a incompatibilidade das métricas de imparcialidade não implica que os esforços de imparcialidade sejam infrutíferos. Em vez disso, ele sugere que a imparcialidade precisa ser definida contextualmente para um determinado problema de ML, com o objetivo de evitar danos específicos aos casos de uso.

Consulte "Sobre a (im)possibilidade de justiça" para uma discussão mais detalhada sobre esse tópico.

aprendizado contextual

#language
#generativeAI

Sinônimo de comando de poucos disparos (few-shot).

independente e distribuído de maneira idêntica (IID)

#fundamentals

Dados extraídos de uma distribuição que não muda e em que cada valor extraído não depende de valores extraídos anteriormente. Uma i.i.d. é o gás ideal do aprendizado de máquina, uma construção matemática útil, mas que quase nunca é encontrada no mundo real. Por exemplo, a distribuição de visitantes de uma página da Web pode ser i.i.d. em um breve período, ou seja, a distribuição não muda durante esse período e a visita de uma pessoa geralmente é independente da visita de outra. No entanto, se você expandir esse período, pode haver diferenças sazonais nos visitantes da página da Web.

Consulte também não estacionária.

imparcialidade individual

#fairness

Uma métrica de justiça que verifica se indivíduos semelhantes são classificados de forma semelhante. Por exemplo, a Academia Brobdingnagian pode querer satisfazer a justiça individual, garantindo que dois estudantes com notas idênticas e pontuações de teste padronizadas tenham a mesma probabilidade de admissão.

A imparcialidade individual depende inteiramente de como você define "semelhança" (neste caso, notas e pontuações de teste). Você pode correr o risco de introduzir novos problemas de imparcialidade se a métrica de similaridade perder informações importantes, como o rigor do currículo de um estudante.

Consulte "Justiça por consciência" para uma discussão mais detalhada sobre a justiça individual.

inferência

#fundamentals

Em machine learning, o processo de fazer previsões aplicando um modelo treinado a exemplos não rotulados.

A inferência tem um significado um pouco diferente nas estatísticas. Consulte o artigo da Wikipédia sobre inferência estatística para mais detalhes.

Consulte Aprendizagem supervisionada no curso de Introdução ao aprendizado de máquina para saber qual é o papel da inferência em um sistema de aprendizagem supervisionada.

caminho de inferência

#df

Em uma árvore de decisão, durante a inferência, o caminho que um exemplo específico toma da raiz para outras condições, terminando com uma folha. Por exemplo, na árvore de decisão a seguir, as setas mais grossas mostram o caminho de inferência para um exemplo com os seguintes valores de atributos:

  • x = 7
  • y = 12
  • z = -3

O caminho de inferência na ilustração a seguir passa por três condições antes de chegar à folha (Zeta).

Uma árvore de decisão com quatro condições e cinco folhas.
          A condição raiz é (x > 0). Como a resposta é &quot;Sim&quot;, o caminho de inferência vai da raiz para a próxima condição (y > 0).
          Como a resposta é &quot;Sim&quot;, o caminho de inferência passa para a próxima condição (z > 0). Como a resposta é &quot;Não&quot;, o caminho de inferência
          vai até o nó terminal, que é a folha (Zeta).

As três setas grossas mostram o caminho de inferência.

Consulte Árvores de decisão no curso de florestas de decisão para mais informações.

ganho de informações

#df

Nas florestas de decisão, a diferença entre a entropia de um nó e a soma ponderada (pelo número de exemplos) da entropia dos nós filhos. A entropia de um nó é a entropia dos exemplos nesse nó.

Por exemplo, considere os seguintes valores de entropia:

  • entropia do nó pai = 0,6
  • entropia de um nó filho com 16 exemplos relevantes = 0,2
  • entropia de outro nó filho com 24 exemplos relevantes = 0,1

Assim, 40% dos exemplos estão em um nó filho e 60% estão no outro nó filho. Assim:

  • Soma da entropia ponderada dos nós filhos = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Portanto, o ganho de informações é:

  • ganho de informação = entropia do nó pai - soma ponderada da entropia dos nós filhos
  • ganho de informação = 0,6 - 0,14 = 0,46

A maioria dos divisores procura criar condições que maximizem o ganho de informações.

viés de grupo

#fairness

Mostrar parcialidade em relação ao próprio grupo ou às próprias características. Se os testadores ou avaliadores forem amigos, familiares ou colegas do desenvolvedor de machine learning, o viés de grupo poderá invalidar o teste do produto ou o conjunto de dados.

O viés de grupo é uma forma de viés de atribuição a grupos. Consulte também viés de homogeneidade externa ao grupo.

Consulte Imparcialidade: tipos de viés no Curso intensivo de machine learning para mais informações.

gerador de entrada

Um mecanismo pelo qual os dados são carregados em uma rede neural.

Um gerador de entrada pode ser considerado um componente responsável pelo processamento de dados brutos em tensores que são iterados para gerar lotes para treinamento, avaliação e inferência.

camada de entrada

#fundamentals

A camada de uma rede neural que armazena o vetor de atributos. Ou seja, a camada de entrada fornece exemplos para treinamento ou inferência. Por exemplo, a camada de entrada na rede neural a seguir consiste em dois recursos:

Quatro camadas: uma de entrada, duas escondidas e uma de saída.

condição no conjunto

#df

Em uma árvore de decisão, uma condição que testa a presença de um item em um conjunto de itens. Por exemplo, a condição a seguir é uma condição no conjunto:

  house-style in [tudor, colonial, cape]

Durante a inferência, se o valor do feature do estilo da casa for tudor ou colonial ou cape, essa condição será avaliada como "Sim". Se o valor do elemento de estilo de casa for outro (por exemplo, ranch), essa condição será avaliada como "Não".

As condições do conjunto geralmente levam a árvores de decisão mais eficientes do que condições que testam atributos codificados one-hot.

instância

Sinônimo de example.

ajuste de instruções

#generativeAI

Uma forma de ajuste fino que melhora a capacidade de um modelo de IA generativa de seguir instruções. O ajuste de instruções envolve o treinamento de um modelo em uma série de comandos de instrução, geralmente cobrindo uma ampla variação de tarefas. O modelo ajustado à instrução resultante tende a gerar respostas úteis para comandos zero-shot em várias tarefas.

Compare e contraste com:

interpretabilidade

#fundamentals

A capacidade de explicar ou apresentar o raciocínio de um modelo de ML em termos compreensíveis para as pessoas.

A maioria dos modelos de regressão linear, por exemplo, são altamente interpretáveis. Você só precisa olhar os pesos treinados para cada atributo. As florestas de decisão também são altamente interpretáveis. No entanto, alguns modelos exigem uma visualização sofisticada para serem interpretados.

Você pode usar a Ferramenta de aprendizado de interpretabilidade (LIT) para interpretar modelos de ML.

concordância entre avaliadores

Uma medida de frequência com que os avaliadores humanos concordam ao realizar uma tarefa. Se os avaliadores discordarem, talvez seja necessário melhorar as instruções da tarefa. Às vezes, também é chamada de acordo entre anotadores ou confiabilidade entre avaliadores. Consulte também a kappa de Cohen, que é uma das medidas de concordância entre avaliadores mais conhecidas.

Consulte Dados categóricos: problemas comuns no Curso intensivo de machine learning para mais informações.

intersecção sobre união (IoU)

#image

A interseção de dois conjuntos divididos pela união deles. Em tarefas de detecção de imagens de machine learning, o IoU é usado para medir a precisão da caixa delimitadora prevista do modelo em relação à caixa delimitadora de informações empíricas. Nesse caso, a IoU das duas caixas é a proporção entre a área de sobreposição e a área total, e o valor varia de 0 (sem sobreposição da caixa delimitadora prevista e da caixa delimitadora de informações empíricas) a 1 (a caixa delimitadora prevista e a caixa delimitadora de informações empíricas têm as mesmas coordenadas).

Por exemplo, na imagem abaixo:

  • A caixa delimitadora prevista (as coordenadas que delimitam onde o modelo prevê que a mesa de noite na pintura está localizada) é mostrada em roxo.
  • A caixa delimitadora de evidências empíricas (as coordenadas que delimitam onde a mesa de noite na pintura está localizada) é delineada em verde.

A pintura &quot;Vincent&#39;s Bedroom in Arles&quot; de Van Gogh, com duas caixas delimitadoras diferentes em torno da mesa de cabeceira ao lado da cama. A caixa delimitadora de informações empíricas (em verde) circunscreve perfeitamente a mesa noturna. A caixa delimitadora prevista (em roxo) é deslocada 50% para baixo e para a direita da caixa delimitadora da verdade fundamental. Ela inclui o quadrante inferior direito da tabela noturna, mas não o restante.

Aqui, a interseção das caixas delimitadoras para previsão e informações empíricas (abaixo à esquerda) é 1, e a união das caixas delimitadoras para previsão e informações empíricas (abaixo à direita) é 7. Portanto, a IoU é \(\frac{1}{7}\).

Mesma imagem acima, mas com cada caixa delimitadora dividida em quatro
          quadrantes. Há sete quadrantes no total, já que o quadrante inferior direito
          da caixa delimitadora de informações empíricas e o quadrante superior esquerdo
          da caixa delimitadora prevista se sobrepõem. Essa seção sobreposta (destacada em verde) representa a interseção e tem uma área de 1. Mesma imagem acima, mas com cada caixa delimitadora dividida em quatro
          quadrantes. Há sete quadrantes no total, já que o quadrante inferior direito
          da caixa delimitadora de informações empíricas e o quadrante superior esquerdo
          da caixa delimitadora prevista se sobrepõem.
          Todo o interior fechado pelas duas caixas delimitadoras
          (destacado em verde) representa a união e tem
          uma área de 7.

IoU

Abreviação de interseção sobre união.

matriz de itens

#recsystems

Em sistemas de recomendação, uma matriz de vetores de inserção gerada por fatoração de matrizes que contém sinais latentes sobre cada item. Cada linha da matriz de itens contém o valor de um único recurso latente para todos os itens. Por exemplo, considere um sistema de recomendação de filmes. Cada coluna na matriz de itens representa um único filme. Os sinais latentes podem representar gêneros ou podem ser sinais mais difíceis de interpretar que envolvem interações complexas entre gênero, estrelas, idade do filme ou outros fatores.

A matriz de itens tem o mesmo número de colunas que a matriz de destino que está sendo fatorada. Por exemplo, considerando um sistema de recomendação de filmes que avalia 10.000 títulos, a matriz de itens terá 10.000 colunas.

itens

#recsystems

Em um sistema de recomendação, as entidades que um sistema recomenda. Por exemplo, os vídeos são os itens que uma locadora de vídeos recomenda, enquanto os livros são os itens que uma livraria recomenda.

iteração

#fundamentals

Uma única atualização dos parâmetros de um modelo, ou seja, os pesos e vieses do modelo durante o treinamento. O tamanho do lote determina quantos exemplos o modelo processa em uma única iteração. Por exemplo, se o tamanho do lote for 20, o modelo processará 20 exemplos antes de ajustar os parâmetros.

Ao treinar uma rede neural, uma única iteração envolve as duas passagens a seguir:

  1. Uma passagem para frente para avaliar a perda em um único lote.
  2. Uma passagem reversa (backpropagation) para ajustar os parâmetros do modelo com base na perda e na taxa de aprendizado.

J

JAX

Uma biblioteca de computação de matrizes que reúne álgebra linear acelerada (XLA) e diferenciação automática para computação numérica de alto desempenho. O JAX fornece uma API simples e poderosa para escrever código numérico acelerado com transformações combináveis. O JAX oferece recursos como:

  • grad (diferençação automática)
  • jit (compilação just-in-time)
  • vmap (vetorização ou lote automático)
  • pmap (paralelização)

O JAX é uma linguagem para expressar e compor transformações de código numérico, análoga, mas muito maior em escopo, à biblioteca NumPy do Python. Na verdade, a biblioteca .numpy no JAX é funcionalmente equivalente, mas é uma versão totalmente reescrita da biblioteca NumPy do Python.

O JAX é particularmente adequado para acelerar muitas tarefas de aprendizado de máquina, transformando os modelos e dados em uma forma adequada para paralelismo em GPUs e TPUs (chips de aceleração).

Flax, Optax, Pax e muitas outras bibliotecas são criadas com base na infraestrutura do JAX.

K

Keras

Uma API de aprendizado de máquina Python conhecida. O Keras é executado em vários frameworks de aprendizado profundo, incluindo o TensorFlow, onde é disponibilizado como tf.keras.

Máquinas de vetor de suporte baseadas em kernels (KSVMs)

Um algoritmo de classificação que busca maximizar a margem entre classes positivas e negativas, mapeando vetores de dados de entrada para um espaço dimensional mais alto. Por exemplo, considere um problema de classificação em que o conjunto de dados de entrada tem cem recursos. Para maximizar a margem entre classes positivas e negativas, um KSVM pode mapear esses recursos internamente em um espaço de um milhão de dimensões. KSVMs usa uma função de perda chamada perda de articulação.

pontos principais

#image

As coordenadas de elementos específicos em uma imagem. Por exemplo, para um modelo de reconhecimento de imagem que distingue espécies de flores, os pontos-chave podem ser o centro de cada pétala, o caule, o estame e assim por diante.

Validação cruzada K-Fold

Um algoritmo para prever a capacidade de um modelo de generalizar dados novos. O k em k-folds se refere ao número de grupos iguais em que você divide os exemplos de um conjunto de dados. Ou seja, você treina e testa seu modelo k vezes. Em cada rodada de treinamento e teste, um grupo diferente é o conjunto de teste, e todos os grupos restantes se tornam o conjunto de treinamento. Após k rodadas de treinamento e teste, calcule a média e a variação padrão das métricas de teste escolhidas.

Por exemplo, suponha que seu conjunto de dados seja composto por 120 exemplos. Além disso, suponha que você defina k como 4. Portanto, depois de embaralhar os exemplos, divida o conjunto de dados em quatro grupos iguais de 30 exemplos e realize quatro rodadas de treinamento e teste:

Um conjunto de dados dividido em quatro grupos iguais de exemplos. Na primeira rodada,
          os três primeiros grupos são usados para treinamento, e o último grupo
          é usado para testes. Na segunda rodada, os dois primeiros grupos e o último
          são usados para treinamento, enquanto o terceiro é usado para
          testes. Na terceira rodada, o primeiro grupo e os dois últimos são usados para treinamento, e o segundo grupo é usado para testes.
          Na rodada 4, o primeiro grupo é usado para testes, e os três últimos são usados para treinamento.

Por exemplo, o erro quadrático médio (EQM) pode ser a métrica mais significativa para um modelo de regressão linear. Portanto, você encontraria a média e o desvio padrão do MSE em todas as quatro rodadas.

k-means

#clustering

Um algoritmo de clustering conhecido que agrupa exemplos no aprendizado não supervisionado. O algoritmo k-means basicamente faz o seguinte:

  • Determina iterativamente os melhores pontos centrais k (conhecidos como centroides).
  • Atribui cada exemplo ao centroide mais próximo. Os exemplos mais próximos do mesmo centroide pertencem ao mesmo grupo.

O algoritmo k-means escolhe locais de centroide para minimizar o quadrado cumulativo das distâncias de cada exemplo para o centroide mais próximo.

Por exemplo, considere o seguinte gráfico de altura do cão em relação à largura:

Um gráfico cartesiano com várias dezenas de pontos de dados.

Se k=3, o algoritmo k-means vai determinar três centroides. Cada exemplo é atribuído ao centroide mais próximo, gerando três grupos:

O mesmo gráfico cartesiano da ilustração anterior, exceto
          com três centroides adicionados.
          Os pontos de dados anteriores são agrupados em três grupos distintos,
          sendo que cada grupo representa os pontos de dados mais próximos de um centroid
          específico.

Imagine que um fabricante quer determinar os tamanhos ideais para suéteres pequenos, médios e grandes para cães. Os três centroides identificam a altura média e a largura média de cada cão nesse cluster. Portanto, o fabricante provavelmente deve basear os tamanhos dos suéteres nesses três centroides. O centroide de um cluster normalmente não é um exemplo no cluster.

As ilustrações anteriores mostram o k-means para exemplos com apenas dois recursos (altura e largura). O k-means pode agrupar exemplos em vários recursos.

k-median

#clustering

Um algoritmo de agrupamento intimamente relacionado a k-means. A diferença prática entre os dois é a seguinte:

  • Em k-means, os centroides são determinados minimizando a soma dos quadrados da distância entre um centroide candidato e cada um dos exemplos.
  • Na k-mediana, os centroides são determinados minimizando a soma da distância entre um centroide candidato e cada um dos exemplos.

As definições de distância também são diferentes:

  • O k-means depende da distância euclidiana do centroide para um exemplo. Em duas dimensões, a distância euclidiana significa usar o teorema de Pitágoras para calcular a hipotenusa. Por exemplo, a distância k-means entre (2,2) e (5,-2) seria:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • A mediana k usa a distância de Manhattan do centróide para um exemplo. Essa distância é a soma das deltas absolutas em cada dimensão. Por exemplo, a distância da mediana k entre (2,2) e (5,-2) seria:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regularização de L0

#fundamentals

Um tipo de regularização que penaliza o número total de pesos diferentes de zero em um modelo. Por exemplo, um modelo com 11 pesos diferentes de zero seria penalizado mais do que um modelo semelhante com 10 pesos diferentes de zero.

A regularização L0 às vezes é chamada de regularização de norma L0.

Perda L1

#fundamentals

Uma função de perda que calcula o valor absoluto da diferença entre os valores reais de rótulo e os valores que um modelo prevê. Por exemplo, confira o cálculo da perda de L1 para um lote de cinco exemplos:

Valor real do exemplo Valor previsto do modelo Valor absoluto de delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perda L1

A perda L1 é menos sensível a outliers do que a perda L2.

O erro médio absoluto é a perda média de L1 por exemplo.

Regularização de L1

#fundamentals

Um tipo de regularização que penaliza ponderações na proporção da soma do valor absoluto delas. A regularização L1 ajuda a direcionar os pesos de atributos irrelevantes ou pouco relevantes para exatamente 0. Um recurso com um peso de 0 é efetivamente removido do modelo.

Compare com a regularização L2.

Perda L2

#fundamentals

Uma função de perda que calcula o quadrado da diferença entre os valores reais do rótulo e os valores que um modelo prevê. Por exemplo, confira o cálculo da perda de L2 para um lote de cinco exemplos:

Valor real do exemplo Valor previsto do modelo Quadrado de delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = perda L2

Devido ao quadrado, a perda de L2 amplifica a influência de valores discrepantes. Ou seja, a perda L2 reage com mais força a previsões ruins do que a perda L1. Por exemplo, a perda de L1 para o lote anterior seria 8 em vez de 16. Observe que um único valor fora da curva representa 9 dos 16.

Os modelos de regressão geralmente usam a perda L2 como a função de perda.

O erro quadrático médio é a perda L2 média por exemplo. Perda ao quadrado é outro nome para a perda L2.

Regularização de L2

#fundamentals

Um tipo de regularização que penaliza ponderações na proporção da soma dos quadrados delas. A regularização L2 ajuda a levar os pesos de valores discrepantes (aqueles com valores positivos altos ou negativos baixos) para mais perto de 0, mas não exatamente para 0. Os atributos com valores muito próximos de 0 permanecem no modelo, mas não influenciam muito a previsão do modelo.

A regularização L2 sempre melhora a generalização em modelos lineares.

Compare com a regularização L1.

o rótulo.

#fundamentals

No machine learning supervisionado, a parte "resposta" ou "resultado" de um exemplo.

Cada exemplo rotulado consiste em um ou mais recursos e um rótulo. Por exemplo, em um conjunto de dados de detecção de spam, o rótulo provavelmente será "spam" ou "não spam". Em um conjunto de dados de chuva, o rótulo pode ser a quantidade de chuva que caiu durante um determinado período.

exemplo rotulado

#fundamentals

Um exemplo que contém um ou mais recursos e um rótulo. Por exemplo, a tabela a seguir mostra três exemplos rotulados de um modelo de avaliação de casas, cada um com três recursos e um rótulo:

Número de quartos Número de banheiros Idade da casa Preço da casa (rótulo)
3 2 15 US$ 345.000
2 1 72 US$ 179.000
4 2 34 US$ 392.000

No aprendizado de máquina supervisionado, os modelos são treinados em exemplos rotulados e fazem previsões em exemplos não rotulados.

Contraste o exemplo rotulado com exemplos não rotulados.

vazamento de rótulos

Uma falha de design de modelo em que um recurso é um proxy para o rótulo. Por exemplo, considere um modelo de classificação binária que prevê se um cliente em potencial vai comprar um produto específico. Suponha que um dos recursos do modelo seja um booleano chamado SpokeToCustomerAgent. Suponha ainda que um agente de atendimento ao cliente só é atribuído depois que o cliente em potencial realmente comprou o produto. Durante o treinamento, o modelo vai aprender rapidamente a associação entre SpokeToCustomerAgent e o rótulo.

lambda

#fundamentals

Sinônimo de taxa de regularização.

Lambda é um termo sobrecarregado. Aqui, estamos nos concentrando na definição do termo em regularização.

LaMDA (Language Model for Dialogue Applications)

#language

Um modelo de linguagem grande baseado em transformador desenvolvido pelo Google e treinado em um grande conjunto de dados de diálogo que pode gerar respostas de conversação realistas.

LaMDA: nossa tecnologia de conversação inovadora oferece uma visão geral.

pontos de referência

#image

Sinônimo de keypoints.

modelo de linguagem

#language

Um modelo que estima a probabilidade de um token ou sequência de tokens ocorrer em uma sequência mais longa de tokens.

modelo de linguagem grande

#language

No mínimo, um modelo de linguagem com um número muito alto de parâmetros. De forma mais informal, qualquer modelo de linguagem baseado em Transformer, como o Gemini ou o GPT.

espaço latente

#language

Sinônimo de espaço de embedding.

layer

#fundamentals

Um conjunto de neurônios em uma rede neural. Três tipos comuns de camadas são:

Por exemplo, a ilustração a seguir mostra uma rede neural com uma camada de entrada, duas camadas ocultas e uma camada de saída:

Uma rede neural com uma camada de entrada, duas camadas ocultas e uma
          camada de saída. A camada de entrada consiste em dois elementos. A primeira camada oculta consiste em três neurônios, e a segunda camada oculta consiste em dois neurônios. A camada de saída consiste em um único nó.

No TensorFlow, as camadas também são funções do Python que usam Tensors e opções de configuração como entrada e produzem outros tensors como saída.

API Layers (tf.layers)

#TensorFlow

Uma API do TensorFlow para criar uma rede neural profunda como uma composição de camadas. A API Layers permite criar diferentes tipos de camadas, como:

A API Layers segue as convenções da API de camadas do Keras. Ou seja, além de um prefixo diferente, todas as funções na API Layers têm os mesmos nomes e assinaturas que as correspondentes na API Keras layers.

folha

#df

Qualquer endpoint em uma árvore de decisão. Ao contrário de uma condição, uma folha não executa um teste. Em vez disso, uma folha é uma possível previsão. Uma folha também é o terminal de um caminho de inferência.

Por exemplo, a árvore de decisão a seguir contém três folhas:

Uma árvore de decisão com duas condições que levam a três folhas.

Ferramenta de aprendizado de interpretabilidade (LIT)

Uma ferramenta visual e interativa de compreensão de modelos e visualização de dados.

É possível usar o LIT de código aberto para interpretar modelos ou visualizar dados de texto, imagem e tabular.

taxa de aprendizado

#fundamentals

Um número de ponto flutuante que informa ao algoritmo de gradiente descendente como ajustar os pesos e viés em cada iteração. Por exemplo, uma taxa de aprendizado de 0,3 ajustaria pesos e vieses três vezes mais do que uma taxa de aprendizado de 0,1.

A taxa de aprendizado é um hiperparâmetro importante. Se você definir a taxa de aprendizado muito baixa, o treinamento vai demorar muito. Se a taxa de aprendizado for definida como muito alta, o gradiente descendente geralmente terá problemas para alcançar a convergência.

Regressão de mínimos quadrados

Um modelo de regressão linear treinado minimizando a perda L2.

Distância de Levenshtein

#language
#metric

Uma métrica de distância de edição que calcula as operações de exclusão, inserção e substituição mais curtas necessárias para mudar uma palavra por outra. Por exemplo, a distância de Levenshtein entre as palavras "heart" e "darts" é três, porque as três edições a seguir são as mudanças mínimas para transformar uma palavra na outra:

  1. coração → deart (substitua "h" por "d")
  2. deart → dart (delete "e")
  3. dardo → dardos (insira "s")

A sequência anterior não é o único caminho de três edições.

linear

#fundamentals

Uma relação entre duas ou mais variáveis que pode ser representada apenas por adição e multiplicação.

O gráfico de uma relação linear é uma linha.

Contraste com não linear.

modelo linear

#fundamentals

Um modelo que atribui um peso por recurso para fazer previsões. Os modelos lineares também incorporam um viés. Por outro lado, a relação entre os recursos e as previsões em modelos profundos geralmente é não linear.

Os modelos lineares geralmente são mais fáceis de treinar e mais interpretáveis do que os modelos profundos. No entanto, os modelos profundos podem aprender relações complexas entre os recursos.

Regressão linear e regressão logística são dois tipos de modelos lineares.

regressão linear

#fundamentals

Um tipo de modelo de aprendizado de máquina em que as seguintes condições são verdadeiras:

  • O modelo é linear.
  • A previsão é um valor de ponto flutuante. Essa é a parte de regressão da regressão linear.

Compare a regressão linear com a regressão logística. Além disso, compare a regressão com a classificação.

LIT

Abreviação para a ferramenta de interpretabilidade de aprendizado (LIT), que antes era conhecida como ferramenta de interpretação de linguagem.

LLM

#language
#generativeAI

Abreviação de modelo de linguagem grande.

Avaliações de LLM (avaliações)

#language
#generativeAI

Um conjunto de métricas e comparativos de mercado para avaliar o desempenho de modelos de linguagem grandes (LLMs). De modo geral, as avaliações de LLMs:

  • Ajude os pesquisadores a identificar áreas em que os LLMs precisam de melhorias.
  • São úteis para comparar diferentes LLMs e identificar o melhor LLM para uma tarefa específica.
  • Ajudar a garantir que os LLMs sejam seguros e éticos.

Regressão logística

#fundamentals

Um tipo de modelo de regressão que prevê uma probabilidade. Os modelos de regressão logística têm as seguintes características:

  • O rótulo é categórico. O termo "regressão logística" geralmente se refere à regressão logística binária, ou seja, a um modelo que calcula as probabilidades de rótulos com dois valores possíveis. Uma variante menos comum, a regressão logística multinomial, calcula as probabilidades de rótulos com mais de dois valores possíveis.
  • A função de perda durante o treinamento é Log Loss. Várias unidades de perda de registro podem ser colocadas em paralelo para rótulos com mais de dois valores possíveis.
  • O modelo tem uma arquitetura linear, não uma rede neural profunda. No entanto, o restante desta definição também se aplica a modelos profundos que preveem probabilidades para rótulos categóricos.

Por exemplo, considere um modelo de regressão logística que calcula a probabilidade de um e-mail de entrada ser spam ou não. Durante a inferência, suponha que o modelo prevê 0,72. Portanto, o modelo está estimando:

  • Uma chance de 72% de que o e-mail seja spam.
  • Uma chance de 28% de o e-mail não ser spam.

Um modelo de regressão logística usa a seguinte arquitetura em duas etapas:

  1. O modelo gera uma previsão bruta (y') aplicando uma função linear de atributos de entrada.
  2. O modelo usa essa previsão bruta como entrada para uma função sigmoide, que converte a previsão bruta em um valor entre 0 e 1, exclusivo.

Como qualquer modelo de regressão, um modelo de regressão logística prevê um número. No entanto, esse número geralmente se torna parte de um modelo de classificação binária da seguinte maneira:

  • Se o número previsto for maior do que o limite de classificação, o modelo de classificação binária vai prever a classe positiva.
  • Se o número previsto for menor do que o limite de classificação, o modelo de classificação binária vai prever a classe negativa.

logits

O vetor de previsões brutas (não normalizadas) que um modelo de classificação gera, que normalmente é transmitido para uma função de normalização. Se o modelo estiver resolvendo um problema de classificação multiclasse, os logits geralmente se tornam uma entrada para a função softmax. A função softmax gera um vetor de probabilidades (normalizadas) com um valor para cada classe possível.

Log Perda

#fundamentals

A função de perda usada na regressão logística binária.

log-odds

#fundamentals

O logaritmo das probabilidades de algum evento.

Memória de longo e curto prazo (LSTM)

#seq

Um tipo de célula em uma rede neural recorrente usada para processar sequências de dados em aplicativos como reconhecimento de escrita à mão, tradução automática e legenda de imagens. As LSTMs resolvem o problema de gradiente de desaparecimento que ocorre ao treinar RNNs devido a longas sequências de dados, mantendo o histórico em um estado de memória interna com base em novas entradas e no contexto de células anteriores na RNN.

LoRA

#language
#generativeAI

Abreviação de adaptabilidade de baixa classificação.

perda

#fundamentals

Durante o treinamento de um modelo supervisionado, uma medida de quão distante a previsão de um modelo está do rótulo.

Uma função de perda calcula a perda.

agregador de perdas

Um tipo de algoritmo de machine learning que melhora a performance de um modelo combinando as previsões de vários modelos e usando essas previsões para fazer uma única previsão. Como resultado, um agregador de perdas pode reduzir a variação das previsões e melhorar a precisão delas.

curva de perda

#fundamentals

Um gráfico de perda em função do número de iterações de treinamento. O gráfico a seguir mostra uma curva de perda típica:

Um gráfico cartesiano de perda em relação às iterações de treinamento, mostrando uma
          queda rápida na perda das iterações iniciais, seguida por uma queda
          gradual e, em seguida, uma inclinação plana durante as iterações finais.

As curvas de perda podem ajudar a determinar quando o modelo está convergendo ou com overfitting.

As curvas de perda podem representar todos os seguintes tipos de perda:

Consulte também curva de generalização.

função de perda

#fundamentals

Durante o treinamento ou teste, uma função matemática que calcula a perda em um lote de exemplos. Uma função de perda retorna uma perda menor para modelos que fazem boas previsões do que para modelos que fazem previsões ruins.

O objetivo do treinamento é normalmente minimizar a perda retornada por uma função de perda.

Existem muitos tipos diferentes de funções de perda. Escolha a função de perda adequada para o tipo de modelo que você está criando. Exemplo:

superfície de perda

Um gráfico de peso versus perda. O objetivo da gradiente descendente é encontrar os pesos em que a superfície de perda está em um mínimo local.

Adaptabilidade de baixa classificação (LoRA)

#language
#generativeAI

Uma técnica eficiente em termos de parâmetros para ajuste fino que "congela" os pesos pré-treinados do modelo para que não possam mais ser modificados e, em seguida, insere um pequeno conjunto de pesos treináveis no modelo. Esse conjunto de pesos treináveis (também conhecido como "matrizes de atualização") é consideravelmente menor do que o modelo base e, portanto, é muito mais rápido de treinar.

O LoRA oferece os seguintes benefícios:

  • Melhora a qualidade das previsões de um modelo para o domínio em que o ajuste fino é aplicado.
  • Faz ajustes mais rápidos do que técnicas que exigem ajustes em todos os parâmetros de um modelo.
  • Reduz o custo computacional da inferência ao permitir a veiculação simultânea de vários modelos especializados que compartilham o mesmo modelo de base.

LSTM

#seq

Abreviação de memória de curto prazo longa.

M

machine learning

#fundamentals

Um programa ou sistema que treina um modelo com base nos dados de entrada. O modelo treinado pode fazer previsões úteis com dados novos (nunca acessados) coletados da mesma distribuição usada para treinar o modelo.

O aprendizado de máquina também se refere ao campo de estudo relacionado a esses programas ou sistemas.

tradução automática

#generativeAI

Usar um software (geralmente, um modelo de machine learning) para converter texto de um idioma para outro, por exemplo, do inglês para o japonês.

classe majoritária

#fundamentals

O rótulo mais comum em um conjunto de dados não balanceado. Por exemplo, considerando um conjunto de dados com 99% de rótulos negativos e 1% de rótulos positivos, os rótulos negativos são a classe majoritária.

Contraste com a classe minoritária.

Processo de decisão de Markov (MDP)

#rl

Um gráfico que representa o modelo de tomada de decisão em que decisões (ou ações) são tomadas para navegar em uma sequência de estados com a suposição de que a propriedade de Markov é válida. No aprendizado por reforço, essas transições entre estados retornam uma recompensa numérica.

Propriedade de Markov

#rl

Uma propriedade de determinados ambientes, em que as transições de estado são totalmente determinadas por informações implícitas no estado atual e a ação do agente.

modelo de linguagem mascarada

#language

Um modelo de linguagem que prevê a probabilidade de tokens candidatos preencherem espaços em branco em uma sequência. Por exemplo, um modelo de linguagem mascarado pode calcular as probabilidades de palavras candidatas para substituir o sublinhado na seguinte frase:

O ____ no chapéu voltou.

A documentação geralmente usa a string "MASK" em vez de sublinhado. Exemplo:

A "MÁSCARA" no chapéu voltou.

A maioria dos modelos de linguagem mascarados modernos são bidirecionais.

matplotlib

Uma biblioteca de plotagem 2D de Python de código aberto. O matplotlib ajuda a visualizar diferentes aspectos do aprendizado de máquina.

fatoração de matrizes

#recsystems

Na matemática, um mecanismo para encontrar as matrizes cujo produto escalar se aproxima de uma matriz de destino.

Em sistemas de recomendação, a matriz de destino muitas vezes contém as classificações dos usuários em itens. Por exemplo, a matriz de destino de um sistema de recomendação de filmes pode ser semelhante a esta, em que os números positivos são classificações do usuário e 0 significa que o usuário não classificou o filme:

  Casablanca A história de Filadélfia Pantera Negra Mulher-Maravilha Pulp Fiction
Usuário 1 5.0 3.0 0,0 2,0 0,0
Usuário 2 4.0 0,0 0,0 1,0 5.0
Usuário 3 3.0 1,0 4.0 5.0 0,0

O sistema de recomendação de filmes tem como objetivo prever as classificações dos usuários para filmes sem classificação. Por exemplo, o usuário 1 vai gostar de Pantera Negra?

Uma abordagem para sistemas de recomendação é usar a fatoração de matrizes para gerar as duas matrizes a seguir:

  • Uma matriz de usuários, formada pelo número de usuários X o número de dimensões de inserção.
  • Uma matriz de itens, moldada como o número de dimensões de embedding X o número de itens.

Por exemplo, usar a fatoração de matrizes em três usuários e cinco itens pode gerar a seguinte matriz de usuários e de itens:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

O produto escalar da matriz de usuários e da matriz de itens gera uma matriz de recomendações que contém não apenas as classificações originais do usuário, mas também previsões dos filmes que cada usuário não assistiu. Por exemplo, considere a nota do usuário 1 para Casablanca, que foi 5,0. O produto de ponto correspondente a essa célula na matriz de recomendação deve ser de aproximadamente 5, 0 e é:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Mais importante, o Usuário 1 vai gostar de Pantera Negra? O produto escalar correspondente à primeira linha e à terceira coluna gera uma classificação previsivelmente de 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

A fatoração de matrizes geralmente gera uma matriz de usuários e uma matriz de itens que, juntas, são significativamente mais compactas do que a matriz de destino.

Erro médio absoluto (MAE)

A perda média por exemplo quando a perda L1 é usada. Calcule o erro absoluto médio da seguinte maneira:

  1. Calcule a perda de L1 para um lote.
  2. Divida a perda de L1 pelo número de exemplos no lote.

Por exemplo, considere o cálculo da perda de L1 no seguinte lote de cinco exemplos:

Valor real do exemplo Valor previsto do modelo Perda (diferença entre o real e o previsto)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perda L1

Portanto, a perda de L1 é 8 e o número de exemplos é 5. Portanto, o erro absoluto médio é:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Compare o erro médio absoluto com o erro quadrático médio e o raiz do erro quadrático médio.

Precisão média em k (mAP@k)

#language
#generativeAI

A média estatística de todas as pontuações de precisão média em k em um conjunto de dados de validação. Um uso da precisão média em k é para julgar a qualidade das recomendações geradas por um sistema de recomendação.

Embora a frase "média da média" pareça redundante, o nome da métrica é apropriado. Afinal, essa métrica encontra a média de vários valores de precisão média em k.

Erro quadrático médio (EQM)

A perda média por exemplo quando a perda L2 é usada. Calcule o erro quadrático médio da seguinte maneira:

  1. Calcule a perda de L2 para um lote.
  2. Divida a perda L2 pelo número de exemplos no lote.

Por exemplo, considere a perda no seguinte lote de cinco exemplos:

Valor real Previsão do modelo Perda Perda quadrática
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = perda L2

Portanto, o erro quadrático médio é:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

O erro quadrático médio é um otimizador de treinamento conhecido, principalmente para regressão linear.

Compare o erro quadrático médio com o erro médio absoluto e o raiz do erro quadrático médio.

O TensorFlow Playground usa o erro quadrático médio para calcular os valores de perda.

malha

#TensorFlow
#GoogleCloud

Na programação paralela de ML, um termo associado à atribuição dos dados e do modelo a chips TPU e à definição de como esses valores serão divididos ou replicados.

"Mesh" é um termo sobrecarregado que pode significar uma das seguintes opções:

  • Um layout físico de chips de TPU.
  • Um construto lógico abstrato para mapear os dados e o modelo para os chips TPU.

Em ambos os casos, uma malha é especificada como uma forma.

metaaprendizagem

#language

Um subconjunto de machine learning que descobre ou melhora um algoritmo de aprendizado. Um sistema de metaaprendizagem também pode ter como objetivo treinar um modelo para aprender rapidamente uma nova tarefa com uma pequena quantidade de dados ou com a experiência adquirida em tarefas anteriores. Os algoritmos de metaaprendizado geralmente tentam alcançar o seguinte:

  • Melhore ou aprenda recursos criados manualmente, como um inicializador ou um otimizador.
  • Seja mais eficiente em dados e computação.
  • Melhorar a generalização.

O metaaprendizado está relacionado ao aprendizado de poucas imagens.

métrica

#TensorFlow

Uma estatística importante para você.

Um objetivo é uma métrica que um sistema de aprendizado de máquina tenta otimizar.

API Metrics (tf.metrics)

Uma API do TensorFlow para avaliar modelos. Por exemplo, tf.metrics.accuracy determina com que frequência as previsões de um modelo correspondem aos rótulos.

minilote

#fundamentals

Um subconjunto pequeno e selecionado aleatoriamente de um lote processado em uma iteração. O tamanho do lote de um minilote geralmente fica entre 10 e 1.000 exemplos.

Por exemplo, suponha que todo o conjunto de treinamento (o lote completo) consista de 1.000 exemplos. Suponha também que você defina o tamanho do lote de cada minilote como 20. Portanto, cada iteração determina a perda em 20 dos 1.000 exemplos aleatórios e, em seguida, ajusta os pesos e viés.

É muito mais eficiente calcular a perda em um minilote do que a perda em todos os exemplos do lote completo.

gradiente descendente estocástico com minilotes

Um algoritmo de gradiente descendente que usa minilotes. Em outras palavras, o gradiente descendente estocástico com minilotes estima o gradiente com base em um pequeno subconjunto dos dados de treinamento. O gradiente descendente estocástico normal usa um minilote de tamanho 1.

perda minimax

Uma função de perda para redes generativas adversariais, com base na entropia cruzada entre a distribuição de dados gerados e dados reais.

A perda minimax é usada no primeiro artigo para descrever redes generativas conflitivas.

classe minoritária

#fundamentals

O rótulo menos comum em um conjunto de dados com classes desequilibradas. Por exemplo, considerando um conjunto de dados com 99% de rótulos negativos e 1% de rótulos positivos, os rótulos positivos são a classe minoritária.

Contraste com a classe de maioria.

mistura de especialistas

#language
#generativeAI

Um esquema para aumentar a eficiência da rede neural usando apenas um subconjunto de parâmetros (conhecido como expert) para processar um determinado token de entrada ou exemplo. Uma rede de restrição encaminha cada token de entrada ou exemplo para o especialista adequado.

Para mais detalhes, consulte um dos seguintes documentos:

ML

Abreviação de machine learning.

MMIT

#language
#image
#generativeAI

Abreviação de multimodal instruction-tuned.

MNIST

#image

Um conjunto de dados de domínio público compilado por LeCun, Cortes e Burges contendo 60.000 imagens, cada uma mostrando como um humano escreveu manualmente um dígito específico de 0 a 9. Cada imagem é armazenada como uma matriz de 28 x 28 de números inteiros, em que cada número inteiro é um valor de escala de cinza entre 0 e 255.

O MNIST é um conjunto de dados canônico para machine learning, frequentemente usado para testar novas abordagens de machine learning. Para mais detalhes, consulte O banco de dados MNIST de dígitos manuscritos.

modality

#language

Uma categoria de dados de alto nível. Por exemplo, números, texto, imagens, vídeo e áudio são cinco modalidades diferentes.

modelo

#fundamentals

Em geral, qualquer construção matemática que processa dados de entrada e retorna a saída. Em outras palavras, um modelo é o conjunto de parâmetros e estrutura necessário para que um sistema faça previsões. No machine learning supervisionado, um modelo usa um exemplo como entrada e infere uma previsão como saída. No aprendizado de máquina supervisionado, os modelos são um pouco diferentes. Exemplo:

  • Um modelo de regressão linear consiste em um conjunto de pesos e uma polarização.
  • Um modelo de rede neural consiste em:
  • Um modelo de árvore de decisão consiste em:
    • A forma da árvore, ou seja, o padrão em que as condições e as folhas estão conectadas.
    • As condições e as folhas.

Você pode salvar, restaurar ou fazer cópias de um modelo.

O aprendizado de máquina não supervisionado também gera modelos, normalmente uma função que pode mapear um exemplo de entrada para o cluster mais adequado.

capacidade do modelo

A complexidade dos problemas que um modelo pode aprender. Quanto mais complexos os problemas que um modelo pode aprender, maior é a capacidade dele. A capacidade de um modelo normalmente aumenta com o número de parâmetros do modelo. Para uma definição formal da capacidade do classificador, consulte Dimensão de VC.

modelo em cascata

#generativeAI

Um sistema que escolhe o modelo ideal para uma consulta de inferência específica.

Imagine um grupo de modelos, variando de muito grandes (muitos parâmetros) a muito menores (muito menos parâmetros). Modelos muito grandes consomem mais recursos computacionais no momento da inferência do que modelos menores. No entanto, modelos muito grandes geralmente podem inferir solicitações mais complexas do que modelos menores. A cascata de modelos determina a complexidade da consulta de inferência e, em seguida, escolhe o modelo apropriado para realizar a inferência. A principal motivação para a cascata de modelos é reduzir os custos de inferência, geralmente selecionando modelos menores e apenas selecionando um modelo maior para consultas mais complexas.

Imagine que um modelo pequeno seja executado em um smartphone e uma versão maior dele seja executada em um servidor remoto. Uma boa cascata de modelos reduz o custo e a latência, permitindo que o modelo menor processe solicitações simples e chamando apenas o modelo remoto para processar solicitações complexas.

Consulte também model router.

modelo de paralelismo

#language

Uma forma de dimensionar o treinamento ou a inferência que coloca diferentes partes de um modelo em diferentes dispositivos. O paralelismo de modelos permite modelos grandes demais para caber em um único dispositivo.

Para implementar o paralelismo de modelo, um sistema geralmente faz o seguinte:

  1. Fragmenta (divide) o modelo em partes menores.
  2. Distribui o treinamento dessas partes menores em vários processadores. Cada processador treina a própria parte do modelo.
  3. Combina os resultados para criar um único modelo.

O paralelismo de modelos atrasa o treinamento.

Consulte também paralelismo de dados.

roteador de modelo

#generativeAI

O algoritmo que determina o modelo ideal para inferência na cascata de modelos. Um roteador de modelo é geralmente um modelo de aprendizado de máquina que aprende gradualmente a escolher o melhor modelo para uma determinada entrada. No entanto, um roteador de modelo às vezes pode ser um algoritmo mais simples, sem machine learning.

treinamento de modelo

O processo de determinação do melhor modelo.

MOE

#language
#image
#generativeAI

Abreviação de mistura de especialistas.

Momentum

Um algoritmo de gradiente descendente sofisticado em que uma etapa de aprendizado depende não apenas da derivada na etapa atual, mas também das derivadas das etapas imediatamente anteriores. O momento linear envolve o cálculo de uma média móvel exponencialmente ponderada dos gradientes ao longo do tempo, de forma análoga ao momento linear na física. Às vezes, o Momentum impede que o aprendizado fique preso em mínimos locais.

MT

#generativeAI

Abreviação de tradução automática.

classificação multiclasse

#fundamentals

No aprendizado supervisionado, um problema de classificação em que o conjunto de dados contém mais de duas classes de rótulos. Por exemplo, os rótulos no conjunto de dados Iris precisam ser uma das três classes a seguir:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Um modelo treinado no conjunto de dados Iris que prevê o tipo de íris em novos exemplos está realizando a classificação multiclasse.

Por outro lado, os problemas de classificação que distinguem exatamente duas classes são modelos de classificação binária. Por exemplo, um modelo de e-mail que prevê spam ou não spam é um modelo de classificação binária.

Em problemas de agrupamento, a classificação multiclasse se refere a mais de dois clusters.

Regressão logística multiclasse

Usar regressão logística em problemas de classificação multiclasse.

autoatenção multicabeça

#language

Uma extensão da auto-atenção que aplica o mecanismo de auto-atenção várias vezes para cada posição na sequência de entrada.

Transformers introduziu a autoatenção com várias cabeças.

Ajuste por instruções multimodais

#language

Um modelo sintonizado por instruções que pode processar entradas além de texto, como imagens, vídeo e áudio.

modelo multimodal

#language

Um modelo em que as entradas e/ou saídas incluem mais de uma modalidade. Por exemplo, considere um modelo que usa uma imagem e uma legenda de texto (duas modalidades) como features e exibe uma pontuação indicando o quanto a legenda de texto é apropriada para a imagem. As entradas desse modelo são multimodais, e a saída é unimodal.

classificação multinomial

Sinônimo de classificação multiclasse.

Regressão multinomial

Sinônimo de regressão logística multiclasse.

multitarefa

Uma técnica de machine learning em que um único modelo é treinado para realizar várias tarefas.

Os modelos multitarefa são criados com base em dados adequados para cada uma das diferentes tarefas. Isso permite que o modelo aprenda a compartilhar informações entre as tarefas, o que ajuda o modelo a aprender de maneira mais eficaz.

Um modelo treinado para várias tarefas geralmente tem habilidades de generalização aprimoradas e pode ser mais robusto no processamento de diferentes tipos de dados.

N

Armadilha do NaN

Quando um número no modelo se torna um NaN durante o treinamento, o que faz com que muitos ou todos os outros números no modelo se tornem NaN.

NaN é uma abreviação de Não uma Número.

processamento de linguagem natural

#language
O campo de ensino de computadores para processar o que um usuário disse ou digitou usando regras linguísticas. Quase todo processamento de linguagem natural moderno depende do machine learning.

processamento de linguagem natural

#language

Um subconjunto de processamento de linguagem natural que determina as intenções de algo dito ou digitado. A compreensão de linguagem natural pode ir além do processamento de linguagem natural para considerar aspectos complexos da linguagem, como contexto, sarcasmo e sentimento.

classe negativa

#fundamentals

Na classificação binária, uma classe é chamada de positiva e a outra é negativa. A classe positiva é a coisa ou o evento que o modelo está testando, e a classe negativa é a outra possibilidade. Exemplo:

  • A classe negativa em um teste médico pode ser "não tumor".
  • A classe negativa em um classificador de e-mails pode ser "não spam".

Contraste com a classe positiva.

amostragem negativa

Sinônimo de amostragem de candidatos.

Pesquisa de arquitetura neural (NAS)

Uma técnica para projetar automaticamente a arquitetura de uma rede neural. Os algoritmos de NAS podem reduzir a quantidade de tempo e recursos necessários para treinar uma rede neural.

O NAS normalmente usa:

  • Um espaço de pesquisa, que é um conjunto de arquiteturas possíveis.
  • Uma função de adequação, que é uma medida de quão bem uma arquitetura específica se sai em uma determinada tarefa.

Os algoritmos NAS geralmente começam com um pequeno conjunto de arquiteturas possíveis e expandem gradualmente o espaço de pesquisa à medida que o algoritmo aprende mais sobre quais arquiteturas são eficazes. A função de adequação geralmente é baseada no desempenho da arquitetura em um conjunto de treinamento, e o algoritmo é normalmente treinado usando uma técnica de aprendizado por reforço.

Os algoritmos de NAS provaram ser eficazes na descoberta de arquiteturas de alto desempenho para várias tarefas, incluindo a classificação de imagens, a classificação de texto e a tradução automática.

do feedforward

#fundamentals

Um modelo contendo pelo menos uma camada oculta. Uma rede neural profunda é um tipo de rede neural que contém mais de uma camada oculta. Por exemplo, o diagrama a seguir mostra uma rede neural profunda contendo duas camadas ocultas.

Uma rede neural com uma camada de entrada, duas camadas escondidas e uma
          camada de saída.

Cada neurônio de uma rede neural se conecta a todos os nós da próxima camada. Por exemplo, no diagrama anterior, observe que cada um dos três neurônios na primeira camada oculta se conecta separadamente aos dois neurônios na segunda camada oculta.

As redes neurais implementadas em computadores às vezes são chamadas de redes neurais artificiais para diferenciá-las das redes neurais encontradas no cérebro e em outros sistemas nervosos.

Algumas redes neurais podem imitar relações não lineares extremamente complexas entre diferentes recursos e o rótulo.

Consulte também rede neural convolucional e rede neural recorrente.

neurônio

#fundamentals

No aprendizado de máquina, uma unidade distinta em uma camada oculta de uma rede neural. Cada neurônio executa a seguinte ação em duas etapas:

  1. Calcula a soma ponderada dos valores de entrada multiplicados pelos pesos correspondentes.
  2. Transmite a soma ponderada como entrada para uma função de ativação.

Um neurônio na primeira camada oculta aceita entradas dos valores de atributos na camada de entrada. Um neurônio em qualquer camada oculta além da primeira aceita entradas dos neurônios na camada oculta anterior. Por exemplo, um neurônio na segunda camada oculta aceita entradas dos neurônios na primeira camada oculta.

A ilustração a seguir destaca dois neurônios e as respectivas entradas.

Uma rede neural com uma camada de entrada, duas camadas escondidas e uma
          camada de saída. Dois neurônios são destacados: um na primeira
          camada oculta e outro na segunda. O neurônio
          destacado na primeira camada oculta recebe entradas dos dois elementos
          na camada de entrada. O neurônio destacado na segunda camada oculta
          recebe entradas de cada um dos três neurônios na primeira camada
          oculta.

Um neurônio em uma rede neural imita o comportamento de neurônios no cérebro e em outras partes do sistema nervoso.

N-gram

#seq
#language

Uma sequência ordenada de N palavras. Por exemplo, truly madly é um bigrama. Como a ordem é relevante, madly truly é um bigrama diferente de truly madly.

N Nome(s) para esse tipo de n-grama Exemplos
2 bigram ou bigrama to go, go to, eat lunch, eat dinner
3 trigrama ou trigrama comeu demais, três ratinhos cegos, a campainha toca
4 4 gramas walk in the park, dust in the wind, the boy ate lentils

Muitos modelos de processamento de linguagem natural dependem de N-gramas para prever a próxima palavra que o usuário vai digitar ou dizer. Por exemplo, suponha que um usuário digitou three blind. Um modelo PLN baseado em trigramas provavelmente vai prever que o usuário vai digitar mice em seguida.

Compare os n-gramas com a bolsa de palavras, que são conjuntos não ordenados de palavras.

PLN

#language

Abreviação de processamento de linguagem natural.

PLN

#language

Abreviação de compreensão de linguagem natural.

nó (árvore de decisão)

#df

Em uma árvore de decisão, qualquer condição ou folha.

Uma árvore de decisão com duas condições e três folhas.

nó (rede neural)

#fundamentals

Um neurônio em uma camada escondida.

nó (gráfico do TensorFlow)

#TensorFlow

Uma operação em um gráfico do TensorFlow.

ruído

De modo geral, qualquer coisa que obscurece o sinal em um conjunto de dados. O ruído pode ser introduzido nos dados de várias maneiras. Exemplo:

  • Os avaliadores humanos cometem erros na rotulagem.
  • Pessoas e instrumentos registram incorretamente ou omitem valores de recursos.

condição não binária

#df

Uma condição com mais de dois resultados possíveis. Por exemplo, a condição não binária a seguir contém três resultados possíveis:

Uma condição (number_of_legs = ?) que leva a três resultados possíveis. Um resultado (number_of_legs = 8) leva a uma folha
          chamada aranha. Um segundo resultado (number_of_legs = 4) leva a
          uma folha chamada &quot;dog&quot;. Um terceiro resultado (number_of_legs = 2) leva a
          uma folha chamada pinguim.

não linear

#fundamentals

Uma relação entre duas ou mais variáveis que não pode ser representada apenas por adição e multiplicação. Uma relação linear pode ser representada como uma linha. Uma relação não linear não pode ser representada como uma linha. Por exemplo, considere dois modelos que relacionam um único recurso a um único rótulo. O modelo à esquerda é linear, e o da direita é não linear:

Duas parcelas. Um gráfico é uma linha, então essa é uma relação linear.
          O outro gráfico é uma curva, então essa é uma relação não linear.

viés de não resposta

#fairness

Consulte viés de seleção.

não estacionariedade

#fundamentals

Um recurso cujos valores mudam em uma ou mais dimensões, geralmente tempo. Por exemplo, considere os seguintes exemplos de não estacionariedades:

  • O número de maiôs vendidos em uma loja específica varia de acordo com a estação.
  • A quantidade de uma fruta específica colhida em uma região específica é zero durante grande parte do ano, mas é grande por um breve período.
  • Devido às mudanças climáticas, as temperaturas médias anuais estão mudando.

Contraste com a estabilidade.

nenhuma resposta certa (NORA)

#language
#generativeAI

Um comando com várias respostas adequadas. Por exemplo, o comando a seguir não tem uma resposta certa:

Conte uma piada sobre elefantes.

Avaliar comandos sem uma resposta certa pode ser um desafio.

NORA

#language
#generativeAI

Abreviação de não há uma resposta certa.

normalização

#fundamentals

De modo geral, o processo de conversão do intervalo real de valores de uma variável em um intervalo padrão de valores, como:

  • -1 a +1
  • 0 a 1
  • Valores Z (aproximadamente -3 a +3)

Por exemplo, suponha que o intervalo real de valores de um determinado recurso seja 800 a 2.400. Como parte da engenharia de recursos, é possível normalizar os valores reais para um intervalo padrão, como -1 a +1.

A normalização é uma tarefa comum em engenharia de recursos. Os modelos geralmente são treinados mais rapidamente (e produzem previsões melhores) quando cada atributo numérico no vetor de atributos tem aproximadamente o mesmo intervalo.

Consulte o módulo "Como trabalhar com dados numéricos" do Curso intensivo de machine learning para mais detalhes. Consulte também Normalização de Z-score.

detecção de novidades

O processo de determinação se um novo exemplo (novo) vem da mesma distribuição do conjunto de treinamento. Em outras palavras, após o treinamento no conjunto de treinamento, a detecção de novidades determina se um exemplo novo (durante a inferência ou durante o treinamento adicional) é um outlier.

Compare com a detecção de outliers.

dados numéricos

#fundamentals

Recursos representados como números inteiros ou reais. Por exemplo, um modelo de avaliação de imóveis provavelmente representa o tamanho de uma casa (em metros quadrados ou pés quadrados) como dados numéricos. A representação de um elemento como dados numéricos indica que os valores do elemento têm uma relação matemática com o rótulo. Ou seja, o número de metros quadrados em uma casa provavelmente tem alguma relação matemática com o valor da casa.

Nem todos os dados inteiros precisam ser representados como dados numéricos. Por exemplo, códigos postais em algumas partes do mundo são inteiros. No entanto, códigos postais inteiros não podem ser representados como dados numéricos em modelos. Isso ocorre porque um código postal de 20000 não é duas vezes (ou metade) mais potente que um código postal de 10000. Além disso, embora diferentes códigos postais se correlacionem a diferentes valores imobiliários, não podemos presumir que os valores imobiliários no código postal 20000 são duas vezes mais valiosos do que os valores imobiliários no código postal 10000. Os códigos postais precisam ser representados como dados categóricos.

Às vezes, os recursos numéricos são chamados de recursos contínuos.

NumPy

Uma biblioteca matemática de código aberto que oferece operações de matriz eficientes em Python. O pandas é baseado no NumPy.

O

objetivo

Uma métrica que o algoritmo está tentando otimizar.

função objetiva

A fórmula matemática ou métrica que um modelo visa otimizar. Por exemplo, a função objetiva de regressão linear geralmente é perda quadrática média. Portanto, ao treinar um modelo de regressão linear, o objetivo é minimizar a perda média quadrática.

Em alguns casos, o objetivo é maximizar a função objetiva. Por exemplo, se a função objetiva for a precisão, o objetivo será maximizar a precisão.

Consulte também loss.

condição oblíqua

#df

Em uma árvore de decisão, uma condição que envolve mais de um recurso. Por exemplo, se altura e largura forem recursos, a condição oblíqua será a seguinte:

  height > width

Compare com a condição alinhada ao eixo.

off-line

#fundamentals

Sinônimo de static.

inferência off-line

#fundamentals

O processo de um modelo gerar um lote de previsões e armazenar essas previsões em cache. Os apps podem acessar a previsão inferida do cache em vez de executar o modelo novamente.

Por exemplo, considere um modelo que gera previsões meteorológicas locais (previsões) uma vez a cada quatro horas. Após cada execução do modelo, o sistema armazena em cache todas as previsões do tempo locais. Os apps de clima extraem as previsões do cache.

A inferência off-line também é chamada de inferência estática.

Compare com a inferência on-line.

codificação one-hot

#fundamentals

Representação de dados categóricos como um vetor em que:

  • Um elemento está definido como 1.
  • Todos os outros elementos são definidos como 0.

A codificação simples é comumente usada para representar strings ou identificadores que têm um conjunto finito de valores possíveis. Por exemplo, suponha que um recurso categórico chamado Scandinavia tenha cinco valores possíveis:

  • "Dinamarca"
  • "Suécia"
  • "Noruega"
  • "Finlândia"
  • "Islândia"

A codificação One-hot pode representar cada um dos cinco valores da seguinte maneira:

país Vetor
"Dinamarca" 1 0 0 0 0
"Suécia" 0 1 0 0 0
"Noruega" 0 0 1 0 0
"Finlândia" 0 0 0 1 0
"Islândia" 0 0 0 0 1

Graças à codificação one-hot, um modelo pode aprender conexões diferentes com base em cada um dos cinco países.

Representar um atributo como dados numéricos é uma alternativa à codificação one-hot. Infelizmente, representar os países escandinavos numericamente não é uma boa escolha. Por exemplo, considere a seguinte representação numérica:

  • "Dinamarca" é 0
  • "Suécia" é 1
  • "Norway" é 2
  • "Finlândia" é 3
  • "Iceland" é 4

Com a codificação numérica, um modelo interpreta os números brutos de maneira matemática e tenta treinar com esses números. No entanto, a Islândia não é duas vezes maior (ou metade) de algo como a Noruega, então o modelo chegaria a algumas conclusões estranhas.

aprendizado one-shot

Uma abordagem de aprendizado de máquina, usada com frequência para classificação de objetos, projetada para aprender classificadores eficazes com um único exemplo de treinamento.

Consulte também aprendizado de poucas imagens e aprendizado zero-shot.

comando one-shot

#language
#generativeAI

Um comando que contém um exemplo demonstrando como o modelo de linguagem grande deve responder. Por exemplo, o comando a seguir contém um exemplo que mostra a um modelo de linguagem grande como responder a uma consulta.

Partes de uma instrução Observações
Qual é a moeda oficial do país especificado? A pergunta que você quer que o LLM responda.
França: EUR Um exemplo.
Índia: A consulta real.

Compare e contraste a solicitação única com os seguintes termos:

um-contra-todos

#fundamentals

Dado um problema de classificação com N classes, uma solução consiste em N classificadores binários separados, um para cada resultado possível. Por exemplo, dado um modelo que classifica exemplos como animal, vegetal ou mineral, uma solução um-contra-todos forneceria os seguintes três classificadores binários separados:

  • animal versus não animal
  • vegetal versus não vegetal
  • mineral versus não mineral

on-line

#fundamentals

Sinônimo de dinâmico.

inferência on-line

#fundamentals

Geração de previsões sob demanda. Por exemplo, suponha que um app transmita uma entrada para um modelo e emita uma solicitação para uma previsão. Um sistema que usa a inferência on-line responde à solicitação executando o modelo (e retornando a previsão para o app).

Compare com a inferência off-line.

operação (op)

#TensorFlow

No TensorFlow, qualquer procedimento que crie, manipula ou destrua um Tensor. Por exemplo, uma multiplicação de matriz é uma operação que usa dois Tensors como entrada e gera um Tensor como saída.

Optax

Uma biblioteca de processamento e otimização de gradiente para JAX. O Optax facilita a pesquisa fornecendo elementos básicos que podem ser recombinados de maneiras personalizadas para otimizar modelos paramétricos, como redes neurais profundas. Outras metas incluem:

  • Fornecer implementações legíveis, bem testadas e eficientes de componentes principais.
  • Melhora a produtividade, permitindo combinar ingredientes de baixo nível em otimizadores personalizados (ou outros componentes de processamento de gradiente).
  • Acelerar a adoção de novas ideias, facilitando a contribuição de qualquer pessoa.

optimizer

Uma implementação específica do algoritmo de gradiente descendente. Os otimizadores mais usados são:

  • AdaGrad, que significa ADAptive GRADient descent.
  • Adam, que significa ADAptive with Momentum.

viés de homogeneidade externa ao grupo

#fairness

A tendência de considerar os membros externos ao grupo mais semelhantes do que os membros do grupo ao comparar atitudes, valores, traços de personalidade e outras características. In-group se refere a pessoas com quem você interage regularmente. Out-group se refere a pessoas com quem você não interage regularmente. Se você criar um conjunto de dados pedindo às pessoas para fornecer atributos sobre grupos externos, esses atributos podem ser menos sutis e mais estereotipados do que os atributos que os participantes listam para pessoas no grupo interno.

Por exemplo, os liliputianos podem descrever as casas de outros liliputianos em detalhes, citando pequenas diferenças em estilos arquitetônicos, janelas, portas e tamanhos. No entanto, os mesmos liliputianos podem simplesmente declarar que todos os brobdingnagianos vivem em casas idênticas.

O viés de homogeneidade externa ao grupo é uma forma de viés de atribuição a grupos.

Consulte também viés de grupo.

Detecção de outliers

O processo de identificar valores atípicos em um conjunto de treinamento.

Compare com a detecção de novidade.

as exceções

Valores distantes da maioria dos outros valores. No machine learning, qualquer um dos seguintes é um outlier:

  • Dados de entrada cujos valores estão a mais de três desvios padrão da média.
  • Ponderações com valores absolutos altos.
  • Valores previstos relativamente distantes dos valores reais.

Por exemplo, suponha que widget-price seja um recurso de um determinado modelo. Suponha que a média de widget-price seja 7 euros com um desvio padrão de 1 euro. Exemplos com um widget-price de 12 ou 2 euros seriam considerados valores discrepantes porque cada um desses preços está cinco desvios padrão da média.

Os valores discrepantes geralmente são causados por erros de digitação ou outros erros de entrada. Em outros casos, os valores discrepantes não são erros. Afinal, valores com cinco desvios padrão da média são raros, mas não impossíveis.

Os valores atípicos geralmente causam problemas no treinamento do modelo. Recorte é uma maneira de gerenciar valores discrepantes.

avaliação fora da embalagem (OOB)

#df

Um mecanismo para avaliar a qualidade de uma floresta de decisões testando cada árvore de decisão em relação aos exemplos não usados durante o treinamento dessa árvore de decisão. Por exemplo, no diagrama abaixo, observe que o sistema treina cada árvore de decisão em cerca de dois terços dos exemplos e, em seguida, avalia o terço restante dos exemplos.

Uma floresta de decisão composta por três árvores de decisão.
          Uma árvore de decisão é treinada com dois terços dos exemplos
          e, em seguida, usa o terço restante para a avaliação OOB.
          Uma segunda árvore de decisão é treinada com dois terços
          diferentes dos exemplos em relação à árvore de decisão anterior e, em seguida,
          usa um terço diferente para a avaliação OOB em relação à
          árvore de decisão anterior.

A avaliação fora da embalagem é uma aproximação computacionalmente eficiente e conservadora do mecanismo de validação cruzada. Na validação cruzada, um modelo é treinado para cada rodada de validação cruzada. Por exemplo, 10 modelos são treinados em uma validação cruzada de 10 vezes. Com a avaliação fora da caixa, um único modelo é treinado. Como o bagging retém alguns dados de cada árvore durante o treinamento, a avaliação OOB pode usar esses dados para aproximar a validação cruzada.

camada final

#fundamentals

A camada "final" de uma rede neural. A camada de saída contém a previsão.

A ilustração a seguir mostra uma pequena rede neural profunda com uma camada de entrada, duas camadas ocultas e uma camada de saída:

Uma rede neural com uma camada de entrada, duas camadas ocultas e uma
          camada de saída. A camada de entrada consiste em dois elementos. A primeira camada oculta consiste em três neurônios, e a segunda camada oculta consiste em dois neurônios. A camada de saída consiste em um único nó.

overfitting

#fundamentals

Criar um modelo que corresponda aos dados de treinamento de forma tão precisa que o modelo não consiga fazer previsões corretas em novos dados.

A regularização pode reduzir o ajuste excessivo. O treinamento em um conjunto de treinamento grande e diversificado também pode reduzir o overfitting.

superamostragem

Reutilizar os exemplos de uma classe minoritária em um conjunto de dados não balanceado para criar um conjunto de treinamento mais equilibrado.

Por exemplo, considere um problema de classificação binária em que a proporção da classe majoritária para a minoritária é 5.000:1. Se o conjunto de dados tiver um milhão de exemplos, ele terá apenas cerca de 200 exemplos da classe minoritária, o que pode ser muito pouco para um treinamento eficaz. Para superar essa deficiência, você pode fazer uma amostragem excessiva (reutilização) desses 200 exemplos várias vezes, possivelmente gerando exemplos suficientes para um treinamento útil.

É preciso ter cuidado com a overfitting ao fazer a amostragem excessiva.

Compare com a amostragem insuficiente.

P

dados compactados

Uma abordagem para armazenar dados com mais eficiência.

Os dados compactados armazenam dados usando um formato compactado ou de outra forma que permita o acesso mais eficiente. Os dados compactados minimizam a quantidade de memória e computação necessária para acessar, o que resulta em um treinamento mais rápido e uma inferência de modelo mais eficiente.

Os dados compactados geralmente são usados com outras técnicas, como aumento de dados e regularização, melhorando ainda mais a performance dos modelos.

pandas

#fundamentals

Uma API de análise de dados orientada por colunas criada com base em numpy. Muitos frameworks de aprendizado de máquina, incluindo o TensorFlow, oferecem suporte a estruturas de dados do Pandas como entradas. Consulte a documentação do pandas para saber mais.

parâmetro

#fundamentals

Os pesos e vieses que um modelo aprende durante o treinamento. Por exemplo, em um modelo de regressão linear, os parâmetros consistem na viés (b) e em todos os pesos (w1, w2 e assim por diante) na seguinte fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Por outro lado, hiperparâmetro são os valores que você (ou um serviço de ajuste de hiperparâmetros) fornece ao modelo. Por exemplo, a taxa de aprendizado é um hiperparâmetro.

ajuste da eficiência dos parâmetros

#language
#generativeAI

Um conjunto de técnicas para ajustar um modelo de linguagem grande pré-treinado (PLM) de maneira mais eficiente do que o ajuste completo. O ajuste com eficiência de parâmetros normalmente ajusta com eficiência muito menos parâmetros do que o ajuste fino completo, mas geralmente produz um modelo de linguagem grande que tem o mesmo desempenho (ou quase o mesmo) de um modelo de linguagem grande criado com o ajuste fino completo.

Compare o ajuste da eficiência dos parâmetros com:

O ajuste com eficiência de parâmetros também é conhecido como ajuste fino com eficiência de parâmetros.

Servidor de parâmetros (PS, na sigla em inglês)

#TensorFlow

Um job que rastreia os parâmetros de um modelo em uma configuração distribuída.

atualização de parâmetro

A operação de ajuste dos parâmetros de um modelo durante o treinamento, normalmente em uma única iteração de gradiente descendente.

derivada parcial

Derivada em que todas as variáveis, exceto uma, são consideradas constantes. Por exemplo, a derivada parcial de f(x, y) em relação a x é a derivada de f considerada como uma função de x (ou seja, mantendo y constante). A derivada parcial de f em relação a x se concentra apenas em como x está mudando e ignora todas as outras variáveis na equação.

viés de participação

#fairness

Sinônimo de viés de não resposta. Consulte viés de seleção.

estratégia de partição

O algoritmo em que as variáveis são divididas entre servidores de parâmetros.

cartão em k (pass@k)

Uma métrica para determinar a qualidade do código (por exemplo, Python) que um modelo de linguagem grande gera. Mais especificamente, a passagem em k informa a probabilidade de pelo menos um bloco de código gerado de k passar em todos os testes de unidade.

Os modelos de linguagem grandes costumam ter dificuldade para gerar um bom código para problemas de programação complexos. Os engenheiros de software se adaptam a esse problema solicitando que o modelo de linguagem grande gere várias (k) soluções para o mesmo problema. Em seguida, os engenheiros de software testam cada uma das soluções em relação aos testes de unidade. O cálculo do cartão em k depende do resultado dos testes de unidade:

  • Se uma ou mais dessas soluções passarem no teste de unidade, o LLM passa no desafio de geração de código.
  • Se nenhuma das soluções passar no teste de unidade, o LLM falha nesse desafio de geração de código.

A fórmula para a passagem em k é a seguinte:

$$\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}$$

Em geral, valores mais altos de k produzem uma maior aprovação nas pontuações de k. No entanto, valores mais altos de k exigem recursos de modelo de linguagem e teste de unidade maiores.

Pax

Um framework de programação projetado para treinar redes neurais de modelos em grande escala, tão grandes que abrangem vários chips de TPU acelerador fatias ou pods.

O Pax é baseado no Flax, que é baseado no JAX.

Diagrama indicando a posição de Pax na pilha de software.
          O Pax é baseado no JAX. O Pax consiste em três
          camadas. A camada de baixo contém o TensorStore e o Flax.
          A camada do meio contém Optax e Flaxformer. A camada
          superior contém a biblioteca de modelagem Praxis. O Fiddle é baseado
          no Pax.

perceptron

Um sistema (hardware ou software) que recebe um ou mais valores de entrada, executa uma função na soma ponderada das entradas e calcula um único valor de saída. No aprendizado de máquina, a função geralmente é não linear, como ReLU, sigmoide ou tanh. Por exemplo, o perceptron a seguir depende da função sigmoide para processar três valores de entrada:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Na ilustração a seguir, o perceptron recebe três entradas, cada uma modificada por um peso antes de entrar no perceptron:

Um perceptron que recebe três entradas, cada uma multiplicada por pesos
          separados. O perceptron gera um único valor.

Os perceptrons são os neurônios nas redes neurais.

desempenho

Termo sobrecarregado com os seguintes significados:

  • O significado padrão na engenharia de software. Ou seja, com que rapidez (ou eficiência) esse software é executado?
  • O significado no aprendizado de máquina. Aqui, a performance responde à seguinte pergunta: quão correto é este modelo? Ou seja, como as previsões do modelo são boas?

importâncias das variáveis de permutação

#df

Um tipo de importância da variável que avalia o aumento no erro de previsão de um modelo depois de trocar os valores do atributo. A importância da variável de permutação é uma métrica independente do modelo.

perplexidade

Uma medida de como um modelo está realizando a tarefa. Por exemplo, suponha que sua tarefa seja ler as primeiras letras de uma palavra que um usuário está digitando no teclado de um smartphone e oferecer uma lista de possíveis palavras de conclusão. A perplexidade, P, para essa tarefa é aproximadamente o número de palpites que você precisa oferecer para que a lista contenha a palavra que o usuário está tentando digitar.

A perplexidade está relacionada à entropia cruzada da seguinte maneira:

$$P= 2^{-\text{cross entropy}}$$

pipeline

A infraestrutura que envolve um algoritmo de machine learning. Um pipeline inclui a coleta de dados, a inserção deles em arquivos de treinamento, o treinamento de um ou mais modelos e a exportação deles para produção.

pipeline

#language

Uma forma de paralelismo de modelo em que o processamento de um modelo é dividido em etapas consecutivas e cada etapa é executada em um dispositivo diferente. Enquanto um estágio está processando um lote, o estágio anterior pode trabalhar no próximo lote.

Consulte também treinamento em etapas.

pjit

Uma função JAX que divide o código para ser executado em vários chips de aceleração. O usuário transmite uma função para o pjit, que retorna uma função com a semântica equivalente, mas é compilada em uma computação XLA que é executada em vários dispositivos, como GPUs ou núcleos TPU.

O pjit permite que os usuários divizem cálculos sem refazê-los usando o particionador SPMD.

Em março de 2023, pjit foi mesclada com jit. Consulte Matrizes distribuídas e paralelização automática para mais detalhes.

PLM

#language
#generativeAI

Abreviação de modelo de linguagem pré-treinado.

pmap

Uma função JAX que executa cópias de uma função de entrada em vários dispositivos de hardware subjacentes (CPUs, GPUs ou TPUs), com diferentes valores de entrada. O pmap depende do SPMD.

política

#rl

No aprendizado por reforço, o mapeamento probabilístico de um agente de estados para ações.

pool

#image

Redução de uma matriz (ou matrizes) criada por uma camada convolucional anterior para uma matriz menor. A agregação geralmente envolve o valor máximo ou médio em toda a área. Por exemplo, suponha que tenhamos a seguinte matriz 3x3:

A matriz 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Uma operação de agrupamento, assim como uma operação de convolução, divide essa matriz em fatias e, em seguida, desliza essa operação de convolução por passos. Por exemplo, suponha que a operação de agregação divida a matriz de convolução em fatias 2x2 com um passo de 1x1. Como mostra o diagrama abaixo, quatro operações de agrupamento ocorrem. Imagine que cada operação de agrupamento escolha o valor máximo dos quatro na fatia:

A matriz de entrada é 3x3 com os valores: [[5,3,1], [8,2,5], [9,4,3]].
          A submatriz 2x2 no canto superior esquerdo da matriz de entrada é [[5,3], [8,2]]. Portanto, a operação de agregação no canto superior esquerdo produz o valor 8, que é o máximo de 5, 3, 8 e 2. A submatriz 2x2 no canto superior direito da matriz de entrada é [[3,1], [2,5]]. Portanto, a operação de agregação no canto superior direito produz o valor 5. A submatriz 2x2 no canto inferior esquerdo da matriz de entrada é
          [[8,2], [9,4]]. Portanto, a operação de agregação no canto inferior esquerdo gera o valor
          9. A submatriz 2x2 inferior direita da matriz de entrada é
          [[2,5], [4,3]]. Portanto, a operação de agregação na parte de baixo à direita produz o valor
          5. Em resumo, a operação de agrupamento produz a matriz 2x2
          [[8,5], [9,5]].

A agregação ajuda a aplicar a invariância de tradução na matriz de entrada.

O agrupamento para aplicativos de visão é conhecido mais formalmente como agrupamento espacial. Os aplicativos de séries temporais geralmente se referem ao agrupamento como agrupamento temporal. Informalmente, o agrupamento é chamado de subamostragem ou redução de amostra.

codificação posicional

#language

Uma técnica para adicionar informações sobre a posição de um token em uma sequência à incorporação do token. Os modelos Transformer usam a codificação de posição para entender melhor a relação entre diferentes partes da sequência.

Uma implementação comum de codificação posicional usa uma função sinusoidal. Especificamente, a frequência e a amplitude da função sinusoidal são determinadas pela posição do token na sequência. Essa técnica permite que um modelo Transformer aprenda a atender a diferentes partes da sequência com base na posição delas.

classe positiva

#fundamentals

A classe que você está testando.

Por exemplo, a classe positiva em um modelo de câncer pode ser "tumor". A classe positiva em um classificador de e-mails pode ser "spam".

Contraste com a classe negativa.

pós-processamento

#fairness
#fundamentals

Ajustar a saída de um modelo após a execução dele. O pós-processamento pode ser usado para aplicar restrições de justiça sem modificar os modelos.

Por exemplo, é possível aplicar o pós-processamento a um classificador binário definindo um limite de classificação para que a igualdade de oportunidades seja mantida para algum atributo, verificando se a taxa de verdadeiros positivos é a mesma para todos os valores desse atributo.

modelo pós-treinamento

#language
#image
#generativeAI

Termo vagamente definido que geralmente se refere a um modelo pré-treinado que passou por algum pós-processamento, como um ou mais dos seguintes:

AUC PR (área sob a curva PR)

Área sob a curva de precisão-recall interpolada, obtida ao traçar pontos (recall, precisão) para diferentes valores do limite de classificação.

Praxis

Uma biblioteca de ML de alto desempenho do Pax. A prática é frequentemente chamada de "biblioteca de camadas".

O Praxis não contém apenas as definições da classe Layer, mas também a maioria dos componentes de suporte, incluindo:

O Praxis fornece as definições para a classe Model.

precision

Uma métrica para modelos de classificação que responde à seguinte pergunta:

Quando o modelo previu a classe positiva, qual porcentagem das previsões estava correta?

Esta é a fórmula:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

em que:

  • verdadeiro positivo significa que o modelo previu corretamente a classe positiva.
  • significa que o modelo previu incorretamente a classe positiva.

Por exemplo, suponha que um modelo fez 200 previsões positivas. Dessas 200 previsões positivas:

  • 150 foram verdadeiros positivos.
  • 50 foram falsos positivos.

Nesse caso:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Compare com acurácia e recall.

Consulte Classificação: precisão, recall, precisão e métricas relacionadas para mais informações.

precisão em k (precision@k)

#language

Uma métrica para avaliar uma lista de itens classificada (ordenada). A precisão em k identifica a fração dos primeiros k itens na lista que são "relevantes". Ou seja:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

O valor de k precisa ser menor ou igual ao comprimento da lista retornada. O tamanho da lista retornada não faz parte do cálculo.

A relevância é muitas vezes subjetiva. Até mesmo avaliadores humanos experientes muitas vezes discordam sobre quais itens são relevantes.

Comparar com:

curva de precisão/recall

Uma curva de precisão em relação a recall em diferentes limites de classificação.

previsão

#fundamentals

A saída de um modelo. Exemplo:

  • A previsão de um modelo de classificação binária é a classe positiva ou a classe negativa.
  • A previsão de um modelo de classificação multiclasse é uma classe.
  • A previsão de um modelo de regressão linear é um número.

viés de previsão

Um valor que indica a distância entre a média das previsões e a média dos rótulos no conjunto de dados.

Não confundir com o termo viés em modelos de aprendizado de máquina ou com viés em ética e imparcialidade.

ML preditivo

Qualquer sistema padrão de aprendizado de máquina (ou "clássico").

O termo ML preditivo não tem uma definição formal. Em vez disso, o termo distingue uma categoria de sistemas de ML não baseada em IA generativa.

paridade preditiva

#fairness

Uma métrica de imparcialidade que verifica se, para um determinado classificador, as taxas de precisão são equivalentes para os subgrupos em consideração.

Por exemplo, um modelo que prevê a aceitação na faculdade atenderia à paridade preditiva para nacionalidade se a taxa de precisão fosse a mesma para os Lilliputianos e Brobdingnagianos.

Às vezes, a paridade preditiva também é chamada de paridade de taxa preditiva.

Consulte "Definições de justiça explicadas" (seção 3.2.1) para uma discussão mais detalhada sobre a paridade preditiva.

paridade de taxa preditiva

#fairness

Outro nome para paridade preditiva.

pré-processamento

#fairness
Processar dados antes de usá-los para treinar um modelo. O pré-processamento pode ser tão simples quanto remover palavras de um corpus de texto em inglês que não ocorrem no dicionário em inglês ou pode ser tão complexo quanto expressar pontos de dados de uma maneira que elimine o maior número possível de atributos correlacionados com atributos sensíveis. O pré-processamento pode ajudar a atender às restrições de imparcialidade.

modelo pré-treinado

#language
#image
#generativeAI

Normalmente, um modelo que já foi treinado. O termo também pode significar um vetor de embeddings treinado anteriormente.

O termo modelo de linguagem pré-treinado geralmente se refere a um modelo de linguagem grande já treinado.

pré-treinamento

#language
#image
#generativeAI

O treinamento inicial de um modelo em um grande conjunto de dados. Alguns modelos pré-treinados são gigantes desajeitados e geralmente precisam ser refinados com mais treinamento. Por exemplo, especialistas em ML podem pré-treinar um modelo de linguagem grande em um grande conjunto de dados de texto, como todas as páginas em inglês da Wikipédia. Após o pré-treinamento, o modelo resultante pode ser refinado com qualquer uma das seguintes técnicas:

crença a priori

O que você acredita sobre os dados antes de começar a treinar com eles. Por exemplo, a regularização L2 se baseia em uma crença anterior de que os pesos precisam ser pequenos e normalmente distribuídos em torno de zero.

modelo de regressão probabilística

Um modelo de regressão que usa não apenas os pesos de cada recurso, mas também a incerteza desses pesos. Um modelo de regressão probabilística gera uma previsão e a incerteza dela. Por exemplo, um modelo de regressão probabilística pode gerar uma previsão de 325 com um desvio padrão de 12. Para mais informações sobre modelos de regressão probabilística, consulte este Colab em tensorflow.org.

função da densidade de probabilidade

Uma função que identifica a frequência de amostras de dados com exatamente um valor específico. Quando os valores de um conjunto de dados são números de ponto flutuante contínuos, as correspondências exatas raramente ocorrem. No entanto, integrar uma função de densidade de probabilidade do valor x ao valor y gera a frequência esperada de amostras de dados entre x e y.

Por exemplo, considere uma distribuição normal com uma média de 200 e um desvio padrão de 30. Para determinar a frequência esperada de amostras de dados no intervalo de 211,4 a 218,7, é possível integrar a função de densidade de probabilidade para uma distribuição normal de 211,4 a 218,7.

prompt

#language
#generativeAI

Qualquer texto inserido como entrada em um modelo de linguagem grande para condicionar o modelo a se comportar de uma determinada maneira. As solicitações podem ser tão curtas quanto uma frase ou arbitrariamente longas (por exemplo, o texto inteiro de um romance). As instruções se dividem em várias categorias, incluindo as mostradas na tabela a seguir:

Categoria de comando Exemplo Observações
Pergunta A que velocidade um pombo pode voar?
Instrução Escreva um poema engraçado sobre arbitragem. Um comando que pede ao modelo de linguagem grande para fazer algo.
Exemplo Traduzir o código Markdown para HTML. Por exemplo:
Markdown: * item da lista
HTML: <ul> <li>item da lista</li> </ul>
A primeira frase neste exemplo de comando é uma instrução. O restante da instrução é o exemplo.
Papel Explique por que a descida do gradiente é usada no treinamento de machine learning para um PhD em Física. A primeira parte da frase é uma instrução. A frase "a um PhD em física" é a parte do papel.
Entrada parcial para o modelo concluir O primeiro-ministro do Reino Unido mora em Um comando de entrada parcial pode terminar abruptamente (como neste exemplo) ou com um sublinhado.

Um modelo de IA generativa pode responder a um comando com texto, código, imagens, embeddings, vídeos... quase tudo.

aprendizagem baseada em instruções

#language
#generativeAI

Um recurso de determinados modelos que permite que eles adaptem o comportamento em resposta a entradas de texto arbitrárias (comandos). Em um paradigma de aprendizado típico baseado em comandos, um modelo de linguagem grande responde a um comando gerando texto. Por exemplo, suponha que um usuário insira o seguinte comando:

Resuma a terceira lei do movimento de Newton.

Um modelo capaz de aprendizado com base em comandos não é treinado especificamente para responder ao comando anterior. Em vez disso, o modelo "sabe" muitos fatos sobre física, muitas regras gerais de linguagem e muito sobre o que constitui respostas geralmente úteis. Esse conhecimento é suficiente para fornecer uma resposta útil. Outros feedbacks humanos ("Essa resposta foi muito complicada" ou "O que é uma reação?") permitem que alguns sistemas de aprendizagem baseados em comandos melhorem gradualmente a utilidade das respostas.

design de comandos

#language
#generativeAI

Sinônimo de engenharia de comando.

engenharia de comando

#language
#generativeAI

A arte de criar comandos que extraem as respostas desejadas de um modelo de linguagem grande. Os humanos fazem a engenharia de comandos. Escrever comandos bem estruturados é uma parte essencial para garantir respostas úteis de um modelo de linguagem grande. A engenharia de prompts depende de muitos fatores, incluindo:

  • O conjunto de dados usado para pré-treinar e, possivelmente, ajustar o modelo de linguagem grande.
  • A temperatura e outros parâmetros de decodificação que o modelo usa para gerar respostas.

Consulte Introdução à criação de comandos para mais detalhes sobre como escrever comandos úteis.

Design de comandos é sinônimo de engenharia de comandos.

ajuste de comando

#language
#generativeAI

Um mecanismo de ajuste eficiente de parâmetros que aprende um "prefixo" que o sistema adiciona ao comando.

Uma variação do ajuste de comando, às vezes chamada de ajuste de prefixo, é adicionar o prefixo em cada camada. Em contraste, a maioria dos ajustes de comando só adiciona um prefixo à camada de entrada.

proxy (atributos sensíveis)

#fairness
Um atributo usado como substituto de um atributo sensível. Por exemplo, o código postal de uma pessoa pode ser usado como um substituto da renda, raça ou etnia dela.

rótulos de proxy

#fundamentals

Dados usados para aproximar rótulos que não estão diretamente disponíveis em um conjunto de dados.

Por exemplo, suponha que você precise treinar um modelo para prever o nível de estresse do funcionário. Seu conjunto de dados contém muitos recursos preditivos, mas não tem um rótulo chamado nível de estresse. Sem medo, você escolhe "acidentes no local de trabalho" como um marcador para o nível de estresse. Afinal, funcionários sob alto estresse sofrem mais acidentes do que funcionários calmos. Ou não? Talvez os acidentes no local de trabalho aumentem e diminuam por vários motivos.

Como segundo exemplo, suponha que você queira que está chovendo? seja um rótulo booleano para seu conjunto de dados, mas ele não contém dados de chuva. Se fotos estiverem disponíveis, você pode estabelecer fotos de pessoas carregando guarda-chuvas como um rótulo de proxy para está chovendo? Essa é uma boa rotulação indireta? Talvez, mas as pessoas em algumas culturas podem estar mais propensas a carregar guarda-chuvas para se proteger do sol do que da chuva.

Os rótulos de proxy nem sempre são perfeitos. Sempre que possível, escolha rótulos reais em vez de rótulos de proxy. No entanto, quando um rótulo real não está presente, escolha o rótulo de proxy com muito cuidado, escolhendo o candidato de rótulo de proxy menos horrível.

função pura

Uma função cujas saídas são baseadas apenas nas entradas e que não tem efeitos colaterais. Especificamente, uma função pura não usa nem muda nenhum estado global, como o conteúdo de um arquivo ou o valor de uma variável fora da função.

As funções puras podem ser usadas para criar códigos seguros para threads, o que é benéfico ao dividir o código do modelo em vários chips de acelerador.

Os métodos de transformação de função da JAX exigem que as funções de entrada sejam funções puras.

P

Função Q

#rl

No aprendizado por reforço, a função que prevê o retorno esperado de uma ação em um estado e, em seguida, segue uma determinada política.

A função Q também é conhecida como função de valor de estado-ação.

Aprendizagem Q

#rl

No aprendizado por reforço, um algoritmo que permite que um agente aprenda a função Q ideal de um processo de decisão de Markov aplicando a equação de Bellman. O processo de decisão de Markov modela um ambiente.

quantil

Cada bucket em buckets de percentil.

agrupamento por classes de quantis

Distribuir os valores de um atributo em buckets para que cada bucket contenha o mesmo (ou quase o mesmo) número de exemplos. Por exemplo, a figura a seguir divide 44 pontos em quatro buckets, cada um deles contendo 11 pontos. Para que cada bucket na figura contenha o mesmo número de pontos, alguns buckets têm uma largura diferente de valores x.

44 pontos de dados divididos em quatro grupos de 11 pontos cada.
          Embora cada bucket contenha o mesmo número de pontos de dados, alguns contêm um intervalo maior de valores de atributos do que outros.

quantização

Termo sobrecarregado que pode ser usado de qualquer uma destas formas:

  • Implementar buckets de quantis em um recurso específico.
  • Transforma dados em zeros e uns para armazenamento, treinamento e inferência mais rápidos. Como os dados booleanos são mais resistentes a ruídos e erros do que outros formatos, a quantização pode melhorar a precisão do modelo. As técnicas de quantização incluem arredondamento, truncamento e binarização.
  • Reduzir o número de bits usados para armazenar os parâmetros de um modelo. Por exemplo, suponha que os parâmetros de um modelo sejam armazenados como números de ponto flutuante de 32 bits. A quantização converte esses parâmetros de 32 bits para 4, 8 ou 16 bits. A quantização reduz o seguinte:

    • Uso de computação, memória, disco e rede
    • Tempo para inferir uma predição
    • Consumo de energia

    No entanto, a quantização às vezes diminui a precisão das previsões de um modelo.

fila

#TensorFlow

Uma operação do TensorFlow que implementa uma estrutura de dados de fila. Normalmente usado em E/S.

R

RAG

#fundamentals

Abreviação de geração aumentada de recuperação.

floresta aleatória

#df

Um conjunto de árvores de decisão em que cada árvore de decisão é treinada com um ruído aleatório específico, como bagging.

As florestas aleatórias são um tipo de floresta de decisão.

política aleatória

#rl

No aprendizado por reforço, uma política que escolhe uma ação aleatoriamente.

rank (ordinalidade)

A posição ordinal de uma classe em um problema de aprendizado de máquina que categoriza as classes da maior para a menor. Por exemplo, um sistema de classificação de comportamento pode classificar as recompensas de um cachorro da mais alta (um bife) à mais baixa (couve-flor murcha).

rank (Tensor)

#TensorFlow

O número de dimensões em um Tensor. Por exemplo, um escalar tem classificação 0, um vetor tem classificação 1 e uma matriz tem classificação 2.

Não confunda com rank (ordinalidade).

ranking

Um tipo de aprendizado supervisionado cujo objetivo é ordenar uma lista de itens.

rotulador

#fundamentals

Uma pessoa que fornece rótulos para exemplos. "Comentarista" é outro nome para avaliador.

recall

Uma métrica para modelos de classificação que responde à seguinte pergunta:

Quando a informação real era a classe positiva, qual porcentagem de previsões o modelo identificou corretamente como a classe positiva?

Esta é a fórmula:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

em que:

  • verdadeiro positivo significa que o modelo previu corretamente a classe positiva.
  • significa que o modelo previu incorretamente a classe negativa.

Por exemplo, suponha que seu modelo fez 200 previsões em exemplos em que a informação empírica era a classe positiva. Dessas 200 previsões:

  • 180 foram verdadeiros positivos.
  • 20 foram falsos negativos.

Nesse caso:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Consulte Classificação: precisão, recall, precisão e métricas relacionadas para mais informações.

recall at k (recall@k)

#language

Uma métrica para avaliar sistemas que geram uma lista classificada (ordenada) de itens. A recuperação em k identifica a fração de itens relevantes nos primeiros k itens dessa lista do número total de itens relevantes retornados.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Contraste com precisão em k.

sistema de recomendação

#recsystems

Um sistema que seleciona para cada usuário um conjunto relativamente pequeno de itens desejáveis de um grande corpus. Por exemplo, um sistema de recomendação de vídeos pode recomendar dois vídeos de um corpus de 100.000 vídeos, selecionando Casablanca e História de Filadélfia para um usuário e Mulher Maravilha e Pantera Negra para outro. Um sistema de recomendação de vídeos pode basear as recomendações em fatores como:

  • Filmes que usuários semelhantes assistiram ou classificaram.
  • Gênero, diretores, atores, público-alvo...

Unidade linear retificada (ReLU)

#fundamentals

Uma função de ativação com o seguinte comportamento:

  • Se a entrada for negativa ou zero, a saída será 0.
  • Se a entrada for positiva, a saída será igual à entrada.

Exemplo:

  • Se a entrada for -3, a saída será 0.
  • Se a entrada for +3, a saída será 3,0.

Confira um gráfico de ReLU:

Um gráfico cartesiano de duas linhas. A primeira linha tem um valor y constante
          de 0, percorrendo o eixo x de -infinito,0 a 0,-0.
          A segunda linha começa em 0,0. Essa linha tem uma inclinação de +1, então
          ela vai de 0,0 a +infinito,+infinito.

A ReLU é uma função de ativação muito conhecida. Apesar do comportamento simples, a ReLU ainda permite que uma rede neural aprenda relações não lineares entre atributos e o rótulo.

rede neural recorrente

#seq

Uma rede neural que é executada intencionalmente várias vezes, em que partes de cada execução alimentam a próxima. Especificamente, as camadas ocultas da execução anterior fornecem parte da entrada para a mesma camada oculta na próxima execução. As redes neurais recorrentes são particularmente úteis para avaliar sequências, para que as camadas ocultas possam aprender com execuções anteriores da rede neural em partes anteriores da sequência.

Por exemplo, a figura a seguir mostra uma rede neural recorrente que é executada quatro vezes. Os valores aprendidos nas camadas ocultas da primeira execução se tornam parte da entrada para as mesmas camadas ocultas na segunda execução. Da mesma forma, os valores aprendidos na camada oculta na segunda execução passam a fazer parte da entrada para a mesma camada oculta na terceira execução. Dessa forma, a rede neural recorrente treina e prevê gradualmente o significado de toda a sequência, em vez de apenas o significado de palavras individuais.

Uma RNN que é executada quatro vezes para processar quatro palavras de entrada.

texto de referência

#language
#generativeAI

A resposta de um especialista a um comando. Por exemplo, considerando o seguinte comando:

Traduzir a pergunta "What is your name?" (Qual é seu nome?) do inglês para o francês.

A resposta de um especialista pode ser:

Comment vous appelez-vous?

Várias métricas (como ROUGE) medem o grau em que o texto de referência corresponde ao texto gerado de um modelo de ML.

modelo de regressão

#fundamentals

Informalmente, um modelo que gera uma previsão numérica. Em contraste, um modelo de classificação gera uma previsão de classe. Por exemplo, os modelos de regressão a seguir:

  • Um modelo que prevê o valor de uma determinada casa em euros, como 423.000.
  • Um modelo que prevê a expectativa de vida de uma determinada árvore em anos, como 23,2.
  • Um modelo que prevê a quantidade de chuva em polegadas que vai cair em uma determinada cidade nas próximas seis horas, como 0,18.

Dois tipos comuns de modelos de regressão são:

  • Regressão linear, que encontra a linha que melhor se ajusta aos valores de rótulos e aos recursos.
  • Regressão logística, que gera uma probabilidade entre 0,0 e 1,0 que um sistema normalmente mapeia para uma previsão de classe.

Nem todo modelo que gera previsões numéricas é um modelo de regressão. Em alguns casos, uma previsão numérica é apenas um modelo de classificação que tem nomes de classes numéricos. Por exemplo, um modelo que prevê um código postal numérico é um modelo de classificação, não de regressão.

regularização

#fundamentals

Qualquer mecanismo que reduza a sobreajustar. Os tipos mais comuns de regularização incluem:

A regularização também pode ser definida como a penalidade na complexidade de um modelo.

taxa de regularização

#fundamentals

Um número que especifica a importância relativa da regularização durante o treinamento. Aumentar a taxa de regularização reduz o overfitting, mas pode reduzir o poder de previsão do modelo. Por outro lado, reduzir ou omitir a taxa de regularização aumenta o ajuste excessivo.

aprendizado por reforço (RL, na sigla em inglês)

#rl

Uma família de algoritmos que aprende uma política ideal, com o objetivo de maximizar o retorno ao interagir com um ambiente. Por exemplo, a recompensa final da maioria dos jogos é a vitória. Os sistemas de aprendizado de reforço podem se tornar especialistas em jogos complexos avaliando sequências de jogadas anteriores que levaram a vitórias e sequências que levaram a derrotas.

Aprendizado por reforço com feedback humano (RLHF)

#generativeAI
#rl

Usar o feedback de avaliadores humanos para melhorar a qualidade das respostas de um modelo. Por exemplo, um mecanismo de RLHF pode pedir que os usuários avaliem a qualidade da resposta de um modelo com um emoji 👍 ou 👎. O sistema pode ajustar as respostas futuras com base nesse feedback.

ReLU

#fundamentals

Abreviação de Unidade linear retificada.

buffer de repetição

#rl

Em algoritmos semelhantes ao DQN, a memória usada pelo agente para armazenar transições de estado para uso em repetição de experiência.

réplica

Uma cópia do conjunto de treinamento ou do modelo, normalmente em outra máquina. Por exemplo, um sistema pode usar a seguinte estratégia para implementar o paralelismo de dados:

  1. Coloque réplicas de um modelo em várias máquinas.
  2. Envie subconjuntos diferentes do conjunto de treinamento para cada réplica.
  3. Agrupe as atualizações do parâmetro.

viés de relatório

#fairness

O fato de a frequência com que as pessoas escrevem sobre ações, resultados ou propriedades não é um reflexo das frequências reais ou do grau em que uma propriedade é característica de uma classe de indivíduos. O viés de relato pode influenciar a composição dos dados que os sistemas de aprendizado de máquina aprendem.

Por exemplo, em livros, a palavra laughed é mais comum que breathed. Um modelo de aprendizado de máquina que estima a frequência relativa de risos e respiração em um corpus de livros provavelmente determinaria que rir é mais comum do que respirar.

representação de vetor

O processo de mapeamento de dados para recursos úteis.

reclassificação

#recsystems

A fase final de um sistema de recomendação, em que os itens com pontuação podem ser reavaliados de acordo com algum outro algoritmo (normalmente, não de ML). A reclassificação avalia a lista de itens gerada pela fase de pontuação, realizando ações como:

  • Eliminar itens que o usuário já comprou.
  • Aumentar a pontuação de itens mais recentes.

geração aumentada de recuperação (RAG)

#fundamentals

Uma técnica para melhorar a qualidade da saída de um modelo de linguagem grande (LLM) com base em fontes de conhecimento recuperadas após o treinamento do modelo. A RAG melhora a precisão das respostas do LLM, fornecendo ao LLM treinado acesso a informações recuperadas de bases de conhecimento ou documentos confiáveis.

Motivações comuns para usar a geração aumentada de recuperação incluem:

  • Aumentar a precisão factual das respostas geradas por um modelo.
  • Dar ao modelo acesso a conhecimento que ele não foi treinado.
  • Mudar o conhecimento usado pelo modelo.
  • Ativar o modelo para citar fontes.

Por exemplo, suponha que um app de química use a API PaLM para gerar resumos relacionados às consultas do usuário. Quando o back-end do app recebe uma consulta, ele:

  1. Pesquisa ("recupera") dados relevantes para a consulta do usuário.
  2. Anexar ("aumentar") os dados de química relevantes à consulta do usuário.
  3. Instrui o LLM a criar um resumo com base nos dados anexados.

return

#rl

No aprendizado por reforço, dada uma determinada política e um determinado estado, o retorno é a soma de todas as recompensas que o agente espera receber ao seguir a política do estado até o final do episódio. O agente considera a natureza atrasada das recompensas esperadas descontando as recompensas de acordo com as transições de estado necessárias para receber a recompensa.

Portanto, se o fator de desconto for \(\gamma\)e \(r_0, \ldots, r_{N}\) indicar as recompensas até o fim do episódio, o cálculo do retorno será o seguinte:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

prêmio

#rl

No aprendizado por reforço, o resultado numérico de realizar uma ação em um estado, conforme definido pelo ambiente.

regularização Ridge

Sinônimo de regularização L2. O termo regularização de borda é usado com mais frequência em contextos de estatísticas puras, enquanto a regularização de L2 é usada com mais frequência em aprendizado de máquina.

RNN

#seq

Abreviação de redes neurais recorrentes.

Curva ROC

#fundamentals

Um gráfico de taxa de verdadeiro positivo em comparação com a taxa de falso positivo para diferentes limites de classificação na classificação binária.

A forma de uma curva ROC sugere a capacidade de um modelo de classificação binária de separar classes positivas de classes negativas. Suponha, por exemplo, que um modelo de classificação binária separe perfeitamente todas as classes negativas de todas as classes positivas:

Uma linha numérica com 8 exemplos positivos à direita e
          7 exemplos negativos à esquerda.

A curva ROC para o modelo anterior é assim:

Uma curva ROC. O eixo x é a taxa de falsos positivos, e o eixo y é a taxa de verdadeiros positivos. A curva tem um formato de L invertido. A curva
          começa em (0.0,0.0) e vai direto para (0.0,1.0). Em seguida, a curva
          vai de (0.0,1.0) para (1.0,1.0).

Em contraste, a ilustração a seguir mostra os valores da regressão logística bruta para um modelo ruim que não consegue separar classes negativas de classes positivas:

Uma linha numérica com exemplos positivos e classes negativas
          completamente misturadas.

A curva ROC desse modelo é a seguinte:

Uma curva ROC, que é uma linha reta de (0,0,0)
          a (1,0,1).

Enquanto isso, no mundo real, a maioria dos modelos de classificação binária separa as classes positivas e negativas em algum nível, mas geralmente não de forma perfeita. Portanto, uma curva ROC típica fica entre os dois extremos:

Uma curva ROC. O eixo x é a taxa de falsos positivos, e o eixo y é a taxa de verdadeiros positivos. A curva ROC aproxima um arco instável
          que atravessa os pontos da bússola de oeste para norte.

O ponto em uma curva ROC mais próximo de (0,0,1,0) identifica teoricamente o limite de classificação ideal. No entanto, vários outros problemas reais influenciam a seleção do limite de classificação ideal. Por exemplo, talvez os falsos negativos causem muito mais dor do que os falsos positivos.

Uma métrica numérica chamada AUC resume a curva ROC em um único valor de ponto flutuante.

comando de função

#language
#generativeAI

Uma parte opcional de um comando que identifica um público-alvo para a resposta de um modelo de IA generativa. Sem um comando de função, um modelo de linguagem grande fornece uma resposta que pode ou não ser útil para a pessoa que faz as perguntas. Com um comando de função, um modelo de linguagem grande pode responder de uma maneira mais adequada e útil para um público-alvo específico. Por exemplo, a parte do comando de função dos comandos a seguir está em negrito:

  • Resuma este artigo para um PhD em economia.
  • Descrever como as marés funcionam para uma criança de 10 anos.
  • Explique a crise financeira de 2008. Fale como se estivesse falando com uma criança ou um golden retriever.

root

#df

O inicial (a primeira condição) em uma árvore de decisão. Por convenção, os diagramas colocam a raiz na parte de cima da árvore de decisões. Exemplo:

Uma árvore de decisão com duas condições e três folhas. A
          condição inicial (x > 2) é a raiz.

diretório raiz

#TensorFlow

O diretório que você especifica para hospedar subdiretórios do ponto de verificação do TensorFlow e arquivos de eventos de vários modelos.

Raiz do erro quadrático médio (RMSE)

#fundamentals

A raiz quadrada do erro quadrático médio.

invariância rotacional

#image

Em um problema de classificação de imagens, a capacidade de um algoritmo de classificar imagens, mesmo quando a orientação delas muda. Por exemplo, o algoritmo ainda pode identificar uma raquete de tênis, mesmo que ela esteja apontada para cima, para o lado ou para baixo. A invariância de rotação nem sempre é desejável. Por exemplo, um 9 de cabeça para baixo não pode ser classificado como um 9.

Consulte também variância de tradução e variância de tamanho.

Subestudo orientado para recordação para avaliação Gisting (ROUGE, na sigla em inglês)

#language

Uma família de métricas que avaliam modelos de resumo automático e tradução automática. As métricas ROUGE determinam o grau em que um texto de referência se sobrepõe ao texto gerado de um modelo de ML. Cada membro da família ROUGE mede a sobreposição de maneira diferente. Pontuações ROUGE mais altas indicam mais semelhança entre o texto de referência e o texto gerado do que pontuações ROUGE mais baixas.

Cada membro da família ROUGE geralmente gera as seguintes métricas:

  • Precisão
  • Recall
  • F1

Para detalhes e exemplos, consulte:

ROUGE-L

#language

Um membro da família ROUGE focado no comprimento da maior subsequência comum no texto de referência e texto gerado. As fórmulas a seguir calculam o recall e a precisão do ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Em seguida, use F1 para agrupar a precisão e o recall do ROUGE-L em uma única métrica:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

O ROUGE-L ignora todos os caracteres de nova linha no texto de referência e no texto gerado. Assim, a maior subsequência comum pode cruzar várias frases. Quando o texto de referência e o texto gerado envolvem várias frases, uma variação de ROUGE-L chamada ROUGE-Lsum geralmente é uma métrica melhor. O ROUGE-Lsum determina a maior subsequência comum de cada frase em uma passagem e calcula a média dessas subsequências comuns mais longas.

ROUGE-N

#language

Um conjunto de métricas na família ROUGE que compara os n-gramas compartilhados de um determinado tamanho no texto de referência e no texto gerado. Exemplo:

  • O ROUGE-1 mede o número de tokens compartilhados no texto de referência e no texto gerado.
  • O ROUGE-2 mede o número de bigramas (2-gramas) compartilhados no texto de referência e no texto gerado.
  • O ROUGE-3 mede o número de trigramas (3-gramas) compartilhados no texto de referência e no texto gerado.

Você pode usar as fórmulas abaixo para calcular a precisão e a recuperação do ROUGE-N para qualquer membro da família ROUGE-N:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Em seguida, use F1 para agrupar a precisão ROUGE-N e a precisão ROUGE-N em uma única métrica:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

ROUGE-S

#language

Uma forma tolerante de ROUGE-N que permite a correspondência de skip-gram. Ou seja, o ROUGE-N só conta N-grams que correspondem exatamente, mas o ROUGE-S também conta N-grams separados por uma ou mais palavras. Por exemplo, considere o seguinte:

Ao calcular o ROUGE-N, o 2-gram, White clouds não corresponde a White billowing clouds. No entanto, ao calcular o ROUGE-S, nuvens brancas correspondem a nuvens brancas infladas.

R ao quadrado

Uma métrica de regressão que indica a variação em um rótulo devido a um recurso individual ou a um conjunto de recursos. O R2 é um valor entre 0 e 1, que pode ser interpretado da seguinte maneira:

  • Um R2 de 0 significa que nenhuma variação de um rótulo é devido ao conjunto de recursos.
  • Um R-quadrado de 1 significa que toda a variação de um rótulo se deve ao conjunto de recursos.
  • Um R-quadrado entre 0 e 1 indica até que ponto a variação do rótulo pode ser prevista com base em um atributo específico ou no conjunto de atributos. Por exemplo, um R-quadrado de 0, 10 significa que 10% da variância no rótulo é devido ao conjunto de recursos. Um R-quadrado de 0, 20 significa que 20% é devido ao conjunto de recursos e assim por diante.

R-quadrado é o quadrado do coeficiente de correlação de Pearson entre os valores que um modelo previu e a informações empíricas.

S

viés de amostragem

#fairness

Consulte viés de seleção.

amostragem com substituição

#df

Um método de seleção de itens de um conjunto de itens candidatos em que o mesmo item pode ser escolhido várias vezes. A frase "com substituição" significa que, após cada seleção, o item selecionado é retornado ao conjunto de itens candidatos. O método inverso, amostragem sem substituição, significa que um item candidato só pode ser escolhido uma vez.

Por exemplo, considere o seguinte conjunto de frutas:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Suponha que o sistema escolha aleatoriamente fig como o primeiro item. Se você usar a amostragem com substituição, o sistema vai escolher o segundo item do seguinte conjunto:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sim, é o mesmo conjunto de antes, então o sistema pode escolher fig novamente.

Se você usar a amostragem sem substituição, uma amostra não poderá ser escolhida novamente. Por exemplo, se o sistema escolher aleatoriamente fig como a primeira amostra, fig não poderá ser escolhido novamente. Portanto, o sistema escolhe a segunda amostra do seguinte conjunto (reduzido):

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

O formato recomendado para salvar e recuperar modelos do TensorFlow. O SavedModel é um formato de serialização recuperável e neutro em relação ao idioma, que permite que sistemas e ferramentas de nível superior produzam, consumam e transformem modelos do TensorFlow.

Consulte a seção "Salvar e restaurar" do guia para programadores do TensorFlow e confira todos os detalhes.

Econômico

#TensorFlow

Um objeto do TensorFlow responsável por salvar pontos de verificação do modelo.

escalar

Um único número ou uma única string que pode ser representada como um tensor de rank 0. Por exemplo, as linhas de código a seguir criam um escalar no TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

escalonamento

Qualquer transformação ou técnica matemática que altera o intervalo de um rótulo e/ou valor de atributo. Algumas formas de escalonamento são muito úteis para transformações, como a normalização.

As formas comuns de escalonamento úteis no aprendizado de máquina incluem:

  • escala linear, que normalmente usa uma combinação de subtração e divisão para substituir o valor original por um número entre -1 e +1 ou entre 0 e 1.
  • Escala logarítmica, que substitui o valor original pelo logaritmo.
  • Normalização do Z-score, que substitui o valor original por um valor de ponto flutuante que representa o número de desvios padrão da média desse recurso.

scikit-learn

Uma plataforma de machine learning de código aberto conhecida. Consulte scikit-learn.org.

em lote

#recsystems

Parte de um sistema de recomendação que fornece um valor ou classificação para cada item produzido pela fase de geração de candidatos.

viés de seleção

#fairness

Erros nas conclusões extraídas de dados amostrados devido a um processo de seleção que gera diferenças sistemáticas entre as amostras observadas nos dados e as não observadas. Existem as seguintes formas de viés de seleção:

  • Viés de cobertura: a população representada no conjunto de dados não corresponde à população sobre a qual o modelo de aprendizado de máquina está fazendo previsões.
  • Viés de amostragem: os dados não são coletados aleatoriamente do grupo de destino.
  • Viés de não resposta (também chamado de viés de participação): usuários de determinados grupos desativam as pesquisas em taxas diferentes das de outros grupos.

Por exemplo, suponha que você esteja criando um modelo de machine learning que prevê o quanto as pessoas gostam de um filme. Para coletar dados de treinamento, você distribui uma pesquisa para todos na primeira fila de um cinema que está exibindo o filme. À primeira vista, isso pode parecer uma maneira razoável de coletar um conjunto de dados. No entanto, essa forma de coleta de dados pode introduzir os seguintes tipos de viés de seleção:

  • viés de cobertura: ao usar amostras de uma população que escolheu assistir o filme, as previsões do modelo podem não ser generalizadas para pessoas que ainda não expressaram esse nível de interesse no filme.
  • viés de amostragem: em vez de fazer uma amostragem aleatória da população pretendida (todas as pessoas no cinema), você coletou apenas as pessoas na primeira fila. É possível que as pessoas sentadas na primeira fileira tenham mais interesse no filme do que as das outras fileiras.
  • viés de não resposta: em geral, pessoas com opiniões fortes tendem a responder a pesquisas opcionais com mais frequência do que pessoas com opiniões leves. Como a pesquisa de filmes é opcional, as respostas têm mais probabilidade de formar uma distribuição bimodal do que uma distribuição normal (em forma de sino).

autoatenção (também chamada de camada de autoatenção)

#language

Uma camada de rede neural que transforma uma sequência de embeddings (por exemplo, embeddings de token) em outra sequência de embeddings. Cada embedding na sequência de saída é construída pela integração de informações dos elementos da sequência de entrada por um mecanismo de atenção.

A parte self de autoatenção se refere à sequência que se atende a si mesma, e não a outro contexto. A autoatenção é um dos principais blocos de construção dos transformadores e usa a terminologia de pesquisa de dicionário, como "consulta", "chave" e "valor".

Uma camada de autoatenção começa com uma sequência de representações de entrada, uma para cada palavra. A representação de entrada de uma palavra pode ser uma incorporação simples. Para cada palavra em uma sequência de entrada, a rede avalia a relevância da palavra para cada elemento em toda a sequência de palavras. Os índices de relevância determinam o quanto a representação final da palavra incorpora as representações de outras palavras.

Por exemplo, considere a seguinte frase:

O animal não atravessou a rua porque estava muito cansado.

A ilustração a seguir (do artigo Transformer: A Novel Neural Network Architecture for Language Understanding) mostra o padrão de atenção de uma camada de autoatenção para o pronome it, com a intensidade de cada linha indicando o quanto cada palavra contribui para a representação:

A seguinte frase aparece duas vezes: O animal não cruzou a
          rua porque estava muito cansado. As linhas conectam o pronome &quot;it&quot; em uma frase a cinco tokens (The, animal, street, it e o período) na outra frase.  A linha entre o pronome it
          e a palavra animal é mais forte.

A camada de autoatenção destaca as palavras relevantes para "it". Nesse caso, a camada de atenção aprendeu a destacar palavras que ela pode se referir, atribuindo o maior peso a animal.

Para uma sequência de n tokens, a autoatenção transforma uma sequência de embeddings n vezes separadas, uma vez em cada posição da sequência.

Consulte também atenção e auto-atenção multicabeça.

Aprendizado autosupervisionado

Uma família de técnicas para converter um problema de machine learning não supervisionado em um problema de machine learning supervisionado, criando rótulos substitutos de exemplos não rotulados.

Alguns modelos baseados em transformador, como o BERT, usam aprendizagem autosupervisionada.

O treinamento autosupervisionado é uma abordagem de aprendizado semi-supervisionado.

autotreinamento

Uma variante de aprendizagem autosupervisionada que é particularmente útil quando todas as condições a seguir são verdadeiras:

O autotreinamento funciona iterando as duas etapas a seguir até que o modelo pare de melhorar:

  1. Use o machine learning supervisionado para treinar um modelo com os exemplos rotulados.
  2. Use o modelo criado na etapa 1 para gerar previsões (identificadores) nos exemplos não rotulados, movendo aqueles em que há alta confiança para os exemplos rotulados com o identificador previsto.

Observe que cada iteração da Etapa 2 adiciona mais exemplos rotulados para a Etapa 1 treinar.

aprendizado semi-supervisionado

Treinar um modelo com dados em que alguns dos exemplos de treinamento têm rótulos, mas outros não. Uma técnica de aprendizado semi-supervisionado é inferir rótulos para os exemplos não rotulados e, em seguida, treinar com os rótulos inferidos para criar um novo modelo. O aprendizado semi-supervisionado pode ser útil se os rótulos forem caros para conseguir, mas os exemplos não rotulados forem abundantes.

Autotreinamento é uma técnica de aprendizado semi-supervisionado.

atributo sensível

#fairness
Um atributo humano que precisa receber atenção especial por motivos legais, éticos, sociais ou pessoais.

análise de sentimento

#language

Usar algoritmos de aprendizado de máquina ou estatísticos para determinar a atitude geral de um grupo (positiva ou negativa) em relação a um serviço, produto, organização ou tópico. Por exemplo, usando o processamento de linguagem natural, um algoritmo pode realizar a análise de sentimento no feedback textual de um curso universitário para determinar o grau de satisfação dos estudantes com o curso.

modelo sequencial

#seq

Um modelo em que as entradas têm uma dependência sequencial. Por exemplo, prever o próximo vídeo assistido em uma sequência de vídeos assistidos anteriormente.

tarefa de sequência para sequência

#language

Uma tarefa que converte uma sequência de entrada de tokens em uma sequência de saída de tokens. Por exemplo, dois tipos comuns de tarefas de sequência para sequência são:

  • Tradutores:
    • Exemplo de sequência de entrada: "Eu te amo".
    • Exemplo de sequência de saída: "Je t'aime".
  • Respostas a perguntas:
    • Exemplo de sequência de entrada: "Preciso do meu carro em Nova York?"
    • Exemplo de sequência de saída: "Não. Deixe o carro em casa."

do modelo

O processo de disponibilizar um modelo treinado para fornecer previsões por meio de inferência on-line ou inferência off-line.

shape (Tensor)

O número de elementos em cada dimensão de um tensor. A forma é representada como uma lista de números inteiros. Por exemplo, o tensor bidimensional a seguir tem a forma [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

O TensorFlow usa o formato de linha principal (estilo C) para representar a ordem das dimensões. É por isso que a forma no TensorFlow é [3,4], e não [4,3]. Em outras palavras, em um tensor bidimensional do TensorFlow, a forma é [número de linhas, número de colunas].

Uma forma estática é uma forma de tensor conhecida no momento da compilação.

Uma forma dinâmica é desconhecida no momento da compilação e, portanto, depende de dados de execução. Esse tensor pode ser representado com uma dimensão de marcador de posição no TensorFlow, como em [3, ?].

fragmento

#TensorFlow
#GoogleCloud

Uma divisão lógica do conjunto de treinamento ou do modelo. Normalmente, alguns processos criam fragmentos dividindo os exemplos ou parâmetros em (geralmente) partes de tamanho igual. Cada fragmento é atribuído a uma máquina diferente.

A fragmentação de um modelo é chamada de paralelismo de modelos. A fragmentação de dados é chamada de paralelismo de dados.

encolhimento

#df

Um hiperparâmetro no aprimoramento por gradiente que controla o ajuste excessivo. A redução no aumento de gradiente é análoga à taxa de aprendizado no gradiente descendente. A redução é um valor decimal entre 0,0 e 1,0. Um valor de encolhimento menor reduz a superadaptação mais do que um valor de encolhimento maior.

função sigmoide

#fundamentals

Uma função matemática que "comprime" um valor de entrada em um intervalo restrito, normalmente de 0 a 1 ou de -1 a +1. Ou seja, você pode transmitir qualquer número (dois, um milhão, um bilhão negativo, qualquer coisa) para uma sigmoid, e a saída ainda estará no intervalo restrito. Um gráfico da função de ativação sigmoid tem esta aparência:

Um gráfico bidimensional com valores x que variam de -infinito a +positivo, enquanto os valores y variam de quase 0 a quase 1. Quando x é 0, y é 0,5. A inclinação da curva é sempre
          positiva, com a inclinação mais alta em 0,0,5 e inclinações decrescentes
          à medida que o valor absoluto de x aumenta.

A função sigmoide tem vários usos no aprendizado de máquina, incluindo:

medida de similaridade

#clustering

Em algoritmos de agrupamento, a métrica usada para determinar o quanto dois exemplos são semelhantes.

único programa / vários dados (SPMD, na sigla em inglês)

Uma técnica de paralelismo em que a mesma computação é executada em diferentes dados de entrada em paralelo em diferentes dispositivos. O objetivo do SPMD é conseguir resultados mais rapidamente. É o estilo mais comum de programação paralela.

invariância de tamanho

#image

Em um problema de classificação de imagens, a capacidade de um algoritmo de classificar imagens, mesmo quando o tamanho delas muda. Por exemplo, o algoritmo ainda pode identificar um gato, mesmo que ele consuma 2 milhões ou 200 mil pixels. Mesmo os melhores algoritmos de classificação de imagens ainda têm limites práticos de invariância de tamanho. Por exemplo, é improvável que um algoritmo (ou humano) classifique corretamente uma imagem de gato que consome apenas 20 pixels.

Consulte também invariância de translação e invariância rotacional.

esboçar

#clustering

Em machine learning não supervisionado, uma categoria de algoritmos que realiza uma análise preliminar de similaridade em exemplos. Os algoritmos de esboço usam uma função hash sensível à localidade para identificar pontos que provavelmente são semelhantes e, em seguida, agrupam esses pontos em buckets.

O esboço reduz a computação necessária para cálculos de similaridade em grandes conjuntos de dados. Em vez de calcular a semelhança para cada par de exemplos no conjunto de dados, calculamos a semelhança apenas para cada par de pontos em cada bucket.

skip-gram

#language

Um n-grama que pode omitir (ou "pular") palavras do contexto original, o que significa que as N palavras podem não ter sido originalmente adjacentes. Mais precisamente, um "n-gram de k-skip" é um n-gram em que até k palavras podem ter sido ignoradas.

Por exemplo, "a raposa marrom ligeira" tem os seguintes bigramas possíveis:

  • "a rápida"
  • "marrom rápido"
  • "raposa marrom"

Um "1-skip-2-gram" é um par de palavras com no máximo uma palavra entre elas. Portanto, "a raposa marrom ligeira" tem os seguintes bigramas com um salto:

  • "a marrom"
  • "raposa rápida"

Além disso, todos os bigramas também são bigramas de 1-salto-2, já que menos de uma palavra pode ser ignorada.

Os skip-grams são úteis para entender melhor o contexto em torno de uma palavra. No exemplo, "fox" foi associado diretamente a "quick" no conjunto de 1-skip-2-grams, mas não no conjunto de 2-grams.

Os skip-grams ajudam a treinar modelos de embedding de palavras.

softmax

#fundamentals

Uma função que determina as probabilidades de cada classe possível em um modelo de classificação multiclasse. As probabilidades somam exatamente 1,0. Por exemplo, a tabela a seguir mostra como o softmax distribui várias probabilidades:

A imagem é um... Probabilidade
cachorro 0,85
gato 0,13
cavalo 0,02

A softmax também é chamada de softmax completa.

Compare com a amostragem de candidatos.

ajuste de comando suave

#language
#generativeAI

Uma técnica para ajustar um modelo de linguagem grande para uma tarefa específica, sem recursos intensivos de ajuste fino. Em vez de treinar novamente todos os pesos no modelo, o ajuste suave do comando ajusta automaticamente um comando para alcançar o mesmo objetivo.

Dado um comando textual, o ajuste de comando suave normalmente anexa outras embeddings de token ao comando e usa a propagação de volta para otimizar a entrada.

Um comando "difícil" contém tokens reais, em vez de incorporações de token.

atributo esparso

#language
#fundamentals

Um elemento cujos valores são predominantemente nulos ou vazios. Por exemplo, um recurso que contém um único valor 1 e um milhão de valores 0 é esparso. Por outro lado, um recurso denso tem valores que não são predominantemente nulos ou vazios.

No aprendizado de máquina, um número surpreendente de atributos são atributos raros. Os atributos categóricos geralmente são escassos. Por exemplo, das 300 espécies de árvores possíveis em uma floresta, um único exemplo pode identificar apenas uma árvore de bordo. Ou, dos milhões de vídeos possíveis em uma biblioteca de vídeos, um único exemplo pode identificar apenas "Casablanca".

Em um modelo, você geralmente representa atributos esparsos com codificação one-hot. Se a codificação one-hot for grande, você poderá colocar uma camada de incorporação sobre a codificação one-hot para maior eficiência.

representação esparsa

#language
#fundamentals

Armazenar apenas as posições de elementos diferentes de zero em um elemento disperso.

Por exemplo, suponha que um elemento categórico chamado species identifique as 36 espécies de árvores em uma floresta específica. Suponha também que cada exemplo identifica apenas uma única espécie.

Você pode usar um vetor one-hot para representar as espécies de árvores em cada exemplo. Um vetor one-hot conteria um único 1 (para representar a espécie de árvore específica nesse exemplo) e 35 0s (para representar as 35 espécies de árvores não nesse exemplo). Assim, a representação one-hot de maple pode ser semelhante a esta:

Um vetor em que as posições 0 a 23 contêm o valor 0, a posição
          24 contém o valor 1 e as posições 25 a 35 contêm o valor 0.

Como alternativa, a representação esparsa simplesmente identificaria a posição da espécie específica. Se maple estiver na posição 24, a representação esparsa de maple será simplesmente:

24

A representação esparsa é muito mais compacta do que a representação única.

vetor esparso

#fundamentals

Um vetor cujos valores são, em sua maioria, zeros. Consulte também recurso esparso e esparsidade.

escassez

O número de elementos definidos como zero (ou nulo) em um vetor ou matriz dividido pelo número total de entradas nesse vetor ou matriz. Por exemplo, considere uma matriz de 100 elementos em que 98 células contêm zero. O cálculo da esparsidade é o seguinte:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

A esparsidade de atributos se refere à sparsidade de um vetor de atributos. A esparsidade do modelo se refere à sparsidade dos pesos do modelo.

pooling espacial

#image

Consulte pooling.

dividir

#df

Em uma árvore de decisão, outro nome para uma condição.

divisor

#df

Durante o treinamento de uma árvore de decisão, a rotina (e o algoritmo) responsável por encontrar a melhor condição em cada .

SPMD

Abreviação de programa único / dados múltiplos.

perda de articulação quadrática

O quadrado da perda de articulação. A perda de articulação quadrática penaliza valores discrepantes de forma mais severa do que a perda de articulação regular.

perda quadrática

#fundamentals

Sinônimo de perda L2.

treinamento em etapas

#language

Uma tática de treinamento de um modelo em uma sequência de estágios discretos. O objetivo pode ser acelerar o processo de treinamento ou alcançar uma melhor qualidade do modelo.

Confira abaixo uma ilustração da abordagem de empilhamento progressivo:

  • A fase 1 contém 3 camadas ocultas, a fase 2 contém 6 camadas ocultas e a fase 3 contém 12 camadas ocultas.
  • A etapa 2 começa o treinamento com os pesos aprendidos nas 3 camadas ocultas da etapa 1. A etapa 3 começa o treinamento com os pesos aprendidos nas 6 camadas ocultas da etapa 2.

Três fases, que são chamadas de Estágio 1, Estágio 2 e Estágio 3.
          Cada fase contém um número diferente de camadas: a fase 1 contém
          3 camadas, a fase 2 contém 6 camadas e a fase 3 contém 12 camadas.
          As três camadas da fase 1 se tornam as três primeiras camadas da fase 2.
          Da mesma forma, as seis camadas da fase 2 se tornam as seis primeiras camadas da
          fase 3.

Consulte também pipelining.

estado

#rl

No aprendizado por reforço, os valores de parâmetro que descrevem a configuração atual do ambiente, que o agente usa para escolher uma ação.

função de valor de estado-ação

#rl

Sinônimo de função Q.

static

#fundamentals

Algo feito uma vez, em vez de continuamente. Os termos estático e off-line são sinônimos. Confira a seguir usos comuns de estático e off-line no aprendizado de máquina:

  • Um modelo estático (ou modelo off-line) é um modelo treinado uma vez e usado por um tempo.
  • O treinamento estático (ou treinamento off-line) é o processo de treinamento de um modelo estático.
  • A inferência estática (ou off-line) é um processo em que um modelo gera um lote de previsões por vez.

Contraste com dinâmico.

inferência estática

#fundamentals

Sinônimo de inferência off-line.

estacionariedade

#fundamentals

Um recurso cujos valores não mudam em uma ou mais dimensões, geralmente tempo. Por exemplo, um recurso cujos valores são semelhantes em 2021 e 2023 mostra a estacionariedade.

Na vida real, poucos recursos apresentam estacionariedade. Até mesmo recursos sinônimos de estabilidade (como o nível do mar) mudam com o tempo.

Compare com a não-estacionariedade.

etapa

Um encaminhamento e um retorno de um lote.

Consulte Retropropagação para mais informações sobre a passagem para frente e para trás.

taxa de aprendizado

Sinônimo de taxa de aprendizado.

gradiente descendente estocástico (SGD)

#fundamentals

Um algoritmo de gradiente descendente em que o tamanho do lote é um. Em outras palavras, o SGD é treinado com um único exemplo escolhido de forma uniforme e aleatória em um conjunto de treinamento.

stride

#image

Em uma operação convolucional ou agrupamento, o delta em cada dimensão da próxima série de fatias de entrada. Por exemplo, a animação a seguir demonstra um passo (1,1) durante uma operação de convolução. Portanto, a próxima fatia de entrada começa uma posição à direita da fatia de entrada anterior. Quando a operação chega à borda direita, a próxima fatia vai até a esquerda, mas uma posição para baixo.

Uma matriz de entrada 5x5 e um filtro convolucional 3x3. Como o
     passo é (1,1), um filtro convolucional será aplicado nove vezes. A primeira
     fatia de convolução avalia a submatriz 3x3 no canto superior esquerdo da matriz
     de entrada. A segunda fatia avalia a submatriz 3x3
     de cima para baixo. A terceira fatia de convolução avalia a submatriz 3x3
     no canto superior direito.  A quarta fatia avalia a submatriz 3x3 do canto superior esquerdo.
     A quinta fatia avalia a submatriz do meio 3x3. A sexta fatia
     avalia a submatriz 3x3 do canto direito. A sétima fatia avalia
     a submatriz 3x3 no canto inferior esquerdo.  A oitava fatia avalia a
     submatriz 3x3 do meio de baixo. A nona fatia avalia a submatriz 3x3
     no canto inferior direito.

O exemplo anterior demonstra um passo bidimensional. Se a matriz de entrada for tridimensional, o passo também será tridimensional.

minimização de risco estrutural (SRM)

Um algoritmo que equilibra dois objetivos:

  • A necessidade de criar o modelo mais preditivo (por exemplo, a menor perda).
  • A necessidade de manter o modelo o mais simples possível (por exemplo, regularização forte).

Por exemplo, uma função que minimiza a perda e a regularização no conjunto de treinamento é um algoritmo de minimização de risco estrutural.

Compare com a minimização do risco empírico.

subamostragem

#image

Consulte pooling.

token de subpalavra

#language

Em modelos de linguagem, um token é uma substring de uma palavra, que pode ser a palavra inteira.

Por exemplo, uma palavra como "itemizar" pode ser dividida em "item" (uma palavra raiz) e "izar" (um sufixo), cada um representado pelo próprio token. A divisão de palavras incomuns em partes, chamadas de subpalavras, permite que os modelos de linguagem operem nas partes constituintes mais comuns da palavra, como prefixos e sufixos.

Por outro lado, palavras comuns como "ir" podem não ser divididas e podem ser representadas por um único token.

resumo

#TensorFlow

No TensorFlow, um valor ou conjunto de valores calculados em um passo específico, geralmente usado para rastrear métricas de modelo durante o treinamento.

machine learning supervisionado

#fundamentals

Treinar um modelo com base em atributos e os rótulos correspondentes. O aprendizado de máquina supervisionado é análogo a aprender um assunto estudando um conjunto de perguntas e as respostas correspondentes. Depois de dominar o mapeamento entre perguntas e respostas, um estudante pode responder a novas perguntas (nunca vistas antes) sobre o mesmo tema.

Compare com o machine learning não supervisionado.

atributo sintético

#fundamentals

Um atributo que não está presente entre os atributos de entrada, mas é montado a partir de um ou mais deles. Os métodos para criar recursos sintéticos incluem:

  • Agrupamento por classes de um recurso contínuo em buckets de intervalo.
  • Criar um cruzamento de atributos.
  • Multiplicar (ou dividir) um valor de elemento por outros valores de elemento ou por ele mesmo. Por exemplo, se a e b forem recursos de entrada, os seguintes são exemplos de recursos sintéticos:
    • ab
    • a2
  • Aplicação de uma função transcendental a um valor de elemento. Por exemplo, se c for um elemento de entrada, os exemplos de elementos sintéticos a seguir:
    • sen(c)
    • ln(c)

Os atributos criados por normalização ou dimensionamento sozinhos não são considerados atributos sintéticos.

T

T5

#language

Um modelo de aprendizado de transferência de texto para texto lançado pela Google AI em 2020. O T5 é um modelo codificador-decodificador, baseado na arquitetura Transformer, treinado em um conjunto de dados extremamente grande. Ele é eficaz em várias tarefas de processamento de linguagem natural, como gerar texto, traduzir idiomas e responder a perguntas de forma conversacional.

O T5 recebe o nome dos cinco Ts em "Text-to-Text Transfer Transformer" (transformador de transferência de texto para texto).

T5X

#language

Um framework de machine learning de código aberto projetado para criar e treinar modelos de processamento de linguagem natural (PLN) em grande escala. O T5 é implementado na base de código do T5X, que é criada com JAX e Flax.

Aprendizagem Q tabular

#rl

No aprendizado por reforço, implemente o aprendizado por Q usando uma tabela para armazenar as funções Q para cada combinação de estado e ação.

target

Sinônimo de rótulo.

rede de destino

#rl

No aprendizado por Q profundo, uma rede neural que é uma aproximação estável da rede neural principal, em que a rede neural principal implementa uma função Q ou uma política. Em seguida, você pode treinar a rede principal com os valores Q previstos pela rede alvo. Portanto, você evita o ciclo de feedback que ocorre quando a rede principal é treinada com valores Q previstos por ela mesma. Ao evitar esse feedback, a estabilidade do treinamento aumenta.

tarefa

Um problema que pode ser resolvido usando técnicas de machine learning, como:

temperatura

#language
#image
#generativeAI

Um hiperparâmetro que controla o grau de aleatoriedade da saída de um modelo. Temperaturas mais altas resultam em saídas mais aleatórias, enquanto temperaturas mais baixas resultam em saídas menos aleatórias.

A escolha da melhor temperatura depende da aplicação específica e das propriedades preferidas da saída do modelo. Por exemplo, você provavelmente aumentaria a temperatura ao criar um aplicativo que gera saídas criativas. Por outro lado, você provavelmente diminuiria a temperatura ao criar um modelo que classifica imagens ou texto para melhorar a precisão e a consistência do modelo.

A temperatura é frequentemente usada com softmax.

dados temporais

Dados registrados em diferentes momentos. Por exemplo, as vendas de casacos de inverno registradas para cada dia do ano seriam dados temporais.

Rank 4

#TensorFlow

A estrutura de dados principal nos programas do TensorFlow. Tensores são estruturas de dados N-dimensionais (em que N pode ser muito grande), geralmente escalares, vetores ou matrizes. Os elementos de um tensor podem conter valores inteiros, de ponto flutuante ou de string.

TensorBoard

#TensorFlow

O painel que mostra os resumos salvos durante a execução de um ou mais programas do TensorFlow.

TensorFlow

#TensorFlow

Uma plataforma de machine learning distribuída em grande escala. O termo também se refere à camada de API de base na pilha do TensorFlow, que oferece suporte à computação geral em gráficos de fluxo de dados.

Embora o TensorFlow seja usado principalmente para machine learning, você também pode usá-lo para tarefas que não são de ML que exigem computação numérica usando gráficos de fluxo de dados.

TensorFlow Playground

#TensorFlow

Um programa que mostra como diferentes hiperparâmetros influenciam o treinamento do modelo (principalmente de rede neural). Acesse http://playground.tensorflow.org para testar o TensorFlow Playground.

TensorFlow Serving

#TensorFlow

Uma plataforma para implantar modelos treinados em produção.

Unidade de Processamento de Tensor (TPU)

#TensorFlow
#GoogleCloud

Um circuito integrado específico para aplicativos (ASIC) que otimiza o desempenho das cargas de trabalho de machine learning. Esses ASICs são implantados como vários chips de TPU em um dispositivo TPU.

Cardinalidade do tensor

#TensorFlow

Consulte rank (Tensor).

Forma do tensor

#TensorFlow

O número de elementos que um Tensor contém em várias dimensões. Por exemplo, um tensor [5, 10] tem uma forma de 5 em uma dimensão e 10 em outra.

Tamanho do tensor

#TensorFlow

O número total de escalares que um Tensor contém. Por exemplo, um tensor [5, 10] tem um tamanho de 50.

TensorStore

Uma biblioteca para ler e gravar grandes matrizes multidimensionais com eficiência.

condição de encerramento

#rl

Na aprendizagem por reforço, as condições que determinam quando um episódio termina, como quando o agente alcança um determinado estado ou excede um número de transição de estado. Por exemplo, no jogo da velha (também conhecido como jogo da velha cruzada), um episódio termina quando um jogador marca três espaços consecutivos ou quando todos os espaços são marcados.

teste

#df

Em uma árvore de decisão, outro nome para uma condição.

perda de teste

#fundamentals

Uma métrica que representa a perda de um modelo em relação ao conjunto de teste. Ao criar um modelo, você normalmente tenta minimizar a perda de teste. Isso acontece porque uma perda de teste baixa é um indicador de qualidade mais forte do que uma perda de treinamento ou perda de validação baixa.

Uma grande diferença entre a perda de teste e a perda de treinamento ou de validação às vezes sugere que você precisa aumentar a taxa de regularização.

conjunto de teste

Um subconjunto do conjunto de dados reservado para testar um modelo treinado.

Tradicionalmente, você divide os exemplos no conjunto de dados nos três subconjuntos distintos a seguir:

Cada exemplo em um conjunto de dados precisa pertencer a apenas um dos subconjuntos anteriores. Por exemplo, um único exemplo não pode pertencer ao conjunto de treinamento e ao conjunto de teste.

O conjunto de treinamento e o de validação estão intimamente ligados ao treinamento de um modelo. Como o conjunto de teste é associado ao treinamento de forma indireta, a perda de teste é uma métrica menos tendenciosa e de maior qualidade do que a perda de treinamento ou a perda de validação.

intervalo de texto

#language

O intervalo de índice de matriz associado a uma subseção específica de uma string de texto. Por exemplo, a palavra good na string Python s="Be good now" ocupa o intervalo de texto de 3 a 6.

tf.Example

#TensorFlow

Um buffer de protocolo padrão para descrever dados de entrada para treinamento ou inferência de modelos de aprendizado de máquina.

tf.keras

#TensorFlow

Uma implementação de Keras integrada ao TensorFlow.

limite (para árvores de decisão)

#df

Em uma condição alinhada ao eixo, o valor que um elemento está sendo comparado. Por exemplo, 75 é o valor de limite na seguinte condição:

grade >= 75

análise de séries temporais

#clustering

Um subcampo do aprendizado de máquina e da estatística que analisa dados temporais. Muitos tipos de problemas de machine learning exigem análise de séries temporais, incluindo classificação, agrupamento, previsão e detecção de anomalias. Por exemplo, você pode usar a análise de séries temporais para prever as vendas futuras de casacos de inverno por mês com base nos dados históricos de vendas.

timestep

#seq

Uma célula "desdobrada" em uma rede neural recorrente. Por exemplo, a figura a seguir mostra três etapas de tempo (rotuladas com os índices t-1, t e t+1):

Três intervalos de tempo em uma rede neural recorrente. A saída do primeiro intervalo de tempo se torna a entrada do segundo. A saída
          do segundo intervalo de tempo se torna a entrada do terceiro.

token

#language

Em um modelo de linguagem, a unidade atômica que o modelo usa para treinar e fazer previsões. Um token geralmente é um dos seguintes:

  • uma palavra. Por exemplo, a frase "dogs like cats" consiste em três tokens de palavra: "dogs", "like" e "cats".
  • um caractere. Por exemplo, a frase "bike fish" consiste em nove tokens de caractere. O espaço em branco conta como um dos tokens.
  • subpalavras, em que uma única palavra pode ser um único token ou vários tokens. Uma subpalavra consiste em uma palavra raiz, um prefixo ou um sufixo. Por exemplo, um modelo de linguagem que usa subpalavras como tokens pode considerar a palavra "dogs" como dois tokens (a palavra raiz "dog" e o sufixo plural "s"). Esse mesmo modelo de linguagem pode considerar a palavra "taller" como duas subpalavras (a palavra raiz "tall" e o sufixo "er").

Em domínios fora dos modelos de linguagem, os tokens podem representar outros tipos de unidades atômicas. Por exemplo, em visão computacional, um token pode ser um subconjunto de uma imagem.

acurácia top-k

#language

É a porcentagem de vezes que um "rótulo de destino" aparece nas primeiras k posições das listas geradas. As listas podem ser recomendações personalizadas ou uma lista de itens ordenados por softmax.

A precisão Top-k também é conhecida como precisão em k.

torre

Um componente de uma rede neural profunda que é uma rede neural profunda. Em alguns casos, cada torre lê de uma origem de dados independente, e essas torres permanecem independentes até que a saída seja combinada em uma camada final. Em outros casos, por exemplo, na torre de codificador e decodificador de muitos transformadores, as torres têm conexões cruzadas entre si.

conteúdo tóxico

#language

O grau em que o conteúdo é abusivo, ameaçador ou ofensivo. Muitos modelos de machine learning podem identificar e medir a toxicidade. A maioria desses modelos identifica a toxicidade em vários parâmetros, como o nível de linguagem abusiva e o nível de linguagem ameaçadora.

TPU

#TensorFlow
#GoogleCloud

Abreviação de Unidade de Processamento de Tensor.

Chip TPU

#TensorFlow
#GoogleCloud

Um acelerador de álgebra linear programável com memória de alta largura de banda no chip otimizada para cargas de trabalho de machine learning. Vários chips de TPU são implantados em um dispositivo TPU.

Dispositivo TPU

#TensorFlow
#GoogleCloud

Uma placa de circuito impresso (PCB) com vários chips de TPU, interfaces de rede de alta largura de banda e hardware de resfriamento do sistema.

TPU mestre

#TensorFlow
#GoogleCloud

O processo de coordenação central em execução em uma máquina host que envia e recebe dados, resultados, programas, desempenho e informações de integridade do sistema para os workers do TPU. O mestre da TPU também gerencia a configuração e o desligamento de dispositivos TPU.

Nó da TPU

#TensorFlow
#GoogleCloud

Um recurso da TPU no Google Cloud com um tipo de TPU específico. O nó de TPU se conecta à sua rede VPC de uma rede VPC peer. Os nós da TPU são um recurso definido na API Cloud TPU.

Pod de TPU

#TensorFlow
#GoogleCloud

Uma configuração específica de dispositivos TPU em um data center do Google. Todos os dispositivos em um pod de TPU são conectados entre si por uma rede dedicada de alta velocidade. Um Pod de TPU é a maior configuração de dispositivos de TPU disponível para uma versão específica de TPU.

Recurso da TPU

#TensorFlow
#GoogleCloud

Uma entidade TPU no Google Cloud que você cria, gerencia ou consome. Por exemplo, nós de TPU e tipos de TPU são recursos de TPU.

Fração de TPU

#TensorFlow
#GoogleCloud

Uma fração da TPU é uma parte fracionária dos dispositivos de TPU em um pod de TPU. Todos os dispositivos em uma fração de TPU são conectados uns aos outros em uma rede dedicada de alta velocidade.

Tipo de TPU

#TensorFlow
#GoogleCloud

Uma configuração de um ou mais dispositivos TPU com uma versão específica de hardware de TPU. Você seleciona um tipo de TPU ao criar um nó de TPU no Google Cloud. Por exemplo, um tipo de TPU v2-8 é um único dispositivo TPU v2 com 8 núcleos. Um tipo de TPU v3-2048 tem 256 dispositivos de TPU v3 em rede e um total de 2.048 núcleos. Os tipos de TPU são um recurso definido na API Cloud TPU.

Worker da TPU

#TensorFlow
#GoogleCloud

Um processo que é executado em uma máquina host e executa programas de aprendizado de máquina em dispositivos TPU.

treinamento

#fundamentals

É o processo de determinação dos parâmetros ideais (pesos e vieses) que compõem um modelo. Durante o treinamento, um sistema lê exemplos e ajusta gradualmente os parâmetros. O treinamento usa cada exemplo de algumas vezes a bilhões de vezes.

perda do treinamento

#fundamentals

Uma métrica que representa a perda de um modelo durante uma iteração de treinamento específica. Por exemplo, suponha que a função de perda seja erro quadrático médio. Talvez a perda de treinamento (o erro quadrado médio) da 10ª iteração seja 2,2, e a perda de treinamento da 100ª iteração seja 1,9.

Uma curva de perda mostra a perda de treinamento em relação ao número de iterações. Uma curva de perda fornece as seguintes dicas sobre o treinamento:

  • Uma inclinação para baixo implica que o modelo está melhorando.
  • Uma inclinação para cima implica que o modelo está piorando.
  • Uma inclinação plana implica que o modelo alcançou a convergência.

Por exemplo, a curva de perda abaixo mostra:

  • Uma inclinação acentuada para baixo durante as iterações iniciais, o que implica uma melhoria rápida do modelo.
  • Uma inclinação gradualmente plana (mas ainda para baixo) até o fim do treinamento, o que implica a melhoria contínua do modelo em um ritmo um pouco mais lento do que durante as iterações iniciais.
  • Uma inclinação plana no final do treinamento, o que sugere convergência.

O gráfico de perda de treinamento em relação às iterações. Essa curva de perda começa
     com uma inclinação acentuada para baixo. A inclinação diminui gradualmente até que
     se torne zero.

Embora a perda de treinamento seja importante, consulte também a generalização.

Desvio de treinamento/exibição

#fundamentals

A diferença entre o desempenho de um modelo durante o treinamento e o desempenho do mesmo modelo durante a disponibilização.

conjunto de treinamento

#fundamentals

O subconjunto do conjunto de dados usado para treinar um modelo.

Tradicionalmente, os exemplos no conjunto de dados são divididos nos três subconjuntos distintos a seguir:

O ideal é que cada exemplo no conjunto de dados pertença a apenas um dos subconjuntos anteriores. Por exemplo, um único exemplo não pode pertencer ao conjunto de treinamento e ao conjunto de validação.

trajetória

#rl

No aprendizado por reforço, uma sequência de tuplas que representam uma sequência de transições de estado do agente, em que cada tupla corresponde ao estado, ação, recompensa e o próximo estado para uma determinada transição de estado.

aprendizado por transferência

Transferir informações de uma tarefa de aprendizado de máquina para outra. Por exemplo, na aprendizagem multitarefa, um único modelo resolve várias tarefas, como um modelo profundo com diferentes nós de saída para diferentes tarefas. O aprendizado por transferência pode envolver a transferência de conhecimento da solução de uma tarefa mais simples para uma mais complexa ou transferir conhecimento de uma tarefa com mais dados para uma com menos dados.

A maioria dos sistemas de aprendizado de máquina resolve uma única tarefa. O aprendizado de transferência é um passo inicial para a inteligência artificial, em que um único programa pode resolver várias tarefas.

Transformer

#language

Uma arquitetura de rede neural desenvolvida no Google que depende de mecanismos de auto-atenção para transformar uma sequência de embeddings de entrada em uma sequência de embeddings de saída sem depender de convoluções ou redes neurais recorrentes. Um transformador pode ser considerado uma pilha de camadas de autoatenção.

Um transformador pode incluir qualquer um dos seguintes:

Um codificador transforma uma sequência de embeddings em uma nova sequência do mesmo tamanho. Um codificador inclui N camadas idênticas, cada uma contendo duas subcamadas. Essas duas subcamadas são aplicadas em cada posição da sequência de incorporação de entrada, transformando cada elemento da sequência em uma nova incorporação. A primeira subcamada do codificador agrega informações de toda a sequência de entrada. A segunda subcamada do codificador transforma as informações agregadas em uma incorporação de saída.

Um decodificador transforma uma sequência de incorporações de entrada em uma sequência de incorporações de saída, possivelmente com um comprimento diferente. Um decodificador também inclui N camadas idênticas com três subcamadas, sendo que duas são semelhantes às subcamadas do codificador. A terceira subcamada do decodificador recebe a saída do codificador e aplica o mecanismo de autoatenção para coletar informações dele.

A postagem do blog Transformer: uma nova arquitetura de rede neural para compreensão de linguagem é uma boa introdução aos transformadores.

invariância translacional

#image

Em um problema de classificação de imagens, a capacidade de um algoritmo de classificar imagens, mesmo quando a posição dos objetos na imagem muda. Por exemplo, o algoritmo ainda pode identificar um cachorro, seja no centro ou na extremidade esquerda do frame.

Consulte também variância de tamanho e variância de rotação.

trigrama

#seq
#language

Um n-grama em que N=3.

verdadeiro negativo (VN)

#fundamentals

Um exemplo em que o modelo prevê corretamente a classe negativa. Por exemplo, o modelo infere que uma mensagem de e-mail específica não é spam e que ela realmente não é spam.

verdadeiro positivo (VP)

#fundamentals

Um exemplo em que o modelo prevê corretamente a classe positiva. Por exemplo, o modelo infere que uma mensagem de e-mail específica é spam e que ela realmente é spam.

taxa de verdadeiro positivo (TPR)

#fundamentals

Sinônimo de recall. Ou seja:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

A taxa de verdadeiro positivo é o eixo y em uma curva ROC.

U

desconhecimento (de um atributo sensível)

#fairness

Uma situação em que atributos sensíveis estão presentes, mas não incluídos nos dados de treinamento. Como os atributos sensíveis muitas vezes estão relacionados a outros atributos dos dados, um modelo treinado sem conhecimento sobre um atributo sensível ainda pode ter efeitos diferentes em relação a esse atributo ou violar outras restrições de justiça.

underfitting

#fundamentals

Produzir um modelo com baixa capacidade de previsão porque o modelo não capturou totalmente a complexidade dos dados de treinamento. Muitos problemas podem causar ajuste inadequado, incluindo:

subamostragem

Remover exemplos da classe majoritária em um conjunto de dados com classes desequilibradas para criar um conjunto de treinamento mais equilibrado.

Por exemplo, considere um conjunto de dados em que a proporção da classe majoritária para a classe minoritária é de 20:1. Para superar esse desequilíbrio de classes, você pode criar um conjunto de treinamento composto por todos os exemplos de classe minoritária, mas apenas um décimo dos exemplos de classe majoritária, o que cria uma proporção de classe de conjunto de treinamento de 2:1. Graças à subamostragem, esse conjunto de treinamento mais equilibrado pode produzir um modelo melhor. Como alternativa, esse conjunto de treinamento mais equilibrado pode conter exemplos insuficientes para treinar um modelo eficaz.

Contraste com a amostragem excessiva.

unidirecional

#language

Um sistema que avalia apenas o texto que antecede uma seção de texto de destino. Em contraste, um sistema bidirecional avalia o texto que antecede e segue uma seção de texto de destino. Consulte bidirecional para mais detalhes.

modelo de linguagem unidirecional

#language

Um modelo de linguagem que baseia as probabilidades apenas nos tokens que aparecem antes, e não depois, dos tokens de destino. Compare com o modelo de linguagem bidirecional.

exemplo não rotulado

#fundamentals

Um exemplo que contém recursos, mas não tem rótulo. Por exemplo, a tabela a seguir mostra três exemplos não rotulados de um modelo de avaliação de casa, cada um com três recursos, mas sem valor da casa:

Número de quartos Número de banheiros Idade da casa
3 2 15
2 1 72
4 2 34

No aprendizado de máquina supervisionado, os modelos são treinados em exemplos rotulados e fazem previsões em exemplos não rotulados.

No aprendizado semi-supervisionado e não supervisionado, exemplos não rotulados são usados durante o treinamento.

Compare o exemplo não rotulado com o exemplo rotulado.

machine learning não supervisionado

#clustering
#fundamentals

Treinar um modelo para encontrar padrões em um conjunto de dados, normalmente um conjunto de dados não rotulado.

O uso mais comum do aprendizado de máquina não supervisionado é agrupar dados em grupos de exemplos semelhantes. Por exemplo, um algoritmo de aprendizado de máquina não supervisionado pode agrupar músicas com base em várias propriedades da música. Os clusters resultantes podem se tornar uma entrada para outros algoritmos de aprendizado de máquina, por exemplo, para um serviço de recomendação de músicas. O agrupamento pode ajudar quando os rótulos úteis são escassos ou ausentes. Por exemplo, em domínios como antiabuso e fraude, os clusters podem ajudar as pessoas a entender melhor os dados.

Compare com o machine learning supervisionado.

modelagem de aumento

Uma técnica de modelagem, comumente usada em marketing, que modela o "efeito causal" (também conhecido como "impacto incremental") de um "tratamento" em um "indivíduo". Veja dois exemplos:

  • Os médicos podem usar a modelagem de aumento para prever a diminuição da mortalidade (efeito causal) de um procedimento médico (tratamento) dependendo da idade e do histórico médico de um paciente (indivíduo).
  • Os profissionais de marketing podem usar a modelagem de aumento para prever o aumento na probabilidade de uma compra (efeito causal) devido a um anúncio (tratamento) em uma pessoa (indivíduo).

A modelagem de aumento se diferencia da classificação ou da regressão porque alguns rótulos (por exemplo, metade dos rótulos em tratamentos binários) estão sempre ausentes na modelagem de aumento. Por exemplo, um paciente pode receber ou não um tratamento. Portanto, só podemos observar se o paciente vai se curar ou não em apenas uma dessas duas situações (nunca em ambas). A principal vantagem de um modelo de aumento é que ele pode gerar previsões para a situação não observada (o contrafactual) e usá-las para calcular o efeito causal.

ponderação

Aplique um peso à classe downsampled igual ao fator de redução.

matriz de usuários

#recsystems

Em sistemas de recomendação, um vetor de embedding gerado por fatoração de matriz que contém indicadores latentes sobre as preferências do usuário. Cada linha da matriz de usuários contém informações sobre a força relativa de vários indicadores latentes para um único usuário. Por exemplo, considere um sistema de recomendação de filmes. Nesse sistema, os indicadores latentes na matriz de usuários podem representar o interesse de cada usuário em gêneros específicos ou podem ser indicadores mais difíceis de interpretar que envolvem interações complexas em vários fatores.

A matriz de usuários tem uma coluna para cada característica latente e uma linha para cada usuário. Ou seja, a matriz do usuário tem o mesmo número de linhas que a matriz alvo que está sendo fatorada. Por exemplo, considerando um sistema de recomendação de filmes para 1.000.000 de usuários, a matriz de usuários terá 1.000.000 de linhas.

V

validação

#fundamentals

A avaliação inicial da qualidade de um modelo. A validação verifica a qualidade das previsões de um modelo em relação ao conjunto de validação.

Como o conjunto de validação é diferente do conjunto de treinamento, a validação ajuda a evitar overfitting.

Você pode pensar em avaliar o modelo em relação ao conjunto de validação como a primeira rodada de testes e avaliar o modelo em relação ao conjunto de teste como a segunda rodada de testes.

perda de validação

#fundamentals

Uma métrica que representa a perda de um modelo no conjunto de validação durante uma iteração específica do treinamento.

Consulte também curva de generalização.

conjunto de validação

#fundamentals

O subconjunto do conjunto de dados que realiza a avaliação inicial em relação a um modelo treinado. Normalmente, você avalia o modelo treinado em relação ao conjunto de validação várias vezes antes de avaliar o modelo em relação ao conjunto de testes.

Tradicionalmente, você divide os exemplos no conjunto de dados nos três subconjuntos distintos a seguir:

O ideal é que cada exemplo no conjunto de dados pertença a apenas um dos subconjuntos anteriores. Por exemplo, um único exemplo não pode pertencer ao conjunto de treinamento e ao conjunto de validação.

Imputação de valor

O processo de substituição de um valor ausente por um substituto aceitável. Quando um valor está ausente, você pode descartar o exemplo inteiro ou usar a imputação de valor para salvar o exemplo.

Por exemplo, considere um conjunto de dados com um recurso temperature que precisa ser gravado a cada hora. No entanto, a leitura da temperatura não estava disponível em um determinado horário. Confira uma seção do conjunto de dados:

Carimbo de data/hora Temperatura
1680561000 10
1680564600 12
1680568200 ausente
1680571800 20
1680575400 21
1680579000 21

Um sistema pode excluir o exemplo ausente ou imputar a temperatura ausente como 12, 16, 18 ou 20, dependendo do algoritmo de imputação.

problema de gradiente evanescente

#seq

A tendência de os gradientes das primeiras camadas ocultas de algumas redes neurais profundas se tornarem surpreendentemente planos (baixos). Gradientes cada vez menores resultam em mudanças cada vez menores nos pesos dos nós em uma rede neural profunda, levando a pouco ou nenhum aprendizado. Os modelos que sofrem com o problema de gradiente de dissipação se tornam difíceis ou impossíveis de treinar. As células Memória de curto prazo longa resolvem esse problema.

Compare com o problema de gradiente de explosão.

importância das variáveis

#df

Um conjunto de pontuações que indica a importância relativa de cada recurso para o modelo.

Por exemplo, considere uma árvore de decisão que estima os preços das casas. Suponha que essa árvore de decisão use três recursos: tamanho, idade e estilo. Se um conjunto de importâncias de variáveis para os três atributos for calculado como {size=5.8, age=2.5, style=4.7}, o tamanho será mais importante para a árvore de decisão do que a idade ou o estilo.

Existem diferentes métricas de importância de variáveis, que podem informar especialistas em aprendizado de máquina sobre diferentes aspectos dos modelos.

autocodificador variacional (VAE, na sigla em inglês)

#language

Um tipo de autoencoder que aproveita a discrepância entre entradas e saídas para gerar versões modificadas das entradas. Os codificadores automáticos variacionais são úteis para IA generativa.

Os VAEs são baseados na inferência variacional, uma técnica para estimar os parâmetros de um modelo de probabilidade.

vetor

Termo muito carregado cujo significado varia de acordo com os diferentes campos matemáticos e científicos. No aprendizado de máquina, um vetor tem duas propriedades:

  • Tipo de dados: os vetores no aprendizado de máquina geralmente contêm números de ponto flutuante.
  • Número de elementos: é o comprimento do vetor ou a dimensão dele.

Por exemplo, considere um vetor de atributos que contém oito números de ponto flutuante. Esse vetor de recursos tem uma dimensão ou comprimento de oito. Os vetores de machine learning geralmente têm um número enorme de dimensões.

É possível representar muitos tipos diferentes de informações como um vetor. Exemplo:

  • Qualquer posição na superfície da Terra pode ser representada como um vetor bidimensional, em que uma dimensão é a latitude e a outra é a longitude.
  • Os preços atuais de cada uma das 500 ações podem ser representados como um vetor de 500 dimensões.
  • Uma distribuição de probabilidade sobre um número finito de classes pode ser representada como um vetor. Por exemplo, um sistema de classificação multiclasse que prevê uma das três cores de saída (vermelho, verde ou amarelo) pode gerar o vetor (0.3, 0.2, 0.5) para significar P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Os vetores podem ser concatenados. Portanto, várias mídias diferentes podem ser representadas como um único vetor. Alguns modelos operam diretamente na concatenação de muitas codificações one-hot.

Processadores especializados, como TPUs, são otimizados para realizar operações matemáticas em vetores.

Um vetor é um tensor de rank 1.

W

Perda de Wasserstein

Uma das funções de perda comumente usadas em redes generativas adversariais, com base na distância de movimentação da Terra entre a distribuição de dados gerados e dados reais.

peso

#fundamentals

Um valor que um modelo multiplica por outro. Treinamento é o processo de determinação dos pesos ideais de um modelo. Inferência é o processo de uso desses pesos aprendidos para fazer previsões.

Mínimos quadrados ponderados alternados (WALS)

#recsystems

Um algoritmo para minimizar a função objetivo durante a fatorização de matrizes em sistemas de recomendação, que permite uma redução de peso dos exemplos ausentes. O WALS minimiza o erro quadrado ponderado entre a matriz original e a reconstrução alternando a correção da fatoração de linha e da coluna. Cada uma dessas otimizações pode ser resolvida pela otimização convexa de mínimos quadrados. Para mais detalhes, consulte o curso sobre sistemas de recomendação.

soma de pesos

#fundamentals

A soma de todos os valores de entrada relevantes multiplicados pelos pesos correspondentes. Por exemplo, suponha que as entradas relevantes sejam as seguintes:

valor de entrada peso de entrada
2 -1,3
-1 0,6
3 0,4

A soma ponderada é, portanto:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Uma soma ponderada é o argumento de entrada de uma função de ativação.

modelo amplo

Um modelo linear que normalmente tem muitos recursos de entrada nulos. Chamamos de "ampla" porque esse modelo é um tipo especial de rede neural com um grande número de entradas que se conectam diretamente ao nó de saída. Os modelos largos geralmente são mais fáceis de depurar e inspecionar do que os modelos profundos. Embora os modelos wide não possam expressar não linearidades usando camadas ocultas, eles podem usar transformações como cruzamento de atributos e bucketização para modelar não linearidades de maneiras diferentes.

Compare com o modelo profundo.

largura

O número de neurônios em uma camada específica de uma rede neural.

sabedoria da multidão

#df

A ideia de que a média das opiniões ou estimativas de um grande grupo de pessoas (a "multidão") geralmente produz resultados surpreendentemente bons. Por exemplo, considere um jogo em que as pessoas precisam adivinhar o número de balas de gelatina em um frasco grande. Embora a maioria das tentativas individuais seja imprecisa, a média de todas as tentativas foi demonstrada empiricamente como surpreendentemente próxima do número real de confetes no pote.

Ensembles são um software análogo à sabedoria da multidão. Mesmo que os modelos individuais façam previsões muito imprecisas, a média das previsões de muitos modelos geralmente gera previsões surpreendentemente boas. Por exemplo, embora uma árvore de decisão individual possa fazer previsões ruins, uma floresta de decisão geralmente faz previsões muito boas.

embedding de palavras

#language

Representação de cada palavra em um conjunto de palavras em um vetor de inserção, ou seja, representação de cada palavra como um vetor de valores de ponto flutuante entre 0,0 e 1,0. Palavras com significados semelhantes têm representações mais semelhantes do que palavras com significados diferentes. Por exemplo, cenouras, salsão e pepinos teriam representações relativamente semelhantes, que seriam muito diferentes das representações de avião, óculos de sol e pasta de dente.

X

Álgebra linear acelerada (XLA)

Um compilador de machine learning de código aberto para GPUs, CPUs e aceleradores de ML.

O compilador XLA usa modelos de frameworks de ML conhecidos, como PyTorch, TensorFlow e JAX, e os otimiza para execução de alto desempenho em diferentes plataformas de hardware, incluindo GPUs, CPUs e aceleradores de ML.

Z

Aprendizado zero-shot

Um tipo de treinamento de aprendizado de máquina em que o modelo infere uma previsão para uma tarefa em que ele não foi treinado especificamente. Em outras palavras, o modelo não recebe exemplos de treinamento específicos para a tarefa, mas é solicitado a fazer inferência para essa tarefa.

comando zero-shot

#language
#generativeAI

Um comando que não fornece um exemplo de como você quer que o modelo de linguagem grande responda. Exemplo:

Partes de uma instrução Observações
Qual é a moeda oficial do país especificado? A pergunta que você quer que o LLM responda.
Índia: A consulta real.

O modelo de linguagem grande pode responder com qualquer uma das seguintes opções:

  • Rúpia
  • INR
  • Rúpias indianas
  • A rúpia
  • A rupia indiana

Todas as respostas estão corretas, mas você pode preferir um formato específico.

Compare e contraste a ativação de zero-shot com os seguintes termos:

Normalização do escore Z

#fundamentals

Uma técnica de dimensionamento que substitui um valor bruto de elemento por um valor de ponto flutuante que representa o número de desvios padrão da média desse elemento. Por exemplo, considere um recurso com média de 800 e desvio padrão de 100. A tabela a seguir mostra como a normalização do Z-score mapeia o valor bruto para o Z-score:

Valor bruto Valor Z
800 0
950 +1,5
575 -2,25

O modelo de aprendizado de máquina é treinado com os escores Z para esse recurso, em vez dos valores brutos.