Glossário de machine learning

Neste glossário, são definidos termos gerais de machine learning, além de específicos do TensorFlow.

A

ablação

Uma técnica para avaliar a importância de um recurso ou componente removendo-o temporariamente de um modelo. Em seguida, retreinar o modelo sem esse atributo ou componente e, se o modelo retreinado desempenho significativamente pior, então o recurso ou componente removido foi provavelmente é importante.

Por exemplo, suponha que você treine um modelo de classificação em 10 recursos e alcançar 88% de precisão no conjunto de teste. Para verificar a importância do primeiro atributo, é possível treinar novamente o modelo usando apenas atributos de machine learning. Se o modelo treinado novamente tiver um desempenho significativamente pior (por exemplo, 55% de precisão), então o atributo removido provavelmente foi importante. Por outro lado, se o modelo retreinado tiver o mesmo desempenho, esse atributo provavelmente foi não é tão importante.

A ablação também pode ajudar a determinar a importância de:

  • componentes maiores, como um subsistema inteiro de um sistema de ML maior
  • Processos ou técnicas, como uma etapa de pré-processamento de dados.

Em ambos os casos, você observaria como o desempenho do sistema muda (ou não muda) depois de ter removido o componente.

Teste A/B

Uma forma estatística de comparar duas (ou mais) técnicas. O modelo A e B. Normalmente, A é uma técnica existente, e a B é uma técnica nova. O teste A/B não só determina qual técnica tem melhor performance mas também se a diferença é estatisticamente significativa.

O teste A/B geralmente compara uma única métrica em duas técnicas. Por exemplo, como a precisão do modelo se compara a dois técnicas? No entanto, o teste A/B também pode comparar qualquer número finito de métricas.

chip de acelerador

#GoogleCloud

uma categoria de componentes de hardware especializados projetados para executar computacionais necessários para algoritmos de aprendizado profundo.

Os chips de aceleradores (ou apenas aceleradores) podem aumente a velocidade e a eficiência das tarefas de treinamento e inferência em comparação a uma CPU de uso geral. São ideais para treinamento redes neurais e tarefas semelhantes com uso intensivo de computação.

Estes são alguns exemplos de chips de aceleração:

  • Unidades de Processamento de Tensor do Google (TPUs) com hardware dedicado para o aprendizado profundo.
  • GPUs da NVIDIA que, embora inicialmente projetadas para processamento gráfico, foram criadas para permitir o processamento em paralelo, que pode aumentar a velocidade de processamento.

precisão

#fundamentals

O número de previsões de classificação corretas dividido pelo número total de previsões. Ou seja:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Por exemplo, um modelo que fez 40 previsões corretas e 10 incorretas previsões teriam uma acurácia de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

A classificação binária fornece nomes específicos para as diferentes categorias de previsões corretas e previsões incorretas: Portanto, a fórmula de acurácia para classificação binária é o seguinte:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

em que:

Comparar e contrastar a acurácia com precisão e recall.

ação

#rl

No aprendizado por reforço, o mecanismo pelo qual o agente transições entre estados da ambiente. O agente escolhe a ação usando política.

função de ativação

#fundamentals

Uma função que permite que as redes neurais aprendam Relações não lineares (complexas) entre atributos e o rótulo.

Funções de ativação conhecidas incluem:

Os gráficos das funções de ativação nunca são linhas retas únicas. Por exemplo, o gráfico da função de ativação ReLU consiste em duas linhas retas:

Um gráfico cartesiano de duas linhas. A primeira linha tem uma constante
          valor y de 0, ao longo do eixo x de -infinito,0 a 0,-0.
          A segunda linha começa em 0,0. Essa linha tem uma inclinação de +1, então
          ela vai de 0,0 a +infinito,+infinito.

Um gráfico da função de ativação sigmoide é semelhante a este:

Um gráfico curvo bidimensional com valores de X abrangendo o domínio
          -infinito a +positivo, enquanto os valores y abrangem o intervalo de quase 0 a
          quase 1. Quando x é 0, y é 0,5. A inclinação da curva é sempre
          positivo, com a maior inclinação em 0,0,5 e diminuindo gradualmente
          se inclina à medida que o valor absoluto de x aumenta.

aprendizado ativo

Uma abordagem de treinamento em que algoritmo escolhe alguns dos dados com os quais aprende. Aprendizado ativo é particularmente valioso quando exemplos rotulados escassos ou caros para conseguir. Em vez de buscar cegamente uma diversidade diversos exemplos rotulados, um algoritmo de aprendizado ativo procura seletivamente a gama particular de exemplos necessários para o aprendizado.

AdaGrad

Um algoritmo sofisticado de gradiente descendente que redimensiona gradientes de cada parâmetro, fornecendo efetivamente cada parâmetro uma taxa de aprendizado independente. Para uma explicação completa, consulte deste artigo do AdaGrad.

agente

#rl

No aprendizado por reforço, a entidade que usa um política para maximizar o retorno esperado obtido com transição entre estados do ambiente.

De modo mais geral, um agente é um software que planeja e executa, de forma autônoma, série de ações em busca de um objetivo, com capacidade de se adaptar às mudanças em seu ambiente. Por exemplo, um agente baseado em LLM pode usar uma LLM para gerar um plano, em vez de aplicar uma política de aprendizado por reforço.

agrupamento aglomerativo

#clustering

Consulte clustering hierárquico.

detecção de anomalias

Processo de identificação de outliers. Por exemplo, se a média para um determinado atributo é 100 com um desvio padrão de 10, a detecção de anomalias sinalizará o valor 200 como suspeito.

AR

Abreviação de realidade aumentada.

área sob a curva PR

Consulte PR AUC (área sob a curva PR).

área sob a curva ROC

Consulte AUC (área sob a curva ROC).

inteligência geral artificial

um mecanismo não humano que demonstra uma ampla variedade de soluções de problemas; criatividade e adaptabilidade. Por exemplo, um programa que demonstre inteligência geral poderia traduzir textos, compor sinfonias e se destacar em ou jogos que ainda não foram inventados.

inteligência artificial

#fundamentals

Um programa ou modelo não humano que pode resolver tarefas sofisticadas. Por exemplo, um programa ou modelo que traduz texto ou um programa ou modelo que identifica doenças usando imagens radiológicas que exibem inteligência artificial.

Formalmente, machine learning é um subcampo da inteligência artificial. No entanto, nos últimos anos, algumas organizações começaram a usar o Os termos inteligência artificial e machine learning são intercambiáveis.

atenção

#language

Um mecanismo usado em uma rede neural que indica a importância de uma palavra específica ou parte de uma palavra. Compacta a atenção a quantidade de informações que um modelo precisa para prever o próximo token/palavra. Um mecanismo de atenção típico pode consistir soma ponderada sobre um conjunto de entradas, em que o weight para cada entrada é calculado por outra parte do rede neural profunda.

Consulte também a autoatenção e autoatenção de várias cabeças, que são elementos básicos dos Transformers.

atributo

#fairness

Sinônimo de feature.

Na imparcialidade do machine learning, os atributos geralmente se referem que pertencem aos indivíduos.

amostragem de atributos

#df

Uma tática para treinar uma floresta de decisão em que cada A árvore de decisão considera apenas um subconjunto aleatório de possíveis recursos ao descobrir a condição. Geralmente, um subconjunto diferente de atributos é amostrado para cada . Por outro lado, ao treinar uma árvore de decisão, sem amostragem de atributos, todos os atributos possíveis serão considerados para cada nó.

AUC (área sob a curva ROC)

#fundamentals

Um número entre 0,0 e 1,0 que representa um Modelo de classificação binária a capacidade de separar classes positivas das classes negativas. Quanto mais próximo a AUC estiver de 1, melhor será a capacidade do modelo de separar as classes umas das outras.

Por exemplo, a ilustração a seguir mostra um modelo de classificador que separa as classes positivas (ovais verdes) das classes negativas (retângulos roxos) perfeitamente. Esse modelo irrealistamente perfeito uma AUC de 1,0:

Uma reta numérica com oito exemplos positivos de um lado e
          Nove exemplos negativos do outro lado.

Por outro lado, a ilustração a seguir mostra os resultados de um classificador modelo que gerou resultados aleatórios. Este modelo tem uma AUC de 0,5:

Uma reta numérica com seis exemplos positivos e seis exemplos negativos.
          A sequência de exemplos é positivo, negativo,
          positivo, negativo, positivo, negativo, positivo, negativo, positivo
          negativo, positivo, negativo.

Sim, o modelo anterior tem uma AUC de 0,5, não 0,0.

A maioria dos modelos está entre os dois extremos. Por exemplo, o modelo a seguir separa um pouco positivos dos negativos e, portanto, tem uma AUC entre 0,5 e 1,0:

Uma reta numérica com seis exemplos positivos e seis exemplos negativos.
          A sequência de exemplos é negativo, negativo, negativo, negativo,
          positivo, negativo, positivo, positivo, negativo, positivo, positivo,
          positiva.

A AUC ignora qualquer valor definido para limite de classificação. Em vez disso, a AUC considera todos os limiares de classificação possíveis.

realidade aumentada

#image

Tecnologia que sobrepõe uma imagem gerada por computador à visão do usuário o mundo real, proporcionando assim uma visão composta.

codificador automático

#language
#image

Um sistema que aprende a extrair as informações mais importantes das entrada. Codificadores automáticos são uma combinação de um codificador e decodificador. Os codificadores automáticos usam o seguinte processo de duas etapas:

  1. O codificador mapeia a entrada para uma dimensão inferior com perdas (normalmente) (intermediário).
  2. O decodificador cria uma versão com perda da entrada original mapeando do formato de dimensão inferior para a dimensão superior original o formato de entrada.

Codificadores automáticos são treinados de ponta a ponta fazendo com que o decodificador reconstruem a entrada original usando o formato intermediário do codificador o mais próximo possível. Como o formato intermediário é menor (dimensional) que o formato original, o codificador automático é forçado para saber quais informações na entrada são essenciais e a saída não será perfeitamente idêntica à entrada.

Exemplo:

  • Se os dados de entrada forem um gráfico, a cópia não exata será semelhante a o gráfico original, mas ligeiramente modificado. Talvez o a cópia não exata remove o ruído do gráfico original ou o preenche alguns pixels ausentes.
  • Se os dados de entrada forem texto, um codificador automático geraria um novo texto que imita (mas não é idêntico) ao texto original.

Consulte também codificadores automáticos variáveis.

viés de automação

#fairness

Quando um tomador de decisões humanos favorece as recomendações feitas por um sistema de tomada de decisão sobre informações tomadas sem automação, mesmo quando o sistema automatizado de tomada de decisão comete erros.

AutoML

Qualquer processo automatizado para criar machine learning modelos. O AutoML pode realizar automaticamente tarefas como as seguintes:

O AutoML é útil para os cientistas de dados porque pode economizar tempo e esforço no desenvolvimento de pipelines de machine learning e na melhoria da previsão precisão. Ele também é útil para os não especialistas, pois complica tarefas de machine learning mais acessíveis para eles.

modelo autoregressivo

#language
#image
#generativeAI

Um modelo que infere uma previsão com base na própria previsões. Por exemplo, modelos de linguagem autorregressivos preveem o próximo token com base nos tokens previstos anteriormente. Todos os modelos baseados em Transformer Os modelos de linguagem grandes são autoregressivos.

Por outro lado, os modelos de imagem baseados em GAN geralmente não são autoregressivos já que geram uma imagem em uma única passagem para a frente e não de forma iterativa em etapas. No entanto, alguns modelos de geração de imagem são autoregressivos porque uma imagem é gerada em etapas.

perda auxiliar

Uma função de perda, usada em conjunto com uma Principal do modelo da rede neural função de perda que ajuda a acelerar o treinamento durante a iterações iniciais quando os pesos são inicializados aleatoriamente.

As funções de perda auxiliares enviam gradientes eficazes às camadas anteriores. Isso facilita convergência durante o treinamento combatendo o problema de desaparecimento do gradiente.

precisão média

Uma métrica para resumir o desempenho de uma sequência classificada de resultados. A precisão média é calculada pela média da valores de exact para cada resultado relevante (cada resultado em a lista de classificação em que o recall aumenta em relação ao resultado anterior).

Consulte também Área sob a curva PR.

condição alinhada ao eixo

#df

Em uma árvore de decisão, uma condição que envolve apenas um único recurso. Por exemplo, se a área é um atributo, a seguinte condição é alinhada ao eixo:

area > 200

Contraste com a condição oblíqua.

B

retropropagação

#fundamentals

O algoritmo que implementa gradiente descendente na redes neurais.

O treinamento de uma rede neural envolve muitas iterações do seguinte ciclo de duas etapas:

  1. Durante a passagem para frente, o sistema processa um lote de exemplos para gerar previsões. O sistema compara cada previsão a cada valor de rótulo. A diferença entre a previsão e o valor do rótulo é a perda desse exemplo. O sistema agrega as perdas de todos os exemplos para calcular o total perda de dados do lote atual.
  2. Durante o passe para trás (backpropagação), o sistema reduz a perda em ajustando os pesos de todos os neurônios em todas as camadas escondidas.

As redes neurais costumam conter muitos neurônios em muitas camadas escondidas. Cada um desses neurônios contribui para a perda geral de maneiras diferentes. A retropropagação determina se é preciso aumentar ou diminuir os pesos aplicadas a determinados neurônios.

A taxa de aprendizado é um multiplicador que controla a grau em que cada passe para trás aumenta ou diminui cada peso. Uma taxa de aprendizado grande aumentará ou diminuirá cada peso mais do que uma taxa de aprendizado baixa.

Em termos de cálculo, a retropropagação implementa o regra de cadeia. do cálculo. Ou seja, a retropropagação calcula a derivada parcial do erro com em relação a cada parâmetro.

Anos atrás, profissionais de ML precisavam escrever código para implementar a retropropagação. APIs modernas de ML, como o TensorFlow, agora implementam a retropropagação para você. Ufa.

ensabo

#df

Um método para treinar um ensemble em que cada O modelo integrante é treinado em um subconjunto aleatório de exemplos amostrados com substituição. Por exemplo, uma floresta aleatória é uma coleção de árvores de decisão treinadas com bagging.

O termo bagging é uma abreviação de botstrap aggregating.

pacote de palavras

#language

Uma representação das palavras em uma frase ou passagem independente da ordem. Por exemplo, saco de palavras representa três frases idênticas a seguir:

  • O cachorro pula
  • pula o cachorro
  • cachorro pula

Cada palavra é mapeada para um índice em um vetor esparso, em que o vetor tem um índice para cada palavra no vocabulário. Por exemplo: a frase o cachorro pula é mapeada em um vetor de atributo com valor diferente de zero nos três índices correspondentes às palavras the, dog e saltos. O valor diferente de zero pode ser qualquer um destes:

  • O número 1 indica a presença de uma palavra.
  • Contagem do número de vezes que uma palavra aparece na bolsa. Por exemplo: se a frase fosse the cão marrom é um cachorro com pelo marrom, então ambas maroon e dog seriam representados como 2, enquanto as outras palavras representado como 1.
  • Algum outro valor, como o logaritmo da contagem do número de vezes que uma palavra aparece na bolsa.

baseline

Um modelo usado como um ponto de referência para comparar o desempenho de outro (normalmente, um mais complexo) está tendo. Por exemplo, O modelo de regressão logística pode servir como um bom valor de referência para um modelo profundo.

Para um problema específico, o valor de referência ajuda os desenvolvedores de modelos a quantificar o desempenho mínimo esperado que um novo modelo deve alcançar para o novo para que o modelo seja útil.

lote

#fundamentals

O conjunto de exemplos usado em um treinamento iteration. O tamanho do lote determina o número de exemplos em uma lote.

Consulte época para uma explicação de como um lote se relaciona um período.

inferência em lote

#TensorFlow
#GoogleCloud

O processo de inferência de previsões em vários exemplos não rotulados divididos em menores subconjuntos ("lotes").

A inferência em lote pode aproveitar os recursos de carregamento em paralelo ícones de acelerador: Ou seja, vários aceleradores pode inferir previsões simultaneamente em diferentes lotes de dados não rotulados , o que aumenta drasticamente o número de inferências por segundo.

normalização em lote

Normalizar a entrada ou saída do funções de ativação em um camada escondida. A normalização em lote pode oferecem os seguintes benefícios:

tamanho do lote

#fundamentals

O número de exemplos em um lote. Por exemplo, se o tamanho do lote for 100, então o modelo processa Cem exemplos por iteração.

Confira a seguir estratégias conhecidas de tamanho de lote:

  • Gradiente descendente estocástico (SGD, na sigla em inglês), em que o tamanho do lote é 1.
  • Lote completo, em que o tamanho do lote é o número de exemplos na conjunto de treinamento. Por exemplo, se o conjunto de treinamento contiver um milhão de exemplos, o tamanho do lote será de um milhão exemplos. Em geral, o lote completo é uma estratégia ineficiente.
  • minilote em que o tamanho do lote geralmente fica entre 10 e 1.000. Em geral, o minilote é a estratégia mais eficiente.

Rede neural bayesiana

Uma rede neural probabilística que considera incerteza em pesos e saídas. Uma rede neural padrão o modelo de regressão normalmente prevê um valor escalar; Por exemplo, um modelo padrão prevê o preço de uma casa de 853.000. Por outro lado, uma rede neural bayesiana prevê uma distribuição valores por exemplo, um modelo bayesiano prevê o preço de uma casa de 853.000 um desvio padrão de 67.200.

Uma rede neural bayesiana depende Bayes Teorema para calcular incertezas em pesos e previsões. Uma rede neural bayesiana rede pode ser útil quando é importante quantificar a incerteza, como no modelos relacionados à indústria farmacêutica. Redes neurais bayesianas também podem ajudar evitar o overfitting.

Otimização bayesiana

Um modelo de regressão probabilística técnica para otimizar recursos computacionais caros funções de objetivo otimizando uma alternativa que quantifica a incerteza usando uma técnica de aprendizagem bayesiana. Como A otimização bayesiana é muito cara e geralmente é usada para otimizar tarefas caras de avaliar que têm um pequeno número de parâmetros, como selecionando hiperparâmetros.

Equação de Bellman

#rl

No aprendizado por reforço, a seguinte identidade é satisfeita pelo Função Q:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Os algoritmos de aprendizado por reforço aplicam isso identidade para criar Q-learning com a seguinte regra de atualização:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Além do aprendizado por reforço, a equação de Bellman tem aplicações para programação dinâmica. Consulte a Entrada da Wikipédia para a equação de Bellman (link em inglês).

BERT (Codificador bidirecional) representações de transformadores)

#language

Um modelo de arquitetura para representação de textos. Um modelo O modelo BERT pode atuar como parte de um modelo maior de classificação de texto ou outras tarefas de ML.

O BERT tem as seguintes características:

As variantes do BERT incluem:

  • ALBERT que é um acrônimo para A Light BERT (em inglês).
  • LaBSE (em inglês).
.

Consulte Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processamento para uma visão geral do BERT.

viés (ética/imparcialidade)

#fairness
#fundamentals

1. Estereótipos, preconceito ou favoritismo em relação a algumas coisas, pessoas ou grupos em detrimento de outras. Esses vieses podem afetar a coleta e a interpretação dos dados, o design de um sistema e como os usuários interagem com um sistema. Formas desse tipo de viés incluem:

2. Erro sistemático introduzido por um procedimento de amostragem ou relatório. Formas desse tipo de viés incluem:

Não confunda com o termo de viés em modelos de machine learning. ou viés de previsão.

viés (matemática) ou termo de viés

#fundamentals

Uma interceptação ou deslocamento de uma origem. O viés é um parâmetro modelos de machine learning, que é simbolizado por um dos seguinte:

  • b
  • w0

Por exemplo, viés é o valor b na seguinte fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Em uma linha bidimensional simples, viés significa apenas "interceptação em y". Por exemplo, a tendência da linha na ilustração a seguir é 2.

O gráfico de uma linha com inclinação de 0,5 e viés (interceptação y) de 2.

O viés existe porque nem todos os modelos começam na origem (0,0). Por exemplo: suponha que um parque de diversões custa 2 euros para entrar e € 0,50 por cada hora de estadia de um cliente. Portanto, um modelo que mapeia O custo total tem um viés de 2 porque o menor custo é de 2 euros.

Viés não deve ser confundido com viés na ética e imparcialidade. ou viés de previsão.

bidirecional

#language

Um termo usado para descrever um sistema que avalia o texto precedido e segue uma seção de destino do texto. Por outro lado, Somente sistema unidirecional avalia o texto que antecede uma seção de destino do texto.

Por exemplo, considere um modelo de linguagem mascarada que deve determinar as probabilidades das palavras que representam o sublinhado a seguinte pergunta:

Como está _____ com você?

Um modelo de linguagem unidirecional teria que basear apenas as probabilidades com base no contexto fornecido pelas palavras "o que", "é" e "o". Por outro lado, um modelo de linguagem bidirecional também pode obter contexto de "com" e "você", o que pode ajudar o modelo a gerar previsões melhores.

modelo de linguagem bidirecional

#language

Um modelo de linguagem que determina a probabilidade de uma token fornecido está presente em um determinado local em um trecho de texto com base em o texto anterior e seguinte.

bigrama

#seq
#language

Um N-grama em que N=2.

classificação binária

#fundamentals

Um tipo de tarefa de classificação que prevê uma de duas classes mutuamente exclusivas:

Por exemplo, cada um dos dois modelos de machine learning a seguir executa classificação binária:

  • um modelo que determina se as mensagens de e-mail são spam (a classe positiva) ou não é spam (a classe negativa).
  • um modelo que avalia sintomas médicos para determinar se uma pessoa tem uma doença específica (a classe positiva) ou não tem doenças (a classe negativa).

Diferente da classificação multiclasse,

Consulte também regressão logística e limite de classificação.

condição binária

#df

Em uma árvore de decisão, uma condição que tem apenas dois resultados possíveis, normalmente sim ou não. Por exemplo, esta é uma condição binária:

temperature >= 100

Contraste com a condição não binária.

agrupamento por classes

Sinônimo de agrupamento por classes.

BLEU (Subestudo de avaliação bilíngue)

#language

Uma pontuação entre 0,0 e 1,0, indicando a qualidade de uma tradução. entre dois idiomas humanos (por exemplo, inglês e russo). BLEU o score de 1,0 indica uma tradução perfeita; uma pontuação BLEU de 0,0 indica péssima.

impulsionando

uma técnica de machine learning que combina de forma iterativa um conjunto de classificadores pouco precisos (conhecidos como classificadores "fracos") em um com alta precisão (um classificador "forte") ao pesar melhor os exemplos que o modelo está atualmente classificação incorreta.

caixa delimitadora

#image

Em uma imagem, as coordenadas (x, y) de um retângulo ao redor de uma área de interesse, como o cachorro na imagem abaixo.

Fotografia de um cachorro sentado em um sofá. Uma caixa delimitadora verde
          com as coordenadas superior esquerda (275, 1271) e inferior direita
          coordenadas de (2954, 2761) circunscreve o corpo do cachorro

fazer o broadcast

Expandir a forma de um operando em uma operação matemática de matriz para dimensions compatíveis para essa operação. Por exemplo: a álgebra linear exige que os dois operandos em uma operação de adição de matriz devem ter as mesmas dimensões. Consequentemente, não é possível adicionar uma matriz de forma (m, n) a um vetor de comprimento n. A transmissão permite essa operação expandir virtualmente o vetor de comprimento n para uma matriz de forma (m, n) ao replicando os mesmos valores em cada coluna.

Por exemplo, com as definições abaixo, a álgebra linear proíbe A+B porque A e B têm dimensões diferentes:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

No entanto, a transmissão permite a operação A+B expandindo virtualmente B para:

 [[2, 2, 2],
  [2, 2, 2]]

Portanto, A+B agora é uma operação válida:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Consulte a seguinte descrição de transmitindo em NumPy para saber mais.

agrupamento por classes

#fundamentals

Converter um único atributo em vários atributos binários chamados buckets ou bins, normalmente com base em um intervalo de valores. A característica cortada normalmente é uma atributo contínuo.

Por exemplo, em vez de representar a temperatura recurso de ponto flutuante contínuo, é possível cortar faixas de temperatura em buckets discretos, como:

  • <= 10 graus Celsius seria o "frio" do Google Cloud.
  • 11 a 24 graus Celsius seria a "temperação" do Google Cloud.
  • >= 25 graus Celsius seria o valor "morno" do Google Cloud.

O modelo vai tratar todos os valores no mesmo bucket de forma idêntica. Para exemplo, os valores 13 e 22 estão no bucket temperado, então o trata os dois valores de maneira idêntica.

C

camada de calibragem

Um ajuste pós-previsão, normalmente para explicar viés de previsão. As previsões ajustadas e probabilidades devem corresponder à distribuição de um conjunto observado de rótulos.

geração de candidatos

#recsystems

O conjunto inicial de recomendações escolhidas por um sistema de recomendação. Por exemplo, considere um com 100 mil títulos. A fase de geração de candidatos cria uma lista muito menor de livros adequados para um determinado usuário, por exemplo, 500. Mas mesmo 500 livros é demais para recomendar a um usuário. Futuras, mais caras, fases de um sistema de recomendação (como pontuação e reclassificação) reduz esses 500 para um número muito menor mais útil de recomendações.

amostragem de candidatos

Uma otimização do tempo de treinamento que calcula a probabilidade de todas as rótulos positivos, usando, por exemplo, softmax, mas apenas para um amostra de rótulos negativos. Por exemplo, dado um exemplo rotulado beagle e dog, a amostragem de candidatos calcula as probabilidades previstas e termos de perda correspondentes para:

  • beagle (link em inglês)
  • cachorro
  • um subconjunto aleatório das classes negativas restantes (por exemplo, cat; lollipop, fence).

A ideia é que As classes negativas podem aprender com dados menos de reforço negativo, desde que classes positivas sempre recebem o resultado positivo adequado de reforço, e isso é de fato observado empiricamente.

A amostragem de candidatos é mais eficiente em termos computacionais do que algoritmos de treinamento que calcula previsões para todas as classes negativas, especialmente quando o de classes negativas é muito grande.

dados categóricos

#fundamentals

Atributos com um conjunto específico de valores possíveis. Por exemplo: use um atributo categórico chamado traffic-light-state, que só pode ter um dos três valores possíveis a seguir:

  • red
  • yellow
  • green

Ao representar traffic-light-state como um atributo categórico, um modelo pode aprender impactos diferentes de red, green e yellow no comportamento do motorista.

Às vezes, os atributos categóricos são chamados recursos discretos.

Contraste com dados numéricos.

modelo de linguagem causal

#language

Sinônimo de modelo de linguagem unidirecional.

Consulte o modelo de linguagem bidirecional para contrastar as diferentes abordagens direcionais na modelagem de linguagem.

centroid

#clustering

O centro de um cluster, conforme determinado por um k-means ou Algoritmo k-median. Por exemplo, se k for 3, então o algoritmo k-means ou k-median encontrará 3 centroides.

cluster baseado em centroide

#clustering

Uma categoria de algoritmos de clustering que organiza os dados em clusters não hierárquicos. k-means é o método usou um algoritmo de clustering baseado em centroides.

Diferente do clustering hierárquico algoritmos.

comandos de cadeia de pensamento

#language
#generativeAI

Uma técnica de engenharia de comando que incentiva um modelo de linguagem grande (LLM) para explicar sua raciocínio, passo a passo. Por exemplo, considere o comando a seguir, atenção especial à segunda frase:

Quantas forças g um motorista experimentaria em um carro que varia de 0 a 60 milhas por hora em 7 segundos? Na resposta, mostre todos os cálculos relevantes.

A resposta do LLM provavelmente:

  • Mostrar uma sequência de fórmulas da física, conectando os valores 0, 60 e 7 nos locais apropriados.
  • Explique por que ele escolheu essas fórmulas e o que as diversas variáveis significam.

Os comandos de cadeia de pensamento forçam o LLM a realizar todos os cálculos, o que pode levar a uma resposta mais correta. Além disso, a cadeia de pensamento a criação de prompts permite que o usuário examine as etapas do LLM para determinar se ou não, a resposta faz sentido.

chat

#language
#generativeAI

O conteúdo de um diálogo com um sistema de ML, normalmente um modelo de linguagem grande. a interação anterior em um chat (o que você digitou e como o modelo de linguagem grande respondeu) se torna o contexto para as partes seguintes do chat.

Um chatbot é um aplicativo de um modelo de linguagem grande.

checkpoint

Dados que capturam o estado dos parâmetros de um modelo em um para uma iteração de treinamento específica. Os checkpoints permitem a exportação de modelos pesos ou treinamento várias sessões. Checkpoints também ative o treinamento para continuar com os erros passados (por exemplo, preempção do job).

Ao ajustar ajustes, o ponto de partida para treinamento, o novo modelo será um modelo ponto de verificação do modelo pré-treinado.

classe

#fundamentals

Uma categoria à qual um rótulo pode pertencer. Exemplo:

Um modelo de classificação prevê uma classe. Por outro lado, um modelo de regressão prevê um número em vez de uma classe.

modelo de classificação

#fundamentals

Um modelo cuja previsão é uma classe. Por exemplo, estes são todos os modelos de classificação:

  • Um modelo que prevê o idioma de uma frase de entrada (francês? Espanhol? italiano?).
  • Um modelo que prevê espécies de árvores (Maple? Carvalho? Baobá?).
  • um modelo que prevê a classe positiva ou negativa de um determinado condição médica.

Por outro lado, os modelos de regressão preveem números em vez de classes.

Dois tipos comuns de modelos de classificação são:

limiar de classificação

#fundamentals

Em uma classificação binária, uma número entre 0 e 1 que converte a saída bruta de um Modelo de regressão logística em uma previsão da classe positiva ou a classe negativa. O limiar de classificação é um valor escolhido por um usuário, e não um valor escolhido pelo treinamento de modelo.

Um modelo de regressão logística gera um valor bruto entre 0 e 1. Em seguida:

  • Se esse valor bruto for maior que o limiar de classificação, a classe positiva é prevista.
  • Se esse valor bruto for menor que o limiar de classificação, a classe negativa é prevista.

Por exemplo, suponha que o limiar de classificação seja 0,8. Se o valor bruto for 0,9, o modelo vai prever a classe positiva. Se o valor bruto for 0,7, o modelo prevê a classe negativa.

A escolha do limiar de classificação influencia muito o número de falsos positivos e falsos negativos.

conjunto de dados com desequilíbrio de classes

#fundamentals

Conjunto de dados para um problema de classificação em que o número total de rótulos de cada classe é significativamente diferente. Por exemplo, considere um conjunto de dados de classificação binária com dois rótulos são divididos da seguinte forma:

  • 1.000.000 de rótulos negativos
  • 10 rótulos positivos

A proporção entre rótulos negativos e positivos é de 100.000 para 1. Portanto, é um conjunto de dados sem equilíbrio de classes.

Em contraste, o conjunto de dados a seguir não tem equilíbrio de classes porque o a proporção entre rótulos negativos e positivos é relativamente próxima de 1:

  • 517 rótulos negativos
  • 483 rótulos positivos

Conjuntos de dados multiclasse também podem apresentar desequilíbrio de classes. Por exemplo, os seguintes o conjunto de dados de classificação multiclasse também apresenta desequilíbrio entre as classes porque um rótulo tem muito mais exemplos do que os outros dois:

  • 1.000.000 de rótulos com a classe "green"
  • 200 marcadores com a classe "roxo"
  • 350 marcadores com a classe "laranja"

Consulte também entropia, classe principal, e classe minoritária.

recorte

#fundamentals

Uma técnica para lidar com outliers fazendo de uma ou mais das seguintes opções:

  • Reduzir valores de feature que são maiores que o máximo até o limite máximo.
  • Aumentar valores de atributos menores que o limite mínimo até esse um limite mínimo.

Por exemplo, suponha que <0,5% dos valores de um atributo específico estejam fora do intervalo de 40 a 60. Nesse caso, faça o seguinte:

  • Recorte todos os valores acima de 60 (o limite máximo) para que fiquem exatamente 60.
  • Recorte todos os valores abaixo de 40 (o limite mínimo) para que fiquem exatamente 40.

Outliers podem danificar os modelos, às vezes causando pesos transbordar durante o treinamento. Alguns outliers também podem prejudicar métricas como acurácia. O recorte é uma técnica comum para limitar os danos.

Forças de corte de gradiente Valores de gradiente em um intervalo designado durante o treinamento.

Cloud TPU

#TensorFlow
#GoogleCloud

Um acelerador de hardware especializado projetado para acelerar de machine learning no Google Cloud.

clustering

#clustering

Agrupar exemplos relacionados, especialmente durante aprendizado não supervisionado. Depois que todas são agrupados, uma pessoa pode, opcionalmente, dar significado a cada cluster.

Existem muitos algoritmos de clustering. Por exemplo, k-means exemplos de clusters de algoritmo com base na proximidade centroide, como no diagrama a seguir:

Um gráfico bidimensional em que o eixo x é rotulado como largura da árvore,
          e o eixo Y é rotulado como altura da árvore. O gráfico contém duas
          centroides e várias dezenas de pontos de dados. Os pontos de dados são
          categorizadas com base na proximidade. Ou seja, os pontos de dados
          mais próximos de um centroide são categorizados como cluster 1, enquanto
          mais próximos do outro centroide são categorizados como cluster 2.

Um pesquisador humano pode então revisar os clusters e, por exemplo, rotular o cluster 1 como "árvores anãs" e o cluster 2 como "árvores em tamanho original".

Como outro exemplo, considere um algoritmo de clustering com base em uma distância entre um ponto central e um ponto central, ilustrado da seguinte maneira:

Dezenas de pontos de dados são organizados em círculos concêntricos, quase
          como buracos ao redor do centro de um alvo. O anel mais interno
          de pontos de dados é categorizado como cluster 1, o anel do meio
          é categorizado como cluster 2, e o anel mais externo
          cluster 3.

coadaptação

Quando os neurônios preveem padrões nos dados de treinamento contando quase exclusivamente em saídas de outros neurônios específicos, em vez de depender o comportamento da rede como um todo. Quando os padrões que causam a coadaptação não estiverem presentes nos dados de validação, a coadaptação causa um overfitting. A regularização de dropout reduz a coadaptação. porque o dropout garante que os neurônios não possam depender apenas de outros neurônios específicos.

filtragem colaborativa

#recsystems

Fazer previsões sobre os interesses de um usuário com base nos interesses de muitos outros usuários. Filtragem colaborativa é frequentemente usado em sistemas de recomendação.

deslocamento de conceito

Uma mudança na relação entre os atributos e o rótulo. Com o tempo, o deslocamento de conceito reduz a qualidade de um modelo.

Durante o treinamento, o modelo aprende a relação entre os atributos os rótulos no conjunto de treinamento. Se os rótulos no conjunto de treinamento bons proxies para o mundo real, o modelo deve fazer uma boa previsões do mundo real. No entanto, devido ao deslocamento de conceito, as previsões se degradam com o tempo.

Por exemplo, considere uma classificação binária que prevê se um determinado modelo de carro é "eficiente em termos de combustível". Ou seja, os recursos podem ser:

  • peso do carro
  • compressão do mecanismo
  • tipo de transmissão

enquanto o rótulo for:

  • eficiência de combustível
  • não eficiente em termos de combustível

No entanto, o conceito de "carro econômico" mantém mudando. Um modelo de carro rotulado como econômico em 1994 provavelmente ser rotulados como não econômicos em combustível em 2024. Um modelo sofrendo deslocamento de conceito tende a fazer previsões cada vez menos úteis ao longo do tempo.

Compare e veja as diferenças com a não estacionário.

transição

#df

Em uma árvore de decisão, qualquer que avalia uma expressão. Por exemplo, a seguinte parte de um a árvore de decisão contém duas condições:

Uma árvore de decisão composta de duas condições: (x > 0) e
          (y > 0).

Uma condição também é chamada de divisão ou teste.

Contraste a condição com leaf.

Consulte também:

confabulação

#language

Sinônimo de alucinação artificial.

"Confabulação" é provavelmente um termo tecnicamente mais preciso do que alucinação. No entanto, a alucinação ficou conhecida primeiro.

configuração

o processo de atribuição dos valores de propriedade iniciais usados para treinar um modelo. incluindo:

Em projetos de machine learning, a configuração pode ser feita por meio de um método de configuração do Terraform ou usando bibliotecas de configuração, como as seguintes:

viés de confirmação

#fairness

a tendência de buscar, interpretar, favorecer e lembrar informações de uma de forma que confirme crenças ou hipóteses pré-existentes de alguém. Desenvolvedores de machine learning podem coletar ou rotular inadvertidamente dados de formas que influenciam um resultado apoiando seus crenças O viés de confirmação é uma forma de viés implícito.

O viés do experimentador é uma forma de viés de confirmação em que um experimentador continua treinando os modelos até que um que uma hipótese seja confirmada.

matriz de confusão

#fundamentals

Tabela NxN que resume o número de previsões corretas e incorretas. feita por um modelo de classificação. Por exemplo, considere a seguinte matriz de confusão para um Modelo de classificação binária:

Tumor (previsto) Não tumor (previsto)
Tumor (informações empíricas) 18 (VP) 1 (FN)
Não tumor (informações empíricas) 6 (QPS) 452 (VN)

A matriz de confusão anterior mostra o seguinte:

  • Das 19 previsões em que as informações empíricas foram Tumor, o modelo classificou corretamente 18 e incorretamente 1.
  • Das 458 previsões em que as informações empíricas não eram Tumor, o modelo classificado corretamente como 452 e classificado incorretamente 6.

A matriz de confusão para uma classificação multiclasse problema pode ajudar a identificar padrões de erros. Por exemplo, considere a seguinte matriz de confusão para uma classe com 3 classes modelo de classificação multiclasse que categoriza três tipos diferentes de íris (Virgínica, Versicolor e Setosa). Quando as informações empíricas eram a Virgínia, matriz de confusão mostra que o modelo tem muito mais probabilidade de prever Versicolor do que Setosa:

  Setosa (previsto) Versicolor (previsão) Virgínia (previsto)
Setosa (informações empíricas) 88 12 0
Versicolor (informações empíricas) 6 141 7
Virginia (informações empíricas) 2 27 109

Outro exemplo: uma matriz de confusão pode revelar que um modelo treinado reconhecer dígitos escritos à mão tende a prever incorretamente 9 em vez de 4, ou equivocadamente 1 em vez de 7.

As matrizes de confusão contêm informações suficientes para calcular uma Várias métricas de performance, incluindo precisão e recall.

análise de distrito eleitoral

#language

Dividir uma sentença em estruturas gramaticais menores ("constituintes"). Uma parte posterior do sistema de ML, como modelo de compreensão de linguagem natural, pode analisar os constituintes mais facilmente do que a frase original. Por exemplo: considere a seguinte frase:

Meu amigo adotou dois gatos.

Um analisador de distrito eleitoral pode dividir esta frase nas seguintes dois componentes:

  • Myfriend é um sintagma nominal.
  • adopted two cats (em inglês) é um sintagma verbal.

Esses constituintes podem ser subdivididos em partes menores. Por exemplo, a frase verbal

adotou dois gatos

poderia ser subdividida em:

  • adopted é um verbo.
  • two cats é outro sintagma nominal.

incorporação de linguagem contextualizada

#language
#generativeAI

Uma incorporação que chega perto de "compreensão". palavras e frases de uma maneira que os falantes humanos nativos podem fazer. Linguagem contextualizada os embeddings entendem sintaxe, semântica e contexto complexos.

Por exemplo, considere embeddings da palavra em inglês cow. Embeddings mais antigos como word2vec pode representar palavras para que a distância no espaço de embedding de vaca para touro é semelhante à distância de ewe (ovelha fêmea) até macho (ovelha macho) ou de fêmea para macho. Linguagem contextualizada os embeddings podem ir além, reconhecendo que falantes de inglês às vezes casualmente use a palavra vaca para significar vaca ou touro.

janela de contexto

#language
#generativeAI

O número de tokens que um modelo pode processar em um determinado comando. Quanto maior a janela de contexto, mais informações o modelo pode usar para fornecer respostas coerentes e consistentes ao comando.

atributo contínuo

#fundamentals

Um recurso de ponto flutuante com um intervalo infinito de possíveis como temperatura ou peso.

Não use recursos discretos.

amostragem por conveniência

Usar um conjunto de dados não reunido cientificamente para execução rápida experimentos. Mais tarde, é essencial mudar para um modelo no conjunto de dados.

convergência

#fundamentals

Um estado alcançado quando os valores de perda mudam muito pouco ou de forma alguma em cada iteração. Por exemplo, os seguintes A curva de perda sugere a convergência em cerca de 700 iterações:

Gráfico cartesiano. o eixo X é uma perda. O eixo Y é o número de etapas
          iterações. A perda é muito alta durante as primeiras iterações, mas
          uma queda brusca. Depois de cerca de 100 iterações, a perda ainda é
          em ordem decrescente, mas de maneira muito mais gradual. Após cerca de 700 iterações,
          a perda permanece estável.

Um modelo convergente quando o treinamento adicional não para melhorar o modelo.

No aprendizado profundo, os valores de perda às vezes permanecem constantes ou quase isso em muitas iterações antes de finalmente descer. Durante um longo período de valores de perda constantes, talvez você tenha temporariamente uma falsa sensação de convergência.

Consulte também parada antecipada.

função convexa

Uma função em que a região acima do gráfico é uma conjunto convexo. A função convexa prototípica é tem uma forma parecida com a letra U. Por exemplo, os seguintes são todas funções convexas:

Curvas em forma de U, cada uma com um ponto mínimo.

Por outro lado, a função a seguir não é convexa. Observe como o região acima do gráfico não é um conjunto convexo:

Uma curva em forma de W com dois pontos mínimos locais diferentes.

Uma função estritamente convexa tem exatamente um ponto mínimo local, que também é o ponto mínimo global. As funções clássicas em forma de U são funções estritamente convexas. No entanto, algumas funções convexas (por exemplo, retas) não têm formato de U.

otimização convexa

O processo de usar técnicas matemáticas como gradiente descendente para encontrar o mínimo de uma função convexa. Grande parte da pesquisa em machine learning se concentrou na formulação de vários problemas de otimização convexa e na resolução desses problemas com eficiência.

Para detalhes completos, consulte Boyd e Vandenberghe, Convexo otimização.

conjunto convexo

Um subconjunto do espaço euclidiano que uma reta traçada entre dois pontos na o subconjunto permanece completamente dentro do subconjunto. Por exemplo, os dois formas são conjuntos convexos:

Uma ilustração de um retângulo. Outra ilustração de uma forma oval.

Por outro lado, as duas formas a seguir não são conjuntos convexos:

Uma ilustração de um gráfico de pizza sem uma fatia.
          Outra ilustração de um polígono extremamente irregular.

convolução

#image

Em matemática, casualmente, uma combinação de duas funções. Na máquina machine learning, uma convolução mistura a técnica convolucional filtro e a matriz de entrada para treinar pesos.

O termo "convolução" em machine learning é muitas vezes uma forma abreviada de referente à operação convolucional ou camada convolucional.

Sem as convoluções, um algoritmo de machine learning teria que aprender um peso separado para cada célula em um tensor grande. Por exemplo: um algoritmo de machine learning treinando em imagens 2K x 2K seria forçado a encontrar 4 milhões de pesos separados. Graças às convoluções, uma tecnologia de machine learning algoritmo só precisa encontrar pesos para cada célula da filtro convolucional, reduzindo drasticamente a memória necessária para treinar o modelo. Quando o filtro convolucional é aplicada, ela é simplesmente replicada nas células, de modo que cada uma é multiplicada ao lado do filtro.

filtro convolucional

#image

Um dos dois atores operação convolucional. (O outro ator é uma fração de uma matriz de entrada. Um filtro convolucional é uma matriz que tem a mesma classificação da matriz de entrada, mas com uma forma menor. Por exemplo, considerando uma matriz de entrada de 28x28, o filtro pode ser qualquer matriz 2D. menor que 28 x 28.

Na manipulação fotográfica, todas as células em um filtro convolucional são normalmente definidos com um padrão constante de 1 e 0. No machine learning, os filtros convolucionais costumam conter números aleatórios e, depois, a rede treina os valores ideais.

camada convolucional

#image

Uma camada de uma rede neural profunda em que um O filtro convolucional transmite uma entrada matricial. Por exemplo, considere o seguinte modelo 3x3 filtro convolucional:

Uma matriz 3x3 com estes valores: [[0,1,0], [1,0,1], [0,1,0]]

A animação a seguir mostra uma camada convolucional composta de nove operações convolucionais envolvendo a matriz de entrada 5x5. Observe que cada A operação convolucional funciona em uma fração diferente de 3x3 da matriz de entrada. A matriz 3x3 resultante (à direita) consiste nos resultados das 9 operações convolucionais:

Uma animação mostrando duas matrizes. A primeira matriz é a matriz 5x5,
          matriz: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197.182], [33,28,92,195,179], [31,40,100,192,177]].
          A segunda matriz é a matriz 3x3:
          [[181.303.618], [115.338.605], [169.351.560]].
          A segunda matriz é calculada aplicando a função convolucional
          filtrar [[0, 1, 0], [1, 0, 1], [0, 1, 0]] de
          diferentes subconjuntos 3x3 da matriz 5x5.

rede neural convolucional

#image

Uma rede neural em que pelo menos uma camada é camada convolucional. Uma estrutura convolucional típica rede neural consiste em alguma combinação das seguintes camadas:

As redes neurais convolucionais tiveram grande sucesso em certos tipos de problemas, como reconhecimento de imagem.

operação convolucional

#image

A seguinte operação matemática de duas etapas:

  1. Multiplicação por elementos do filtro convolucional e uma fração de matriz de entrada. (A fração da matriz de entrada tem a mesma classificação, tamanho como filtro convolucional.)
  2. Soma de todos os valores na matriz de produtos resultante.

Por exemplo, considere a seguinte matriz de entrada de 5x5:

A matriz 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197.182], [33,28,92,195,179], [31,40,100,192,177]].

Agora imagine o seguinte filtro convolucional 2x2:

A matriz 2x2: [[1, 0], [0, 1]]

Cada operação de convolução envolve uma única fração de 2x2 matriz de entrada. Por exemplo, suponha que usamos a fatia 2x2 na no canto superior esquerdo da matriz de entrada. Então, a operação de convolução essa fração é a seguinte:

Aplicando o filtro convolucional [[1, 0], [0, 1]] ao canto superior esquerdo
          Seção 2x2 da matriz de entrada, que é [[128,97], [35,22]].
          O filtro convolucional deixa os 128 e 22 intactos, mas os zeros
          os 97 e 35. Consequentemente, a operação de convolução produz
          o valor 150 (128+22).

Uma camada convolucional consiste em uma série de operações convolucionais, cada uma agindo em uma fração diferente da matriz de entrada.

custo

Sinônimo de loss.

treinamento conjunto

Uma abordagem de aprendizado semi-supervisionado especialmente útil quando todas as condições a seguir são verdadeiras:

O treinamento em conjunto amplia os indicadores independentes e as transforma em um indicador mais forte. Por exemplo, considere um modelo de classificação que categoriza carros usados individuais como Bom ou Ruim. Um conjunto de os atributos preditivos podem focar em características agregadas, como ano, marca e modelo do carro; outro conjunto de recursos preditivos pode se concentrar o histórico de condução do proprietário anterior e o histórico de manutenção do carro.

O artigo fundamental sobre treinamento conjunto é Combinar dados rotulados e não rotulados com Treinamento conjunto por Blum e Mitchell.

imparcialidade contrafactual

#fairness

Uma métrica de imparcialidade que verifica se um classificador produz o mesmo resultado para um indivíduo e para outro indivíduo. idêntico ao primeiro, exceto em relação a um ou mais atributos sensíveis. Avaliar um classificador para a imparcialidade contrafactual é um método para descobrir possíveis fontes de em um modelo.

Consulte "When Worlds Collide: Integrating Different Counterfactual Suposições em imparcialidade" para uma discussão mais detalhada sobre o caso contrafatual imparcialidade.

viés de cobertura

#fairness

Consulte o viés de seleção.

flor esmagadora

#language

Uma sentença com um significado ambíguo. As flores típicas representam um problema significativo nas áreas naturais compreensão da linguagem. Por exemplo, o título A fita vermelha segura o arranha-céu é uma porque um modelo PLN poderia interpretar o título literalmente ou figurativamente.

crítico

#rl

Sinônimo de Deep Q-Network.

entropia cruzada

Uma generalização de Log Loss para Problemas de classificação multiclasse. Entropia cruzada quantifica a diferença entre duas distribuições de probabilidade. Consulte também perplexidade.

validação cruzada

Um mecanismo para estimar quão bem um modelo seria generalizado para novos dados testando o modelo em relação a um ou mais subconjuntos de dados não sobrepostos não incluídos no conjunto de treinamento.

função de distribuição cumulativa (CDF, na sigla em inglês)

Uma função que define a frequência das amostras menor ou igual a um o valor da meta. Por exemplo, considere uma distribuição normal de valores contínuos. Uma CDF diz que aproximadamente 50% das amostras devem ser menores ou iguais à média e que aproximadamente 84% das amostras devem ser menores ou iguais para um desvio padrão acima da média.

D

análise de dados

Compreender os dados considerando amostras, medição, e visualização. A análise de dados pode ser particularmente útil quando o conjunto de dados é recebido antes de criar o primeiro modelo. Também é crucial para entender os experimentos e depurar problemas com no sistema.

aumento de dados

#image

Aumentando artificialmente o intervalo e o número de Exemplos de treinamento transformando examples para criar outros exemplos. Por exemplo: suponha que as imagens sejam uma de suas features, mas seu conjunto de dados não conter exemplos de imagens suficientes para que o modelo aprenda associações úteis. Idealmente, você adicionaria imagens rotuladas ao seu conjunto de dados para para treinar o modelo adequadamente. Se isso não for possível, o aumento de dados podem girar, esticar e refletir cada imagem para produzir muitas variantes da imagem original, possivelmente produzindo dados rotulados suficientes para oferecer treinamento.

DataFrame

#fundamentals

Um tipo de dados pandas popular para representar conjuntos de dados na memória.

O DataFrame é análogo a uma tabela ou planilha. Cada coluna de um DataFrame tem um nome (um cabeçalho), e cada linha é identificada por um um número exclusivo.

Cada coluna em um DataFrame é estruturada como uma matriz 2D, mas cada coluna pode receber um tipo de dados próprio.

Consulte também a versão oficial Referência do pandas.DataFrame página.

paralelismo de dados

Uma forma de escalonar o treinamento ou a inferência que replica um modelo inteiro vários dispositivos e, em seguida, transmite um subconjunto dos dados de entrada para cada dispositivo. O paralelismo de dados pode permitir treinamento e inferência em modelos de tamanhos de lote No entanto, o paralelismo de dados exige que seja pequeno o suficiente para caber em todos os dispositivos.

O paralelismo de dados normalmente acelera o treinamento e a inferência.

Consulte também paralelismo de modelos.

conjunto de dados ou conjunto de dados

#fundamentals

Coleção de dados brutos, geralmente (mas não exclusivamente) organizados em uma um dos seguintes formatos:

  • uma planilha
  • um arquivo em formato CSV (valores separados por vírgula)

API Dataset (tf.data)

#TensorFlow

Uma API de alto nível do TensorFlow para ler dados e e transformá-los da forma que um algoritmo de machine learning exige. Um objeto tf.data.Dataset representa uma sequência de elementos em que cada elemento contém um ou mais Tensors. Um tf.data.Iterator fornece acesso aos elementos de uma Dataset.

Para detalhes sobre a API Dataset, consulte tf.data: criar pipelines de entrada do TensorFlow no Guia do programador do TensorFlow.

fronteira de decisão

O separador entre classes aprendidas por um modelo em um classe binária ou problemas de classificação multiclasse. Por exemplo: na imagem a seguir, que representa um problema de classificação binária, a fronteira de decisão é a fronteira entre a classe laranja e a classe azul:

Um limite bem definido entre uma classe e outra.

floresta de decisão

#df

Um modelo criado a partir de várias árvores de decisão. Uma floresta de decisão faz uma previsão agregando as previsões de as árvores de decisão. Os tipos conhecidos de florestas de decisão incluem florestas aleatórias e árvores otimizadas com gradiente.

limite de decisão

Sinônimo de limite de classificação.

árvore de decisão

#df

Um modelo de aprendizado supervisionado composto por um conjunto de condições e saias organizadas hierarquicamente. Por exemplo, veja a seguir uma árvore de decisão:

Uma árvore de decisão composta de quatro condições organizadas
          hierarquicamente, o que leva a cinco folhas.

decodificador

#language

Em geral, qualquer sistema de ML que converte de uma camada processada, densa ou interna para uma representação mais bruta, esparsa ou externa.

Decodificadores são componentes de um modelo maior, em que são usados pareado com um codificador.

Em tarefas sequência para sequência, um decodificador começa com o estado interno gerado pelo codificador para prever a próxima sequência.

Consulte Transformer para a definição de um decodificador em a arquitetura de transformador.

modelo profundo

#fundamentals

Uma rede neural que contém mais de uma camada escondida.

Um modelo profunda também é chamado de rede neural profunda.

Contraste com o modelo amplo.

de rede neural profunda, amplamente utilizado

Sinônimo de modelo profundo.

Rede Q profunda (DQN, na sigla em inglês)

#rl

No Q-learning, uma rede neural profunda que prevê funções Q.

Critic é um sinônimo de Deep Q-Network.

paridade demográfica

#fairness

Uma métrica de imparcialidade que é satisfeita se os resultados da classificação de um modelo não dependem determinado atributo sensível.

Por exemplo, se tanto liliputianos quanto brobdingnagians se aplicam a Universidade Glubbdubdrib, a paridade demográfica é alcançada se a porcentagem de liliputianos admitidos é igual à porcentagem de Brobdingnagians aceito, independentemente de um grupo ser, em média, mais qualificado que a outra.

Contraste com probabilidades equalizadas e igualdade de oportunidade, que permite os resultados da classificação dependem de atributos sensíveis, mas não permitem resultados de classificação para determinados Rótulos de informações empíricas dependem de atributos sensíveis. Consulte "Atacar a discriminação com um machine learning mais inteligente" para uma visualização. explorar as vantagens e desvantagens ao otimizar a paridade demográfica.

remover ruído

#language

Uma abordagem comum de aprendizado autossupervisionado em que:

  1. Ruído é adicionado artificialmente ao conjunto de dados.
  2. O modelo tenta remover o ruído.

A remoção de ruído permite aprender com exemplos não rotulados. O conjunto de dados original serve como o destino ou label e os dados com ruído como entrada.

Alguns modelos de linguagem mascarada usam a remoção de ruído. da seguinte forma:

  1. O ruído é adicionado artificialmente a uma frase não rotulada mascarando algumas os tokens.
  2. O modelo tenta prever os tokens originais.

atributo denso

#fundamentals

Um atributo em que a maioria ou todos os valores são diferentes de zero, normalmente um Tensor de valores de ponto flutuante. Por exemplo, os seguintes O tensor de 10 elementos é denso porque 9 dos valores dele são diferentes de zero:

8 3 7 5 2 4 0 4 9 6

Diferente do recurso esparso.

camada densa

Sinônimo de camada totalmente conectada.

profundidade

#fundamentals

A soma dos itens a seguir em uma rede neural:

Por exemplo, uma rede neural com cinco camadas escondidas e uma camada final tem uma profundidade de 6.

Observe que a camada de entrada não profundidade de influência.

rede neural convolucional separável em profundidade (sepCNN)

#image

Uma rede neural convolucional arquitetura baseada em Origem, mas os módulos Inception são substituídos por módulos separáveis em profundidade convoluções Também conhecido como Xception.

Uma convolução separável em profundidade (também abreviada como convolução separável) considera uma convolução 3D padrão em duas operações de convolução separadas computação mais eficiente: primeiro, uma convolução profunda, com uma profundidade de 1 (n ✕ n ✕ 1) e, em seguida, uma convolução pontual, com comprimento e largura de 1 (1 ✕ 1 ✕ n).

Para saber mais, consulte Xception: aprendizado profundo com Depthwise Separable. convoluções.

rótulo derivado

Sinônimo de marcador de proxy.

dispositivo

#TensorFlow
#GoogleCloud

Um termo sobrecarregado com as duas definições possíveis a seguir:

  1. Uma categoria de hardware que pode executar uma sessão do TensorFlow, incluindo CPUs, GPUs e TPUs.
  2. Ao treinar um modelo de ML em ícones de acelerador (GPUs ou TPUs), a parte do sistema que realmente manipula tensores e embeddings. O dispositivo é executado em chips de acelerador. Por outro lado, o host geralmente são executados em uma CPU.

privacidade diferencial

Em machine learning, uma abordagem de anonimização para proteger dados sensíveis (por exemplo, informações pessoais de um indivíduo) incluídas no conjunto de dados conjunto de treinamento. Essa abordagem garante que o modelo não aprende ou se lembra muito de uma determinada indivíduo. Para isso, usamos a amostragem e a adição de ruído durante para ocultar pontos de dados individuais e reduzir o risco de exposição dados sensíveis de treinamento.

A privacidade diferencial também é usada fora do machine learning. Por exemplo: os cientistas de dados às vezes usam a privacidade diferencial para proteger privacidade ao calcular estatísticas de uso de produtos para diferentes informações demográficas.

redução de dimensão

Como diminuir o número de dimensões usadas para representar um recurso específico em um vetor de atributo, normalmente convertendo em um vetor de embedding.

dimensões

Termo sobrecarregado com qualquer uma das seguintes definições:

  • O número de níveis de coordenadas em um Tensor. Por exemplo:

    • Um escalar tem dimensões zero, por exemplo, ["Hello"].
    • Um vetor tem uma dimensão. por exemplo, [3, 5, 7, 11].
    • Uma matriz tem duas dimensões: por exemplo, [[2, 4, 18], [5, 7, 14]].

    É possível especificar exclusivamente uma célula específica em um vetor unidimensional com uma coordenada, você precisa de duas coordenadas para especificar exclusivamente um determinada célula em uma matriz bidimensional.

  • O número de entradas em um vetor de recurso.

  • O número de elementos em uma camada de incorporação.

comandos diretos

#language
#generativeAI

Sinônimo de comando zero-shot.

atributo discreto

#fundamentals

Um recurso com um conjunto finito de valores possíveis. Por exemplo: um atributo com valores que só podem ser animal, vegetable ou mineral é um atributos discretos (ou categóricos).

Contraste com o recurso contínuo.

modelo discriminativo

Um modelo que prevê rótulos de um conjunto de um ou mais recursos. Mais formalmente, os modelos discriminativos definem a probabilidade condicional de uma saída, com base nos atributos weights; ou seja:

p(output | features, weights)

Por exemplo, um modelo que prevê se um e-mail é spam a partir de atributos e pesos é um modelo discriminativo.

A grande maioria dos modelos de aprendizado supervisionado, incluindo e regressão, são modelos discriminativos.

Compare com o modelo generativo.

discriminador

Um sistema que determina se os exemplos são reais ou falsos.

Alternativamente, o subsistema dentro de um sistema adversário generativo rede que determina se os exemplos criados pelo gerador são reais ou fictícios.

impacto diferente

#fairness

Tomada de decisões sobre pessoas que afetam uma população diferente subgrupos de maneira desproporcional. Isso geralmente se refere a situações em que um processo de tomada de decisão algorítmico prejudica ou beneficia alguns subgrupos mais do que outros.

Por exemplo, suponha que um algoritmo que determine o valor de um Lilliputian a qualificação para empréstimos imobiliários em miniatura tem mais chances de classificar como "não qualificadas" caso seu endereço de correspondência contenha uma determinada CEP/código postal. Se os Liliputianos de Big-Endian têm mais probabilidade de endereços de correspondência com esse código postal do que Little-Endian Lilliputians, o algoritmo pode causar impactos diferentes.

Contraste com o tratamento de desigualdade, que se concentra em disparidades que ocorrem quando as características do subgrupo são entradas explícitas para um processo de tomada de decisão algorítmico.

tratamento desigual

#fairness

Como fatorar os assuntos atributos sensíveis em um processo de tomada de decisão algorítmico, de modo que diferentes subgrupos das pessoas são tratadas de forma diferente.

Por exemplo, considere um algoritmo que determina os Liliputians a qualificação para um empréstimo imobiliário em miniatura com base no e dados fornecidos no pedido de empréstimo. Se o algoritmo usa A afiliação de Lilliputian como Big-Endian ou Little-Endian como entrada, isso está sendo tratado de maneira diferente nessa dimensão.

Compare com o impacto desigual, que se concentra nas disparidades nos impactos sociais das decisões algorítmicas sobre subgrupos independentemente de esses subgrupos serem entradas do modelo.

destilação

#generativeAI

O processo de reduzir o tamanho de um modelo (conhecido como o professor) para um modelo menor (conhecido como estudante) que emula as previsões do modelo original da maneira mais fiel possível. Extração é útil porque o modelo menor tem duas vantagens principais em relação ao modelo maior modelo (professor):

  • Tempo de inferência mais rápido
  • Redução do uso de memória e energia

No entanto, as previsões dos estudantes geralmente não são tão boas quanto as previsões do professor.

A destilação treina o modelo estudante para minimizar função de perda com base na diferença entre as saídas das previsões dos modelos estudantes e professores.

Compare e compare a destilação com os seguintes termos:

Distribuição

A frequência e o intervalo de valores diferentes para um determinado feature ou label. Uma distribuição captura a probabilidade de um valor específico.

A imagem a seguir mostra histogramas de duas distribuições diferentes:

  • À esquerda, uma distribuição da lei de poder da riqueza versus o número de pessoas possui essa riqueza.
  • À direita, uma distribuição normal da altura versus o número de pessoas possuem essa altura.

Dois histogramas. Um histograma mostra uma distribuição da lei de potência com
          riqueza no eixo X e número de pessoas que têm essa riqueza no
          eixo Y. A maioria das pessoas tem pouca riqueza, e poucas têm
          muita riqueza. O outro histograma mostra uma distribuição normal
          com a altura no eixo X e o número de pessoas com essa altura
          no eixo Y. A maioria das pessoas está aglomerada perto da média.

Entender a distribuição de cada atributo e rótulo pode ajudar você a determinar como para normalizar valores e detectar outliers.

A frase fora de distribuição refere-se a um valor que não aparece no conjunto de dados ou é muito raro. Por exemplo, uma imagem do planeta Saturno seria considerado fora de distribuição para um conjunto de dados que consiste em imagens de gatos.

clustering dividido

#clustering

Consulte clustering hierárquico.

downsampling

#image

Termo sobrecarregado que pode significar:

  • Reduzir a quantidade de informações em um atributo em para treinar um modelo com mais eficiência. Por exemplo: antes de treinar um modelo de reconhecimento de imagem, reduzir a amostragem imagens para um formato de resolução mais baixa.
  • Treinamento em uma porcentagem desproporcionalmente baixa de super-representados classe exemplos para melhorar o treinamento de modelos em turmas sub-representadas. Por exemplo, em um caso de balanceamento de classe conjunto de dados, os modelos tendem a aprender muito sobre os classe principal e não o suficiente sobre a classe minoritária. A redução de amostragem ajuda equilibrar a quantidade de treinamento para as classes majoritárias e minoritárias.

DQN

#rl

Abreviação de Deep Q-Network.

regularização de dropout

Uma forma de regularização útil no treinamento redes neurais. Regularização de dropout remove a seleção aleatória de um número fixo de unidades em uma rede camada para uma única etapa de gradiente. Quanto mais unidades forem descartadas, mais a regularização. Isso é análogo ao treinamento da rede para emular um ensemble exponencialmente grande de redes menores. Para mais detalhes, consulte Dropout: uma maneira simples de evitar que redes neurais sejam Overfitting:

dinâmico

#fundamentals

Algo feito com frequência ou continuamente. Os termos dinâmico e on-line são sinônimos em machine learning. Confira a seguir usos comuns de modelos dinâmicos e on-line em máquinas aprendizado:

  • Um modelo dinâmico (ou modelo on-line) é um modelo que são treinados novamente com frequência ou continuamente.
  • O treinamento dinâmico (ou treinamento on-line) é o processo de treinamento com frequência ou de forma contínua.
  • A inferência dinâmica (ou inferência on-line) é o processo de e a geração de previsões sob demanda.

modelo dinâmico

#fundamentals

Um modelo que é frequente (talvez até continuamente) retreinado. Um modelo dinâmico é um "aprendizado para toda a vida" que se adapta constantemente à evolução dos dados. Um modelo dinâmico também é conhecido como uma modelo on-line.

Contraste com o modelo estático.

E

execução rápida

#TensorFlow

Um ambiente de programação do TensorFlow em que as operações executar imediatamente. Em contraste, as operações chamadas em a execução de gráfico não são executadas até que sejam explicitamente avaliado. A execução antecipada é uma interface imperativa, muito como o código na maioria das linguagens de programação. Programas de execução áspera são geralmente muito mais fáceis de depurar do que programas de execução de gráficos.

parada antecipada

#fundamentals

Um método de regularização que envolve o encerramento treinamento antes do término da perda do treinamento diminuindo. Na parada antecipada, você para intencionalmente o treinamento do modelo. quando a perda em um conjunto de dados de validação começa increase; ou seja, quando O desempenho da generalização piora.

distância da movimentação da Terra (EMD)

Uma medida da semelhança relativa de duas distribuições. Quanto menor a distância da movimentação da Terra, mais semelhantes são as distribuições.

editar distância

#language

Uma medida da semelhança entre duas strings de texto. No machine learning, editar distância é útil porque é simples e uma forma eficaz de comparar duas strings conhecidas como semelhantes ou para encontrar strings semelhantes a uma determinada string.

Há várias definições para edição da distância, cada uma usando strings diferentes. as operações. Por exemplo, o Distância de Levenshtein considera o menor número de operações de exclusão, inserção e substituição.

Por exemplo, a distância de Levenshtein entre as palavras "coração" e "dardos" é 3 porque as três edições a seguir são o menor número de alterações para transformar uma palavra no outro:

  1. coração → deart (substitua "h" por "d")
  2. deart → dart (excluir "e")
  3. dart → darts (insert "s")

Notação Einsum

Uma notação eficiente para descrever como dois tensores devem ser combinadas. Os tensores são combinados multiplicando os elementos de um tensor pelos elementos do outro tensor e, em seguida, somando os produtos. A notação Einsum usa símbolos para identificar os eixos de cada tensor, e aqueles Os mesmos símbolos são reorganizados para especificar o formato do novo tensor resultante.

NumPy fornece uma implementação comum de Einsum.

camada de embedding

#language
#fundamentals

Uma camada escondida especial que é treinada em uma atributo categórico de alta dimensão para aprender gradualmente um vetor de embedding de dimensão menor. Um a camada de embedding permite que uma rede neural treine muito mais mais eficiente do que treinar apenas com o atributo categórico de alta dimensão.

Por exemplo, a Terra atualmente suporta cerca de 73.000 espécies de árvores. Suponha espécie de árvore é um atributo no seu modelo, portanto, a camada de entrada inclui um vetor one-hot 73.000 de comprimento de elementos. Por exemplo, talvez baobab fosse representado algo assim:

Uma matriz de 73.000 elementos. Os primeiros 6.232 elementos contêm o valor
     0. O elemento seguinte contém o valor 1. Os 66.767 elementos finais
     o valor zero.

Uma matriz de 73.000 elementos é muito longa. Se você não adicionar uma camada de embedding ao modelo, o treinamento vai levar muito tempo, porque multiplicando 72.999 zeros. Talvez você escolha a camada de embedding para consistir de 12 dimensões. Consequentemente, a camada de embedding aprenderá gradualmente um novo vetor de embedding para cada espécie de árvore.

Em determinadas situações, gerar hash é uma alternativa razoável para uma camada de embedding.

espaço de embedding

#language

O espaço vetorial d-dimensional que pertence a uma dimensão superior espaço de vetor são mapeados. Idealmente, o espaço de embedding contém um que produz resultados matemáticos significativos, por exemplo, Em um espaço de embedding ideal, a adição e subtração de embeddings pode resolver tarefas de analogia de palavras.

O produto de pontos de dois embeddings é uma medida da semelhança deles.

vetor de embedding

#language

De modo geral, uma matriz de números de ponto flutuante retirados de qualquer camada escondida que descrevem as entradas dela. Muitas vezes, um vetor de embedding é a matriz de números de ponto flutuante treinados em uma camada de embedding. Por exemplo, suponha que uma camada de embedding precise aprender uma vetor de embedding para cada uma das 73 mil espécies de árvores na Terra. Talvez o matriz a seguir é o vetor de embedding de um baobá:

Uma matriz de 12 elementos, cada um contendo um número de ponto flutuante.
          entre 0,0 e 1,0.

Um vetor de embedding não é um monte de números aleatórios. Uma camada de embedding determina esses valores pelo treinamento, semelhante à maneira a rede neural aprende outros pesos durante o treinamento. Cada elemento do matriz é uma classificação juntamente com alguma característica de uma espécie de árvore. Que representa quais espécies de árvores característica? Isso é muito difícil para que humanos possam determinar.

A parte matematicamente notável de um vetor de embedding é que itens têm conjuntos semelhantes de números de ponto flutuante. Por exemplo, semelhantes espécies de árvores têm um conjunto mais semelhante de números de ponto flutuante do que diferentes espécies de árvores. Sequoias e sequoias são espécies de árvores relacionadas, então eles terão um conjunto mais semelhante de números de ponto flutuante do que sequoias e coqueiros. Os números no vetor de embedding mudam a cada novo treinamento do modelo, mesmo que isso com entradas idênticas.

função de distribuição cumulativa empírica (eCDF, na sigla em inglês) EDF)

Uma função de distribuição cumulativa com base em medições empíricas de um conjunto de dados real. O valor do parâmetro em qualquer ponto ao longo do eixo x é a fração de observações em conjunto de dados que sejam menores ou iguais ao valor especificado.

minimização do risco empírico (ERM)

Escolher a função que minimiza a perda no conjunto de treinamento. Contraste com a minimização do risco estrutural.

codificador

#language

Em geral, qualquer sistema de ML que converte dados brutos, esparsos ou em uma representação mais processada, densa ou mais interna.

Codificadores são componentes de um modelo maior, em que são usados pareado com um decodificador. Alguns transformadores codificadores e decodificadores, embora outros transformadores usem apenas o ou só o decodificador.

Alguns sistemas usam a saída do codificador como entrada para uma classificação ou rede de regressão.

Nas tarefas sequência para sequência, um codificador toma uma sequência de entrada e retorna um estado interno (um vetor). Depois, decoder usa esse estado interno para prever a próxima sequência.

Consulte Transformer para a definição de um codificador em a arquitetura de transformador.

conjunto

Uma coleção de modelos treinados de forma independente com previsões que são calculados de acordo com a média ou agregados. Em muitos casos, um conjunto produz previsões do que um único modelo. Por exemplo, random Forest é um ensemble criado a partir de várias árvores de decisão. Nem todos florestas de decisão são conjuntos.

entropia

#df

Em teoria da informação, uma descrição do quão imprevisível é uma probabilidade e a distribuição do Terraform. Por outro lado, a entropia também é definida como informações que cada exemplo contém. Uma distribuição tem a maior entropia possível quando todos os valores de uma variável aleatória igualmente prováveis.

A entropia de um conjunto com dois valores possíveis "0" e "1" (por exemplo, os rótulos em um problema de classificação binária) tem a seguinte fórmula:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

em que:

  • H é a entropia.
  • p é a fração de "1" exemplos.
  • q é a fração de "0" exemplos. Observe que q = (1 - p)
  • log geralmente é log2. Nesse caso, a entropia unidade é um pouco.

Por exemplo, suponha que:

  • 100 exemplos contêm o valor "1"
  • 300 exemplos contêm o valor "0"

Portanto, o valor de entropia é:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bits por exemplo

Um conjunto que é perfeitamente equilibrado (por exemplo, 200 "0" e 200 "1") teria uma entropia de 1,0 bit por exemplo. À medida que um conjunto se torna desequilibrado, a entropia dele se move para 0,0.

Em árvores de decisão, a entropia ajuda a formular ganhos de informações para ajudar os divisor seleciona as condições durante o crescimento de uma árvore de decisão de classificação.

Comparar a entropia com:

A entropia é frequentemente chamada de entropia de Shannon.

ambiente

#rl

No aprendizado por reforço, o mundo que contém o agente e permite que o agente observe o estado desse mundo. Por exemplo: o mundo representado pode ser um jogo, como o xadrez, ou um mundo físico, como um labirinto. Quando o agente aplica uma ação ao ambiente, o ambiente transita entre os estados.

episódio

#rl

No aprendizado por reforço, cada uma das tentativas repetidas dos agent para aprender um ambiente.

época

#fundamentals

Uma passagem de treinamento completa para todo o conjunto de treinamento. de modo que cada exemplo seja processado uma vez.

Um período representa N/tamanho do lote iterações de treinamento, em que N é o número total de exemplos.

Por exemplo, suponha que:

  • O conjunto de dados é composto por 1.000 exemplos.
  • O tamanho do lote é de 50 exemplos.

Portanto, um único período requer 20 iterações:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

política épsilon greedy

#rl

No aprendizado por reforço, uma política que siga uma política aleatória com probabilidade de épsilon ou caso contrário, uma política gananciosa. Por exemplo, se épsilon for 0.9, a política segue uma política aleatória 90% das vezes e uma política 10% das vezes.

Ao longo de episódios sucessivos, o algoritmo reduz o valor de épsilon para mudar de uma política aleatória para uma gananciosa. De mudar a política, o agente primeiro explora aleatoriamente o ambiente e explore gananciosamente os resultados da exploração aleatória.

igualdade de oportunidade

#fairness

Uma métrica de imparcialidade para avaliar se um modelo é prever o resultado desejável igualmente bem para todos os valores de um atributo confidencial: Em outras palavras, se o resultado desejado para um modelo é a classe positiva, a meta seria que a taxa de verdadeiro positivo fosse a igual para todos os grupos.

A igualdade de oportunidade está relacionada a probabilidades igualitárias, o que exige que tanto as taxas de verdadeiros positivos quanto as As taxas de falsos positivos são as mesmas para todos os grupos.

Suponha que a Universidade Glubbdubdrib admita liliputianos e brobdingnagians a um rigoroso programa de matemática. Liliputianos as escolas de ensino médio oferecem um currículo robusto com aulas de matemática, e a grande maioria dos estudantes qualificados para o programa da universidade. Os Brobdingnagians as escolas de ensino médio não oferecem aulas de matemática e, como resultado, muito menos de seus alunos estão qualificadas. A igualdade de oportunidade é atendida para o rótulo preferido de "admitido" em relação à nacionalidade (liliputiano ou brobdingnagiano) se estudantes qualificados têm a mesma chance de serem admitidos, independentemente de eles são liliputianos ou brobdingnagianos.

Por exemplo, suponha que 100 liliputianos e 100 brobdingnaginos se apliquem a Glubbdubdrib University, e as decisões de admissão são tomadas da seguinte maneira:

Tabela 1. Candidatos liliputianos (90% são qualificados)

  Qualificado Não qualificado
Aceito 45 3
Recusado 45 7
Total 90 10
Porcentagem de estudantes qualificados admitidos: 45/90 = 50%
Porcentagem de estudantes não qualificados rejeitados: 7/10 = 70%
Porcentagem total de estudantes liliputianos admitidos: (45+3)/100 = 48%

 

Tabela 2. Candidatos a Brobdingnagian (10% qualificados):

  Qualificado Não qualificado
Aceito 5 9
Recusado 5 81
Total 10 90
Porcentagem de estudantes qualificados admitidos: 5/10 = 50%
Porcentagem de estudantes não qualificados rejeitados: 81/90 = 90%
Porcentagem total de estudantes Brobdingnagian admitidos: (5+9)/100 = 14%

Os exemplos anteriores satisfazem a igualdade de oportunidade para aceitação alunos qualificados porque Liliputians e Brobdingnagians qualificados têm 50% de chance de serem aceitos.

Embora a igualdade de oportunidade seja satisfeita, as duas métricas de imparcialidade a seguir não forem satisfatórios:

  • paridade demográfica: liliputianos e Os Brobdingnagins são admitidos na universidade em níveis diferentes; 48% dos estudantes liliputianos são admitidos, mas apenas 14% São aceitos estudantes de Brobdingnagian.
  • igualdades: enquanto Liliputiano qualificado e alunos de Brobdingnagian têm a mesma chance de serem admitidos, a restrição adicional que licenciantes e litígios não qualificados Os Brobdingnagians têm a mesma chance de serem rejeitados não é satisfeitos. Os licenciantes não qualificados têm uma taxa de rejeição de 70%, enquanto Brobdingnagians não qualificados tem uma taxa de rejeição de 90%.

Consulte "Igualdade de oportunidade no aprendizado supervisionado" para uma discussão mais detalhada. de igualdade de oportunidade. Consulte também "Atacar a discriminação com um machine learning mais inteligente" para uma visualização. analisar as vantagens e desvantagens da otimização voltada à igualdade de oportunidade.

probabilidades iguais

#fairness

Uma métrica de imparcialidade para avaliar se um modelo está prevendo resultados igualmente. bem para todos os valores de um atributo sensível com tanto para a classe positiva quanto para a classe negativa, não apenas uma classe ou outra exclusivamente. Em outras palavras, a taxa de verdadeiro positivo e a taxa de falso negativo deve ser o mesmo para todos os grupos.

As probabilidades equalizadas estão relacionadas igualdade de oportunidade, que se concentra apenas nas taxas de erro de uma única classe (positivas ou negativas).

Por exemplo, suponha que a Universidade Glubbdubdrib admita liliputianos e Brobdingnagians a um rigoroso programa de matemática. Liliputianos secundário as escolas oferecem um currículo avançado de matemática, e a grande maioria alunos qualificados para o programa universitário. Os Brobdingnagians secundário as escolas não oferecem aulas de matemática e, como resultado, muito menos seus alunos estejam qualificados. As probabilidades iguais são satisfeitas, desde que não não importa se um candidato é liliputiano ou brobdingnagian, se ele são qualificados, eles têm a mesma probabilidade de serem admitidos no programa, Se não estiverem qualificados, eles têm a mesma chance de serem rejeitados.

Suponha que 100 liliputianos e 100 brobdingnagians se inscrevam no Glubbdubdrib As decisões sobre universidades e admissão são tomadas da seguinte forma:

Tabela 3. Candidatos liliputianos (90% são qualificados)

  Qualificado Não qualificado
Aceito 45 2
Recusado 45 8
Total 90 10
Porcentagem de estudantes qualificados admitidos: 45/90 = 50%
Porcentagem de estudantes não qualificados rejeitados: 8/10 = 80%
Porcentagem total de estudantes liliputianos admitidos: (45+2)/100 = 47%

 

Tabela 4. Candidatos a Brobdingnagian (10% qualificados):

  Qualificado Não qualificado
Aceito 5 18
Recusado 5 72
Total 10 90
Porcentagem de estudantes qualificados admitidos: 5/10 = 50%
Porcentagem de estudantes não qualificados rejeitados: 72/90 = 80%
Porcentagem total de estudantes Brobdingnagian admitidos: (5+18)/100 = 23%

As probabilidades equalizadas são satisfeitas porque os qualificados Liliputian e Brobdingnagian são estudantes têm 50% de chance de serem aceitos, e os estudantes não qualificados e Brobdingnagian têm 80% de chance de serem rejeitadas.

As probabilidades iguais são definidas formalmente em "Igualdade de oportunidade no aprendizado supervisionado", da seguinte forma: "previsor eval atende a probabilidades igualadas com respeito ao atributo protegido A e ao resultado Y se Ø e A forem independentes, condicional em Y".

Estimator

#TensorFlow

Uma API TensorFlow obsoleta. Use tf.keras de estimadores.

avaliações

#language
#generativeAI

Usado principalmente como uma abreviação para avaliações de LLM. De forma mais ampla, evals é uma abreviação para qualquer forma de avaliação.

Avaliação

#language
#generativeAI

o processo de medir a qualidade de um modelo ou comparar modelos diferentes uma contra a outra.

Para avaliar um machine learning supervisionado normalmente é avaliado com base em um conjunto de validação e um conjunto de teste. Como avaliar um LLM geralmente envolve avaliações mais amplas de qualidade e segurança.

exemplo

#fundamentals

Os valores de uma linha de features e possivelmente um rótulo. Exemplos em O aprendizado supervisionado se divide em dois categorias gerais:

  • Um exemplo rotulado consiste em um ou mais atributos e um rótulo. Os exemplos rotulados são usados durante o treinamento.
  • Um exemplo não rotulado consiste em um ou mais atributos, mas sem rótulo. Exemplos não rotulados são usados durante a inferência.

Por exemplo, suponha que você esteja treinando um modelo para determinar a influência das condições climáticas nos resultados das avaliações dos alunos. Aqui estão três exemplos rotulados:

Recursos Rótulo
Temperatura Umidade Pressão Pontuação do teste
15 47 998 Boa
19 34 1020 Excelente
18 92 1012 Ruim

Aqui estão três exemplos sem rótulos:

Temperatura Umidade Pressão  
12 62 1014  
21 47 1017  
19 41 1021  

A linha de um conjunto de dados é normalmente a origem bruta de um exemplo. Isto é, um exemplo geralmente consiste em um subconjunto das colunas em conjunto de dados. Além disso, os atributos em um exemplo também podem incluir recursos sintéticos, como cruzamentos de atributos.

repetição da experiência

#rl

No aprendizado por reforço, uma técnica de DQN (em inglês) usada para reduzir correlações temporais nos dados de treinamento. O agente armazena transições de estado em um buffer de repetição e, em seguida, Transições de amostras do buffer de repetição para criar dados de treinamento.

viés do experimentador

#fairness

Consulte o viés de confirmação.

problema de gradiente em explosão

#seq

A tendência dos gradientes na redes neurais profundas (especialmente redes neurais recorrentes) para se tornarem surpreendentemente íngreme (alto). Gradientes íngremes geralmente causam atualizações muito grandes aos pesos de cada de um rede neural profunda.

Os modelos que sofrem do problema do gradiente em explosão se tornam difíceis ou impossível de treinar. Recorte de gradiente pode atenuar esse problema.

Compare com o problema de extinção do gradiente.

F

F1

Uma "visualização completa" métrica de classificação binária que depende da precisão e do recall. Aqui está a fórmula:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Por exemplo, considerando o seguinte:

  • precisão = 0,6
  • recall = 0,4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Quando a precisão e o recall são bastante semelhantes (como no exemplo anterior), F1 está perto da média. Quando precisão e recall são diferentes significativamente, F1 está mais próximo do valor mais baixo. Exemplo:

  • precisão = 0,9
  • recall = 0,1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

restrição de imparcialidade

#fairness
Aplicar uma restrição a um algoritmo para garantir uma ou mais definições de imparcialidade sejam satisfeitos. Exemplos de restrições de imparcialidade incluem:

métrica de imparcialidade

#fairness

Uma definição matemática de "imparcialidade" que seja mensurável. Estas são algumas métricas de imparcialidade mais usadas:

Muitas métricas de imparcialidade são mutuamente exclusivas; ver incompatibilidade de métricas de imparcialidade.

falso negativo (FN)

#fundamentals

Exemplo em que o modelo prevê incorretamente o classe negativa. Por exemplo, o modelo prevê que uma mensagem de e-mail específica não é spam (a classe negativa), mas a mensagem de e-mail na verdade é spam.

taxa de falso negativo

A proporção de exemplos positivos reais para os quais o modelo errou previu a classe negativa. A fórmula a seguir calcula o falso taxa negativa:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

falso positivo (FP)

#fundamentals

Exemplo em que o modelo prevê incorretamente o classe positiva. Por exemplo, o modelo prevê que determinada mensagem de e-mail é spam (a classe positiva), mas que mensagem de e-mail não é spam.

taxa de falsos positivos (FPR)

#fundamentals

A proporção de exemplos negativos reais para os quais o modelo errou a classe positiva. A fórmula a seguir calcula o falso taxa positiva:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

A taxa de falsos positivos é o eixo X em uma curva ROC.

recurso

#fundamentals

Uma variável de entrada para um modelo de machine learning. Um exemplo consiste em um ou mais atributos. Por exemplo, suponha que você esteja treinando um para determinar a influência das condições climáticas nos resultados das avaliações dos alunos. A tabela a seguir mostra três exemplos, cada um contendo três atributos e um rótulo:

Recursos Rótulo
Temperatura Umidade Pressão Pontuação do teste
15 47 998 92
19 34 1020 84
18 92 1012 87

Contraste com rótulo.

cruzamento de atributos

#fundamentals

Um atributo sintético formado pelo "cruzamento". atributos categóricos ou agrupados.

Por exemplo, considere uma "previsão de humor" que representa temperatura em um dos quatro buckets a seguir:

  • freezing
  • chilly
  • temperate
  • warm

E representa a velocidade do vento em um dos três buckets a seguir:

  • still
  • light
  • windy

Sem cruzamentos de atributos, o modelo linear é treinado de forma independente em cada que precedem sete grupos. Assim, o modelo é treinado em, por exemplo, freezing independentemente do treinamento em, por exemplo, windy.

Como alternativa, é possível criar um cruzamento de atributos de temperatura e velocidade do vento. Esse atributo sintético teria os 12 possíveis valores:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Graças aos cruzamentos de atributos, o modelo pode aprender diferenças de humor entre freezing-windy e freezing-still dia.

Se você criar um atributo sintético a partir de dois atributos, cada um com muitos buckets diferentes, o cruzamento de atributos resultante terá um número enorme de combinações possíveis. Por exemplo, se um atributo tem 1.000 buckets e o outro atributo tem 2.000 buckets, o cruzamento de atributos tem 2.000.000 buckets de armazenamento.

Formalmente, uma cruz é uma Produto cartesiano.

Os cruzamentos de atributos são usados principalmente com modelos lineares e raramente são usados com redes neurais.

engenharia de atributos

#fundamentals
#TensorFlow

Um processo que envolve as seguintes etapas:

  1. Determinar quais recursos podem ser úteis ao treinar um modelo.
  2. Converter dados brutos do conjunto de dados em versões eficientes do esses recursos.

Por exemplo, você pode determinar que temperature pode ser . Em seguida, teste o agrupamento por classes para otimizar o que o modelo pode aprender com diferentes intervalos de temperature.

Às vezes, a engenharia de atributos é chamada extração de atributos ou recursos.

extração de atributos

Termo sobrecarregado com uma das seguintes definições:

importâncias dos atributos

#df

Sinônimo de importâncias de variáveis.

conjunto de atributos

#fundamentals

O grupo de atributos que seu machine learning model é treinado. Por exemplo, o CEP, o tamanho e a condição da propriedade podem compõe um conjunto simples de atributos para um modelo que prevê preços de imóveis.

especificação de atributos

#TensorFlow

Descreve as informações necessárias para extrair os dados de recursos do buffer de protocolo tf.Example. Como o O buffer de protocolo tf.Example é apenas um contêiner de dados, é preciso especificar o seguinte:

  • Os dados a serem extraídos (ou seja, as chaves dos atributos)
  • O tipo de dados (por exemplo, float ou int)
  • O tamanho (fixo ou variável)

vetor de recurso

#fundamentals

A matriz de valores de feature que compreende um exemplo. O vetor de atributo é inserido durante no treinamento e durante a inferência. Por exemplo, o vetor de atributo de um modelo com dois atributos discretos pode ser:

[0.92, 0.56]

Quatro camadas: uma de entrada, duas escondidas e uma final.
          A camada de entrada contém dois nós, um com o valor
          0,92 e o outro contendo o valor 0,56.

Cada exemplo fornece valores diferentes para o vetor do atributo, de modo que de atributo para o próximo exemplo pode ser algo como:

[0.73, 0.49]

A engenharia de atributos determina como representar atributos no vetor de atributos. Por exemplo, um atributo categórico binário cinco valores possíveis podem ser representados codificação one-hot: Nesse caso, a parte do vetor de atributo de um exemplo específico consistiria em quatro zeros e um único 1,0 na terceira posição, da seguinte maneira:

[0.0, 0.0, 1.0, 0.0, 0.0]

Como outro exemplo, suponha que seu modelo tenha três atributos:

  • um atributo categórico binário com cinco valores possíveis representados codificação one-hot; Por exemplo: [0.0, 1.0, 0.0, 0.0, 0.0]
  • outro atributo categórico binário com três valores possíveis representados com codificação one-hot; Por exemplo: [0.0, 0.0, 1.0]
  • um recurso de ponto flutuante; Por exemplo: 8.3.

Nesse caso, o vetor de recurso de cada exemplo seria representado por 9 valores. Considerando os valores de exemplo na lista anterior, os vetor de recurso seria:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

funcionalidades

O processo de extração de atributos de uma fonte de entrada como um documento ou vídeo, e mapear esses recursos em um vetor de atributo.

Alguns especialistas em ML usam essa funcionalidade como sinônimo de engenharia de atributos ou extração de atributos.

federated learning

Uma abordagem de machine learning distribuído que treina modelos de machine learning usando modelos exemplos que residem em dispositivos como smartphones. No aprendizado federado, um subconjunto de dispositivos faz o download do modelo atual de um servidor de coordenação central. Os dispositivos usam os exemplos armazenados nos dispositivos para fazer melhorias no modelo. Em seguida, os dispositivos fazem upload as melhorias do modelo (mas não os exemplos de treinamento) à coordenação em um servidor, onde são agregados a outras atualizações para gerar um modelo global. Após a agregação, o modelo é atualizado pelos dispositivos não são mais necessários e podem ser descartados.

Como os exemplos de treinamento não são enviados, o aprendizado federado segue as princípios de privacidade de coleta e minimização de dados focados.

Para mais informações sobre o aprendizado federado, consulte este tutorial.

ciclo de feedback

#fundamentals

Em machine learning, uma situação em que as previsões de um modelo influenciam o dados de treinamento para o mesmo modelo ou outro modelo. Por exemplo, um modelo que recomenda filmes influenciará os filmes que as pessoas assistem, o que, influenciar os modelos subsequentes de recomendação de filmes.

rede neural feedforward (FFN, na sigla em inglês)

Uma rede neural sem conexões cíclicas ou recursivas. Por exemplo: redes neurais profundas tradicionais são redes neurais feedforward. Contraste com dados neurais recorrentes redes, que são cíclicas.

aprendizado few-shot

Uma abordagem de machine learning, muitas vezes usada para classificação de objetos, projetada para treinar classificadores eficazes de apenas um pequeno número exemplos de treinamento.

Consulte também aprendizado one-shot e aprendizado zero-shot.

comandos few-shot

#language
#generativeAI

Um comando que contém mais de um exemplo (um "poucos") demonstrando como o modelo de linguagem grande deve responder. Por exemplo, o comando a seguir contém duas que mostram um modelo de linguagem grande como responder a uma consulta.

Partes de um comando Observações
Qual é a moeda oficial do país especificado? A pergunta que você quer que o LLM responda.
França: EUR Um exemplo.
Reino Unido: GBP Outro exemplo.
Índia: A consulta real.

Os comandos few-shot geralmente produzem resultados mais desejáveis do que comandos zero-shot e Comandos one-shot: No entanto, os comandos few-shot exige um comando mais longo.

Os comandos few-shot são uma forma de aprendizado few-shot aplicados ao aprendizado baseado em comandos.

Violino

#language

Uma biblioteca de configuração que prioriza o Python e define valores de funções e classes sem código ou infraestrutura invasivos. No caso de Pax (e outras bases de código de ML), essas funções e As classes representam modelos e treinamento hiperparâmetros.

Violão presume que as bases de código de machine learning são normalmente divididas em:

  • Código da biblioteca, que define as camadas e os otimizadores.
  • "cola" do conjunto de dados que chama as bibliotecas e conecta tudo.

O Fiddle captura a estrutura de chamada do código agrupador em um intervalo não avaliado em uma forma mutável.

ajuste

#language
#image
#generativeAI

Um segundo passe de treinamento específico para uma tarefa modelo pré-treinado para refinar seus parâmetros para uma para um caso de uso específico. Por exemplo, a sequência de treinamento completa de alguns modelos de linguagem grandes são os seguintes:

  1. Pré-treinamento:treine um modelo de linguagem grande em um conjunto de dados geral amplo. como todas as páginas da Wikipédia em inglês.
  2. Ajuste:treine o modelo pré-treinado para executar uma tarefa específica. como ao responder consultas médicas. O ajuste fino normalmente envolve centenas ou milhares de exemplos focados na tarefa específica.

Como outro exemplo, a sequência de treinamento completa de um modelo de imagem grande é igual a segue:

  1. Pré-treinamento:treine um modelo de imagem grande em uma imagem geral ampla conjunto de dados, como todas as imagens na Wikimedia commons.
  2. Ajuste:treine o modelo pré-treinado para executar uma tarefa específica. como a geração de imagens de orcas.

O ajuste fino pode envolver qualquer combinação das seguintes estratégias:

  • Modificar todas as configurações atuais do modelo pré-treinado parameters. Às vezes, isso é chamado de ajuste total.
  • Modificar apenas alguns dos parâmetros do modelo pré-treinado (normalmente, as camadas mais próximas da camada de saída), mantendo os outros parâmetros inalterados (normalmente, as camadas mais perto da camada de entrada). Consulte ajuste com eficiência de parâmetros.
  • Adicionar mais camadas, normalmente sobre as camadas existentes mais próximas ao camada final.

O ajuste é uma forma de aprendizado por transferência. Assim, o ajuste pode usar uma função de perda diferente ou um modelo diferente. do que os usados para treinar o modelo pré-treinado. Por exemplo, é possível ajustar um modelo de imagem grande pré-treinado para produzir um modelo de regressão que retorna o número de pássaros em uma imagem de entrada.

Compare os ajustes com os seguintes termos:

Linho

#language

Um software de código aberto de alto desempenho biblioteca para aprendizado profundo baseado no JAX. O flax fornece funções no treinamento de redes neurais, como métodos para avaliar seu desempenho.

Formador de linho

#language

Um Transformer de código aberto biblioteca, criado com base no Flax e desenvolvido principalmente para processamento de linguagem natural multimodal.

esquecer portão

#seq

A parte de uma memória de curto prazo longa célula que regula o fluxo de informações através da célula. Portas de esquecimento mantêm o contexto decidindo quais informações serão descartadas do estado da célula.

softmax completa

Sinônimo de softmax.

Compare com a amostragem de candidatos.

camada totalmente conectada

Uma camada escondida em que cada está conectado a todos os nós na camada escondida subsequente.

Uma camada totalmente conectada também é conhecida como camada densa.

transformação de função

Função que usa uma função como entrada e retorna uma função transformada. como saída. O JAX usa transformações de função.

G

GAN (na sigla em inglês)

Abreviação de negativo generativo rede.

generalização

#fundamentals

A capacidade de um modelo de fazer previsões corretas sobre dados inéditos. Um modelo que pode generalizar é o oposto de um modelo com overfitting.

API

#language
#image
#generativeAI

O ecossistema que compreende a IA mais avançada do Google. Elementos desse ecossistema incluem:

.

Modelos do Gemini

#language
#image
#generativeAI

A tecnologia moderna do Google baseada em Transformer modelos multimodais. Os modelos do Gemini são especificamente projetada para se integrar aos agentes.

Os usuários podem interagir com os modelos do Gemini de várias maneiras, incluindo uma interface de caixa de diálogo interativa e SDKs.

curva de generalização

#fundamentals

Um gráfico de perda do treinamento e perda de validação como uma função do número de iterations.

Uma curva de generalização pode ajudar a detectar possíveis overfitting: Por exemplo, os seguintes curva de generalização sugere overfitting porque a perda de validação em última instância, é muito maior do que a perda do treinamento.

Gráfico cartesiano em que o eixo y é rotulado como perda, e o eixo x
          é chamada iterações. Dois gráficos aparecem. Um gráfico mostra
          perda de treinamento, e o outro
mostra a perda de validação.
          Os dois gráficos começam de maneira semelhante, mas a perda do treinamento,
          diminui muito abaixo da perda de validação.

modelo linear generalizado

Uma generalização da regressão dos mínimos quadrados modelos, que são baseados em Gaussiano ruído, para outros de modelos com base em outros tipos de ruído, como Ruído de Poisson ou ruído categórico. Exemplos de modelos lineares generalizados incluem:

Os parâmetros de um modelo linear generalizado podem ser encontrados por meio de otimização convexa.

Os modelos lineares generalizados exibem as seguintes propriedades:

  • A previsão média do modelo de regressão dos mínimos quadrados ideal é igual ao rótulo médio nos dados de treinamento.
  • A probabilidade média prevista pela regressão logística ideal modelo é igual ao rótulo médio nos dados de treinamento.

A potência de um modelo linear generalizado é limitada pelos atributos. Não gostei em um modelo profundo, um modelo linear generalizado não pode "aprender novos atributos".

rede adversária generativa (GAN, na sigla em inglês)

Um sistema de criação de dados e em que um gerador cria dados, e um discriminador determina se isso dados criados são válidos ou inválidos.

IA generativa

#language
#image
#generativeAI

Um campo transformador emergente sem definição formal. Dito isso, a maioria dos especialistas concorda que os modelos de IA generativa podem criam ("gerar") conteúdo que seja tudo isto:

  • complexo
  • coerentes
  • original

Por exemplo, um modelo de IA generativa pode criar modelos como artigos ou imagens.

Algumas tecnologias anteriores, incluindo LSTMs e RNNs, também podem gerar valores conteúdo coerente. Alguns especialistas veem essas tecnologias anteriores como a IA generativa, enquanto outros acham que a verdadeira IA generativa exige do que as tecnologias anteriores podem produzir.

Compare com o ML preditivo.

modelo generativo

Na prática, um modelo que realiza uma das seguintes ações:

  • Cria (gera) novos exemplos do conjunto de dados de treinamento. Por exemplo, um modelo generativo pode criar poesias após o treinamento em um conjunto de dados de poemas. A parte do gerador de uma rede adversária generativa se enquadram nessa categoria.
  • Determina a probabilidade de um novo exemplo ser originado conjunto de treinamento ou foi criado pelo mesmo mecanismo o conjunto de treinamento. Por exemplo, depois de treinar um conjunto de dados consistindo em frases em inglês, um modelo generativo poderia determinar a probabilidade de que a nova entrada seja uma frase válida em inglês.

Um modelo generativo pode, teoricamente, discernir a distribuição de exemplos ou atributos específicos em um conjunto de dados. Ou seja:

p(examples)

Os modelos de aprendizado não supervisionados são generativos.

Compare os modelos discriminativos.

gerador

O subsistema dentro de um sistema adversário generativo rede que cria novos exemplos.

Compare com o modelo discriminativo.

impureza de gini

#df

Uma métrica semelhante à entropia. Divisores usar valores derivados da impureza do gini ou da entropia para compor condições para classificação árvores de decisão. O ganho de informação é derivado da entropia. Não há um termo equivalente universalmente aceito para a métrica derivada da impureza do gini, No entanto, essa métrica sem nome é tão importante quanto ganho de informações.

A impureza de Gini também é chamada de índice de gini ou simplesmente gini.

conjunto de dados de ouro

Um conjunto de dados selecionados manualmente que captura informações empíricas. As equipes podem usar um ou mais conjuntos de dados de ouro para avaliar a qualidade de um modelo.

Alguns conjuntos de dados dourados capturam subdomínios diferentes de informações empíricas. Por exemplo: um conjunto de dados de ouro para classificação de imagens pode capturar as condições de iluminação e a resolução da imagem.

GPT (Transformer Generative Pre-trained)

#language

Uma família de objetos baseados em Transformer modelos de linguagem grandes desenvolvidos pela OpenAI.

As variantes da GPT podem ser aplicadas a várias modalidades, incluindo:

  • geração de imagens (por exemplo, ImageGPT)
  • texto para imagem (por exemplo, DALL-E).

gradiente

O vetor de derivadas parciais em relação todas as variáveis independentes. No machine learning, o gradiente é o vetor de derivadas parciais da função de modelo. Os pontos do gradiente na direção da subida mais íngreme.

acúmulo de gradiente

Uma técnica de backpropagação que atualiza a parametersuma vez por época, e não uma vez por período. iteração anterior. Após o processamento de cada minilote, o gradiente o acúmulo simplesmente atualiza um total contínuo de gradientes. Depois, processando o último minilote da época, o sistema finalmente atualiza os parâmetros com base no total de todas as mudanças do gradiente.

O acúmulo de gradiente é útil quando o tamanho do lote é muito grande em comparação com a quantidade de memória disponível para treinamento. Quando a memória é um problema, a tendência natural é reduzir o tamanho do lote. No entanto, reduzir o tamanho do lote na retropropagação normal aumenta o número de atualizações de parâmetros. O acúmulo de gradiente permite que o modelo para evitar problemas de memória, mas treinar com eficiência.

árvores otimizadas com gradiente (GBT)

#df

Um tipo de floresta de decisão em que:

aumento do gradiente

#df

Algoritmo de treinamento em que os modelos fracos são treinados para melhorar a qualidade (reduzir a perda) de um modelo forte. Por exemplo: um modelo fraco pode ser linear ou de árvore de decisão pequena. O modelo forte se torna a soma de todos os modelos fracos treinados anteriormente.

Na forma mais simples de aumento de gradiente, a cada iteração, um modelo fraco é treinado para prever o gradiente de perda do modelo forte. Depois, a saída de um modelo forte é atualizada subtraindo o gradiente previsto, semelhante ao gradiente descendente.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

em que:

  • $F_{0}$ é o modelo forte inicial.
  • $F_{i+1}$ é o próximo modelo forte.
  • $F_{i}$ é o modelo forte atual.
  • $\xi$ é um valor entre 0,0 e 1,0 chamado redução, que é análoga à taxa de aprendizado em gradiente descendente.
  • $f_{i}$ é o modelo fraco treinado para prever o gradiente de perda de $F_{i}$.

Variações modernas de aprimoramento de gradiente também incluem a segunda derivada (hessiano) da perda do cálculo.

As árvores de decisão costumam ser usadas como modelos fracos em o aumento do gradiente. Consulte árvores otimizadas com gradiente (decisão).

recorte de gradiente

#seq

Um mecanismo usado com frequência para mitigar problema de gradiente em explosão que usa artificialmente limitar (recortar) o valor máximo dos gradientes ao usar gradiente descendente para treinar um modelo.

gradiente descendente

#fundamentals

É uma técnica matemática para minimizar a perda. O gradiente descendente se ajusta iterativamente pesos e vieses, encontrando gradualmente a melhor combinação para minimizar a perda.

O gradiente descendente é muito mais antigo do que o aprendizado de máquina.

gráfico

#TensorFlow

No TensorFlow, uma especificação de computação. Nós no gráfico representam operações. As bordas são direcionadas e representam a passagem do resultado de uma operação (um Tensor) como uma operando para outra operação. Usar TensorBoard para ver um gráfico.

execução de gráfico

#TensorFlow

um ambiente de programação do TensorFlow em que o programa constrói primeiro um graph e, em seguida, executa todo esse gráfico ou parte dele. Gráfico é o modo de execução padrão no TensorFlow 1.x.

Já a execução antecipada é diferente.

política gananciosa

#rl

No aprendizado por reforço, uma política que sempre escolhe ação com o maior retorno esperado.

informações empíricas

#fundamentals

Realidade.

O que realmente aconteceu.

Por exemplo, considere uma classificação binária que prevê se um estudante está no primeiro ano de universidade se formará em seis anos. As informações empíricas desse modelo são: e não aquele estudante que se formou em seis anos.

viés de atribuição a grupos

#fairness

Supondo que o que é verdade para um indivíduo também é verdadeiro para todos nesse grupo. Os efeitos do viés de atribuição a grupos podem ser agravados se uma amostragem por conveniência é usado na coleta de dados. Em uma amostra não representativa, as atribuições podem ser feitas que não refletem a realidade.

Confira também viés de homogeneidade externa ao grupo e viés de grupo.

H

alucinação artificial

#language

A produção de uma saída aparentemente plausível, mas factualmente incorreta por uma modelo de IA generativa que finge estar criando um afirmativa sobre o mundo real. Por exemplo, um modelo de IA generativa que afirma que Barack Obama morreu em 1865 é alucinante.

hash

Em machine learning, um mecanismo de agrupamento por classes dados categóricos, especialmente quando o número de categorias é grande, mas o número de categorias que realmente aparecem no conjunto de dados é comparativamente pequeno.

Por exemplo, a Terra é o lar de cerca de 73.000 espécies de árvores. Você pode representar cada uma das 73.000 espécies de árvores em 73.000 buckets de armazenamento. Alternativamente, se apenas 200 dessas espécies de árvores realmente aparecerem em um conjunto de dados, você pode usar hash para dividir espécies de árvores em talvez 500 buckets.

Um único bucket pode conter várias espécies de árvores. Por exemplo, gerar hash colocar baobab e bordo vermelho, dois geneticamente diferentes espécie, para o mesmo bucket. Independentemente disso, o hash ainda é uma boa maneira de mapear grandes conjuntos categóricos para o número de buckets selecionado. O hash transforma um atributo categórico com um grande número de valores possíveis em uma um número menor de valores agrupando os valores em uma determinista.

heurística

Uma solução simples e rápida para um problema. Por exemplo: "Com uma heurística, atingimos 86% de precisão. Quando mudamos para rede neural profunda, a precisão subiu até 98%."

camada escondida

#fundamentals

Uma camada em uma rede neural entre as camada de entrada (os atributos) e a camada de saída (a previsão). Cada camada escondida consiste em um ou mais neurônios. Por exemplo, a rede neural a seguir contém duas camadas ocultas, o primeiro com três neurônios e o segundo com dois:

Quatro camadas. A primeira camada é de entrada contendo duas
          atributos de machine learning. A segunda camada é escondida contendo três
          neurônios. A terceira camada é uma camada escondida que contém duas
          neurônios. A quarta camada é a final. Cada recurso
          contém três bordas, cada uma apontando para um neurônio diferente
          na segunda camada. cada um dos neurônios da segunda camada.
          contém duas bordas, cada uma apontando para um neurônio diferente
          na terceira camada. Cada um dos neurônios da terceira camada contém
          uma borda, cada uma apontando para a camada final.

Uma rede neural profunda contém mais de uma camada escondida. Por exemplo, a ilustração anterior é um modelo de porque o modelo tem duas camadas escondidas.

clustering hierárquico

#clustering

Uma categoria de algoritmos de clustering que cria uma árvore de clusters. O clustering hierárquico é adequado para dados hierárquicos, como taxonomias botânicas. Há dois tipos de hierarquia algoritmos de clustering:

  • O clustering aglomerativo primeiro atribui cada exemplo ao próprio cluster, e mescla iterativamente os clusters mais próximos para criar uma hierarquia árvore.
  • O clustering divisor primeiro agrupa todos os exemplos em um cluster e depois divide iterativamente o cluster em uma árvore hierárquica.

Compare com o clustering com base em centroides.

perda de articulação

Uma família de funções de loss para classificação projetada para encontrar a limite de decisão o mais distante possível de cada exemplo de treinamento, maximizando assim a margem entre os exemplos e o limite. KSVMs usam perda de articulação (ou uma função relacionada, como perda de articulação quadrática). Na classificação binária, a função de perda da articulação é definido da seguinte maneira:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

em que y é o rótulo verdadeiro, -1 ou +1, e y' é a saída bruta do modelo do classificador:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Consequentemente, um gráfico de perda da articulação versus (y * y') é semelhante ao seguinte:

Gráfico cartesiano que consiste em dois segmentos de reta unidos. A primeira
          segmento de linha começa em (-3, 4) e termina em (1, 0). A segunda linha
          o segmento começa em (1, 0) e continua indefinidamente com uma inclinação
          de zero.

viés histórico

#fairness

Um tipo de viés que já existe no mundo e tem conseguiu entrar em um conjunto de dados. Esses vieses têm a tendência de refletir estereótipos culturais, desigualdades demográficas e preconceitos contra certos e grupos sociais.

Por exemplo, considere um modelo de classificação que prevê se uma pessoa vai pagar um empréstimo, que foi com base em dados históricos de inadimplência dos anos 1980 de bancos locais em duas diferentes comunidades. Se os candidatos anteriores da Comunidade A fossem seis vezes mais propensos a não pagar os empréstimos do que os candidatos da Comunidade B, o modelo pode aprender um viés histórico, fazendo com que o modelo tenha menos probabilidade de aprovar empréstimos na Comunidade A, mesmo se as condições históricas que resultaram porque as taxas de inadimplência mais altas dessa comunidade não eram mais relevantes.

dados de validação

Exemplos não usados intencionalmente ("afastados") durante o treinamento. O conjunto de dados de validação e Conjunto de dados de teste são exemplos de dados de validação. Dados de validação ajuda a avaliar a capacidade do seu modelo de generalizar para outros dados além dos os dados com os quais foi treinado. A perda no conjunto de validação fornece um estimativa da perda em um conjunto de dados não visto do que a perda no conjunto de treinamento.

host

#TensorFlow
#GoogleCloud

Ao treinar um modelo de ML em ícones de acelerador (GPUs ou TPUs), a parte do sistema que controla o seguinte:

  • O fluxo geral do código.
  • A extração e transformação do pipeline de entrada.

O host normalmente é executado em uma CPU, não em um chip acelerador. as device manipula tensores no chips de acelerador.

hiperparâmetro

#fundamentals

As variáveis que você ou um serviço de ajuste de hiperparâmetros se ajustar durante execuções sucessivas de treinamento de um modelo. Por exemplo: A taxa de aprendizado é um hiperparâmetro. Você pode definir a taxa de aprendizado como 0,01 antes de uma sessão de treinamento. Se você determinar que 0,01 é muito alto, você poderia definir o valor como 0,003 para a próxima sessão de treinamento.

Por outro lado, parâmetros são os vários pesos e viés que o modelo aprende durante o treinamento.

hiperplano

Um limite que separa um espaço em dois subespaços. Por exemplo, uma linha é uma hiperplano em duas dimensões e um plano é um hiperplano em três dimensões. Mais tipicamente no machine learning, um hiperplano é o limite que separa uma espaço altamente dimensional. Uso de máquinas de vetor de suporte de kernel hiperplanos para separar classes positivas de classes negativas, muitas vezes em uma espaço altamente dimensional.

I

i.i.d.

Abreviação de distribuído de forma independente e idêntica.

Reconhecimento de imagem

#image

Processo que classifica objetos, padrões ou conceitos em uma imagem. O reconhecimento de imagem também é conhecido como classificação de imagem.

Para mais informações, consulte Prática de ML: classificação de imagens.

conjunto de dados desequilibrado

Sinônimo de conjunto de dados desequilibrado de classe.

viés implícito

#fairness

Fazer automaticamente uma associação ou suposição com base na mente da pessoa modelos e memórias. O viés implícito pode afetar os seguintes itens:

  • Como os dados são coletados e classificados.
  • Como os sistemas de machine learning são projetados e desenvolvidos.

Por exemplo, ao criar um classificador para identificar fotos de casamento, um engenheiro pode usar a presença de um vestido branco em uma foto como um atributo. No entanto, os vestidos brancos foram comuns apenas durante certas épocas e em determinadas culturas.

Consulte também viés de confirmação.

imputação

Forma abreviada de imputação de valor.

incompatibilidade das métricas de imparcialidade

#fairness

A ideia de que algumas noções de imparcialidade são mutuamente incompatíveis ao mesmo tempo. Como resultado, não existe métrica universal para quantificar a imparcialidade que podem ser aplicadas a todos os problemas de ML.

Embora isso possa parecer desanimador, a incompatibilidade das métricas de imparcialidade não implica que os esforços de imparcialidade são infrutíferos. Em vez disso, sugere que a imparcialidade precisa ser definida contextualmente para um determinado problema de ML, com a meta de evitar danos específicos aos casos de uso.

Consulte "No (im)possibilidade de imparcialidade" para uma discussão mais detalhada sobre esse tópico.

aprendizado em contexto

#language
#generativeAI

Sinônimo de comandosfew-shot.

distribuídos de modo independente e idêntico

#fundamentals

Dados extraídos de uma distribuição que não muda e em que cada valor desenhada não depende de valores que foram desenhados anteriormente. Um i.i.d. é o gás ideal de máquina do modelo: uma construção matemática útil, mas quase nunca encontrada com precisão no mundo real. Por exemplo, a distribuição de visitantes de uma página da Web pode ser i.i.d. em um curto período de tempo, ou seja, a distribuição mudar durante esse breve período e a visita de uma pessoa geralmente independentemente da visita de outra pessoa. No entanto, se você expandir essa janela de tempo, diferenças sazonais nos visitantes da página da Web podem aparecer.

Consulte também não estacionário.

imparcialidade individual

#fairness

Métrica de imparcialidade que verifica se indivíduos semelhantes são classificados de forma semelhante. Por exemplo, a Brobdingnagian Academy pode querer satisfazer imparcialidade individual, garantindo que dois alunos com notas idênticas e resultados de testes padronizados têm a mesma probabilidade de obter admissão.

A imparcialidade individual depende totalmente de como você define "similaridade" (neste caso, notas e pontuações de testes), e você pode correr o risco de introduzir novos problemas de imparcialidade se a métrica de similaridade não atender a informações (como o rigor do currículo de um estudante).

Consulte "Imparcialidade em consciência" para uma discussão mais detalhada sobre imparcialidade individual.

inferência

#fundamentals

Em machine learning, o processo de fazer previsões aplicação de um modelo treinado a exemplos não rotulados.

A inferência tem um significado um pouco diferente nas estatísticas. Consulte a Artigo da Wikipédia sobre inferência estatística para mais detalhes.

caminho de inferência

#df

Em uma árvore de decisão, durante a inferência, o trajeto que um exemplo específico faz na root para outras condições, terminando com uma folha. Por exemplo, na árvore de decisão a seguir, setas mais grossas mostram o caminho de inferência para um exemplo com o seguinte valores de atributos:

  • x = 7
  • y = 12
  • z = -3

O caminho de inferência na ilustração a seguir percorre três antes de chegar à folha (Zeta).

Uma árvore de decisão composta de quatro condições e cinco folhas.
          A condição raiz é (x > 0). Como a resposta é “Sim”, o
          o caminho de inferência percorre da raiz até a próxima condição (y > 0).
          Como a resposta é &quot;Sim&quot;, o caminho de inferência vai até
          próxima condição (z > 0). Como a resposta é &quot;Não&quot;, o caminho de inferência
          viaja até seu nó terminal, que é a folha (Zeta).

As três setas grossas mostram o caminho de inferência.

ganho de informações

#df

Em florestas de decisão, a diferença entre a entropia de um nó e o peso (por número de exemplos) soma da entropia dos nós filhos. A entropia de um nó é a entropia dos exemplos nesse nó.

Por exemplo, considere os seguintes valores de entropia:

  • entropia do nó pai = 0,6
  • entropia de um nó filho com 16 exemplos relevantes = 0,2
  • entropia de outro nó filho com 24 exemplos relevantes = 0,1

Portanto, 40% dos exemplos estão em um nó filho e 60% no e o outro nó filho. Assim:

  • soma de entropia ponderada dos nós filhos = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Assim, o ganho de informação é:

  • ganho de informações = entropia do nó pai - soma da entropia ponderada dos nós filhos
  • ganho de informação = 0,6 - 0,14 = 0,46

A maioria dos divisores buscam criar condições que maximizam o ganho de informações.

viés de grupo

#fairness

Mostrar parcialidade pelo próprio grupo ou características próprias. Se os testadores ou avaliadores forem amigos do desenvolvedor de machine learning, familiares ou colegas, o viés de grupo poderá invalidar o teste do produto ou o conjunto de dados.

O viés de grupo é uma forma de viés de atribuição a grupos. Confira também viés de homogeneidade externa ao grupo.

gerador de entrada

um mecanismo pelo qual os dados são carregados uma rede neural.

Um gerador de entrada pode ser considerado um componente responsável pelo processamento dados brutos em tensores, que são iterados para gerar lotes para treinamento, avaliação e inferência.

camada de entrada

#fundamentals

A camada de uma rede neural que contém o vetor de recurso. Ou seja, a camada de entrada fornece exemplos de treinamento ou inferência. Por exemplo, a camada de entrada na seguinte rede neural consiste em dois recursos:

Quatro camadas: uma de entrada, duas escondidas e uma final.

condição inserida

#df

Em uma árvore de decisão, uma condição que testa a presença de um item em um conjunto de itens. Por exemplo, esta é uma condição inserida:

  house-style in [tudor, colonial, cape]

Durante a inferência, se o valor do feature de estilo interno for tudor, colonial ou cape, essa condição será avaliada como Sim. Se o valor do atributo de estilo de casa for outra coisa (por exemplo, ranch). essa condição avaliará como Não.

Condições inseridas geralmente levam a árvores de decisão mais eficientes do que condições que testam atributos com codificação one-hot.

instância

Sinônimo de example.

ajuste de instruções

#generativeAI

Uma forma de ajuste que melhora uma Capacidade de um modelo de IA generativa acompanhar instruções. O ajuste de instruções envolve treinar um modelo em uma série de instruções de instruções, geralmente abordando uma variedade de tarefas. O modelo ajustado por instruções resultante tende a geram respostas úteis para comandos zero-shot em diversas tarefas.

Compare com:

interpretabilidade

#fundamentals

A capacidade de explicar ou apresentar o raciocínio de um modelo de ML termos compreensíveis para um ser humano.

A maioria dos modelos de regressão linear, por exemplo, são altamente interpretáveis. (basta observar os pesos treinados para cada feature.) Florestas de decisão também são altamente interpretáveis. No entanto, alguns modelos exigem uma visualização sofisticada para se tornarem interpretáveis.

Você pode usar o Ferramenta de aprendizado de interpretabilidade (LIT) para interpretar modelos de ML.

concordância entre avaliadores

Uma medida da frequência com que os avaliadores humanos concordam ao realizar uma tarefa. Se os avaliadores discordarem, talvez as instruções da tarefa precisem ser melhoradas. também chamado de acordo entre anotações ou a confiabilidade entre avaliadores. Consulte também Cohen's kappa, que é uma das medidas de concordância entre avaliadores mais populares.

interseção sobre união (IoU)

#image

A interseção de dois conjuntos dividida pela união. Em machine learning de detecção de imagem, a IoU é usada para medir a acurácia caixa delimitadora prevista em relação à Caixa delimitadora de informações empíricas. Nesse caso, a IoU do duas caixas é a proporção entre a área sobreposta e a área total, e seus valores variam de 0 (sem sobreposição da caixa delimitadora prevista e das informações empíricas caixa delimitadora) para 1 (a caixa delimitadora prevista e a caixa delimitadora de informações empíricas têm exatamente as mesmas coordenadas).

Por exemplo, na imagem abaixo:

  • A caixa delimitadora prevista (as coordenadas que delimitam onde o modelo prevê que a mesa de cabeceira está localizada na pintura) é destacada em roxo.
  • A caixa delimitadora de informações empíricas (as coordenadas que delimitam o local da noite) na pintura está realmente localizada) é destacada em verde.

Van Gogh pintando O Quarto de Vincent em Arles, com duas imagens diferentes
          caixas delimitadoras ao redor da mesa de cabeceira ao lado dela. Informações empíricas
          caixa delimitadora (em verde) circunscre perfeitamente a tabela noturna. O
          a caixa delimitadora prevista (em roxo) está deslocada 50% para baixo e para a direita
          da caixa delimitadora de informações empíricas; ela abrange o quarto inferior direito
          da mesa de cabeceira, mas perde o resto da mesa.

Aqui, a interseção das caixas delimitadoras para previsão e informações empíricas (abaixo à esquerda) é 1, e a união das caixas delimitadoras para previsão e as informações empíricas (abaixo, à direita) são 7, então a IoU é \(\frac{1}{7}\).

É a mesma imagem acima, mas com cada caixa delimitadora dividida em quatro.
          quadrantes. Há sete quadrantes no total, como no canto inferior direito
          quadrante da caixa delimitadora de informações empíricas e o canto superior esquerdo
          quadrante da caixa delimitadora prevista se sobrepõem. Isso
          sobreposta (destacada em verde) representa o
          interseção e tem uma área de 1. É a mesma imagem acima, mas com cada caixa delimitadora dividida em quatro.
          quadrantes. Há sete quadrantes no total, como no canto inferior direito
          quadrante da caixa delimitadora de informações empíricas e o canto superior esquerdo
          quadrante da caixa delimitadora prevista se sobrepõem.
          Todo o interior cercado pelas duas caixas delimitadoras
          (destacado em verde) representa a união e tem
          uma área de 7.

IoU

Abreviação de interseção sobre união.

matriz de itens

#recsystems

Nos sistemas de recomendação, um matriz de vetores de embedding gerados por fatoração de matrizes que contém indicadores latentes sobre cada item. Cada linha da matriz de itens contém o valor de uma única coluna para todos os itens. Por exemplo, considere um sistema de recomendação de filmes. Cada coluna na matriz de itens representa um único filme. Os sinais latentes podem representar gêneros ou ser mais difíceis de interpretar sinais que envolvem interações complexas entre gênero, estrelas, idade do filme ou outros fatores.

A matriz de itens tem o mesmo número de colunas que a meta. que está sendo fatorado. Por exemplo, considerando um filme recomendado que avalia 10.000 títulos de filmes, o matriz de itens terá 10.000 colunas.

itens

#recsystems

Em um sistema de recomendação, as entidades que que um sistema recomenda. Por exemplo, vídeos são os itens que uma loja de vídeos recomenda, enquanto livros são os itens que uma livraria recomenda.

iteração

#fundamentals

Uma única atualização dos parâmetros de um modelo, o atributo pesos e vieses, durante treinamento. O tamanho do lote determina de quantos exemplos o modelo processa em uma única iteração. Por exemplo: Se o tamanho do lote for 20, o modelo processará 20 exemplos antes ajustando os parâmetros.

Ao treinar uma rede neural, uma única iteração envolve as duas passagens a seguir:

  1. Uma passagem direta para avaliar a perda em um único lote.
  2. Um passe para trás (backpropagação) para ajustar o parâmetros do modelo com base na perda e na taxa de aprendizado.

J

JAX

Uma biblioteca de computação de matriz, reunindo álgebra linear acelerada (XLA, na sigla em inglês) e diferenciação automática para computação numérica de alto desempenho. O JAX oferece uma interface simples e poderosa API para escrever código numérico acelerado com transformações combináveis. O JAX fornece recursos como:

  • grad (diferenciação automática)
  • jit (compilação just-in-time)
  • vmap (vetorização ou agrupamento automático)
  • pmap (carregamento em paralelo)

JAX é uma linguagem para expressar e compor transformações de valores numéricos análogo, mas muito maior em escopo, ao NumPy (em inglês) do Python biblioteca. (Na verdade, a biblioteca .numpy no JAX é uma biblioteca funcionalmente equivalente, mas totalmente reescrita da biblioteca NumPy do Python.

O JAX é particularmente adequado para acelerar muitas tarefas de machine learning transformando os modelos e dados em um formato adequado para paralelismo entre chips de acelerador de GPU e TPU.

Flax, Optax, Pax e muitos outros são criadas na infraestrutura JAX.

K

Keras

Uma API de machine learning em Python conhecida. Keras é executado em em vários frameworks de aprendizado profundo, disponível como tf.keras.

Máquinas de vetores de suporte com kernel (KSVMs)

Algoritmo de classificação que busca maximizar a margem entre positivo e classes negativas mapeando vetores de dados de entrada para um espaço dimensional maior. Por exemplo, considere um modelo problema em que o conjunto de dados de entrada tem cem atributos. Para maximizar a margem entre classes positivas e negativas, uma KSVM poderia mapear internamente esses atributos para um espaço de um milhão de dimensões. As KSVMs usam uma função de perda chamada perda de articulação.

pontos-chave

#image

As coordenadas de elementos específicos em uma imagem. Por exemplo, para um um modelo de reconhecimento de imagem que diferencia espécies de flores, os pontos principais podem ser o centro de cada pétala, o caule, o estame e assim por diante.

validação cruzada do k-fold

Algoritmo para prever a capacidade de um modelo generalize para novos dados. O k em k-fold refere-se ao número de grupos iguais nos quais você divide os exemplos de um conjunto de dados; ou seja, você treina e testar o modelo k vezes. Para cada rodada de treinamento e teste, grupo diferente é o conjunto de teste, e todos os grupos restantes se tornam o conjunto definido. Após k rodadas de treinamento e teste, você calcula a média e desvio padrão das métricas de teste escolhidas.

Por exemplo, suponha que seu conjunto de dados seja composto por 120 exemplos. Suponha ainda que você decide definir k como 4. Portanto, depois de embaralhar os exemplos, divida o conjunto de dados em quatro grupos iguais de 30 exemplos e conduz quatro de treinamento e teste:

Um conjunto de dados dividido em quatro grupos iguais de exemplos. Na rodada 1,
          os três primeiros grupos são usados para treinamento, e o último grupo
          é usado para testes. Na rodada 2, os dois primeiros grupos e o último
          grupo é usado para treinamento, enquanto o terceiro é usado para
          testes. Na terceira rodada, o primeiro grupo e os dois últimos são
          usado para treinamento, enquanto o segundo grupo é usado para teste.
          Na rodada 4, o primeiro grupo é usado para testes, enquanto o
          três grupos são usados para treinamento.

Por exemplo, Erro quadrático médio (EQM) pode ser a métrica mais significativa para um modelo de regressão linear. Portanto, você encontraria a média e o desvio padrão do EQM nas quatro rodadas.

k-means

#clustering

Um algoritmo de clustering conhecido que agrupa exemplos no aprendizado não supervisionado. O algoritmo k-means faz o seguinte:

  • Determina iterativamente os melhores k pontos centrais (conhecidos como como centróides).
  • Atribui cada exemplo ao centroide mais próximo. Os exemplos mais próximos do mesmo centroide pertencem ao mesmo grupo.

O algoritmo k-means escolhe locais centroides para minimizar o valor cumulativo quadrado das distâncias de cada exemplo até o centroide mais próximo.

Por exemplo, considere o seguinte gráfico de altura para largura de cães:

Um gráfico cartesiano com várias dezenas de pontos de dados.

Se k=3, o algoritmo k-means determinará três centroides. Cada exemplo é atribuído ao seu centroide mais próximo, produzindo três grupos:

O mesmo gráfico cartesiano da ilustração anterior, mas
          com três centroides adicionados.
          Os pontos de dados anteriores estão agrupados em três grupos distintos,
          com cada grupo representando os pontos de dados mais próximos a uma determinada
          centroide.

Imagine que um fabricante queira determinar os tamanhos ideais blusas médias e grandes para cães. Os três centroides identificam a média altura e largura média de cada cachorro nesse aglomerado. Então, o fabricante provavelmente deve basear os tamanhos de suéteres nesses três centroides. Observe que o centroide de um cluster normalmente não é um exemplo no cluster.

As ilustrações anteriores mostram k-means para exemplos com apenas dois recursos (altura e largura). O k-means pode agrupar exemplos em vários recursos.

k-mediana

#clustering

Um algoritmo de clustering intimamente relacionado a k-means. O a diferença prática entre os dois é a seguinte:

  • Em k-means, os centroides são determinados minimizando a soma dos quadrados da distância entre um candidato centroide e cada um dos os exemplos.
  • Na k-median, os centroides são determinados minimizando a soma dos distância entre um candidato centroide e cada um dos seus exemplos.

As definições de distância também são diferentes:

  • O k-means depende da Distância euclidiana de o centroide a um exemplo. Em duas dimensões, o euclidiano distância significa usar o teorema de Pitágoras para calcular a hipotenusa.) Por exemplo, a distância k-means entre (2,2) e (5,-2) seria:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • A k-median depende da distância de Manhattan do centroide para um exemplo. Essa distância é a soma deltas absolutos em cada dimensão. Por exemplo, a k-mediana a distância entre (2,2) e (5,-2) seria:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regularização L0

#fundamentals

Um tipo de regularização que penaliza o número total de ponderações diferentes de zero em um modelo. Por exemplo, um modelo com 11 pesos diferentes de zero seria penalizado mais do que um modelo semelhante com 10 pesos diferentes de zero.

A regularização L0 às vezes é chamada de regularização L0-norm.

Perda de L1

#fundamentals

Uma função de perda que calcula o valor absoluto da diferença entre os valores reais de label e os valores que um modelo prevê. Por exemplo, este é o cálculo da perda de L1 para um lote de cinco exemplos:

Valor real do exemplo Valor previsto do modelo Valor absoluto do delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perda de L1

A perda de L1 é menos sensível a outliers do que a perda de L2.

O erro médio absoluto é a média Perda de L1 por exemplo.

Regularização L1

#fundamentals

Um tipo de regularização que penaliza pesos em proporção à soma do valor absoluto de dos pesos. A regularização L1 ajuda a aumentar o peso dos elementos irrelevantes ou atributos pouco relevantes para exatamente 0. Um recurso com um peso 0 é efetivamente removido do modelo.

Contraste com a regularização L2.

Perda L2

#fundamentals

Uma função de perda que calcula o quadrado da diferença entre os valores reais de label e os valores que um modelo prevê. Por exemplo, este é o cálculo da perda de L2 para um lote de cinco exemplos:

Valor real do exemplo Valor previsto do modelo Quadrado do delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = perda de L2

Devido ao quadrado, a perda de L2 amplifica a influência outliers. Ou seja, a perda de L2 reage mais fortemente a previsões ruins do que Perda de L1. Por exemplo, a perda L1 para o lote anterior seria 8 em vez de 16. Observe que um único o outlier representa 9 dos 16.

Modelos de regressão normalmente usam perda L2 como a função de perda.

O Erro quadrático médio é a média Perda de L2 por exemplo. Perda ao quadrado é outro nome para a perda L2.

Regularização L2

#fundamentals

Um tipo de regularização que penaliza pesos em proporção à soma dos quadrados dos pesos. A regularização L2 ajuda a gerar pesos outlier (aqueles com valores altos positivos ou negativos baixos) mais próximos de 0, mas não exatamente de 0. Atributos com valores muito próximos de 0 permanecem no modelo mas não influenciam muito a previsão dele.

A regularização de L2 sempre melhora a generalização modelos lineares.

Contraste com a regularização L1.

o rótulo.

#fundamentals

No machine learning supervisionado, a "atender" ou "resultado" de um exemplo.

Cada exemplo rotulado consiste em um ou mais recursos e um rótulo. Por exemplo, em um spam conjunto de dados de detecção, o rótulo provavelmente seria "spam" ou "não é spam". Em um conjunto de dados de chuva, o rótulo pode ser a quantidade de chuva que caiu durante certo período.

exemplo rotulado

#fundamentals

Um exemplo que contém um ou mais recursos e um rótulo. Por exemplo, a tabela a seguir mostra três exemplos rotulados de um modelo de avaliação de casas, cada um com três atributos e um rótulo:

Número de quartos Número de banheiros Idade da casa Preço da casa (rótulo)
3 2 15 US$ 345.000
2 1 72 US$ 179.000
4 2 34 US$ 392.000

No machine learning supervisionado, os modelos são treinados com exemplos rotulados e fazem previsões exemplos sem rótulos.

Comparar exemplos rotulados com exemplos sem rótulos.

vazamento de rótulo

Uma falha no design do modelo em que um atributo é um proxy para rótulo. Por exemplo, considere um modelo de classificação binária que prevê se um cliente em potencial comprará ou não um produto específico. Suponha que um dos atributos do modelo seja um booleano chamado SpokeToCustomerAgent: Suponha que um agente do cliente esteja atribuído após o cliente em potencial comprar produto. Durante o treinamento, o modelo vai aprender rapidamente a associação entre SpokeToCustomerAgent e o rótulo.

Lambda

#fundamentals

Sinônimo de taxa de regularização.

Lambda é um termo sobrecarregado. Aqui, vamos nos concentrar a definição na regularização.

LaMDA (Language Model for Dialogue Applications)

#language

Uma instância baseada em Transformer modelo de linguagem grande desenvolvido pelo Google treinado com um grande conjunto de dados de diálogos capazes de gerar respostas conversacionais realistas.

LaMDA: nossa conversa inovadora tecnologia fornece uma visão geral.

pontos de referência

#image

Sinônimo de pontos-chave.

modelo de linguagem

#language

Um modelo que estima a probabilidade de um token ou sequência de tokens que ocorrem em uma sequência mais longa.

modelo de linguagem grande

#language

No mínimo, um modelo de linguagem com um número muito alto de parâmetros. Mais informalmente, qualquer Modelo de linguagem baseado em Transformer, como Gemini ou GPT.

espaço latente

#language

Sinônimo de embedding Space.

layer

#fundamentals

Um conjunto de neurônios em um rede neural. Três tipos comuns de camadas são os seguintes:

Por exemplo, a ilustração a seguir mostra uma rede neural com uma camada de entrada, duas camadas escondidas e uma camada final:

Uma rede neural com uma camada de entrada, duas camadas escondidas e uma
          camada final. A camada de entrada consiste em dois atributos. A primeira
          camada escondida consiste em três neurônios, e a segunda camada escondida
          consiste em dois neurônios. A camada final consiste em um único nó.

No TensorFlow, as camadas também são funções do Python que usam Tensores e opções de configuração como entrada e e produzir outros tensores como saída.

API Layers (tf.layers)

#TensorFlow

Uma API do TensorFlow para criar uma rede neural profunda. como uma composição de camadas. A API Layers permite criar diferentes tipos de camadas, como:

A API Layers segue as convenções de API de camadas do Keras. Ou seja, exceto por um prefixo diferente, todas as funções na API Layers têm os mesmos nomes e assinaturas que suas contrapartes no Keras a API de camadas.

folha

#df

Qualquer endpoint em uma árvore de decisão. Ao contrário de um condition, uma folha não realiza um teste. Em vez disso, uma folha é uma previsão possível. Uma folha também é o terminal node de um caminho de inferência.

Por exemplo, a seguinte árvore de decisão contém três folhas:

Uma árvore de decisão com duas condições que levam a três folhas.

Ferramenta de aprendizado de interpretabilidade (LIT)

Uma ferramenta visual e interativa de compreensão de modelos e visualização de dados.

Você pode usar a LIT de código aberto para interpretar modelos ou visualizar texto, imagem e dados tabulares.

taxa de aprendizado

#fundamentals

Um número de ponto flutuante que informa o gradiente descendente algoritmo com que intensidade ajustar os pesos e as tendências em cada iteration. Por exemplo, uma taxa de aprendizado de 0,3 ajustam pesos e vieses três vezes mais poderosamente do que uma taxa de aprendizado de 0,1.

A taxa de aprendizado é um hiperparâmetro fundamental. Se você definir a taxa de aprendizado for muito baixa, o treinamento vai demorar muito tempo. Se se a taxa de aprendizado for muito alta, o gradiente descendente geralmente terá problemas para alcançar a convergência.

regressão dos mínimos quadrados

Um modelo de regressão linear treinado minimizando Perda L2.

linear

#fundamentals

Relação entre duas ou mais variáveis que podem ser representadas exclusivamente. com adição e multiplicação.

O gráfico de uma relação linear é uma linha.

Contraste com não linear.

modelo linear

#fundamentals

Um modelo que atribui um peso por recurso para fazer previsões. Os modelos lineares também incorporam um viés. Por outro lado, a relação dos atributos com as previsões em modelos profundos geralmente é não linear.

Modelos lineares costumam ser mais fáceis de treinar e mais interpretáveis do que os modelos profundos. No entanto, os modelos profundos podem aprender relações complexas entre atributos.

Regressão linear e A regressão logística é dois tipos de modelos lineares.

regressão linear

#fundamentals

Um tipo de modelo de machine learning em que as duas condições a seguir são verdadeiras:

  • O modelo é linear.
  • A previsão é um valor de ponto flutuante. Esta é a regressão, que faz parte da regressão linear.

Comparar a regressão linear com a regressão logística. Além disso, compare a regressão com a classificação.

LIT

Abreviação de Ferramenta de aprendizado de interpretabilidade (LIT), que era conhecida como Ferramenta de interpretabilidade de linguagem.

LLM

#language
#generativeAI

Abreviação de modelo de linguagem grande (em inglês).

Avaliações do LLM

#language
#generativeAI

Um conjunto de métricas e comparativos de mercado para avaliar o desempenho de modelos de linguagem grandes (LLMs). De modo geral, Avaliações do LLM:

  • Ajudam os pesquisadores a identificar áreas em que os LLMs precisam ser melhorados.
  • São úteis para comparar diferentes LLMs e identificar o melhor LLM para um para uma tarefa específica.
  • Ajudar a garantir que o uso de LLMs seja seguro e ético.
.

regressão logística

#fundamentals

Um tipo de modelo de regressão que prevê uma probabilidade. Os modelos de regressão logística têm as seguintes características:

  • O rótulo é categórico. O termo logística regressão geralmente se refere à regressão logística binária, ou seja, até um modelo que calcula probabilidades de rótulos com dois valores possíveis. Uma variante menos comum, a regressão logística multinomial, calcula probabilidades para rótulos com mais de dois valores possíveis.
  • A função de perda durante o treinamento é Log Perda. É possível colocar várias unidades de perda de registro em paralelo para rótulos com mais de dois valores possíveis.)
  • O modelo tem uma arquitetura linear, e não uma rede neural profunda. No entanto, o restante dessa definição também se aplica a modelos profundos que preveem probabilidades para rótulos categóricos.

Por exemplo, considere um modelo de regressão logística que calcula a probabilidade de um e-mail de entrada ser spam ou não spam. Durante a inferência, suponha que o modelo prevê 0,72. Portanto, a modelo está estimando:

  • 72% de chance do e-mail ser spam.
  • 28% de chance de o e-mail não ser spam.

Um modelo de regressão logística usa a seguinte arquitetura de duas etapas:

  1. O modelo gera uma previsão bruta (y') aplicando uma função linear de atributos de entrada.
  2. O modelo usa essa previsão bruta como entrada para um função sigmoide, que converte os dados brutos previsão para um valor entre 0 e 1, excluindo estes dois valores.

Como qualquer modelo de regressão, um modelo de regressão logística prevê um número. No entanto, esse número normalmente se torna parte de uma classificação binária da seguinte forma:

  • Se o número previsto for maior que o limite de classificação, o o modelo de classificação binária prevê a classe positiva.
  • Se o número previsto for menor que o limiar de classificação, o modelo de classificação binária prevê a classe negativa.

logits

O vetor de previsões brutas (não normalizadas) que uma classificação gerado pelo modelo, que normalmente é passado para uma função de normalização. Se o modelo está resolvendo uma classificação multiclasse problema, os logits normalmente se tornam uma entrada para função softmax. Em seguida, a função softmax gera um vetor de (normalizado) probabilidades com um valor para cada classe possível.

Log Perda

#fundamentals

A função de perda usada em binário regressão logística.

log-chance

#fundamentals

O logaritmo das probabilidades de algum evento.

Memória de longo e curto prazo (LSTM, na sigla em inglês)

#seq

Um tipo de célula em uma rede neural recorrente usada para processar sequências de dados em aplicativos, como reconhecimento de escrita manual, tradução e legendagem de imagens. Os LSTMs abordam o problema de sumiço do gradiente que ocorre quando de treinamento RNNs devido a longas sequências de dados ao manter o histórico em uma estado da memória interna com base em novas entradas e contextos das células anteriores na RNN.

LoRA

#language
#generativeAI

Abreviação de Adaptabilidade de classificação baixa.

perda

#fundamentals

Durante o treinamento de um modelo supervisionado, uma medida de até onde um a previsão do modelo é do rótulo.

Uma função de perda calcula a perda.

agregador de perdas

Um tipo de algoritmo de machine learning que melhora o desempenho de um modelo combinando as previsões de vários modelos e usando essas previsões para fazer apenas uma. Como resultado, um agregador de perdas pode reduzir a variância das previsões e melhorar a precisão das previsões.

curva de perda

#fundamentals

Um gráfico de perda como uma função do número de treinamento iterações. O gráfico a seguir mostra uma perda típica curva:

Um gráfico cartesiano de iterações de perda versus treinamento, mostrando
          queda rápida na perda nas iterações iniciais, seguida por uma queda gradual
          e uma inclinação plana durante as iterações finais.

As curvas de perda ajudam a determinar quando o modelo convergência ou overfitting.

As curvas de perda podem plotar todos os tipos de perda a seguir:

Consulte também a curva de generalização.

função de perda

#fundamentals

Durante treinamento ou testes, um função matemática que calcula o perda em um lote de exemplos. Uma função de perda retorna uma perda menor para modelos que fazem boas previsões do que para os que fazem ou previsões ruins.

Normalmente, o objetivo do treinamento é minimizar a perda de uma função de perda retorna.

Existem muitos tipos diferentes de funções de perda. Escolha a perda adequada para o tipo de modelo que você está criando. Exemplo:

superfície de perda

Um gráfico de peso(s) em comparação com a perda. Objetivos do gradiente descendente para encontrar os pesos para os quais a superfície de perda está no mínimo local.

Adaptabilidade de baixa classificação (LoRA)

#language
#generativeAI

Um algoritmo para realizar ajuste eficiente de parâmetros que ajusta somente um subconjunto de um modelos de linguagem grandes. A LoRA oferece os seguintes benefícios:

  • Ajusta mais rapidamente do que as técnicas que exigem o ajuste de todas as configurações parâmetros.
  • Reduz o custo computacional de inferência no um modelo bem ajustado.

Um modelo ajustado com o LoRA mantém ou melhora a qualidade de suas previsões.

A LoRA permite várias versões especializadas de um modelo.

LSTM

#seq

Abreviação de Memória de curto prazo longa.

M

machine learning

#fundamentals

Um programa ou sistema que treina um modelo a partir de dados de entrada. O modelo treinado pode fazer previsões úteis a partir de dados novos (nunca vistos) extraídos de é a mesma que foi usada para treinar o modelo.

Machine learning também se refere à área de estudo em questão com esses programas ou sistemas.

classe majoritária

#fundamentals

O rótulo mais comum conjunto de dados desequilibrado de classes. Por exemplo: dado um conjunto de dados que contenha 99% de rótulos negativos e 1% de rótulos positivos, o e rótulos negativos são a classe majoritária.

Compare com a classe minoritária.

Processo de decisão de Markov (MDP)

#rl

Um gráfico que representa o modelo de tomada de decisão em que as decisões (ou ações) são tomadas para navegar por uma sequência de afirma que o A propriedade Markov é válida. Em aprendizado por reforço, essas transições entre estados retornam uma recompensa numérica.

Propriedade de Markov

#rl

Uma propriedade de determinados ambientes, em que o estado as transições são inteiramente determinadas por informações implícitas no o estado atual e a ação do agente.

modelo de linguagem mascarada

#language

Um modelo de linguagem que prevê a probabilidade de tokens candidatos para preencher espaços em branco em uma sequência. Por exemplo, o modelo de linguagem mascarada pode calcular probabilidades de palavras candidatas para substituir o sublinhado na seguinte frase:

O(a) ____ de chapéu veio de volta.

Geralmente, a literatura usa a string "MASK" ("MASK", em inglês). em vez de sublinhado. Exemplo:

A "MÁSCARA" de gorjeta voltou.

A maioria dos modelos modernos de linguagem mascarada é bidirecional.

matplotlib

Biblioteca de plotagem 2D do Python de código aberto. O matplotlib ajuda a visualizar diferentes aspectos do machine learning.

fatoração de matrizes

#recsystems

Em matemática, um mecanismo para encontrar as matrizes cujo produto escalar se aproxima de matriz de destino.

Nos sistemas de recomendação, a matriz de destino muitas vezes mantém os usuários classificações de itens. Por exemplo, o destino para um sistema de recomendação de filmes pode ser algo como o a seguir, em que os números inteiros positivos são avaliações dos usuários e 0 significa que o usuário não classificou o filme:

  Casablanca A história da Filadélfia Pantera Negra Mulher-Maravilha Ficção pulp
Usuário 1 5.0 3.0 0,0 2,0 0,0
Usuário 2 4.0 0,0 0,0 1,0 5.0
Usuário 3 3.0 1,0 4.0 5.0 0,0

O sistema de recomendação de filmes visa prever avaliações de usuários para filmes sem classificação. Por exemplo, o Usuário 1 vai gostar de Pantera Negra?

Uma abordagem para sistemas de recomendação é usar fatoração para gerar as duas matrizes a seguir:

  • Uma matriz de usuários, formada pelo número de usuários X os número de dimensões de embedding.
  • Uma matriz de itens, formada pelo número de elementos de embedding dimensões X o número de itens.

Por exemplo, usar a fatoração de matrizes em nossos três usuários e cinco itens pode gerar a seguinte matriz de usuário e matriz de item:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

O produto escalar da matriz de usuário e da matriz de item gera uma recomendação matriz que contém não apenas as classificações originais de usuários, mas também as previsões para os filmes que cada usuário ainda não assistiu. Por exemplo, considere a classificação do Usuário 1 de Casablanca, que foi 5,0. O ponto produto correspondente a essa célula na matriz de recomendação deve provavelmente será em torno da versão 5, e ela é:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

E o mais importante: o Usuário 1 vai gostar de Pantera Negra? Pegar o produto escalar que corresponde à primeira linha e a terceira coluna produz uma classificação de 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

A fatoração de matrizes normalmente produz uma matriz de usuários e uma matriz de itens que, juntas, são significativamente mais compactas do que a matriz de destino.

Erro médio absoluto (MAE)

A perda média por exemplo quando a perda de L1 é usados. Calcule o Erro absoluto médio da seguinte forma:

  1. Calcule a perda L1 de um lote.
  2. Divida a perda de L1 pelo número de exemplos no lote.

Por exemplo, considere o cálculo da perda de L1 no seguinte lote de cinco exemplos:

Valor real do exemplo Valor previsto do modelo Perda (diferença entre o real e o previsto)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perda de L1

Portanto, a perda de L1 é 8 e o número de exemplos é 5. Portanto, o erro médio absoluto é:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Contraste o Erro absoluto médio com o Erro quadrático médio e Raiz do erro quadrático médio.

Erro quadrático médio (EQM)

A perda média por exemplo quando a perda de L2 é usados. Calcule o Erro quadrático médio da seguinte forma:

  1. Calcule a perda L2 de um lote.
  2. Divida a perda de L2 pelo número de exemplos no lote.

Por exemplo, considere a perda no lote de cinco exemplos a seguir:

Valor real Previsão do modelo Perda Perda quadrada
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = perda de L2

Portanto, o Erro quadrático médio é:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

O Erro quadrático médio é um otimizador de treinamento conhecido, particularmente para regressão linear.

Contrastar o Erro quadrático médio com Erro médio absoluto e Raiz do erro quadrático médio.

O TensorFlow Playground usa o erro quadrático médio para calcular os valores de perda.

malha

#TensorFlow
#GoogleCloud

Na programação paralela de ML, um termo associado à atribuição dos dados e para chips de TPU e definindo como esses valores serão fragmentados ou replicados.

"Malha" é um termo sobrecarregado que pode significar:

  • Um layout físico de chips de TPU.
  • Uma construção lógica abstrata para mapear os dados e o modelo para a TPU chips

Em ambos os casos, uma malha é especificada como uma forma.

metaaprendizado

#language

Um subconjunto de machine learning que descobre ou melhora um algoritmo de aprendizado. Um sistema de metaaprendizagem também pode tentar treinar um modelo para aprender rapidamente uma nova tarefa com uma pequena quantidade de dados ou com base na experiência adquirida em tarefas anteriores. Os algoritmos de metaaprendizado geralmente tentam fazer o seguinte:

  • Melhore ou aprenda recursos desenvolvidos manualmente (como um inicializador ou um otimizador).
  • Maior eficiência em termos de dados e computação.
  • Melhorar a generalização.

O metaaprendizado está relacionado ao aprendizado few-shot.

métrica

#TensorFlow

Uma estatística que importa para você.

Um objetivo é uma métrica que um sistema de machine learning tenta otimizar.

API Metrics (tf.metrics)

Uma API do TensorFlow para avaliar modelos. Por exemplo, tf.metrics.accuracy. determina a frequência com que as previsões de um modelo correspondem aos rótulos.

minilote

#fundamentals

Pequeno subconjunto de um lote selecionado aleatoriamente e processado em um iteration. O tamanho do lote de um minilote geralmente é entre 10 e 1.000 exemplos.

Por exemplo, suponha que todo o conjunto de treinamento (o lote completo) consiste em 1.000 exemplos. Suponha ainda que você defina tamanho do lote de cada minilote como 20. Portanto, cada iteração determina a perda em 20 aleatórias dos 1.000 exemplos e, em seguida, ajusta os pesos e os vieses de acordo.

É muito mais eficiente calcular a perda em um minilote do que perda em todos os exemplos de todo o lote.

gradiente descendente estocástico de minilote

Um algoritmo de gradiente descendente que usa minilotes. Em outras palavras, estocástico de minilote o gradiente descendente estima o gradiente com base em um pequeno subconjunto da dados de treinamento. O gradiente descendente estocástico regular usa uma minilote de tamanho 1.

perda minimax

Uma função de perda para redes adversárias generativas, com base na entropia cruzada entre a distribuição de dados gerados e reais.

A perda de Minimax é usada primeiro artigo que descreveu redes adversárias generativas.

classe minoritária

#fundamentals

O rótulo menos comum conjunto de dados desequilibrado de classes. Por exemplo: dado um conjunto de dados que contenha 99% de rótulos negativos e 1% de rótulos positivos, o rótulos positivos são a classe minoritária.

Compare com a classe principal.

mistura de especialistas

#language
#generativeAI

Um esquema para aumentar a eficiência da rede neural ao usando apenas um subconjunto de seus parâmetros (conhecido como um especialista) para processar um determinado token ou exemplo de entrada. Um A rede de bloqueio roteia cada token ou exemplo de entrada para os especialistas adequados.

Para mais detalhes, consulte um destes documentos:

ML

Abreviação de machine learning.

MMIT

#language
#image
#generativeAI

Abreviação para ajustado por instrução multimodal.

MNIST

#image

Um conjunto de dados de domínio público compilado por LeCun, Cortes e Burges contendo 60.000 imagens, cada uma mostrando como um humano escreveu manualmente uma determinada dígito de 0 a 9. Cada imagem é armazenada como uma matriz 28x28 de números inteiros, em que cada número inteiro é um valor em escala de cinza entre 0 e 255, inclusive.

O MNIST é um conjunto de dados canônico para machine learning, frequentemente usado para testar novos de machine learning. Para mais detalhes, consulte O banco de dados MNIST de dígitos manuscritos.

modality

#language

Uma categoria de dados de alto nível. Por exemplo, números, texto, imagens, vídeo e de áudio são cinco modalidades diferentes.

modelo

#fundamentals

Em geral, qualquer construção matemática que processe dados de entrada e retorne saída. Em outras palavras, um modelo é o conjunto de parâmetros e estrutura necessárias para um sistema fazer previsões. No machine learning supervisionado, um modelo usa um exemplo como entrada e infere uma prediction será exibida. Com o machine learning supervisionado, os modelos são um pouco diferentes. Exemplo:

  • Um modelo de regressão linear consiste em um conjunto de pesos e um viés.
  • Um modelo de rede neural consiste em:
  • Um modelo de árvore de decisão consiste em:
    • A forma da árvore; ou seja, o padrão em que as condições e as folhas estão conectadas.
    • As condições e as saídas.

É possível salvar, restaurar ou fazer cópias de um modelo.

O machine learning não supervisionado também gera modelos, normalmente uma função que pode mapear um exemplo de entrada para no cluster mais apropriado.

capacidade do modelo

a complexidade dos problemas que um modelo pode aprender. Quanto mais complexa a problemas que um modelo pode aprender, maior a capacidade dele. O valor e a capacidade do modelo normalmente aumenta com o número de parâmetros do modelo. Para um definição formal da capacidade do classificador, consulte Dimensão do VC.

cascata de modelos

#generativeAI

Um sistema que escolhe o modelo ideal para uma inferência específica consulta.

Imagine um grupo de modelos, variando de muito grandes (muitos parameters) para muito menor (muito menos parâmetros). Modelos muito grandes consomem mais recursos computacionais em inferência do que os modelos menores. No entanto, modelos muito grandes os modelos costumam inferir solicitações mais complexas do que os menores. A cascata de modelos determina a complexidade da consulta de inferência e escolhe o modelo apropriado para realizar a inferência. A principal motivação da cascata de modelos é reduzir os custos de inferência geralmente selecionando modelos menores e selecionando apenas um modelo maior para consultas complexas.

Imagine que um modelo pequeno seja executado em um smartphone e uma versão maior desse modelo é executado em um servidor remoto. Uma boa cascata de modelos reduz custo e latência permitindo que o modelo menor manipule solicitações simples e chame apenas o remoto para lidar com solicitações complexas.

Consulte também modelo de roteador.

paralelismo de modelos

#language

uma maneira de escalonar o treinamento ou a inferência que coloca diferentes partes de um model em dispositivos diferentes. Paralelismo de modelos permite modelos que são grandes demais para caber em um único dispositivo.

Para implementar o paralelismo de modelos, um sistema normalmente faz o seguinte:

  1. Ela fragmenta (divide) o modelo em partes menores.
  2. distribui o treinamento dessas partes menores em vários processadores. Cada processador treina a própria parte do modelo.
  3. Combina os resultados para criar um único modelo.

O paralelismo de modelos atrasa o treinamento.

Consulte também paralelismo de dados.

modelo de roteador

#generativeAI

O algoritmo que determina o modelo ideal para inferência no modelo em cascata. Um roteador de modelo costuma ser um modelo de machine learning que e aprende gradualmente a escolher o melhor modelo para uma determinada entrada. No entanto, um roteador modelo, às vezes, pode ser um ambiente algoritmo que não é de machine learning.

treinamento de modelo

O processo de determinar o melhor modelo.

Momentum

Algoritmo sofisticado de gradiente descendente do qual uma etapa de aprendizado depende. não só na derivada da etapa atual, mas também nas derivadas, das etapas que a precederam imediatamente. O momento envolve o cálculo de uma a média móvel exponencial dos gradientes ao longo do tempo, ao momentum na física. O ritmo às vezes impede que o aprendizado seja ficam presos nos mínimos locais.

MOE

#language
#image
#generativeAI

Abreviação de mistura de especialistas.

classificação multiclasse

#fundamentals

No aprendizado supervisionado, um problema de classificação em que o conjunto de dados contém mais de duas classes de rótulos. Por exemplo, os rótulos no conjunto de dados Iris precisam ser um dos seguintes três classes:

  • Íris setosa
  • Iris virginica
  • Íris versicolor

Um modelo treinado com o conjunto de dados Iris que prevê o tipo Íris em novos exemplos é a classificação multiclasse.

Em contrapartida, os problemas de classificação que distinguem entre exatamente dois são modelos de classificação binária. Por exemplo, um modelo de e-mail que prevê spam ou não spam é um modelo de classificação binária.

Em problemas de clustering, a classificação multiclasse se refere a mais de dois clusters.

regressão logística multiclasse

Como usar a regressão logística na Problemas de classificação multiclasse.

autoatenção com várias cabeças

#language

Uma extensão da autoatenção que aplica mecanismo de autoatenção várias vezes para cada posição na sequência de entrada.

Os Transformers introduziram a autoatenção de várias cabeças.

modelo multimodal

#language

um modelo com entradas e/ou saídas que incluem mais de um modalidade. Por exemplo, considere um modelo que usa uma imagem e uma legenda de texto (duas modalidades) como recursos, e gera uma pontuação que indica a adequação da legenda de texto à imagem. Portanto, as entradas desse modelo são multimodais, e a saída é unimodal.

ajustado por instrução multimodal

#language

Um modelo ajustado por instruções que possa processar entradas além do texto, como imagens, vídeo e áudio.

classificação multinomial

Sinônimo de classificação multiclasse.

regressão multinomial

Sinônimo de Regressão logística multiclasse.

multitarefa

Uma técnica de machine learning em que um único modelo para realizar várias tarefas.

Modelos multitarefa são criados pelo treinamento com dados apropriados para cada uma das diferentes tarefas. Isso permite que o modelo aprenda a compartilhar informações entre as tarefas, o que ajuda o modelo a aprender de forma mais eficaz.

Um modelo treinado para várias tarefas geralmente tem habilidades de generalização aprimoradas e podem ser mais robustos para lidar com diferentes tipos de dados.

N

armadilha de NaN

Quando um número no modelo se torna um NaN durante o treinamento, o que faz com que muitos ou todos os outros números no modelo se tornar um NaN.

NaN é uma abreviação de Not a Number.

processamento de linguagem natural

#language

Determinar as intenções de um usuário com base no que ele digitou ou disse. Por exemplo, um mecanismo de pesquisa usa processamento de linguagem natural para determinam o que o usuário está pesquisando com base no que ele digitou ou disse.

classe negativa

#fundamentals

Na classificação binária, uma classe é denominada positiva e a outra negativa. A classe positiva é a coisa ou o evento que o modelo está testando e a classe negativa é a outra possibilidade. Exemplo:

  • A classe negativa em um exame médico pode ser "não tumor".
  • A classe negativa em um classificador de e-mails pode ser "não é spam".

Compare com a classe positiva.

amostragem negativa

Sinônimo de amostragem de candidatos.

Pesquisa de arquitetura neural (NAS)

Uma técnica para projetar automaticamente a arquitetura de uma rede neural. Os algoritmos NAS podem reduzir a quantidade tempo e recursos necessários para treinar uma rede neural.

A NAS normalmente usa:

  • Um espaço de pesquisa, que é um conjunto de arquiteturas possíveis.
  • Uma função de condicionamento físico, que é uma medida do desempenho de um determinado arquitetura de dados é executada em uma determinada tarefa.

Os algoritmos NAS geralmente começam com um pequeno conjunto de arquiteturas possíveis expandir gradualmente o espaço de pesquisa à medida que o algoritmo aprende mais sobre o que do Google Cloud são eficazes. A função de condicionamento físico normalmente se baseia no desempenho da arquitetura em um conjunto de treinamento, e o algoritmo é normalmente são treinados usando uma de aprendizado por reforço.

Os algoritmos NAS se mostraram eficazes na localização de alto desempenho arquiteturas de imagem para várias tarefas, incluindo classificação, classificação de texto, e tradução automática.

do feedforward

#fundamentals

Um modelo que contém pelo menos um camada escondida. Uma rede neural profunda é um tipo de rede neural que contém mais de uma camada escondida. Por exemplo, o diagrama a seguir mostra uma rede neural profunda com duas camadas escondidas.

Uma rede neural com uma camada de entrada, duas camadas escondidas e um
          camada final.

Cada neurônio de uma rede neural se conecta a todos os nós da próxima camada. Por exemplo, no diagrama anterior, observe que cada um dos três neurônios na primeira camada escondida se conectam separadamente aos dois neurônios na uma segunda camada escondida.

As redes neurais implementadas em computadores às vezes são chamadas redes neurais artificiais para diferenciá-las das redes neurais encontradas em cérebros e outros sistemas nervosos.

Algumas redes neurais podem imitar relações não lineares extremamente complexas entre diferentes atributos e o rótulo.

Consulte também rede neural convolucional e rede neural recorrente.

neurônio

#fundamentals

Em machine learning, uma unidade distinta em uma camada escondida de uma rede neural. Cada neurônio desempenha as seguintes funções: ação em duas etapas:

  1. Calcula a soma ponderada dos valores de entrada multiplicada pelos pesos correspondentes.
  2. Transmite a soma ponderada como entrada para um função de ativação.

Um neurônio na primeira camada escondida aceita entradas dos valores de atributo na camada de entrada. Um neurônio em qualquer camada escondida além O primeiro aceita entradas dos neurônios da camada escondida anterior. Por exemplo, um neurônio na segunda camada escondida aceita entradas da na primeira camada escondida.

A ilustração a seguir destaca dois neurônios e os respectivos de entrada.

Uma rede neural com uma camada de entrada, duas camadas escondidas e um
          camada final. Dois neurônios estão destacados: um no primeiro
          camada escondida e outra na segunda. Os itens em destaque
          neurônio na primeira camada escondida recebe entradas dos dois atributos
          na camada de entrada. O neurônio destacado na segunda camada escondida
          recebe entradas de cada um dos três neurônios na primeira
          camada

Um neurônio de uma rede neural imita o comportamento dos neurônios no cérebro e outras partes do sistema nervoso.

N-grama

#seq
#language

Uma sequência ordenada de N palavras. Por exemplo, truly madly é um bloco de 2 gramas. Devido ao a ordem for relevante, madly true é um 2-grama diferente de truly madly.

N Nomes para esse tipo de N-grama Exemplos
2 bigrama ou 2 gramas ir, ir, almoçar, jantar
3 trigrama ou 3 gramas comeu demais, três ratos cegos, o pedágio
4 4 gramas caminhar no parque, poeira ao vento, o menino comeu lentilhas

Muitos processamento de linguagem natural os modelos dependem de N-gramas para prever a próxima palavra que o usuário vai digitar ou dizer. Por exemplo, suponha que um usuário digitou três cegos. Um modelo PLN baseado em trigramas provavelmente prevê que o o usuário vai digitar mice.

Compare os N-gramas com saco de palavras, que são conjuntos desordenados de palavras.

PLN

#language

Abreviação de linguagem natural compreensão.

nó (árvore de decisão)

#df

Em uma árvore de decisão, qualquer condition ou leaf.

Uma árvore de decisão com duas condições e três folhas.

nó (rede neural)

#fundamentals

Um neurônio em uma camada escondida.

nó (gráfico do TensorFlow)

#TensorFlow

Uma operação em um gráfico do TensorFlow.

ruído

Em termos gerais, qualquer coisa que oculte o sinal em um conjunto de dados. Ruído podem ser introduzidas nos dados de várias maneiras. Exemplo:

  • Os avaliadores humanos cometem erros ao rotular.
  • Humanos e instrumentos gravam de maneira incorreta ou omitem os valores de atributos.

condição não binária

#df

Uma condição que contém mais de dois resultados possíveis. Por exemplo, a seguinte condição não binária contém três possíveis resultados:

Uma condição (number_of_legs = ?) que leva a três possíveis
          resultados melhores. Um resultado (number_of_legs = 8) leva a uma folha
          chamada de aranha. Um segundo resultado (number_of_legs = 4) leva a
          uma folha chamada &quot;cão&quot;. Um terceiro resultado (number_of_legs = 2) leva a
          uma folha chamada pinguim.

não linear

#fundamentals

uma relação entre duas ou mais variáveis que não podem ser representadas exclusivamente. com adição e multiplicação. Uma relação linear pode ser representado como uma linha, uma relação não linear não pode ser representada como uma linha. Por exemplo, considere dois modelos que estão relacionados um único atributo a um único rótulo. O modelo à esquerda é linear e o modelo à direita é não linear:

Dois gráficos. Um gráfico é uma linha, portanto, trata-se de uma relação linear.
          O outro gráfico é uma curva, portanto, esta é uma relação não linear.

viés de não resposta

#fairness

Consulte o viés de seleção.

não estacionário

#fundamentals

Um recurso cujos valores mudam em uma ou mais dimensões, normalmente tempo. Por exemplo, considere os seguintes exemplos de não estacionário:

  • O número de trajes de banho vendidos em uma loja específica varia de acordo com a estação.
  • Quantidade de uma determinada fruta colhida em uma determinada região. é zero durante grande parte do ano, mas grande por um breve período.
  • Devido às mudanças climáticas, as temperaturas médias anuais estão mudando.

Compare com a estacionidade.

normalização

#fundamentals

De modo geral, o processo de conversão do intervalo real de uma variável em um intervalo padrão de valores, como:

  • -1 a +1
  • 0 a 1
  • pontuação Z (aproximadamente, -3 a +3)

Por exemplo, suponha que o intervalo real de valores de um determinado atributo seja de 800 a 2.400. Como parte da engenharia de atributos, é possível normalizar os valores reais para um intervalo padrão, como como -1 a +1.

A normalização é uma tarefa comum engenharia de atributos. Os modelos costumam ser treinados mais rapidamente (e produzir melhores previsões) quando todos os atributos numéricos na vetor de atributo tem aproximadamente o mesmo intervalo.

detecção de novidades

O processo que determina se um novo exemplo vem do mesmo como o conjunto de treinamento. Em outras palavras, depois de treinamento no conjunto de treinamento, a detecção de novidades determina se um novo exemplo (durante a inferência ou durante um treinamento adicional) é uma outlier.

Contraste com a detecção de outliers.

dados numéricos

#fundamentals

Atributos representados como inteiros ou números com valor real Por exemplo, um modelo de avaliação de casas provavelmente representa o tamanho de uma casa (em pés quadrados ou metros quadrados) como dados numéricos. Representação atributo como dados numéricos indica que os valores do atributo têm uma relação matemática com o rótulo Ou seja, o número de metros quadrados em uma casa provavelmente tem algum relação matemática com o valor da casa.

Nem todos os dados inteiros devem ser representados como dados numéricos. Por exemplo: em algumas partes do mundo, os códigos postais são números inteiros; No entanto, os valores-chave e códigos não devem ser representados como dados numéricos nos modelos. Isso ocorre porque um o CEP de 20000 não é duas vezes (ou metade) tão potente que um CEP de 10.000. Além disso, embora diferentes códigos postais corrijam a diferentes valores imobiliários, não podemos presumir que valores imobiliários no código postal 20.000 é duas vezes mais valioso do que valores imobiliários no código postal 10000. Os códigos postais precisam ser representados como dados categóricos como alternativa.

Às vezes, os atributos numéricos são chamados atributos contínuos.

NumPy

Um objeto biblioteca matemática de código aberto que fornece operações de matriz eficientes no Python. O pandas é criado com base em numPy.

O

objetivo

Uma métrica que seu algoritmo está tentando otimizar.

função objetiva

A fórmula matemática ou métrica que um modelo pretende otimizar. Por exemplo, a função objetivo A regressão linear geralmente é Perda quadrática média. Portanto, ao treinar um modelo de regressão linear, o treinamento visa minimizar a perda quadrática média.

Em alguns casos, o objetivo é maximizar a função objetiva. Por exemplo, se a função objetiva é acurácia, a meta é para maximizar a precisão.

Consulte também perda.

condição oblíqua

#df

Em uma árvore de decisão, uma condição que envolve mais de um recurso. Por exemplo, se altura e largura forem ambos atributos, então esta é uma condição oblíqua:

  height > width

Contraste com a condição de alinhamento do eixo.

off-line

#fundamentals

Sinônimo de estática.

inferência off-line

#fundamentals

O processo de um modelo que gera um lote de previsões e, em seguida, armazenar em cache (salvar) essas previsões. Assim, os apps podem acessar previsão do cache em vez de executar novamente o modelo.

Por exemplo, imagine um modelo que gera previsões meteorológicas locais (previsões) uma vez a cada quatro horas. Após a execução de cada modelo, armazena em cache todas as previsões meteorológicas locais. Os apps de clima recuperam a previsão do tempo do cache.

A inferência off-line também é chamada de inferência estática.

Isso é diferente da inferência on-line.

codificação one-hot

#fundamentals

Representação de dados categóricos como um vetor em que:

  • Um elemento é definido como 1.
  • Todos os outros elementos são definidos como 0.

A codificação one-hot é muito usada para representar strings ou identificadores que ter um conjunto finito de valores possíveis. Por exemplo, suponha que um determinado atributo categórico chamado Scandinavia tem cinco valores possíveis:

  • "Dinamarca"
  • "Suécia"
  • "Noruega"
  • "Finlândia"
  • "Islândia"

A codificação one-hot pode representar cada um dos cinco valores da seguinte maneira:

país Vetor
"Dinamarca" 1 0 0 0 0
"Suécia" 0 1 0 0 0
"Noruega" 0 0 1 0 0
"Finlândia" 0 0 0 1 0
"Islândia" 0 0 0 0 1

Graças à codificação one-hot, um modelo pode aprender conexões diferentes com base em cada um dos cinco países.

A representação de um atributo como dados numéricos é uma alternativa à codificação one-hot. Infelizmente, representar o número de países escandinavos não é uma boa escolha. Por exemplo: considere a seguinte representação numérica:

  • "Dinamarca" é 0
  • "Suécia" é 1
  • "Noruega" é 2
  • "Finlândia" é 3
  • "Islândia" é 4

Com a codificação numérica, um modelo interpretaria os números brutos matematicamente e tentar treinar com esses números. No entanto, a Islândia não é o dobro (ou metade disso) algo como a Noruega, então o modelo chegaria a algumas conclusões estranhas.

aprendizado one-shot

Uma abordagem de machine learning, muitas vezes usada para classificação de objetos, projetada para aprender classificadores eficazes com um único exemplo de treinamento.

Consulte também aprendizado few-shot e aprendizado zero-shot.

comandos one-shot

#language
#generativeAI

Um comando que contém um exemplo que demonstra como o O modelo de linguagem grande deve responder. Por exemplo: o comando a seguir contém um exemplo que mostra um modelo de linguagem grande ele deve responder a uma consulta.

Partes de um comando Observações
Qual é a moeda oficial do país especificado? A pergunta que você quer que o LLM responda.
França: EUR Um exemplo.
Índia: A consulta real.

Compare os comandos one-shot com os seguintes termos:

um-contra-todos

#fundamentals

Dado um problema de classificação com N classes, que consiste em N classificadores binários: um classificador binário para cada resultado possível. Por exemplo, considerando um modelo que classifica exemplos como animal, vegetal ou mineral, uma solução única forneceria três classificadores binários separados:

  • animal versus não animal
  • vegetal versus não vegetal
  • mineral versus não mineral

on-line

#fundamentals

Sinônimo de dynamic.

inferência on-line

#fundamentals

Gerar previsões sob demanda. Por exemplo: suponha que um aplicativo transmita uma entrada para um modelo e emita uma solicitação para um previsão. Um sistema que usa inferência on-line responde à solicitação executando o modelo (e retornar a previsão ao aplicativo).

Isso é diferente da inferência off-line.

operação (op)

#TensorFlow

No TensorFlow, qualquer procedimento que crie, manipula ou destrói um Tensor. Para exemplo, uma multiplicação de matrizes é uma operação que toma dois tensores entrada e gera um tensor como saída.

Optax

Uma biblioteca de processamento e otimização de gradientes para JAX. A Optax facilita a pesquisa fornecendo elementos básicos que podem ser são recombinadas de maneiras personalizadas para otimizar modelos paramétricos, como redes neurais profundas. Outras metas incluem:

  • Fornecer implementações eficientes, bem testadas e legíveis de componentes essenciais.
  • Aumento da produtividade possibilitando a combinação de ingredientes de baixo nível. em otimizadores personalizados (ou outros componentes de processamento de gradiente).
  • Acelerar a adoção de novas ideias facilitando a vida de todos de contribuir.

otimizador

Uma implementação específica do gradiente descendente. algoritmo. Otimizadores populares incluem:

  • AdaGrad, que significa "descendente ADAptive GRADient".
  • Adam, que significa "ADAptive with Momentum".

viés de homogeneidade externa ao grupo

#fairness

Tendência de ver os membros de fora do grupo mais parecidos do que os membros de grupo ao comparar atitudes, valores, traços de personalidade e outros e as características determinantes. Em grupo se refere às pessoas com quem você interage regularmente. out-group: refere-se a pessoas com quem você não interage regularmente. Se você criar um conjunto de dados pedindo às pessoas que forneçam atributos sobre fora dos grupos, esses atributos podem ter menos nuances e estereótipos do que os atributos que os participantes listam para as pessoas do seu grupo.

Por exemplo, liliputianos podem descrever as casas de outros liliputianos detalhadamente, citando pequenas diferenças em estilos arquitetônicos, janelas, portas e tamanhos. No entanto, os mesmos Liliputianos podem simplesmente declarar que Todos os Brobdingnaginos vivem em casas idênticas.

O viés de homogeneidade externa ao grupo é uma forma viés de atribuição a grupos.

Consulte também o viés de grupo.

detecção de outliers

O processo de identificação de outliers em uma conjunto de treinamento.

Mas não a detecção de novidades.

as exceções

Valores distantes da maioria dos outros valores. No machine learning, qualquer um seguintes são outliers:

  • Dados de entrada com valores que ultrapassam aproximadamente três desvios padrão da média.
  • Pesos com valores absolutos altos.
  • Valores previstos relativamente distantes dos valores reais.

Por exemplo, suponha que widget-price seja um recurso de um determinado modelo. Suponha que o widget-price médio seja de 7 euros com um desvio padrão de 1 euro. Exemplos de widget-price de 12 euros ou 2 euros seriam considerados outliers, porque cada um desses preços é cinco desvios padrão da média.

Os pontos fora da curva geralmente são causados por erros de digitação ou outros erros de entrada. Em outros casos, outliers não são erros; afinal, considera a cinco desvios padrão da média são raras, mas quase impossíveis.

Os outliers costumam causar problemas no treinamento do modelo. Clipes é uma maneira de gerenciar outliers.

avaliação pronta para uso (avaliação OOB)

#df

Mecanismo para avaliar a qualidade de uma floresta de decisão testando cada árvore de decisão em relação ao exemplos não usados durante treinamento dessa árvore de decisão. Por exemplo, na No diagrama a seguir, o sistema treina cada árvore de decisão em cerca de dois terços dos exemplos e, em seguida, avalia em relação aos um terço restante dos exemplos.

Uma floresta de decisão composta de três árvores de decisão.
          Uma árvore de decisão treina em dois terços dos exemplos
          e usa o terço restante para a avaliação OOB.
          Uma segunda árvore de decisão treina em dois terços diferentes
          dos exemplos do que a árvore de decisão anterior e, em seguida,
          usa um terço para a avaliação OOB diferente
          árvore de decisão anterior.

A avaliação pontual é uma ferramenta de computação conservadora aproximação do mecanismo de validação cruzada. Na validação cruzada, um modelo é treinado para cada rodada de validação cruzada. Por exemplo, 10 modelos são treinados em uma validação cruzada de 10 vezes. Com a avaliação OOB, um único modelo é treinado. Como a simplificação retém alguns dados de cada árvore durante o treinamento, a avaliação OOB pode usar esses dados para aproximar a validação cruzada.

camada final

#fundamentals

A "final" de uma rede neural. A camada final contém a previsão.

A ilustração a seguir mostra uma pequena rede neural profunda com uma entrada duas camadas escondidas e uma camada final:

Uma rede neural com uma camada de entrada, duas camadas escondidas e uma
          camada final. A camada de entrada consiste em dois atributos. A primeira
          camada escondida consiste em três neurônios, e a segunda camada escondida
          consiste em dois neurônios. A camada final consiste em um único nó.

overfitting

#fundamentals

Criar um modelo que corresponda ao dados de treinamento tão próximos que o modelo não consegue fazer previsões corretas sobre novos dados.

A regularização pode reduzir o overfitting. Treinar em um conjunto de treinamento grande e diversificado também pode reduzir o overfitting.

oversampling

Reutilizar os exemplos de uma classe minoritária em um conjunto de dados com desequilíbrio de classes para crie um conjunto de treinamento mais equilibrado.

Por exemplo, considere uma classificação binária problema em que a proporção entre a classe principal e o classe minoritária é 5.000:1. Se o conjunto de dados tiver um milhão de exemplos, o conjunto de dados contém apenas cerca de 200 exemplos da classe minoritária, que pode há poucos exemplos para um treinamento eficaz. Para superar essa deficiência, você pode usar em excesso (reutilizar) esses 200 exemplos várias vezes, o que pode suficientes para um treinamento útil.

Você precisa ter cuidado com o overfitting ao a sobreamostragem.

Contraste com subamostragem.

P

dados empacotados

Uma abordagem para armazenar dados com mais eficiência.

Os dados empacotados armazenam dados usando um formato compactado ou em de alguma outra forma que permita o acesso mais eficiente. Os dados empacotados minimizam a quantidade de memória e computação necessárias para acesso, o que leva a um treinamento mais rápido e uma inferência de modelo mais eficiente.

Os dados empacotados geralmente são usados com outras técnicas, como aumento de dados e regularização, melhorando ainda mais o desempenho do modelos.

pandas

#fundamentals

Uma API de análise de dados orientada por colunas, criada com base em numpy. Em vários frameworks de machine learning, incluindo TensorFlow, oferecem suporte a estruturas de dados pandas como entradas. Consulte a Documentação do pandas para mais detalhes.

parâmetro

#fundamentals

Os pesos e vieses que um modelo aprende durante treinamento. Por exemplo, em um modelo de regressão linear, os parâmetros consistem no o viés (b) e todos os pesos (w1, w2, e assim por diante) na seguinte fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Por outro lado, hiperparâmetros são os valores que você (ou um serviço de ajuste de hiperparâmetros) fornece ao modelo. Por exemplo, a taxa de aprendizado é um hiperparâmetro.

ajuste de eficiência de parâmetros

#language
#generativeAI

Um conjunto de técnicas para ajustar um modelo Modelo de linguagem pré-treinado (PLM, na sigla em inglês) mais eficiente do que o ajuste completo. Eficiente em parâmetros O ajuste normalmente ajusta muito menos parâmetros do que refinamento, mas geralmente produz um modelo de linguagem grande que executa tão bem (ou quase tão bem) quanto um modelo de linguagem grande criado ajustes.

Compare e contraste o ajuste com eficiência de parâmetros com:

Esse recurso também é conhecido como ajustes finos com eficiência de parâmetros.

Servidor de parâmetros (PS)

#TensorFlow

Um job que acompanha os parâmetros de um modelo em uma distribuído.

atualização de parâmetros

A operação de ajustar os parâmetros de um modelo durante treinamento, normalmente em uma única iteração de gradiente descendente.

derivada parcial

Uma derivada em que todas as variáveis, exceto uma, são consideradas constantes. Por exemplo, a derivada parcial de f(x, y) em relação a x é a derivada de f considerada uma função de x sozinha (ou seja, manter y ). A derivada parcial de f em relação a x se concentra apenas nas como x está mudando e ignora todas as outras variáveis na equação.

viés de participação

#fairness

Sinônimo de viés de não resposta. Consulte o viés de seleção.

estratégia de particionamento

O algoritmo pelo qual as variáveis são divididas servidores de parâmetros.

Pax

Framework de programação projetado para treinar em grande escala modelos de rede neural são tão grandes que elas se estendem por várias TPU ícone acelerador fatias ou pods.

O Pax é baseado no Flax, que é baseado no JAX.

Diagrama indicando a posição do Pax na pilha de software.
          O Pax foi desenvolvido com base no JAX. O Pax consiste em três
          camadas. A camada inferior contém o TensorStore e o Flax.
          A camada intermediária contém Optax e Flaxformer. Principais
          contém a biblioteca Praxis Modeling. O violino foi criado
          em cima de Pax.

Perceptron

um sistema (hardware ou software) que recebe um ou mais valores de entrada, executa uma função na soma ponderada das entradas e calcula um único valor de saída. Em machine learning, a função normalmente não é linear, como ReLU, sigmoide ou tanh. Por exemplo, o perceptron a seguir depende da função sigmoide para processar três valores de entrada:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Na ilustração a seguir, o perceptron recebe três entradas, cada uma é modificado por um peso antes de entrar no perceptron:

Um perceptron que recebe três entradas, cada uma multiplicada por
          pesos específicos. O perceptron gera um valor único.

Perceptrons são os neurônios em redes neurais.

desempenho

Termo sobrecarregado com os seguintes significados:

  • O significado padrão na engenharia de software. Mais especificamente: a velocidade (ou de forma eficiente) esse software é executado?
  • o significado dentro do machine learning Aqui, o desempenho responde seguinte pergunta: Qual é o nível de precisão deste modelo? Ou seja, qual é a qualidade das previsões do modelo?

importâncias das variáveis de troca

#df

Um tipo de importância de variável que avalia o aumento no erro de previsão de um modelo após a troca de valores do atributo. A importância da variável de troca é um fator métrica.

perplexidade

Uma medida de como um modelo está realizando a tarefa. Por exemplo, suponha que sua tarefa seja ler as primeiras letras de uma palavra que um usuário digita em um teclado de telefone e oferecer uma lista de possíveis as palavras de conclusão. A perplexidade, P, para essa tarefa, é aproximadamente o número de palpites que você precisa oferecer para que sua lista contenha os dados reais palavra que o usuário está tentando digitar.

A perplexidade está relacionada à entropia cruzada da seguinte maneira:

$$P= 2^{-\text{cross entropy}}$$

pipeline

A infraestrutura em torno de um algoritmo de machine learning. Um pipeline inclui coletar os dados, colocá-los em arquivos de dados de treinamento, treinar um ou mais modelos e exportá-los para produção.

pipeline

#language

Uma forma de paralelismo de modelos em que o valor o processamento é dividido em estágios consecutivos, e cada estágio é executado em um dispositivo diferente. Enquanto uma etapa estiver processando um lote, a fase anterior pode funcionar no próximo lote.

Consulte também o treinamento por etapas.

pjit

Uma função JAX que divide o código para execução em vários ícones de acelerador. O usuário passa uma função para o pjit, que retorna uma função que tem a semântica equivalente, mas é compilada em um cálculo XLA executado em vários dispositivos (como GPUs ou núcleos de TPU).

Com o pjit, os usuários podem fragmentar cálculos sem reescrevê-los usando o particionamento SPMD.

A partir de março de 2023, o pjit foi mesclado com o jit. Consulte Matrizes distribuídas e modelos carregamento em paralelo para mais detalhes.

PLM

#language
#generativeAI

Abreviação de modelo de linguagem pré-treinado (em inglês).

pmap

Uma função JAX que executa cópias de uma função de entrada em vários dispositivos de hardware (CPUs, GPUs ou TPUs), com valores de entrada diferentes. O pmap depende do SPMD.

policy

#rl

No aprendizado por reforço, o mapeamento probabilístico de um agente de estados para ações.

pool

#image

Reduzir uma ou mais matrizes criadas por uma matriz camada convolucional para uma matriz menor. O agrupamento geralmente envolve tomar o valor máximo ou médio da área mista. Por exemplo, suponha que temos seguinte matriz 3x3:

A matriz 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Uma operação de pooling, assim como uma operação convolucional, divide esse em frações e desliza a operação convolucional strides. Por exemplo, suponha que a operação de pooling divide a matriz convolucional em fatias 2x2 com um passo de 1x1. Como ilustrado no diagrama a seguir, ocorrem quatro operações de pool. Imagine que cada operação de pool escolhe o valor máximo da quatro nessa fração:

A matriz de entrada é 3x3 com os valores: [[5,3,1], [8,2,5], [9,4,3]].
          A submatriz 2x2 do canto superior esquerdo da matriz de entrada é [[5,3], [8,2]], portanto
          a operação de pool no canto superior esquerdo produz o valor 8 (que é o
          máximo de 5, 3, 8 e 2). A submatriz 2x2 do canto superior direito da entrada
          é [[3,1], [2,5]], então a operação de pooling no canto superior direito gera
          o valor 5. A submatriz 2x2 inferior esquerda da matriz de entrada é
          [[8,2], [9,4]], então a operação de pooling no canto inferior esquerdo gera o valor
          9. A submatriz 2x2 inferior direita da matriz de entrada é
          [[2,5], [4,3]], então a operação de pooling no canto inferior direito produz o valor
          5) Em resumo, a operação de pooling gera a matriz 2x2
          [[8,5], [9,5]].

O pooling ajuda a aplicar invariância translacional na matriz de entrada.

O pooling para aplicativos de visão é conhecido mais formalmente como pooling espacial. Os aplicativos de série temporal geralmente se referem ao pool como pooling temporal. Menos formalmente, o pooling é chamado de subamostragem ou redução da amostragem.

codificação posicional

#language

Uma técnica para adicionar informações sobre a posição de um token em uma sequência para o embedding do token. Os modelos de transformador usam codificação para entender melhor a relação entre diferentes partes da sequência.

Uma implementação comum da codificação posicional usa uma função senoidal. (Especificamente, a frequência e a amplitude da função senoidal são determinada pela posição do token na sequência.) Essa técnica permite que um modelo de transformador aprenda a atender a diferentes partes da com base em sua posição.

classe positiva

#fundamentals

A turma em que você está testando.

Por exemplo, a classe positiva em um modelo de câncer pode ser “tumor”. A classe positiva em um classificador de e-mail pode ser "spam".

Compare com a classe negativa.

pós-processamento

#fairness
#fundamentals

Ajustar a saída de um modelo após a execução dele. O pós-processamento pode ser usado para impor restrições de imparcialidade sem modificar os próprios modelos.

Por exemplo, é possível aplicar o pós-processamento a um classificador binário definindo um limiar de classificação de forma que a igualdade de oportunidade é mantida. para alguns atributos verificando se a taxa de verdadeiro positivo é o mesmo para todos os valores desse atributo.

PR AUC (área sob a curva PR)

A área sob o objeto interpolado curva de precisão/recall, obtida por meio de gráficos (recall, precisão) para diferentes valores do limite de classificação. Dependendo de como for calculada, a PR AUC pode ser equivalente ao precisão média do modelo.

Praxis

Uma biblioteca de ML principal e de alto desempenho do Pax. A praxe é muitas vezes chamada de "Biblioteca de camadas".

A praxe contém não apenas as definições para a classe da camada, mas a maior parte do os componentes de suporte, incluindo:

Praxis fornece as definições para a classe Model.

precision

Uma métrica para modelos de classificação que responde a seguinte pergunta:

Quando o modelo previu a classe positiva, qual porcentagem das previsões estava correta?

Aqui está a fórmula:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

em que:

  • "verdadeiro positivo" significa que o modelo previu corretamente a classe positiva.
  • Um falso positivo significa que o modelo previu por engano a classe positiva.

Por exemplo, imagine que um modelo fez 200 previsões positivas. Dessas 200 previsões positivas:

  • 150 eram verdadeiros positivos.
  • 50 eram falsos positivos.

Nesse caso:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Compare com acurácia e recall.

curva de precisão/recall

Uma curva de precisão x recall com diferentes limites de classificação.

previsão

#fundamentals

A saída de um modelo. Exemplo:

  • A previsão de um modelo de classificação binária é o resultado positivo ou a classe negativa.
  • A previsão de um modelo de classificação multiclasse é uma classe.
  • A previsão de um modelo de regressão linear é um número.

viés de previsão

Um valor que indica a distância entre a média previsões é da média de rótulos no conjunto de dados.

Não confunda com o termo de viés em modelos de machine learning. ou com viés na ética e imparcialidade.

ML preditivo

Qualquer sistema padrão de machine learning ("clássico").

O termo ML preditivo não tem uma definição formal. Em vez disso, o termo distingue uma categoria de sistemas de ML não baseada em IA generativa.

paridade preditiva

#fairness

Uma métrica de imparcialidade que verifica se: para um determinado classificador, as taxas de precisão são equivalentes para subgrupos em consideração.

Por exemplo, um modelo que prevê que a aceitação na faculdade atenderia paridade preditiva para nacionalidade se a taxa de precisão for a mesma para liliputianos e brobdingnagians.

A paridade preditiva também é chamada de paridade de taxa preditiva.

Consulte "Definições de imparcialidade" Explicado" (seção 3.2.1) para uma discussão mais detalhada sobre paridade preditiva.

paridade de taxa preditiva

#fairness

Outro nome para paridade preditiva.

pré-processamento

#fairness
Processar dados antes de serem usados para treinar um modelo. O pré-processamento poderia ser tão simples quanto remover palavras de um corpus de texto em inglês que não aparecem no dicionário do inglês, ou podem ser tão complexos quanto a reexpressão pontos de dados de forma a eliminar o máximo possível de atributos correlacionados com atributos sensíveis possível. O pré-processamento pode ajudar a atender às restrições de imparcialidade.

modelo pré-treinado

#language
#image
#generativeAI

Modelos ou componentes de modelo (como um vetor de embedding) que já foram treinados. Às vezes, você alimenta vetores de embedding pré-treinados em uma rede neural. Outras vezes, o modelo treina em vez de depender de embeddings pré-treinados.

O termo modelo de linguagem pré-treinado se refere modelo de linguagem grande que passou pré-treinamento:

pré-treinamento

#language
#image
#generativeAI

O treinamento inicial de um modelo em um grande conjunto de dados. Alguns modelos pré-treinados são desastrados e precisam ser refinados com treinamento adicional. Por exemplo, especialistas em ML podem pré-treinar modelo de linguagem grande em um conjunto de dados de texto amplo, como todas as páginas em inglês da Wikipédia. Após o pré-treinamento, modelo resultante pode ser ainda mais refinado por meio de qualquer técnicas:

crença a priori

O que você acredita sobre os dados antes de começar o treinamento. Por exemplo, a regularização L2 depende do seguinte: uma crença anterior de que os pesos devem ser baixos e normalmente distribuídos em torno de zero.

modelo de regressão probabilística

Um modelo de regressão que usa não apenas o pesos para cada recurso, mas também os incerteza desses pesos. Um modelo de regressão probabilística gera uma previsão e a incerteza dessa previsão. Por exemplo, o modelo de regressão probabilística pode gerar uma previsão de 325 e um desvio padrão de 12. Para mais informações sobre regressão probabilística modelos, confira este Colab tensorflow.org.

função da densidade de probabilidade

Uma função que identifica a frequência das amostras de dados com exatamente um um valor específico. Quando os valores de um conjunto de dados são pontos flutuantes contínuos as correspondências exatas raramente ocorrem. No entanto, integrar uma probabilidade função de densidade do valor x para o valor y resulta na frequência esperada de amostras de dados entre x e y.

Por exemplo, considere uma distribuição normal com uma média de 200 e um desvio padrão de 30. Determinar a frequência esperada de amostras de dados no intervalo de 211,4 a 218,7, é possível integrar a probabilidade função de densidade para uma distribuição normal de 211,4 a 218,7.

prompt

#language
#generativeAI

Qualquer texto inserido como entrada para um modelo de linguagem grande para condicionar o modelo a se comportar de uma determinada maneira. Os comandos podem ser curtos de frase ou arbitrariamente longo (por exemplo, o texto inteiro de um romance). Comandos se enquadram em várias categorias, incluindo as mostradas na tabela a seguir:

Categoria da solicitação Exemplo Observações
Pergunta Qual é a velocidade de um pombo voar?
Instrução Escreva um poema engraçado sobre arbitragem. Um comando que pede ao modelo de linguagem grande para fazer algo.
Exemplo Converta o código Markdown em HTML. Por exemplo:
Markdown: * item de lista
HTML: <ul> <li>item da lista</li> &lt;/ul&gt;
A primeira frase do comando de exemplo é uma instrução. O restante do comando é o exemplo.
Papel Explicar por que o gradiente descendente é usado no treinamento de machine learning para com doutorado em física. A primeira parte da frase é uma instrução. a frase "a um doutorado em física" é a parte da função.
Entrada parcial para o modelo concluir O primeiro-ministro do Reino Unido mora Um comando de entrada parcial pode terminar abruptamente (como neste exemplo) ou terminar com um sublinhado.

Um modelo de IA generativa pode responder a um comando com texto, códigos, imagens, embeddings, vídeos... quase tudo.

aprendizado baseado em comandos

#language
#generativeAI

A capacidade de determinados modelos que permite que eles se adaptem o comportamento deles em resposta a entradas de texto arbitrárias (comandos). Em um paradigma de aprendizado baseado em comandos, um modelo de linguagem grande responde a um comando para gerar texto. Por exemplo, suponha que um usuário digite o seguinte comando:

Resumir a terceira lei de Newton.

Um modelo de aprendizado baseado em comandos não é treinado especificamente para responder ao comando anterior. Em vez disso, o modelo "sabe" muitos fatos sobre a física, muito sobre as regras gerais da linguagem e muito sobre o que constitui respostas úteis. Esse conhecimento é suficiente para fornecer uma responder. Feedback humano adicional ("Essa resposta foi muito complicada." ou "O que é uma reação?") permite que alguns sistemas de aprendizagem baseados em comandos façam gradualmente a melhorar a utilidade das respostas.

design de comandos

#language
#generativeAI

Sinônimo de engenharia de comando.

engenharia de comando

#language
#generativeAI

A arte de criar comandos que evocam as respostas desejadas de um modelo de linguagem grande. Os humanos realizam o comando com engenharia de atributos. Escrever comandos bem-estruturados é essencial para garantir respostas úteis de um modelo de linguagem grande. A engenharia de prompts depende muitos fatores, incluindo:

  • O conjunto de dados usado para pré-treinamento e possivelmente ajustar o modelo de linguagem grande.
  • A temperatura e outros parâmetros de decodificação que o usa para gerar respostas.

Consulte Introdução à criação de comandos para mais detalhes sobre como escrever comandos úteis.

Design de comandos é sinônimo de engenharia de comando.

ajuste de comandos

#language
#generativeAI

Um mecanismo de ajuste eficiente de parâmetros que aprende um "prefixo" que o sistema inclua no início comando real.

Uma variação do ajuste de prompts, às vezes chamado de ajuste de prefixo, é inclua o prefixo em todas as camadas. Em contraste, a maioria dos ajustes de prompts adiciona um prefixo à camada de entrada.

rótulos de proxy

#fundamentals

Dados usados para aproximar rótulos não disponíveis diretamente em um conjunto de dados.

Por exemplo, suponha que você precise treinar um modelo para prever funcionários nível de estresse. Seu conjunto de dados contém muitos atributos preditivos, mas não contém um rótulo chamado nível de estresse. Desencorajado, você escolhe "acidentes no local de trabalho" como um rótulo de proxy para nível de estresse. Afinal, os funcionários sob alto estresse acidentes do que calmos funcionários. Ou eles têm? Talvez acidentes de trabalho de fato subir e descer por vários motivos.

Como segundo exemplo, suponha que você queira que está chovendo? seja um rótulo booleano. para seu conjunto de dados, mas ele não contém dados de chuva. Se fotos estão disponíveis, você pode estabelecer fotos de pessoas levar guarda-chuvas como um rótulo substituto de está chovendo? Isso um bom rótulo de proxy? Possivelmente, mas as pessoas em algumas culturas podem ser têm mais chances de carregar guarda-chuvas para se proteger do sol do que da chuva.

Os rótulos de proxy geralmente são imperfeitos. Quando possível, escolha rótulos reais. marcadores de proxy. Dito isso, quando um rótulo real estiver ausente, escolha o proxy rótulo com muito cuidado, escolhendo o menos horrível candidato a rótulo de proxy.

proxy (atributos confidenciais)

#fairness
Um atributo usado como substituto para um atributo confidencial: Por exemplo, uma o CEP de uma pessoa física pode ser usado como indicador de sua renda, raça ou etnia.

função pura

Função com saídas baseadas apenas nas entradas e que não tem lado efeitos Uma função pura não usa nem altera nenhum estado global, como o conteúdo de um arquivo ou o valor de uma variável fora da função.

Funções puras podem ser usadas para criar código thread-safe, o que é benéfico ao fragmentar o código do model em vários ícones de acelerador.

Os métodos de transformação de função do JAX exigem que as funções de entrada são puras.

Q

Função Q

#rl

No aprendizado por reforço, a função que prevê o retorno esperado de obter uma action em um estado e, em seguida, segue uma determinada política.

A função Q também é conhecida como função de valor de ação de estado.

Aprendizado Q

#rl

No aprendizado por reforço, um algoritmo que permite que um agente para aprender a função Q ideal de uma Processo de decisão de Markov aplicando a Equação de Bellman. Os modelos do processo de decisão de Markov um ambiente.

quantil

Cada bucket no agrupamento por classes.

agrupamento por classes de quantil

Distribuir os valores de um atributo em buckets para que cada o bucket contém o mesmo (ou quase o mesmo) número de exemplos. Por exemplo: a figura a seguir divide 44 pontos em 4 segmentos, cada um dos quais contém 11 pontos. Para que cada bucket na figura contenha os mesmo número de pontos, alguns buckets abrangem uma largura diferente de valores x.

44 pontos de dados divididos em 4 buckets de 11 pontos cada.
          Embora cada bucket tenha o mesmo número de pontos de dados,
          alguns buckets contêm uma gama maior de valores de atributos do que outros
          buckets de armazenamento.

quantização

Termo sobrecarregado que pode ser usado de qualquer uma das seguintes maneiras:

  • Como implementar o agrupamento por classes de quantil sobre um determinado recurso.
  • transformar dados em zeros e uns para acelerar o armazenamento, o treinamento e inferência. Como os dados Booleanos são mais robustos contra ruídos e erros do que outros formatos, a quantização pode melhorar a precisão do modelo. As técnicas de quantização incluem arredondamento, truncamento e agrupamento por classes.
  • Reduzir o número de bits usados para armazenar o código de um modelo parameters. Por exemplo, suponha que os parâmetros de um modelo sejam armazenados como números de ponto flutuante de 32 bits. A quantização converte de 32 bits para 4, 8 ou 16 bits. A quantização reduz a seguinte:

    • Uso de computação, memória, disco e rede
    • Tempo para inferir uma predicação
    • Consumo de energia

    No entanto, a quantização às vezes diminui a exatidão do modelo previsões.

fila

#TensorFlow

Uma operação do TensorFlow que implementa os dados de uma fila. na estrutura dos preços. Usado normalmente na E/S.

R

RAG

#fundamentals

Abreviação para geração aumentada de recuperação.

floresta aleatória

#df

Um ensemble de árvores de decisão em em que cada árvore de decisão é treinada com um ruído aleatório específico, como bagging.

As florestas aleatórias são um tipo de floresta de decisão.

política aleatória

#rl

No aprendizado por reforço, uma política que escolhe uma action de forma aleatória.

classificação

Um tipo de aprendizado supervisionado em que objetivo é ordenar uma lista de itens.

classificação (ordinalidade)

a posição ordinal de uma classe em um problema de machine learning que categoriza da maior para a menor. Por exemplo, uma classificação de comportamento sistema poderia classificar as recompensas de um cão do mais alto (um bife) a mais baixa (couve murcha).

classificação (Tensor)

#TensorFlow

O número de dimensões em um Tensor. Por exemplo: um escalar tem classificação 0, um vetor tem classificação 1 e uma matriz tem classificação 2.

Não confunda com classificação (ordinalidade).

avaliador

#fundamentals

Uma pessoa que fornece rótulos para exemplos. "Anotador" é outro nome para avaliador.

recall

Uma métrica para modelos de classificação que responde a seguinte pergunta:

Quando as informações empíricas foram classe positiva, que porcentagem de previsões fez o modelo identificar corretamente como a classe positiva?

Aqui está a fórmula:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

em que:

  • "verdadeiro positivo" significa que o modelo previu corretamente a classe positiva.
  • Um falso negativo significa que o modelo previu por engano a classe negativa.

Por exemplo, suponha que seu modelo fez 200 previsões sobre exemplos para os quais informações empíricas foi a classe positiva. Dessas 200 previsões:

  • 180 eram verdadeiros positivos.
  • 20 eram falsos negativos.

Nesse caso:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

sistema de recomendação

#recsystems

um sistema que seleciona para cada usuário um conjunto relativamente pequeno de itens de um grande corpus. Por exemplo, um sistema de recomendação de vídeos pode recomendar dois vídeos de um corpus de 100.000 vídeos, selecionando Casablanca e A História da Filadélfia para um usuário, e Mulher Maravilha e Pantera Negra para outro. Um sistema de recomendação de vídeos pode as recomendações se baseiam em fatores como:

  • Filmes que usuários semelhantes avaliaram ou assistiram.
  • Gênero, diretores, atores, público-alvo...

Unidade Linear Retificada (ReLU)

#fundamentals

Uma função de ativação com o seguinte comportamento:

  • Se a entrada for negativa ou zero, a saída será 0.
  • Se a entrada for positiva, a saída será igual à entrada.

Exemplo:

  • Se a entrada for -3, a saída será 0.
  • Se a entrada for +3, a saída será 3,0.

Veja um gráfico de ReLU:

Um gráfico cartesiano de duas linhas. A primeira linha tem uma constante
          valor y de 0, ao longo do eixo x de -infinito,0 a 0,-0.
          A segunda linha começa em 0,0. Essa linha tem uma inclinação de +1, então
          ela vai de 0,0 a +infinito,+infinito.

ReLU é uma função de ativação muito conhecida. Apesar do comportamento simples, A ReLU ainda permite que uma rede neural aprenda não lineares relações entre atributos e o rótulo.

rede neural recorrente

#seq

Uma rede neural que executa intencionalmente várias momentos, em que partes de cada execução são alimentadas na próxima execução. Especificamente: as camadas escondidas da execução anterior fornecem parte entrada para a mesma camada escondida na próxima execução. Redes neurais recorrentes são particularmente úteis para avaliar sequências, de modo que as camadas escondidas pode aprender com execuções anteriores da rede neural em partes anteriores a sequência.

Por exemplo, a figura a seguir mostra uma rede neural recorrente que é executado quatro vezes. Observe que os valores aprendidos nas camadas escondidas a primeira execução se torna parte da entrada para as mesmas camadas escondidas na segunda execução. Da mesma forma, os valores aprendidos na camada escondida da na segunda execução se tornam parte da entrada para a mesma camada escondida no na terceira execução. Dessa forma, a rede neural recorrente treina gradualmente e prevê o significado de toda a sequência, e não apenas o significado de palavras individuais.

Uma RNN que é executada quatro vezes para processar quatro palavras de entrada.

modelo de regressão

#fundamentals

informalmente, um modelo que gera uma previsão numérica. (Por outro lado, Um modelo de classificação gera uma classe prediction.) Por exemplo, estes são todos modelos de regressão:

  • Um modelo que prevê o valor de uma determinada casa, como 423.000 euros.
  • Um modelo que prevê a expectativa de vida de uma determinada árvore, como 23,2 anos.
  • Um modelo que prevê a quantidade de chuva que vai cair em uma determinada cidade nas próximas seis horas, como 0,18 polegadas.

Dois tipos comuns de modelos de regressão são:

  • Regressão linear, que encontra a linha que melhor ajusta valores de rótulo aos atributos.
  • Regressão logística, que gera uma probabilidade entre 0,0 e 1,0 que um sistema normalmente mapeia para uma classe previsão.

Nem todo modelo que gera previsões numéricas é um modelo de regressão. Em alguns casos, uma previsão numérica é na verdade apenas um modelo de classificação que tem nomes de classes numéricos. Por exemplo, um modelo que prevê um código postal numérico é um modelo de classificação, não um modelo de regressão.

regularização

#fundamentals

Qualquer mecanismo que reduza o overfitting. Os tipos conhecidos de regularização incluem:

A regularização também pode ser definida como a penalidade na complexidade de um modelo.

taxa de regularização

#fundamentals

Um número que especifica a importância relativa de regularização (em inglês) durante o treinamento. Elevar a taxa de regularização reduz o overfitting, mas pode reduzir a capacidade preditiva dos modelos. Por outro lado, reduzir ou omitir a taxa de regularização aumenta o overfitting.

aprendizado por reforço (RL)

#rl

Uma família de algoritmos que aprende uma política ideal, com o objetivo de é maximizar o retorno ao interagir com um ambiente. Por exemplo, o prêmio final da maioria dos jogos é a vitória. Os sistemas de aprendizado por reforço podem se tornar especialistas em jogos complexos jogos avaliando sequências de movimentos anteriores que acabam levou a vitórias e sequências que, no final, levaram a perdas.

Aprendizado por reforço com feedback humano (RLHF)

#generativeAI
#rl

Usar feedback de avaliadores humanos para melhorar a qualidade das respostas de um modelo. Por exemplo, um mecanismo de RLHF pode pedir que os usuários classifiquem a qualidade da com um emoji 👍 ou 👎. O sistema pode ajustar as respostas futuras com base nesse feedback.

ReLU

#fundamentals

Abreviação de Retified Linear Unit.

buffer de repetição

#rl

Em algoritmos do tipo DQN, a memória usada pelo agente para armazenar transições de estado para uso em a experiência de repetição.

réplica

Uma cópia do conjunto de treinamento ou modelo geralmente em outra máquina. Por exemplo, um sistema poderia usar estratégia para implementar o paralelismo de dados:

  1. colocar réplicas de um modelo atual em várias máquinas;
  2. Enviar diferentes subconjuntos do conjunto de treinamento para cada réplica.
  3. Agregue as atualizações de parâmetro.

viés de relatório

#fairness

O fato de que a frequência com que as pessoas escrevem sobre ações, resultados ou propriedades não é um reflexo da realidade frequências ou o grau em que uma propriedade é característica de uma classe de indivíduos. O viés de relatório pode influenciar a composição que os sistemas de machine learning usam para aprender.

Por exemplo, em livros, a palavra rindo é mais predominante do que respirados. Um modelo de machine learning que estima a frequência relativa de rir e respirar usando o corpus de um livro provavelmente determinaria que rir é mais comum do que respirar.

representação de vetor

O processo de mapear dados para recursos úteis.

reclassificação

#recsystems

A última etapa de um sistema de recomendação, durante o qual os itens pontuados podem ser reclassificados de acordo com alguns outros (normalmente, não ML). A reclassificação avalia a lista de itens geradas pela fase de pontuação, realizando ações como:

  • Eliminar os itens que o usuário já comprou.
  • Aumentar a pontuação de itens mais atualizados.

geração aumentada de recuperação (RAG, na sigla em inglês)

#fundamentals

Uma técnica para melhorar a qualidade Saída de modelo de linguagem grande (LLM) ao fundamentá-lo com fontes de conhecimento recuperadas após o treinamento do modelo. A RAG melhora a precisão das respostas do LLM fornecendo ao LLM treinado a informações recuperadas de bases de conhecimento ou documentos confiáveis.

Motivações comuns para usar a geração aumentada de recuperação incluem:

  • Aumentar a acurácia factual das respostas geradas de um modelo.
  • Dar ao modelo acesso ao conhecimento em que não foi treinado.
  • Alterar o conhecimento que o modelo usa.
  • Permitir que o modelo cite fontes.

Por exemplo, suponha que um aplicativo de química usa o PaLM API para gerar resumos relacionadas às consultas dos usuários. Quando o back-end do app recebe uma consulta, ele:

  1. Procura ("recupera") dados relevantes para a consulta do usuário.
  2. Anexa ("aumenta") os dados de química relevantes à consulta do usuário.
  3. Instrui o LLM a criar um resumo com base nos dados anexados.

return

#rl

No aprendizado por reforço, considerando uma determinada política e um certo estado, retorno é a soma de todas as recompensas que o agente espera receber ao seguir a política do state até o final do episódio. O agente considera a natureza tardia das recompensas esperadas com o desconto de recompensas de acordo com as transições de estado necessárias para receber o prêmio.

Portanto, se o fator de desconto for \(\gamma\), e \(r_0, \ldots, r_{N}\) denotar os prêmios até o final do episódio, depois o cálculo de retorno é o seguinte:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

prêmio

#rl

No aprendizado por reforço, o resultado numérico action em um estado, conforme definido por ambiente.

regularização Ridge

Sinônimo de regularização L2. O termo A regularização Rigidez é usada com mais frequência em estatística pura contextos, enquanto a regularização L2 é usada com mais frequência no machine learning.

RNN

#seq

Abreviação de redes neurais recorrentes.

Curva ROC (característica de operação do receptor)

#fundamentals

Um gráfico da taxa de verdadeiro positivo em comparação com a taxa de falso positivo para diferentes limites de classificação em binário classificação.

O formato de uma curva ROC sugere a capacidade de um modelo de classificação binária para separar classes positivas de classes negativas. Suponha, por exemplo, que um modelo de classificação binária separa perfeitamente todas as de todas as classes positivas:

Uma reta numérica com 8 exemplos positivos do lado direito e
          Sete exemplos negativos à esquerda.

A curva ROC do modelo anterior fica assim:

Uma curva ROC. O eixo x é a taxa de falso positivo, e o eixo y
          é a taxa de verdadeiro positivo. A curva tem um formato de L invertido. A curva
          começa em (0,0,0,0) e vai direto para (0,0,1,0). Depois, a curva
          vai de (0.0,1.0) a (1.0,1.0).

Em contraste, a ilustração abaixo mostra o gráfico de regressão logística bruta um modelo péssimo que não consegue separar classes negativas classes positivas:

Uma reta numérica com exemplos positivos e classes negativas
          completamente misturadas.

A curva ROC desse modelo tem a seguinte aparência:

Uma curva ROC, que é, na verdade, uma linha reta de (0,0,0,0)
          como (1,0, 1,0).

Já no mundo real, a maioria dos modelos de classificação binária se separa classes positivas e negativas até certo ponto, mas geralmente não perfeitamente. Então, uma curva ROC típica está em algum lugar entre os dois extremos:

Uma curva ROC. O eixo x é a taxa de falso positivo, e o eixo y
          é a taxa de verdadeiro positivo. A curva ROC se aproxima de um arco instável
          que atravessa os pontos da bússola de oeste ao norte.

O ponto em uma curva ROC mais próximo de (0,0,1,0) identifica teoricamente o limiar de classificação ideal. No entanto, vários outros problemas do mundo real influenciam a seleção do limiar de classificação ideal. Por exemplo: talvez os falsos negativos causem muito mais dor do que os falsos positivos.

Uma métrica numérica chamada AUC resume a curva ROC em um único valor de ponto flutuante.

solicitação de papéis

#language
#generativeAI

Parte opcional de um comando que identifica um público-alvo. para a resposta de um modelo de IA generativa. Sem um papel comando, um modelo de linguagem grande fornece uma resposta que pode ou não ser útil para a pessoa que fez as perguntas. Com uma instrução de função, uma linguagem grande modelo pode responder de uma forma que seja mais apropriada e útil para um público-alvo específico. Por exemplo, a parte da solicitação de papéis do comandos estão em negrito:

  • Resuma este artigo para um doutorado em economia.
  • Descreva como as marés funcionam para uma criança de dez anos de idade.
  • Explique a crise financeira de 2008. Fale como você falaria com uma criança, ou golden retriever.

root

#df

O inicial (o primeiro condition) em uma árvore de decisão. Por convenção, os diagramas colocam a raiz no topo da árvore de decisão. Exemplo:

Uma árvore de decisão com duas condições e três folhas. O
          condição inicial (x > 2) é a raiz.

diretório raiz

#TensorFlow

O diretório especificado para hospedar subdiretórios do TensorFlow e arquivos de eventos e checkpoint de diversos modelos.

Raiz do erro quadrático médio (RMSE)

#fundamentals

A raiz quadrada do Erro quadrático médio.

invariância rotacional

#image

Em um problema de classificação de imagens, a capacidade de um algoritmo classificar imagens mesmo quando a orientação da imagem muda. Por exemplo: o algoritmo ainda identifica a raquete de tênis, esteja ela apontando para cima de lado ou para baixo. A invariância rotacional nem sempre é desejável; por exemplo, um 9 de cabeça para baixo não deve ser classificado como 9.

Consulte também invariância traducional e invariação de tamanho.

R ao quadrado

Uma métrica de regressão que indica quanta variação em um O rótulo se deve a um recurso individual ou a um conjunto de recursos. R ao quadrado é um valor entre 0 e 1, que pode ser interpretado da seguinte maneira:

  • Um R ao quadrado de 0 significa que nenhuma variação de um rótulo se deve ao de atributos.
  • Um R ao quadrado de 1 significa que toda a variação de um rótulo se deve ao de atributos.
  • Um R ao quadrado entre 0 e 1 indica até que ponto a pode ser prevista com base em um determinado atributo ou no conjunto de atributos. Por exemplo, um R ao quadrado de 0,10 significa que 10% da variância no rótulo se deve ao conjunto de atributos, um R ao quadrado de 0,20 significa que 20% é devido ao conjunto de atributos e assim por diante.

R ao quadrado é o quadrado da Correlação de Pearson coeficiente entre os valores previstos por um modelo e as informações empíricas.

S

viés de amostragem

#fairness

Consulte o viés de seleção.

Amostragem com substituição

#df

um método de escolher itens de um conjunto de itens candidatos em que a mesma item pode ser escolhido várias vezes. A frase "com substituição" significa após cada seleção, o item selecionado é retornado ao pool. de itens candidatos. O método inverso, ou seja, amostragem sem substituição, significa que cada item candidato só pode ser escolhido uma vez.

Por exemplo, considere o seguinte conjunto de frutas:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Suponha que o sistema escolha aleatoriamente fig como o primeiro item. Se estiver usando amostragem com substituição, o sistema selecionará o segundo item do seguinte conjunto:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sim, o mesmo conjunto de antes, então o sistema pode potencialmente escolha fig novamente.

Se você usar amostragem sem substituição, depois de escolhida, não será possível escolhido novamente. Por exemplo, se o sistema escolher aleatoriamente fig como o primeira amostra, depois fig não poderão ser escolhidos de novo. Portanto, o sistema escolhe a segunda amostra a partir do seguinte conjunto (reduzido):

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

O formato recomendado para salvar e recuperar modelos do TensorFlow. SavedModel é um formato de serialização recuperável e de linguagem neutra, que permite ferramentas e sistemas de alto nível para produzir, consumir e transformar o TensorFlow de modelos de machine learning.

Consulte o capítulo Como salvar e restaurar no Guia do programador do TensorFlow para conferir todos os detalhes.

Econômico

#TensorFlow

Um objeto do TensorFlow responsável por salvar os checkpoints do modelo.

escalar

Um único número ou uma única string que pode ser representada como um tensor de rank 0. Por exemplo, os seguintes Cada linha de código cria um escalar no TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

escalonamento

Qualquer transformação ou técnica matemática que altera o intervalo de um rótulo e/ou valor do atributo. Algumas formas de escalonamento são muito úteis para transformações como a normalização.

Estas são algumas formas comuns de escalonamento útil em machine learning:

  • escala linear, que normalmente usa uma combinação de subtração e divisão para substituir o valor original por um número entre -1 e +1 ou entre 0 e 1.
  • escala logarítmica, que substitui o valor original pelo logaritmo.
  • A normalização de pontuação Z, que substitui a o valor original com um valor de ponto flutuante representando o número de desvios padrão da média desse atributo.

scikit-learn

Uma plataforma de machine learning de código aberto. Consulte scikit-learn.org (link em inglês).

em lote

#recsystems

A parte de um sistema de recomendação que fornece um valor ou uma classificação para cada item produzido pelo fase de geração de candidatos.

viés de seleção

#fairness

Erros nas conclusões extraídas de dados de amostra devido a um processo de seleção que gera diferenças sistemáticas entre as amostras observadas nos dados e não observados. Existem as seguintes formas de viés de seleção:

  • viés de cobertura: a população representada no conjunto de dados não corresponder à população que o modelo de machine learning está criando. previsões.
  • Viés de amostragem: os dados não são coletados aleatoriamente do grupo de destino.
  • viés de não resposta (também chamado de viés de participação): usuários de alguns grupos recusam pesquisas a taxas diferentes daquelas dos usuários outros grupos.

Por exemplo, suponha que você esteja criando um modelo de machine learning que prevê como as pessoas gostam de um filme. Para coletar dados de treinamento, você distribui uma pesquisa a todos na primeira fila de um cinema mostrando o filme. De cabeça, essa pode parecer uma maneira razoável para coletar um conjunto de dados. No entanto, essa forma de coleta de dados pode apresentar as seguintes formas de viés de seleção:

  • viés de cobertura: por amostragem de uma população que escolheu ver o filme, as previsões do modelo podem não generalizar para pessoas que ainda não expressou esse nível de interesse pelo filme.
  • viés de amostragem: em vez de uma amostragem aleatória do população desejada (todas as pessoas que aparecem no filme), você usou apenas as pessoas na primeira fila. É possível que as pessoas sentadas da primeira fila estavam mais interessados no filme do que aqueles outras linhas.
  • viés de não resposta: em geral, pessoas com opiniões fortes tendem de responder a pesquisas opcionais com mais frequência do que pessoas com de opinião. Como a pesquisa sobre o filme é opcional, as respostas têm mais chances de formar distribuição bimodal do que uma distribuição normal (em forma de sino).

autoatenção (também chamada de camada de autoatenção)

#language

Uma camada de rede neural que transforma uma sequência de embeddings (por exemplo, embeddings token) em outra sequência de embeddings. Cada embedding na sequência de saída é construído pela integração de informações dos elementos da sequência de entrada usando um mecanismo de atenção.

A parte self da autoatenção refere-se à sequência que atende em si, em vez de algum outro contexto. A autoatenção é um dos principais elementos básicos para Transformers e usa a pesquisa de dicionário terminologia, como "consulta", "chave" e "valor".

Uma camada de autoatenção começa com uma sequência de representações de entrada, de cada palavra. A representação de entrada de uma palavra pode ser e incorporações. Para cada palavra em uma sequência de entrada, a rede pontua a relevância da palavra para cada elemento em toda a sequência de as palavras. As pontuações de relevância determinam o quanto a representação final da palavra incorpora as representações de outras palavras.

Por exemplo, considere a seguinte frase:

O animal não atravessou a rua porque estava muito cansado.

A ilustração a seguir (de Transformer: uma nova arquitetura de rede neural para linguagem Noções básicas) mostra o padrão de atenção de uma camada de autoatenção para o pronome it, com a escuridão de cada linha, indicando quanto cada palavra contribui para a representação:

A seguinte frase aparece duas vezes: O animal não atravessou o
          na rua porque ela estava muito cansada. As linhas conectam o pronome
          de uma frase a cinco tokens (O, animal, rua, it e
          ponto final) na outra frase.  A linha entre o pronome
          e a palavra animal é a mais forte.

A camada de autoatenção destaca as palavras relevantes para "ele". Neste caso, a camada de atenção aprendeu a destacar palavras que pode a que se refere, atribuindo o peso mais alto a animal.

Para uma sequência de n tokens, a autoatenção transforma uma sequência de embeddings n momentos separados, uma vez em cada posição na sequência.

Consulte também atenção e autoatenção de vários cabeçalhos.

aprendizado autossupervisionado

Uma família de técnicas para converter um problema de machine learning não supervisionado em um problema de machine learning supervisionado criando marcadores alternativos exemplos sem rótulos.

Alguns modelos baseados em Transformer, como o BERT, usam e do aprendizado autosupervisionado.

O treinamento autossupervisionado é uma abordagem de aprendizado semi-supervisionado.

autotreinamento

Uma variante do aprendizado autossupervisionado especialmente útil quando todas as condições a seguir são verdadeiras:

O autotreinamento funciona iterando as duas etapas a seguir até que o modelo deixa de melhorar:

  1. Use o machine learning supervisionado para treinar um modelo com os exemplos rotulados.
  2. Use o modelo criado na Etapa 1 para gerar previsões (rótulos) na não rotulados, movendo aqueles em que há alta confiança para os exemplos rotulados com o rótulo previsto.

Observe que cada iteração da Etapa 2 adiciona mais exemplos rotulados para a Etapa 1 ao treinam.

aprendizado semi-supervisionado

Treinar um modelo com dados em que alguns dos exemplos de treinamento têm rótulos, mas outros não. Uma técnica de aprendizado semi-supervisionado é inferir identificadores para os exemplos não rotulados e depois treinar com os rótulos inferidos para criar um modelo de machine learning. O aprendizado semi-supervisionado pode ser útil se a obtenção de rótulos for cara mas há muitos exemplos não rotulados.

O autotreinamento é uma técnica de treinamento o aprendizado.

atributo sensível

#fairness
Um atributo humano que pode receber consideração especial por questões jurídicas, por motivos éticos, sociais ou pessoais.

análise de sentimento

#language

Usar algoritmos estatísticos ou de machine learning para determinar a uma atitude geral (positiva ou negativa) em relação a um serviço, produto organização ou tópico. Por exemplo, usar compreensão de linguagem natural, um algoritmo pode realizar a análise de sentimento no feedback textual de um curso universitário para determinar o grau de em geral gostaram ou não gostaram do curso.

modelo sequencial

#seq

Um modelo com entradas que têm dependência sequencial. Por exemplo, a previsão o próximo vídeo assistido a partir de uma sequência de vídeos assistidos anteriormente.

tarefa sequência a sequência

#language

Tarefa que converte uma sequência de entrada de tokens em uma saída. de tokens. Por exemplo, dois tipos conhecidos de sequência para sequência tarefas são:

  • Tradutores:
    • Exemplo de sequência de entrada: "Eu te amo".
    • Exemplo de sequência de saída: "Je t'aime".
  • Respostas a perguntas:
    • Exemplo de sequência de entrada: "Preciso do meu carro em Nova York?"
    • Exemplo de sequência de saída: "No. Fiquem com o carro em casa."

do modelo

O processo de disponibilizar um modelo treinado para fazer previsões inferência on-line ou inferência off-line.

forma (Tensor)

O número de elementos em cada dimensão de um . A forma é representada como uma lista de números inteiros. Por exemplo: o seguinte tensor bidimensional tem a forma de [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

O TensorFlow usa o formato de linha principal (estilo C) para representar a ordem das Por isso, a forma no TensorFlow é [3,4] em vez de [4,3]. Em outras palavras, em um TensorFlow Tensor bidimensional, a forma é [número de linhas, número de colunas].

Uma forma estática é uma forma de tensor conhecida no momento da compilação.

Uma forma dinâmica é desconhecida no momento da compilação e é dependem dos dados do ambiente de execução. Esse tensor pode ser representado dimensão de marcador de posição no TensorFlow, como em [3, ?].

fragmento

#TensorFlow
#GoogleCloud

Uma divisão lógica do conjunto de treinamento ou do modelo. Normalmente, alguns processos criam fragmentos ao dividir os exemplos ou parâmetros em (geralmente) blocos de tamanhos iguais. Cada fragmento é atribuído a uma máquina diferente.

A fragmentação de um modelo é chamada de paralelismo de modelos. a fragmentação de dados é chamada de paralelismo de dados.

redução

#df

Um hiperparâmetro na intensificação do gradiente que controla overfitting. Redução na otimização do gradiente é análogo à taxa de aprendizado em gradiente descendente. O encolhimento é um número decimal entre 0,0 e 1,0. Um valor de redução menor reduz o overfitting maior do que um valor de redução maior.

função sigmoide

#fundamentals

Função matemática que "comprimir" um valor de entrada em um intervalo restrito, normalmente entre 0 e 1 ou -1 a +1. Ou seja, você pode passar qualquer número (dois, um milhão, bilhões negativo) a um sigmoide e a saída ainda estará no em um intervalo restrito. Um gráfico da função de ativação sigmoide é semelhante a este:

Um gráfico curvo bidimensional com valores de X abrangendo o domínio
          -infinito a +positivo, enquanto os valores y abrangem o intervalo de quase 0 a
          quase 1. Quando x é 0, y é 0,5. A inclinação da curva é sempre
          positivo, com a maior inclinação em 0,0,5 e diminuindo gradualmente
          se inclina à medida que o valor absoluto de x aumenta.

A função sigmoide tem vários usos no machine learning, incluindo:

medida de similaridade

#clustering

Nos algoritmos de clustering, a métrica usada para determinar a semelhança entre dois exemplos.

um único programa / vários dados (SPMD)

Técnica de paralelismo em que o mesmo cálculo é executado em entradas diferentes em paralelo em dispositivos diferentes. O objetivo do SPMD é obter resultados com mais rapidez. É o estilo mais comum de programação paralela.

invariância de tamanho

#image

Em um problema de classificação de imagens, a capacidade de um algoritmo classificar imagens mesmo quando o tamanho delas muda. Por exemplo: o algoritmo ainda pode identificar uma cat, independentemente de consumir 2 milhões de pixels ou 200 mil pixels. Mesmo os melhores os algoritmos de classificação de imagens ainda têm limites práticos para a invariância de tamanho. Por exemplo, é improvável que um algoritmo (ou humano) classifique corretamente um imagem de gato consumindo apenas 20 pixels.

Consulte também invariância traducional e invariância rotacional.

esboço

#clustering

No machine learning não supervisionado, uma categoria de algoritmos que realizam uma análise preliminar de similaridade nos exemplos. Os algoritmos de esboço usam uma Função hash sensível à localidade para identificar pontos que possam ser semelhantes e, em seguida, agrupar em baldes.

Os esboços reduzem o cálculo necessário para cálculos de similaridade em grandes conjuntos de dados. Em vez de calcular a similaridade para cada no conjunto de dados, calculamos a similaridade apenas para cada um par de pontos dentro de cada bucket.

Pular-grama

#language

Um n-grama que pode omitir (ou "pular") palavras do original contexto, ou seja, as palavras N podem não ter sido originalmente adjacentes. Mais um "k-skip-n-gram" é um n-grama para o qual até k palavras podem ter foi ignorado.

Por exemplo, "a rápida raposa marrom" tem os seguintes 2-gramas possíveis:

  • "a rápida"
  • "marrom rápido"
  • "raposa marrom"

Um exemplo de "1-skip-2-gram" é um par de palavras com no máximo uma palavra entre elas. Portanto, "a rápida raposa marrom" tem os seguintes 1-skip 2-gramas:

  • "marrom"
  • "raposa rápida"

Além disso, todos os 2-gramas também são 1-skip-2-grams, já que menos mais de uma palavra pode ser ignorada.

Skip-grams são úteis para entender melhor o contexto de uma palavra. No exemplo, "fox" foi diretamente associada ao termo "rápido" no conjunto de 1-skip-2-gramas, mas não no conjunto de 2-gramas.

Skip-grams ajudam no treinamento modelos de incorporação de palavras.

softmax

#fundamentals

Uma função que determina as probabilidades para cada classe possível em uma modelo de classificação multiclasse. As probabilidades somam para exatamente 1,0. Por exemplo, a tabela a seguir mostra como a softmax distribui várias probabilidades:

A imagem é um... Probabilidade
cachorro 0,85
gato 0,13
cavalo 0,02

A softmax também é chamada de softmax completa.

Compare com a amostragem de candidatos.

ajuste de comandos flexíveis

#language
#generativeAI

Uma técnica para ajustar um modelo de linguagem grande para uma tarefa específica, sem consumir muitos recursos ajustes. Em vez de treinar de novo pesos no modelo, ajuste de comandos flexíveis ajusta automaticamente um comando para atingir o mesmo objetivo.

Com um comando textual, o ajuste de comandos flexíveis geralmente anexa embeddings adicionais de token ao comando e usa e retropropagação para otimizar a entrada.

Uma pergunta “difícil” contém tokens reais em vez de embeddings de token.

atributo esparso

#language
#fundamentals

Um atributo com valores predominantemente zero ou vazio. Por exemplo, um atributo que contém um único valor 1 e um milhão de valores é esparsas. Por outro lado, um atributo denso tem valores que predominantemente não são zero nem valores vazios.

Em machine learning, um número surpreendente de atributos são atributos esparsos. Os atributos categóricos geralmente são esparsos. Por exemplo, das 300 espécies de árvores possíveis em uma floresta, pode identificar apenas uma árvore de bordo. Ou dos milhões de possíveis vídeos em uma biblioteca de vídeos, um único exemplo pode identificar apenas "Casablanca".

Em um modelo, você normalmente representa atributos esparsos codificação one-hot: Se a codificação one-hot for grande, é possível colocar uma camada de incorporação sobre com codificação one-hot para aumentar a eficiência.

representação esparsa

#language
#fundamentals

Armazenamento de apenas as posições de elementos diferentes de zero em um atributo esparso.

Por exemplo, suponha que um atributo categórico chamado species identifique os 36 espécies de árvores em uma determinada floresta. Suponha ainda que cada example identifica somente uma espécie.

É possível usar um vetor one-hot para representar as espécies de árvores em cada exemplo. Um vetor one-hot conteria um único 1 (para representar a espécie de árvore específica desse exemplo) e 35 0s (para representar o 35 espécies de árvores não nesse exemplo). A representação one-hot de maple pode ser semelhante ao seguinte:

Vetor em que as posições de 0 a 23 contêm o valor 0, posição
          24 contém o valor 1 e as posições de 25 a 35 contêm o valor 0.

Já a representação esparsa identifica a posição do espécie específica. Se maple estiver na posição 24, a representação esparsa de maple seria:

24

Observe que a representação esparsa é muito mais compacta do que representação visual.

vetor esparso

#fundamentals

Um vetor com valores que são principalmente zeros. Consulte também esparsa atributo e esparsidade.

esparsidade

O número de elementos definidos como zero (ou nulo) em um vetor ou uma matriz dividida pelo número total de entradas do vetor ou da matriz. Por exemplo: considere uma matriz de 100 elementos em que 98 células contêm zero. O cálculo de esparsidade é o seguinte:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Esparsidade de atributos refere-se à esparsidade de um vetor de atributo. esparsidade do modelo refere-se à esparsidade dos pesos do modelo.

pool espacial

#image

Consulte pool.

dividir

#df

Em uma árvore de decisão, outro nome para uma condition [estado].

divisor

#df

Ao treinar uma árvore de decisão, a rotina (e algoritmo) responsável por encontrar a melhor condition em cada .

SPMD

Abreviação para um único programa / vários dados.

perda de articulação quadrática

O quadrado da perda da articulação. A perda de articulação quadrada penaliza valores atípicos com mais severidade do que a perda de articulação normal.

perda quadrática

#fundamentals

Sinônimo de L2 perda.

treinamento em etapas

#language

É uma tática de treinar um modelo em uma sequência de estágios distintos. A meta pode ser seja para acelerar o processo de treinamento ou para melhorar a qualidade do modelo.

Veja abaixo uma ilustração da abordagem de empilhamento progressivo:

  • A fase 1 contém 3 camadas escondidas, a fase 2 contém 6 camadas escondidas e e a terceira contém 12 camadas escondidas.
  • A fase 2 começa o treinamento com os pesos aprendidos nas 3 camadas escondidas do Estágio 1. A etapa 3 começa o treinamento com os pesos aprendidos as camadas escondidas do Estágio 2.

Três fases, identificadas como Estágio 1, Estágio 2 e Estágio 3.
          Cada estágio contém um número diferente de camadas: o Estágio 1 contém
          Três camadas: o Estágio 2 contém 6 camadas e o Estágio 3 contém 12 camadas.
          As três camadas do Estágio 1 se tornam as primeiras 3 camadas do Estágio 2.
          Da mesma forma, as seis camadas do Estágio 2 se tornam as seis primeiras
          Etapa 3.

Consulte também pipeline.

estado

#rl

No aprendizado por reforço, os valores de parâmetro que descrevem o estado atual do ambiente, que o agente usa para escolha uma ação.

função de valor de ação de estado

#rl

Sinônimo de Q-function.

static

#fundamentals

Algo feito só uma vez, e não continuamente. Os termos estático e off-line são sinônimos. A seguir estão usos comuns de estático e off-line em máquinas aprendizado:

  • Um modelo estático (ou modelo off-line) é um modelo treinado uma vez e depois usada há algum tempo.
  • O treinamento estático (ou treinamento off-line) é o processo de treinar um um modelo estático.
  • A inferência estática (ou inferência off-line) é uma processo em que um modelo gera um lote de previsões por vez.

Contraste com dinâmico.

inferência estática

#fundamentals

Sinônimo de inferência off-line.

estacionidade

#fundamentals

Um recurso cujos valores não mudam em uma ou mais dimensões, normalmente tempo. Por exemplo, um atributo com valores que parecem ser os mesmos em 2021 e Exposições estacionárias em 2023.

No mundo real, pouquíssimos atributos exibem estacaridade. Atributos de mesmo sinônimo de estabilidade (como o nível do mar) em mudanças ao longo do tempo.

Compare com a não estacionário.

etapa

Passagens para frente e para trás de um lote.

Consulte retropropagação para mais informações no passe para frente e no passe para trás.

taxa de aprendizado

Sinônimo de taxa de aprendizado.

gradiente descendente estocástico (SGD)

#fundamentals

Um algoritmo de gradiente descendente em que o O tamanho do lote é um. Em outras palavras, o SGD treina um único exemplo escolhido de maneira uniforme aleatoriamente de um conjunto de treinamento.

stride

#image

Em uma operação de convolução ou pooling, o delta em cada dimensão da próxima série de frações de entrada. Por exemplo, a animação a seguir demonstra um passo (1,1) durante uma operação de convolução. Portanto, a próxima fração de entrada começa uma posição à direita da entrada anterior fatia Quando a operação atinge a borda direita, a próxima fração é para a esquerda, mas uma posição para baixo.

Uma matriz de entrada 5x5 e um filtro convolucional 3x3. Como o
     stride for (1,1), um filtro convolucional será aplicado 9 vezes. A primeira
     fração convolucional avalia a submatriz 3x3 do canto superior esquerdo da entrada
     matricial. A segunda fatia avalia a camada 3x3 superior
     submatriz. A terceira fração convolucional avalia o canto superior direito 3x3
     submatriz.  A quarta fatia avalia a submatriz 3x3 do meio esquerdo.
     A quinta fração avalia a submatriz 3x3 do meio. A sexta fatia
     avalia a submatriz 3x3 do centro direito. A sétima fatia avalia
     à submatriz 3 x 3 no canto inferior esquerdo.  A oitava fração avalia o
     submatriz 3 x 3 do meio inferior. A nona fatia avalia o 3x3 do canto inferior direito
     submatriz.

O exemplo anterior demonstra uma passada bidimensional. Se a entrada for tridimensional, a passada também será tridimensional.

minimização do risco estrutural (SRM)

Um algoritmo que equilibra dois objetivos:

  • A necessidade de construir o modelo mais preditivo (por exemplo, menor perda).
  • A necessidade de manter o modelo o mais simples possível (por exemplo, regularização).

Por exemplo, uma função que minimiza a perda+regularização no é um algoritmo de minimização do risco estrutural.

Contraste com a minimização do risco empírico.

subamostragem

#image

Consulte pool.

token de subpalavra

#language

Nos modelos de linguagem, um token que é um substring de uma palavra, que pode ser a palavra inteira.

Por exemplo, uma palavra como "itemize" pode ser dividido em partes "item" (uma palavra raiz) e "ize" (um sufixo), cada um dos quais é representado por seu próprio com base no token correto anterior. Dividir palavras incomuns nessas partes, chamadas de subpalavras, permite de linguagem grandes para operar nas partes constituintes mais comuns da palavra, como prefixos e sufixos.

Por outro lado, palavras comuns como "vai" pode não estar dividido e pode ser representado por um único token.

resumo

#TensorFlow

No TensorFlow, um valor ou conjunto de valores calculados em um determinado step, normalmente usado para rastrear métricas de modelo durante o treinamento.

machine learning supervisionado

#fundamentals

Treinar um modelo a partir de atributos e os marcadores correspondentes. O machine learning supervisionado é análogo para aprender um assunto, estudando um conjunto de perguntas e suas as respostas correspondentes. Depois de dominar o mapeamento entre perguntas e respostas, o estudante pode fornecer respostas novas (nunca antes vistas) perguntas sobre o mesmo assunto.

Comparar com machine learning não supervisionado.

atributo sintético

#fundamentals

Um atributo não presente entre os atributos de entrada, mas montadas a partir de um ou mais deles. Métodos para criar atributos sintéticos incluem o seguinte:

  • Agrupamento por classes, um recurso contínuo em agrupamentos por classes.
  • criar um cruzamento de atributos.
  • Multiplicar (ou dividir) um valor de atributo por outros valores de atributo ou sozinhos. Por exemplo, se a e b forem recursos de entrada, o Confira alguns exemplos de atributos sintéticos:
    • Ab
    • a2
  • Aplica uma função transcendental a um valor de atributo. Por exemplo, se c é um atributo de entrada, os seguintes são exemplos de atributos sintéticos:
    • sin(c) (link em inglês)
    • ln(c) (link em inglês)

Recursos criados por normalização ou escalonamento sozinhos não são considerados atributos sintéticos.

T

T5

#language

Um modelo de aprendizado por transferência de texto para texto introduzido por IA do Google em 2020. T5 é um modelo de codificador-decodificador baseado arquitetura de Transformer, treinada em uma no conjunto de dados. Ele é eficaz em várias tarefas de processamento de linguagem natural, como gerar texto, traduzir idiomas e responder a perguntas em um jeito conversacional.

O T5 tem esse nome por causa dos cinco Ts em "Transformador de transferência de texto para texto".

Conexão T5X

#language

Um framework de machine learning de código aberto criado para criar e treinar processamento de linguagem natural em grande escala de PLN. T5 (link em inglês) é implementado na base de código T5X (que é baseado no JAX e no Flax).

Q-learning tabular

#rl

No aprendizado por reforço, implementar Q-learning usando uma tabela para armazenar os Funções Q para cada combinação de state e action.

target

Sinônimo de rótulo.

rede de destino

#rl

No Aprendizado Q profundo, uma rede neural que é uma aproximação da rede neural principal, em que a rede neural principal implementa uma função Q ou uma política. Depois, é possível treinar a rede principal com os valores Q previstos pelo em uma rede VPC. Assim, você evita o ciclo de feedback que ocorre quando a principal rede treina com os valores Q previstos por ela mesma. Ao evitar esse feedback, a estabilidade do treinamento aumenta.

tarefa

Um problema que pode ser resolvido usando técnicas de machine learning, como:

temperatura

#language
#image
#generativeAI

Um hiperparâmetro que controla o grau de aleatoriedade da saída de um modelo. Temperaturas mais altas resultam em saídas mais aleatórias, enquanto temperaturas mais baixas resultam em saídas menos aleatórias.

A escolha da melhor temperatura depende do aplicativo específico e as propriedades preferidas da saída do modelo. Por exemplo, provavelmente aumenta a temperatura ao criar um aplicativo gera resultados criativos. Por outro lado, você provavelmente diminuiria a temperatura ao criar um modelo que classifica imagens ou texto para melhorar a acurácia e a consistência do modelo.

A temperatura é frequentemente usada com a softmax.

dados temporais

Dados registrados em momentos diferentes. Por exemplo, vendas de casacos de inverno registrados para cada dia do ano seriam dados temporais.

Rank 4

#TensorFlow

A principal estrutura de dados nos programas do TensorFlow. Os tensores são N-dimensionais (onde N pode ser muito grande), estruturas de dados, mais comumente escalares, vetores, ou matrizes. Os elementos de um tensor podem conter números inteiros, pontos flutuantes, ou valores de string.

TensorBoard

#TensorFlow

O painel que exibe os resumos salvos durante a execução de um ou e outros programas do TensorFlow.

TensorFlow

#TensorFlow

Uma plataforma de machine learning distribuída e em grande escala. O termo também se refere a camada de API de base na pilha do TensorFlow, que é compatível com computação geral; nos gráficos do Dataflow.

Embora o TensorFlow seja usado principalmente para machine learning, você também pode usar o TensorFlow para tarefas não ML que exigem computação numérica com o gráficos do Dataflow.

TensorFlow Playground

#TensorFlow

Um programa que visualiza como diferentes hiperparâmetros influenciam o modelo (principalmente rede neural). Acessar http://playground.tensorflow.org para testar o TensorFlow Playground.

TensorFlow Serving

#TensorFlow

Uma plataforma para implantar modelos treinados em produção.

Unidade de Processamento de Tensor (TPU)

#TensorFlow
#GoogleCloud

Um circuito integrado específico de aplicativo (ASIC) que otimiza e desempenho das cargas de trabalho de machine learning. Esses ASICs são implantados como Vários chips em um dispositivo TPU.

Classificação do Tensor

#TensorFlow

Consulte classificação (Tensor).

Forma do tensor

#TensorFlow

O número de elementos que um Tensor contém em várias dimensões. Por exemplo, um tensor [5, 10] tem a forma de 5 em uma dimensão e 10 em outra.

Tamanho do tensor

#TensorFlow

O número total de escalares que um Tensor contém. Por exemplo, [5, 10] O tensor tem um tamanho de 50.

TensorStore

Uma biblioteca para leitura e leitura eficientes gravar grandes matrizes multidimensionais.

condição de encerramento

#rl

No aprendizado por reforço, as condições que determinar quando um episódio termina, por exemplo, quando o agente chega um determinado estado ou excede um número limite de transições de estado. Por exemplo, no jogo da velha (também conhecidos como anunciamentos e cruzamentos), um episódio termina quando o jogador marca três espaços consecutivos ou quando todos os espaços são marcados.

teste

#df

Em uma árvore de decisão, outro nome para uma condition [estado].

perda de teste

#fundamentals

Uma métrica que representa a perda de um modelo em relação o conjunto de teste. Ao criar um modelo, você e, em geral, tentam minimizar a perda de testes. Isso porque uma baixa perda de teste um indicador de qualidade mais forte do que uma baixa perda de treinamento ou baixa perda de validação.

Uma grande lacuna entre a perda de teste e a perda de treinamento ou de validação às vezes sugere que você precisa aumentar taxa de regularização.

conjunto de teste

Um subconjunto do conjunto de dados reservado para teste um modelo treinado.

Tradicionalmente, você divide exemplos do conjunto de dados nas três subconjuntos distintos:

Cada exemplo em um conjunto de dados deve pertencer a apenas um dos subconjuntos anteriores. Por exemplo, um único exemplo não deve pertencer ao mesmo tempo que um conjunto de treinamento o conjunto de teste.

O conjunto de treinamento e o conjunto de validação estão intimamente ligados ao treinamento de um modelo. Como o conjunto de teste só é associado indiretamente ao treinamento, perda de teste é uma métrica de qualidade mais alta e menos enviesada do que perda de treinamento ou perda de validação.

período do texto

#language

A extensão do índice da matriz associada a uma subseção específica de uma string de texto. Por exemplo, a palavra good na string Python s="Be good now" ocupa do texto vão de 3 a 6.

tf.Example

#TensorFlow

Um padrão buffer de protocolo para descrever dados de entrada para treinamento ou inferência de modelos de machine learning.

tf.keras

#TensorFlow

Uma implementação do Keras integrada ao TensorFlow

limite (para árvores de decisão)

#df

Em uma condição de alinhamento em eixo, o valor que uma feature está sendo comparado. Por exemplo, 75 é o o valor limite na seguinte condição:

grade >= 75

análise de séries temporais

#clustering

Um subcampo do machine learning e da estatística que analisa dados temporais. Muitos tipos de machine learning problemas exigem análise de séries temporais, incluindo classificação, clustering, a previsão e a detecção de anomalias. Por exemplo, é possível usar análise de série temporal para prever as vendas futuras de casacos de inverno por mês com base nos dados históricos de vendas.

período

#seq

Um "não lançado" célula dentro de rede neural recorrente. Por exemplo, a figura a seguir mostra três etapas de tempo (identificadas com os subscritos t-1, t e t+1):

Três etapas de tempo em uma rede neural recorrente. A saída do
          o primeiro timestep se torna uma entrada para o segundo. O resultado
          do segundo timestep se torna entrada para o terceiro.

token

#language

Em um modelo de linguagem, a unidade atômica em que o modelo é para o treinamento e as previsões. Um token é normalmente um dos seguinte:

  • uma palavra, por exemplo, a frase "cachorros como gatos" consiste em três palavras tokens: "dogs", "like" e "cats".
  • um caractere, por exemplo, a frase "bicicleta peixe" consiste em nove tokens de caractere. O espaço em branco conta como um dos tokens.
  • subpalavras, nas quais uma única palavra pode ser um único token ou vários tokens. Uma subpalavra consiste em uma palavra raiz, um prefixo ou um sufixo. Por exemplo: um modelo de linguagem que usa subpalavras como tokens pode ver a palavra “cães” como dois tokens (a palavra raiz "cachorro" e o sufixo plural "s"). O mesmo de linguagem grande pode ver a única palavra "mais alto" como duas subpalavras (a palavra raiz "alto" e o sufixo "er").

Em domínios fora dos modelos de linguagem, os tokens podem representar outros tipos de unidades atômicas. Por exemplo, em visão computacional, um token pode ser um subconjunto de uma imagem.

torre

Um componente de uma rede neural profunda que é uma rede neural profunda. Em alguns casos, cada torre lê a partir de um uma fonte de dados independente, e essas torres permanecem independentes até é combinada em uma camada final. Em outros casos, por exemplo, em a torre do codificador e do decodificador muitos Transformers), as torres têm conexões cruzadas e se relacionam entre si.

TPU

#TensorFlow
#GoogleCloud

Abreviação de Unidade de Processamento de Tensor.

Chip de TPU

#TensorFlow
#GoogleCloud

Um acelerador de álgebra linear programável com memória de alta largura de banda on-chip otimizada para cargas de trabalho de machine learning. Vários chips de TPU são implantados em um dispositivo TPU.

Dispositivo TPU

#TensorFlow
#GoogleCloud

Uma placa de circuito impresso (PCB, na sigla em inglês) com vários chips de TPU, com alta largura de banda e hardware de resfriamento do sistema.

Mestre da TPU

#TensorFlow
#GoogleCloud

O processo de coordenação central executado em uma máquina host que envia e recebe dados, resultados, programas, desempenho e informações sobre a saúde do sistema para os workers da TPU. O mestre da TPU também gerencia a configuração e o desligamento de dispositivos TPU.

Nó da TPU

#TensorFlow
#GoogleCloud

Um recurso de TPU no Google Cloud com um nome Tipo de TPU. O nó da TPU se conecta rede VPC de uma rede VPC com peering. Os nós da TPU são um recurso definido API Cloud TPU.

Pod de TPU

#TensorFlow
#GoogleCloud

Uma configuração específica de dispositivos TPU em um ambiente data center local. Todos os dispositivos em um pod de TPU estão conectados uns aos outros. por uma rede dedicada de alta velocidade. Um pod de TPU é a maior configuração Dispositivos TPU disponíveis para uma versão específica de TPU.

Recurso da TPU

#TensorFlow
#GoogleCloud

Uma entidade de TPU no Google Cloud que você cria, gerencia ou consome. Para por exemplo, nós de TPU e tipos de TPU são recursos de TPU.

Fração de TPU

#TensorFlow
#GoogleCloud

Uma fração de TPU é uma parte fracionária dos dispositivos TPU em um pod de TPU. Todos os dispositivos em uma fração de TPU estão conectados entre si por uma rede dedicada de alta velocidade.

Tipo de TPU

#TensorFlow
#GoogleCloud

Uma configuração de um ou mais dispositivos TPU com uma Versão do hardware da TPU. Você seleciona um tipo de TPU ao criar um nó de TPU no Google Cloud. Por exemplo, uma v2-8 O tipo de TPU é um dispositivo único TPU v2 com 8 núcleos. Um tipo de TPU v3-2048 tem 256 dispositivos TPU v3 conectados em rede e um total de 2.048 núcleos. Os tipos de TPU são um recurso definida no API Cloud TPU.

Worker da TPU

#TensorFlow
#GoogleCloud

um processo que é executado em uma máquina host e executa programas de machine learning em dispositivos TPU.

treinamento

#fundamentals

O processo para determinar os parâmetros ideais (pesos e vieses) que compreendem um modelo. Durante o treinamento, um sistema lê exemplos e ajusta gradualmente os parâmetros. O treinamento usa cada de algumas vezes a bilhões de vezes.

perda de treinamento

#fundamentals

Uma métrica que representa a perda de um modelo durante um para uma iteração de treinamento específica. Por exemplo, suponha que a função de perda é o Erro quadrático médio. Talvez a perda do treinamento (a média erro quadrático) para a 10a iteração é 2,2, e a perda de treinamento para a 100a iteração é 1,9.

Uma curva de perda representa a perda de treinamento versus o número de iterações. Uma curva de perda oferece as seguintes dicas sobre treinamento:

  • Uma inclinação descendente indica que o modelo está melhorando.
  • Uma inclinação ascendente indica que o modelo está piorando.
  • Uma inclinação plana indica que o modelo atingiu convergência.

Por exemplo, a seguinte curva de perda, de certa forma idealizada mostra:

  • Uma inclinação para baixo acentuada durante as iterações iniciais, o que implica a melhoria rápida do modelo.
  • Uma inclinação gradualmente achatada (mas ainda descendente) até perto do fim do treinamento, o que implica melhoria contínua do modelo um ritmo mais lento do que durante as iterações iniciais.
  • Uma inclinação plana no final do treinamento, o que sugere convergência.

O gráfico da perda de treinamento versus iterações. Essa curva de perda começa
     com uma ladeira acentuada. A inclinação diminui gradualmente até que
     se a inclinação se torna zero.

Embora a perda do treinamento seja importante, generalização.

desvio entre treinamento e disponibilização

#fundamentals

A diferença entre o desempenho de um modelo durante treinamento e o desempenho do mesmo modelo disponibilização.

conjunto de treinamento

#fundamentals

O subconjunto do conjunto de dados usado para treinar um modelo.

Tradicionalmente, os exemplos no conjunto de dados são divididos em três subconjuntos distintos:

O ideal é que cada exemplo no conjunto de dados pertença a apenas um dos dos subconjuntos anteriores. Por exemplo, um único exemplo não deve pertencer conjunto de treinamento e de validação.

trajetória

#rl

No aprendizado por reforço, uma sequência de tuplas que representam uma sequência de transições de estado do agente, em que cada tupla corresponde ao estado, action, recompensa e o próximo estado de uma determinada transição de estado.

aprendizado por transferência

Transferência de informações de uma tarefa de machine learning para outra. Por exemplo, no aprendizado multitarefas, um único modelo resolve várias tarefas, como um modelo profundo com diferentes nós de saída para tarefas diferentes. O aprendizado por transferência pode envolver a transferência de conhecimento da solução de uma tarefa mais simples para uma mais complexa, ou envolver transferência de conhecimento de uma tarefa com mais dados para uma em que há menos dados.

A maioria dos sistemas de machine learning resolve uma única tarefa. O aprendizado por transferência é uma um pequeno passo rumo à inteligência artificial, em que um único programa pode resolver várias tarefas.

Transformer

#language

Uma arquitetura de rede neural desenvolvida no Google que depende de mecanismos de autoatenção para transformar sequência de embeddings de entrada em uma sequência de saída embeddings sem depender de convoluções ou redes neurais recorrentes. Um transformador pode ser vista como uma pilha de camadas de autoatenção.

Um transformador pode incluir qualquer um dos seguintes itens:

Um codificador transforma uma sequência de embeddings em uma nova sequência do mesmo tamanho. Um codificador inclui N camadas idênticas, cada uma contendo duas subcamadas. Essas duas subcamadas são aplicadas em cada posição da entrada de embedding, transformando cada elemento da sequência em um novo e incorporações. A primeira subcamada do codificador agrega informações sequência de entrada. A segunda subcamada do codificador transforma os dados informações em um embedding de saída.

Um decodificador transforma uma sequência de embeddings de entrada em uma sequência de os embeddings de saída, possivelmente com um comprimento diferente. Um decodificador também inclui N camadas idênticas com três subcamadas, duas das quais são semelhantes à codificadores. A terceira subcamada do decodificador recebe a saída da e aplica o mecanismo de autoatenção ao e coletar informações deles.

A postagem do blog Transformer: uma nova arquitetura de rede neural para linguagem Noções básicas fornece uma boa introdução aos transformadores.

invariância translacional

#image

Em um problema de classificação de imagens, a capacidade de um algoritmo classificar imagens mesmo quando a posição dos objetos dentro dela muda. Por exemplo, o algoritmo ainda pode identificar um cachorro, se ele está na centro ou na extremidade esquerda dele.

Consulte também variação de tamanho e invariância rotacional.

trigrama

#seq
#language

Um N-grama em que N=3.

verdadeiro negativo (VN)

#fundamentals

Um exemplo em que o modelo prevê corretamente o classe negativa. Por exemplo, o modelo infere que determinada mensagem de e-mail não é spam, e essa mensagem de e-mail é não é spam.

verdadeiro positivo (VP)

#fundamentals

Um exemplo em que o modelo prevê corretamente o classe positiva. Por exemplo, o modelo infere que uma mensagem de e-mail específica é spam, e essa mensagem de e-mail realmente é spam.

taxa de verdadeiro positivo (TPR)

#fundamentals

Sinônimo de recall. Ou seja:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

A taxa de verdadeiro positivo é o eixo y em uma curva ROC.

U

falta de reconhecimento (para um atributo sensível)

#fairness

Situação em que há atributos sensíveis que não estão nos dados de treinamento. Como os atributos sensíveis são frequentemente correlacionados a outros atributos dos dados, um modelo treinado sem o conhecimento de um atributo sensível ainda pode ter desproporcionar impacto em relação a esse atributo, ou violar outras restrições de imparcialidade.

underfitting

#fundamentals

Produzir um modelo com baixa capacidade preditiva porque o modelo não capturou totalmente a complexidade dos dados de treinamento. Muitos problemas pode causar underfitting, como:

subamostragem

Remover exemplos da classe principal em um conjunto de dados desequilibrado de classe a fim de crie um conjunto de treinamento mais equilibrado.

Por exemplo, considere um conjunto de dados em que a proporção da classe majoritária para a classe minoritária é 20:1. Para superar essa classe desequilíbrio, você pode criar um conjunto de treinamento consistindo em todo o que a minoria exemplos de classe, mas apenas um décimo dos exemplos da classe majoritária, o que crie uma proporção de classe do conjunto de treinamento de 2:1. Graças à redução de amostragem, esta é e equilibrado pode produzir um modelo melhor. Por outro lado, mais equilibrado pode conter exemplos insuficientes para treinar um modelo eficaz.

Contraste com oversampling.

unidirecional

#language

Um sistema que avalia apenas o texto que antecede uma seção de destino do texto. Por outro lado, um sistema bidirecional avalia um texto que antes e segue uma seção de destino do texto. Consulte bidirecional para mais detalhes.

modelo de linguagem unidirecional

#language

Um modelo de linguagem que baseia as probabilidades apenas no tokens que aparecem antes, não depois, dos tokens de destino. Já está em contraste com o modelo de linguagem bidirecional.

exemplo sem rótulo

#fundamentals

Um exemplo que contém recursos, mas nenhum rótulo. Por exemplo, a tabela a seguir mostra três exemplos sem rótulos de uma casa modelo de avaliação, cada um com três atributos, mas sem valor de casa:

Número de quartos Número de banheiros Idade da casa
3 2 15
2 1 72
4 2 34

No machine learning supervisionado, os modelos são treinados com exemplos rotulados e fazem previsões exemplos sem rótulos.

Nos modelos semi-supervisionados e aprendizado não supervisionado, não rotulados são usados durante o treinamento.

Compare um exemplo não rotulado com um exemplo rotulado.

machine learning não supervisionado

#clustering
#fundamentals

Treinar um modelo para encontrar padrões em um conjunto de dados, normalmente um um conjunto de dados sem rótulo.

O uso mais comum do machine learning não supervisionado é Dados de cluster em grupos de exemplos semelhantes. Por exemplo, uma máquina não supervisionada o algoritmo de aprendizado de máquina pode agrupar músicas com base em várias propriedades da música. Os clusters resultantes podem se tornar uma entrada algoritmos de aprendizado (por exemplo, para um serviço de recomendação de músicas). O clustering pode ajudar quando não houver rótulos úteis ou escassos. Por exemplo, em domínios como antiabuso e fraude, os clusters podem ajudar humanos a entender melhor os dados.

Compare com o aprendizado de máquina supervisionado.

estimativa de aumento

Uma técnica de modelagem, comumente usada no marketing, que modela a "efeito causal" (também conhecido como "impacto incremental") de um "tratamento" em um "indivíduo". Veja dois exemplos:

  • Os médicos podem usar um modelo de aumento para prever a diminuição da mortalidade (efeito causal) de um procedimento médico (tratamento), dependendo do idade e histórico médico de um paciente (indivíduo).
  • Os profissionais de marketing podem usar a modelagem de aumento para prever o aumento em probabilidade de uma compra (efeito causal) devido a um anúncio (tratamento) em uma pessoa (indivíduo).

A modelagem de aumento é diferente da classificação ou regressão em que alguns rótulos (por exemplo, metade dos rótulos nos tratamentos binários) estão sempre faltando na estimativa de aumento. Por exemplo, um paciente pode receber ou não um tratamento. Assim, só podemos observar se o paciente vai se curar ou não são curadas em apenas uma dessas duas situações (mas nunca nas duas). A principal vantagem de um modelo de aumento é que ele pode gerar previsões para a situação não observada (o contrafactual) e usá-la para calcular o efeito causal.

levantando peso

Aplicar um peso à classe downsampled igual ao fator que você usou para reduzir a amostragem.

matriz de usuários

#recsystems

Nos sistemas de recomendação, uma vetor de embedding gerado por fatoração de matrizes que mantém sinais latentes sobre as preferências do usuário. Cada linha da matriz de usuários contém informações sobre o relativo força de vários sinais latentes para um único usuário. Por exemplo, considere um sistema de recomendação de filmes. Nesse sistema, os sinais latentes na matriz de usuários podem representar o interesse de cada usuário gêneros específicos ou sinais mais difíceis de interpretar que envolvem interações complexas entre múltiplos fatores.

A matriz do usuário tem uma coluna para cada atributo latente e uma linha para cada usuário. Ou seja, a matriz de usuários tem o mesmo número de linhas que o destino que está sendo fatorado. Por exemplo, considerando um filme recomendado para 1.000.000 de usuários, o matriz de usuário terá 1.000.000 linhas.

V

validação

#fundamentals

A avaliação inicial da qualidade de um modelo. A validação verifica a qualidade das previsões de um modelo em relação conjunto de validação.

Como o conjunto de validação é diferente do conjunto de treinamento, A validação ajuda a proteger contra overfitting (em inglês).

Pense em avaliar o modelo em relação ao conjunto de validação como o primeira rodada de testes e avaliação do modelo em relação conjunto de teste como a segunda rodada de testes.

perda de validação

#fundamentals

Uma métrica que representa a perda de um modelo em o conjunto de validação durante um iteração do treinamento.

Consulte também a curva de generalização.

conjunto de validação

#fundamentals

O subconjunto do conjunto de dados que realiza a execução uma avaliação com base em um modelo treinado. Normalmente, você avalia o modelo treinado com o conjunto de validação vezes antes de avaliar o modelo em relação ao conjunto de testes.

Tradicionalmente, você divide os exemplos do conjunto de dados nas três subconjuntos distintos:

O ideal é que cada exemplo no conjunto de dados pertença a apenas um dos dos subconjuntos anteriores. Por exemplo, um único exemplo não deve pertencer conjunto de treinamento e de validação.

imputação de valor

O processo de substituir um valor ausente por um substituto aceitável. Quando um valor está ausente, é possível descartar todo o exemplo ou pode usar a imputação de valores para recuperar o exemplo.

Por exemplo, considere um conjunto de dados que contém um atributo temperature que está que precisa ser gravada a cada hora. No entanto, a leitura de temperatura indisponível em um horário específico. Veja uma seção do conjunto de dados:

Carimbo de data/hora Temperatura
1680561000 10
1680564600 12
1680568200 ausente
1680571800 20
1680575400 21
1680579000 21

Um sistema pode excluir o exemplo ausente ou imputar o como 12, 16, 18 ou 20, dependendo do algoritmo de imputação.

problema de evasão de gradiente

#seq

A tendência dos gradientes das primeiras camadas escondidas de algumas redes neurais profundas surpreendentemente plana (baixa). Gradientes cada vez menores resultam em um aumento mudanças menores nos pesos dos nós de uma rede neural profunda, levando a pouco ou nenhum aprendizado. Modelos que sofrem do problema do desaparecimento do gradiente dificultar ou impossibilitar o treinamento. As células de Memória de curto prazo longa abordam esse problema.

Compare com o problema de gradiente em explosão.

importâncias de variáveis

#df

Um conjunto de pontuações que indica a importância relativa de cada feature ao modelo.

Por exemplo, considere uma árvore de decisão que estima os preços das casas. Suponha que essa árvore de decisão use três atributos: tamanho, idade e estilo. Se um conjunto de variáveis é importante dos três atributos são calculados como {size=5.8, age=2.5, style=4.7}, então o tamanho é mais importante para o árvore de decisão do que idade ou estilo.

Existem diferentes métricas de importância variáveis, que podem informar especialistas em ML sobre diferentes aspectos dos modelos.

codificador automático variacional (VAE, na sigla em inglês)

#language

Um tipo de codificador automático que aproveita a discrepância entre entradas e saídas para gerar versões modificadas das entradas. Codificadores automáticos variacionais são úteis para a IA generativa.

Os VAEs são baseados na inferência variacional: uma técnica para estimar o parâmetros de um modelo de probabilidade.

vetor

Termo muito sobrecarregado cujo significado varia entre diferentes conceitos matemáticos e científico. No machine learning, um vetor tem duas propriedades:

  • Tipo de dados: os vetores em machine learning geralmente contêm números de ponto flutuante.
  • Número de elementos: é o comprimento ou a dimensão do vetor.

Por exemplo, considere um vetor de atributo que contenha oito números de ponto flutuante. Esse vetor de recurso tem comprimento ou dimensão de oito. Os vetores de machine learning costumam ter um grande número de dimensões.

É possível representar muitos tipos diferentes de informações como um vetor. Exemplo:

  • Qualquer posição na superfície da Terra pode ser representada como um mapa bidimensional em que uma dimensão é a latitude e a outra é a longitude.
  • Os preços atuais de cada uma das 500 ações podem ser representados como um vetor de 500 dimensões.
  • Uma distribuição de probabilidade sobre um número finito de classes pode ser representada como um vetor. Por exemplo, um sistema de classificação multiclasse que prevê que uma das três cores de saída (vermelho, verde ou amarelo) poderia produzir a vetor (0.3, 0.2, 0.5) para significar P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Os vetores podem ser concatenados. Por isso, é possível usar várias mídias representados como um único vetor. Alguns modelos operam diretamente na concatenação de várias codificações one-hot.

Processadores especializados, como TPUs, são otimizados para ter operações matemáticas nos vetores.

Um vetor é um tensor de classificação 1.

W

Perda de Wasserstein

Uma das funções de perda comumente usadas redes adversárias generativas, com base na distância da movimentação da Terra entre a distribuição de dados gerados e dados reais.

peso

#fundamentals

Um valor que um modelo multiplica por outro valor. O treinamento é o processo de determinar os pesos ideais de um modelo. inferência é o processo de usar os pesos aprendidos para fazer previsões.

Menores quadrados ponderados alternados (WALS, na sigla em inglês)

#recsystems

Um algoritmo para minimizar a função objetiva durante fatoração de matrizes da sistemas de recomendação, que permitem que uma redução de peso dos exemplos que faltam. O WALS minimiza o valor ponderado erro quadrático médio entre a matriz original e a reconstrução alternar entre a fixação da fatoração de linhas e de colunas. Cada uma dessas otimizações pode ser resolvida por mínimos quadrados otimização convexa. Para mais detalhes, consulte a Curso de sistemas de recomendação.

soma de pesos

#fundamentals

A soma de todos os valores de entrada relevantes multiplicada pelo valor pesos específicos. Por exemplo, suponha que as entradas relevantes sejam:

valor de entrada peso de entrada
2 -1,3
-1 0,6
3 0,4

A soma ponderada é:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

A soma ponderada é o argumento de entrada para uma função de ativação.

modelo esparso

Um modelo linear que normalmente tem muitos atributos de entrada esparsos. Nós nos referimos a ele como "amplo" desde que esse modelo é um tipo especial de rede neural com uma um grande número de entradas que se conectam diretamente ao nó de saída. Modelos esparsos geralmente são mais fáceis de depurar e inspecionar do que os modelos profundos. Embora modelos amplos não pode expressar não linearidades por meio de camadas escondidas, e amplos podem usar transformações como cruzamento de atributos e criação de buckets para modelar não linearidades de maneiras diferentes.

Contraste com o modelo profundo.

largura

O número de neurônios em uma camada específica de uma rede neural.

sabedoria da multidão

#df

Ideia de que calcular a média de opiniões ou estimativas de um grande grupo muitas vezes produz resultados surpreendentemente bons. Por exemplo, considere um jogo em que as pessoas adivinham o número de jujubas embaladas em um pote grande. Embora a maioria das palpites serão imprecisos, a média de todos os palpites será é surpreendentemente próxima do número real jujubas no pote.

Os Ensembles são um software análogo à sabedoria do público. Mesmo que modelos individuais façam previsões muito imprecisas, em média, as previsões de vários modelos gera para ter boas previsões. Por exemplo, embora uma pessoa árvore de decisão pode fazer previsões ruins, uma A floresta de decisão geralmente faz previsões muito boas.

incorporação de palavras

#language

Representação de cada palavra de um conjunto de palavras em uma vetor de incorporação ou seja, representar cada palavra um vetor de valores de ponto flutuante entre 0,0 e 1,0. Palavras com semelhantes significados têm representações mais semelhantes do que palavras com significados diferentes. Por exemplo, cenouras, aipo e pepinos têm relativamente com representações semelhantes, o que é muito diferente das representações de avião, óculos de sol e pasta de dente.

X

XLA (álgebra linear acelerada)

Um compilador de machine learning de código aberto para GPUs, CPUs e aceleradores de ML.

O compilador XLA usa modelos de frameworks de ML conhecidos, como PyTorch, TensorFlow e JAX e os otimiza para execução de alto desempenho em diferentes plataformas de hardware, incluindo GPUs, CPUs e aceleradores de ML.

Z

aprendizado zero-shot

Um tipo de treinamento de machine learning em que model infere uma previsão para uma tarefa que ainda não foi treinado especificamente. Em outras palavras, o modelo não recebe exemplos de treinamento específico para tarefas, mas inferência nessa tarefa.

comandos zero-shot

#language
#generativeAI

Um comando que não forneça um exemplo de como você quer o modelo de linguagem grande para responder. Exemplo:

Partes de um comando Observações
Qual é a moeda oficial do país especificado? A pergunta que você quer que o LLM responda.
Índia: A consulta real.

O modelo de linguagem grande pode responder com qualquer um dos seguintes itens:

  • Rúpia
  • INR
  • Rúpias indianas
  • A rúpia
  • A rúpia indiana

Todas as respostas estão corretas, mas você pode preferir um formato específico.

Compare os comandos zero-shot com os seguintes termos:

Normalização do valor Z

#fundamentals

Uma técnica de escalonamento que substitui um valor bruto Valor de feature com um valor de ponto flutuante que representa o número de desvios padrão da média desse atributo. Por exemplo, considere um atributo com média de 800 e cujo padrão desvio é 100. A tabela a seguir mostra como a normalização de pontuação Z mapearia o valor bruto para o valor Z:

Valor bruto Pontuação Z
800 0
950 +1,5
575 -2,25

Em seguida, o modelo de machine learning é treinado com base nos valores Z-scores para esse atributo e não nos valores brutos.