Glossário de machine learning: modelos de imagem

Esta página contém os termos do glossário de modelos de imagens. Para conferir todos os termos do glossário, clique aqui.

A

realidade aumentada

#image

Uma tecnologia que sobrepõe uma imagem gerada por computador à visão do mundo real de um usuário, fornecendo uma visualização composta.

codificador automático

#language
#image

Um sistema que aprende a extrair as informações mais importantes da entrada. Os autoencoders são uma combinação de um codificador e decodificador. Os autoencoders dependem do seguinte processo em duas etapas:

  1. O codificador mapeia a entrada para um formato (normalmente) com perda de menor dimensão (intermediário).
  2. O decodificador cria uma versão com perdas da entrada original mapeando o formato de menor dimensão para o formato de entrada de maior dimensão original.

Os autoencoders são treinados de ponta a ponta, fazendo com que o decodificador tente reconstruir a entrada original do formato intermediário do codificador o mais próximo possível. Como o formato intermediário é menor (de menor dimensão) do que o original, o autoencoder é forçado a aprender quais informações na entrada são essenciais, e a saída não será perfeitamente idêntica à entrada.

Exemplo:

  • Se os dados de entrada forem um gráfico, a cópia não exata será semelhante ao gráfico original, mas um pouco modificada. Talvez a cópia não exata remova o ruído do gráfico original ou preencha alguns pixels ausentes.
  • Se os dados de entrada forem de texto, um autoencoder vai gerar um novo texto que imita (mas não é idêntico) ao texto original.

Consulte também autocodificadores variacionais.

modelo autorregressivo

#language
#image
#generativeAI

Um modelo que infere uma previsão com base nas próprias previsões anteriores. Por exemplo, os modelos de linguagem auto-regressivos preveem o próximo token com base nos tokens previstos anteriormente. Todos os modelos de linguagem grandes baseados no Transformer são autoregressivos.

Por outro lado, os modelos de imagem baseados em GAN geralmente não são autorregressivos, porque geram uma imagem em uma única passagem para frente e não iterativamente em etapas. No entanto, alguns modelos de geração de imagens são autorregressivos porque geram uma imagem em etapas.

B

caixa delimitadora

#image

Em uma imagem, as coordenadas (x, y) de um retângulo em torno de uma área de interesse, como o cachorro na imagem abaixo.

Foto de um cachorro sentado em um sofá. Uma caixa delimitadora verde
          com coordenadas no canto superior esquerdo de (275, 1271) e coordenadas
          no canto inferior direito de (2954, 2761) circunscreve o corpo do cachorro

C

convolução

#image

Em matemática, casualmente, uma mistura de duas funções. No aprendizado de máquina, uma convolução mistura o filtro convolucional e a matriz de entrada para treinar pesos.

O termo "convolução" no aprendizado de máquina geralmente é uma forma abreviada de se referir a operação de convolução ou camada de convolução.

Sem as convoluções, um algoritmo de aprendizado de máquina precisaria aprender um peso separado para cada célula em um grande tensor. Por exemplo, um treinamento de algoritmo de aprendizado de máquina em imagens 2K x 2K seria forçado a encontrar 4 milhões de pesos separados. Graças às convoluções, um algoritmo de aprendizado de máquina precisa encontrar pesos para cada célula no filtro convolucional, reduzindo drasticamente a memória necessária para treinar o modelo. Quando o filtro convolucional é aplicado, ele é simplesmente replicado em células, de modo que cada uma seja multiplicada pelo filtro.

Consulte Introdução às redes neurais convolucionais no curso de classificação de imagens para mais informações.

filtro convolucional

#image

Um dos dois atores em uma operação de convolução. O outro ator é uma fatia de uma matriz de entrada. Um filtro convolucional é uma matriz que tem o mesmo nível que a matriz de entrada, mas uma forma menor. Por exemplo, dada uma matriz de entrada de 28 x 28, o filtro pode ser qualquer matriz 2D menor que 28 x 28.

Na manipulação fotográfica, todas as células em um filtro convolucional são normalmente definidas como um padrão constante de uns e zeros. No aprendizado de máquina, os filtros convolucionais geralmente são inicializados com números aleatórios e, em seguida, a rede treina os valores ideais.

Consulte Convolução no curso de classificação de imagens para mais informações.

camada convolucional

#image

Uma camada de uma rede neural profunda em que um filtro convolucional transmite uma matriz de entrada. Por exemplo, considere o seguinte filtro convolucional de 3 x 3:

Uma matriz 3x3 com os seguintes valores: [[0,1,0], [1,0,1], [0,1,0]]

A animação a seguir mostra uma camada de convolução composta por nove operações de convolução que envolvem a matriz de entrada 5x5. Observe que cada operação de convolução funciona em uma fatia 3x3 diferente da matriz de entrada. A matriz 3x3 resultante (à direita) consiste nos resultados das nove operações de convolução:

Uma animação mostrando duas matrizes. A primeira matriz é a matriz de 5 x 5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          A segunda matriz é a matriz 3x3:
          [[181,303,618], [115,338,605], [169,351,560]].
          A segunda matriz é calculada aplicando o filtro convolucional
          [[0, 1, 0], [1, 0, 1], [0, 1, 0]] em
          diferentes subconjuntos 3x3 da matriz 5x5.

Consulte Camadas totalmente conectadas no curso de classificação de imagens para mais informações.

rede neural convolucional

#image

Uma rede neural em que pelo menos uma camada é convolucional. Uma rede neural convolucional típica consiste em alguma combinação das seguintes camadas:

As redes neurais convolucionais tiveram muito sucesso em determinados tipos de problemas, como reconhecimento de imagem.

operação convolucional

#image

A seguinte operação matemática em duas etapas:

  1. Multiplicação elemento a elemento do filtro convolucional e uma fatia de uma matriz de entrada. A fatia da matriz de entrada tem o mesmo nível e tamanho do filtro convolucional.
  2. Soma de todos os valores na matriz de produtos resultante.

Por exemplo, considere a matriz de entrada 5x5 a seguir:

Matriz de 5 x 5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Agora imagine o seguinte filtro convolucional 2x2:

A matriz 2x2: [[1, 0], [0, 1]]

Cada operação de convolução envolve uma única fatia 2x2 da matriz de entrada. Por exemplo, suponha que usemos a fatia 2x2 no canto superior esquerdo da matriz de entrada. A operação de convolução nesta fatia é a seguinte:

Aplicação do filtro convolucional [[1, 0], [0, 1]] à seção 2x2
          de canto superior esquerdo da matriz de entrada, que é [[128,97], [35,22]].
          O filtro convolucional deixa os valores 128 e 22 intactos, mas zeram
          os valores 97 e 35. Consequentemente, a operação de convolução produz
          o valor 150 (128+22).

Uma camada convolucional consiste em uma série de operações convolucionais, cada uma atuando em uma fatia diferente da matriz de entrada.

D

ampliação de dados

#image

Aumentar artificialmente o intervalo e o número de exemplos de treinamento transformando os exemplos atuais para criar outros. Por exemplo, suponha que as imagens sejam um dos seus recursos, mas que o conjunto de dados não tenha exemplos de imagens suficientes para que o modelo aprenda associações úteis. O ideal é adicionar imagens rotuladas suficientes ao conjunto de dados para permitir que o modelo seja treinado corretamente. Se isso não for possível, o aumento de dados poderá girar, esticar e refletir cada imagem para produzir muitas variantes da imagem original, possivelmente gerando dados rotulados suficientes para permitir um excelente treinamento.

rede neural convolucional separável em profundidade (sepCNN)

#image

Uma arquitetura de rede neural convolucional baseada em Inception, mas em que os módulos Inception são substituídos por convoluções separáveis em profundidade. Também conhecida como Xception.

Uma convolução separável por profundidade (também abreviada como convolução separável) divide uma convolução 3D padrão em duas operações de convolução separadas que são mais eficientes computacionalmente: primeiro, uma convolução por profundidade, com uma profundidade de 1 (n ✕ n ✕ 1), e depois uma convolução pontual, com comprimento e largura de 1 (1 ✕ 1 ✕ n).

Para saber mais, consulte Xception: Deep Learning with Depthwise Separable Convolutions.

redução de amostragem

#image

Termo sobrecarregado que pode significar uma das seguintes opções:

  • Reduzir a quantidade de informações em um recurso para treinar um modelo com mais eficiência. Por exemplo, antes de treinar um modelo de reconhecimento de imagem, reduza a amostragem de imagens de alta resolução para um formato de resolução mais baixa.
  • Treinar com uma porcentagem desproporcionalmente baixa de exemplos de classe superrepresentadas para melhorar o treinamento do modelo em classes sub-representadas. Por exemplo, em um conjunto de dados com classes desequilibradas, os modelos tendem a aprender muito sobre a classe majoritária e não o suficiente sobre a classe minoritária. A subamostragem ajuda a equilibrar a quantidade de treinamento nas classes majoritárias e minoritárias.

Consulte Conjuntos de dados: conjuntos de dados desbalanceados no Curso intensivo de machine learning para mais informações.

F

ajuste fino

#language
#image
#generativeAI

Uma segunda passagem de treinamento específica para a tarefa realizada em um modelo pré-treinado para refinar os parâmetros de um caso de uso específico. Por exemplo, a sequência de treinamento completa para alguns modelos de linguagem grandes é a seguinte:

  1. Pré-treinamento:treine um modelo de linguagem grande em um vasto conjunto de dados geral, como todas as páginas da Wikipedia em inglês.
  2. Ajuste fino:treine o modelo pré-treinado para realizar uma tarefa específica, como responder a consultas médicas. O ajuste fino normalmente envolve centenas ou milhares de exemplos focados na tarefa específica.

Como outro exemplo, a sequência de treinamento completa para um modelo de imagem grande é esta:

  1. Pré-treinamento:treine um modelo de imagem grande em um vasto conjunto de imagens geral, como todas as imagens no Wikimedia Commons.
  2. Ajuste fino:treine o modelo pré-treinado para realizar uma tarefa específica, como gerar imagens de orcas.

O ajuste fino pode envolver qualquer combinação das seguintes estratégias:

  • Modificar todos os parâmetros do modelo pré-treinado. Às vezes, isso é chamado de ajuste fino completo.
  • Modificar apenas alguns dos parâmetros do modelo pré-treinado (normalmente, as camadas mais próximas da camada de saída), mantendo os outros parâmetros inalterados (normalmente, as camadas mais próximas da camada de entrada). Consulte ajustes de eficiência de parâmetros.
  • Adicionar mais camadas, normalmente sobre as camadas existentes mais próximas da camada de saída.

O ajuste fino é uma forma de aprendizado por transferência. Assim, o ajuste fino pode usar uma função de perda ou um tipo de modelo diferente daqueles usados para treinar o modelo pré-treinado. Por exemplo, você pode ajustar um modelo de imagem grande pré-treinado para produzir um modelo de regressão que retorna o número de pássaros em uma imagem de entrada.

Compare e contraste o ajuste fino com os seguintes termos:

Consulte Ajuste fino no Curso intensivo de machine learning para mais informações.

G

Gemini

#language
#image
#generativeAI

O ecossistema que inclui a IA mais avançada do Google. Os elementos desse ecossistema incluem:

  • Vários modelos Gemini.
  • A interface de conversação interativa de um modelo Gemini. Os usuários digitam comandos, e o Gemini responde a eles.
  • Várias APIs Gemini.
  • Vários produtos empresariais com base nos modelos Gemini, por exemplo, o Gemini para Google Cloud.

Modelos do Gemini

#language
#image
#generativeAI

Modelos multimodais baseados em Transformer de última geração do Google. Os modelos do Gemini foram criados especificamente para serem integrados a agentes.

Os usuários podem interagir com os modelos do Gemini de várias maneiras, incluindo uma interface de diálogo interativa e SDKs.

IA generativa

#language
#image
#generativeAI

Um campo transformador emergente sem definição formal. A maioria dos especialistas concorda que os modelos de IA generativa podem criar ("gerar") conteúdo que seja:

  • complexo
  • coerente
  • original

Por exemplo, um modelo de IA generativa pode criar textos ou imagens sofisticados.

Algumas tecnologias anteriores, incluindo LSTMs e RNNs, também podem gerar conteúdo original e coerente. Alguns especialistas consideram essas tecnologias anteriores como IA generativa, enquanto outros acreditam que a verdadeira IA generativa exige uma saída mais complexa do que essas tecnologias anteriores.

Compare com o ML preditivo.

I

Reconhecimento de imagem

#image

Um processo que classifica objetos, padrões ou conceitos em uma imagem. O reconhecimento de imagem também é conhecido como classificação de imagem.

Para mais informações, consulte Prática de ML: classificação de imagens.

Consulte o curso ML Practicum: classificação de imagens para mais informações.

intersecção sobre união (IoU)

#image

A interseção de dois conjuntos divididos pela união deles. Em tarefas de detecção de imagens de machine learning, o IoU é usado para medir a precisão da caixa delimitadora prevista do modelo em relação à caixa delimitadora de informações empíricas. Nesse caso, a IoU das duas caixas é a proporção entre a área de sobreposição e a área total, e o valor varia de 0 (sem sobreposição da caixa delimitadora prevista e da caixa delimitadora de informações empíricas) a 1 (a caixa delimitadora prevista e a caixa delimitadora de informações empíricas têm as mesmas coordenadas).

Por exemplo, na imagem abaixo:

  • A caixa delimitadora prevista (as coordenadas que delimitam onde o modelo prevê que a mesa de noite na pintura está localizada) é mostrada em roxo.
  • A caixa delimitadora de evidências empíricas (as coordenadas que delimitam onde a mesa de noite na pintura está localizada) é delineada em verde.

A pintura "Vincent's Bedroom in Arles" de Van Gogh, com duas caixas delimitadoras diferentes em torno da mesa de cabeceira ao lado da cama. A caixa delimitadora de informações empíricas (em verde) circunscreve perfeitamente a mesa noturna. A caixa delimitadora prevista (em roxo) é deslocada 50% para baixo e para a direita da caixa delimitadora da verdade fundamental. Ela inclui o quadrante inferior direito da tabela noturna, mas não o restante.

Aqui, a interseção das caixas delimitadoras para previsão e informações empíricas (abaixo à esquerda) é 1, e a união das caixas delimitadoras para previsão e informações empíricas (abaixo à direita) é 7. Portanto, a IoU é \(\frac{1}{7}\).

Mesma imagem acima, mas com cada caixa delimitadora dividida em quatro
          quadrantes. Há sete quadrantes no total, já que o quadrante inferior direito
          da caixa delimitadora de informações empíricas e o quadrante superior esquerdo
          da caixa delimitadora prevista se sobrepõem. Essa seção sobreposta (destacada em verde) representa a interseção e tem uma área de 1. Mesma imagem acima, mas com cada caixa delimitadora dividida em quatro
          quadrantes. Há sete quadrantes no total, já que o quadrante inferior direito
          da caixa delimitadora de informações empíricas e o quadrante superior esquerdo
          da caixa delimitadora prevista se sobrepõem.
          Todo o interior fechado pelas duas caixas delimitadoras
          (destacado em verde) representa a união e tem
          uma área de 7.

K

pontos principais

#image

As coordenadas de elementos específicos em uma imagem. Por exemplo, para um modelo de reconhecimento de imagem que distingue espécies de flores, os pontos-chave podem ser o centro de cada pétala, o caule, o estame e assim por diante.

L

pontos de referência

#image

Sinônimo de keypoints.

M

MMIT

#language
#image
#generativeAI

Abreviação de multimodal instruction-tuned.

MNIST

#image

Um conjunto de dados de domínio público compilado por LeCun, Cortes e Burges contendo 60.000 imagens, cada uma mostrando como um humano escreveu manualmente um dígito específico de 0 a 9. Cada imagem é armazenada como uma matriz de 28 x 28 de números inteiros, em que cada número inteiro é um valor de escala de cinza entre 0 e 255.

O MNIST é um conjunto de dados canônico para machine learning, frequentemente usado para testar novas abordagens de machine learning. Para mais detalhes, consulte O banco de dados MNIST de dígitos manuscritos.

MOE

#language
#image
#generativeAI

Abreviação de mistura de especialistas.

P

pool

#image

Redução de uma matriz (ou matrizes) criada por uma camada convolucional anterior para uma matriz menor. A agregação geralmente envolve o valor máximo ou médio em toda a área. Por exemplo, suponha que tenhamos a seguinte matriz 3x3:

A matriz 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Uma operação de agrupamento, assim como uma operação de convolução, divide essa matriz em fatias e, em seguida, desliza essa operação de convolução por passos. Por exemplo, suponha que a operação de agregação divida a matriz de convolução em fatias 2x2 com um passo de 1x1. Como mostra o diagrama abaixo, quatro operações de agrupamento ocorrem. Imagine que cada operação de agrupamento escolha o valor máximo dos quatro na fatia:

A matriz de entrada é 3x3 com os valores: [[5,3,1], [8,2,5], [9,4,3]].
          A submatriz 2x2 no canto superior esquerdo da matriz de entrada é [[5,3], [8,2]]. Portanto, a operação de agregação no canto superior esquerdo produz o valor 8, que é o máximo de 5, 3, 8 e 2. A submatriz 2x2 no canto superior direito da matriz de entrada é [[3,1], [2,5]]. Portanto, a operação de agregação no canto superior direito produz o valor 5. A submatriz 2x2 no canto inferior esquerdo da matriz de entrada é
          [[8,2], [9,4]]. Portanto, a operação de agregação no canto inferior esquerdo gera o valor
          9. A submatriz 2x2 inferior direita da matriz de entrada é
          [[2,5], [4,3]]. Portanto, a operação de agregação na parte de baixo à direita produz o valor
          5. Em resumo, a operação de agrupamento produz a matriz 2x2
          [[8,5], [9,5]].

A agregação ajuda a aplicar a invariância de tradução na matriz de entrada.

O agrupamento para aplicativos de visão é conhecido mais formalmente como agrupamento espacial. Os aplicativos de séries temporais geralmente se referem ao agrupamento como agrupamento temporal. Informalmente, o agrupamento é chamado de subamostragem ou redução de amostra.

modelo pós-treinamento

#language
#image
#generativeAI

Termo vagamente definido que geralmente se refere a um modelo pré-treinado que passou por algum pós-processamento, como um ou mais dos seguintes:

modelo pré-treinado

#language
#image
#generativeAI

Normalmente, um modelo que já foi treinado. O termo também pode significar um vetor de embeddings treinado anteriormente.

O termo modelo de linguagem pré-treinado geralmente se refere a um modelo de linguagem grande já treinado.

pré-treinamento

#language
#image
#generativeAI

O treinamento inicial de um modelo em um grande conjunto de dados. Alguns modelos pré-treinados são gigantes desajeitados e geralmente precisam ser refinados com mais treinamento. Por exemplo, especialistas em ML podem pré-treinar um modelo de linguagem grande em um grande conjunto de dados de texto, como todas as páginas em inglês da Wikipédia. Após o pré-treinamento, o modelo resultante pode ser refinado com qualquer uma das seguintes técnicas:

R

invariância rotacional

#image

Em um problema de classificação de imagens, a capacidade de um algoritmo de classificar imagens, mesmo quando a orientação delas muda. Por exemplo, o algoritmo ainda pode identificar uma raquete de tênis, mesmo que ela esteja apontada para cima, para o lado ou para baixo. A invariância de rotação nem sempre é desejável. Por exemplo, um 9 de cabeça para baixo não pode ser classificado como um 9.

Consulte também variância de tradução e variância de tamanho.

S

invariância de tamanho

#image

Em um problema de classificação de imagens, a capacidade de um algoritmo de classificar imagens, mesmo quando o tamanho delas muda. Por exemplo, o algoritmo ainda pode identificar um gato, mesmo que ele consuma 2 milhões ou 200 mil pixels. Mesmo os melhores algoritmos de classificação de imagens ainda têm limites práticos de invariância de tamanho. Por exemplo, é improvável que um algoritmo (ou humano) classifique corretamente uma imagem de gato que consome apenas 20 pixels.

Consulte também invariância de translação e invariância rotacional.

pooling espacial

#image

Consulte pooling.

stride

#image

Em uma operação convolucional ou agrupamento, o delta em cada dimensão da próxima série de fatias de entrada. Por exemplo, a animação a seguir demonstra um passo (1,1) durante uma operação de convolução. Portanto, a próxima fatia de entrada começa uma posição à direita da fatia de entrada anterior. Quando a operação chega à borda direita, a próxima fatia vai até a esquerda, mas uma posição para baixo.

Uma matriz de entrada 5x5 e um filtro convolucional 3x3. Como o
     passo é (1,1), um filtro convolucional será aplicado nove vezes. A primeira
     fatia de convolução avalia a submatriz 3x3 no canto superior esquerdo da matriz
     de entrada. A segunda fatia avalia a submatriz 3x3
     de cima para baixo. A terceira fatia de convolução avalia a submatriz 3x3
     no canto superior direito.  A quarta fatia avalia a submatriz 3x3 do canto superior esquerdo.
     A quinta fatia avalia a submatriz do meio 3x3. A sexta fatia
     avalia a submatriz 3x3 do canto direito. A sétima fatia avalia
     a submatriz 3x3 no canto inferior esquerdo.  A oitava fatia avalia a
     submatriz 3x3 do meio de baixo. A nona fatia avalia a submatriz 3x3
     no canto inferior direito.

O exemplo anterior demonstra um passo bidimensional. Se a matriz de entrada for tridimensional, o passo também será tridimensional.

subamostragem

#image

Consulte pooling.

T

temperatura

#language
#image
#generativeAI

Um hiperparâmetro que controla o grau de aleatoriedade da saída de um modelo. Temperaturas mais altas resultam em saídas mais aleatórias, enquanto temperaturas mais baixas resultam em saídas menos aleatórias.

A escolha da melhor temperatura depende da aplicação específica e das propriedades preferidas da saída do modelo. Por exemplo, você provavelmente aumentaria a temperatura ao criar um aplicativo que gera saídas criativas. Por outro lado, você provavelmente diminuiria a temperatura ao criar um modelo que classifica imagens ou texto para melhorar a precisão e a consistência do modelo.

A temperatura é frequentemente usada com softmax.

invariância translacional

#image

Em um problema de classificação de imagens, a capacidade de um algoritmo de classificar imagens, mesmo quando a posição dos objetos na imagem muda. Por exemplo, o algoritmo ainda pode identificar um cachorro, seja no centro ou na extremidade esquerda do frame.

Consulte também variância de tamanho e variância de rotação.