Glosario de aprendizaje automático: modelos de imágenes

En esta página, se incluyen los términos del glosario de modelos de imagen. Para ver todos los términos del glosario, haz clic aquí.

A

realidad aumentada

#image

Es una tecnología que superpone una imagen generada por computadora en la vista de un usuario del mundo real, lo que proporciona una vista compuesta.

codificador automático

#language
#image

Un sistema que aprende a extraer la información más importante de la entrada. Los codificadores automáticos son una combinación de un codificador y un decodificador. Los codificadores automáticos se basan en el siguiente proceso de dos pasos:

  1. El codificador asigna la entrada a un formato (intermedio) con pérdida de dimensión baja.
  2. El decodificador compila una versión con pérdida de la entrada original asignando el formato de menor dimensión al formato de entrada original de mayor dimensión.

Los codificadores automáticos se entrenan de extremo a extremo haciendo que el decodificador intente reconstruir la entrada original a partir del formato intermedio del codificador lo más cerca posible. Debido a que el formato intermedio es más pequeño (de menor dimensión) que el original, el codificador automático se ve obligado a aprender qué información de la entrada es esencial, y el resultado no será perfectamente idéntico a la entrada.

Por ejemplo:

  • Si los datos de entrada son un gráfico, la copia no exacta sería similar al gráfico original, pero algo modificado. Es posible que la copia no exacta quite el ruido del gráfico original o rellene algunos píxeles faltantes.
  • Si los datos de entrada son texto, un codificador automático generaría texto nuevo que imitaría el texto original (pero no es idéntico al mismo).

Consulta también los codificadores automáticos variacionales.

modelo de regresión automático

#language
#image
#IAgenerativa

model que infiere una predicción a partir de sus propias predicciones anteriores. Por ejemplo, los modelos de lenguaje de regresión automática predicen el siguiente token según los tokens que se predijeron con anterioridad. Todos los modelos grandes de lenguaje basados en Transformer son de regresión automática.

Por el contrario, los modelos de imagen basados en GAN no suelen ser autorregresivos, ya que generan una imagen en un solo pase hacia delante y no de manera iterativa en pasos. Sin embargo, algunos modelos de generación de imágenes son de regresión automáticos porque generan una imagen en pasos.

B

cuadro de límite

#image

En una imagen, las coordenadas (x, y) de un rectángulo alrededor de un área de interés, como el perro en la imagen de abajo.

Fotografía de un perro sentado en un sofá Un cuadro delimitador verde con las coordenadas superior izquierda de (275, 1271) y las coordenadas inferior derecha de (2954, 2761) circunscribe el cuerpo del perro

C

convolución

#image

En matemática, informalmente, es una mezcla de dos funciones. En el aprendizaje automático, una convolución mezcla el filtro convolucional y la matriz de entrada para entrenar pesos.

En el aprendizaje automático, el término "convolución" suele ser una forma abreviada de referirse a la operación convolucional o la capa convolucional.

Sin convoluciones, un algoritmo de aprendizaje automático tendría que aprender un peso separado para cada celda de un tensor grande. Por ejemplo, un entrenamiento de algoritmo de aprendizaje automático en imágenes de 2K x 2K se vería obligado a encontrar 4 millones de pesos separados. Gracias a las convoluciones, un algoritmo de aprendizaje automático solo tiene que encontrar pesos para cada celda en el filtro convolucional, lo que reduce drásticamente la memoria necesaria para entrenar el modelo. Cuando se aplica el filtro convolucional, simplemente se replica en las celdas de modo que cada una se multiplica por el filtro.

filtro convolucional

#image

Uno de los dos actores en una operación convolucional (El otro es una porción de una matriz de entrada). Un filtro convolucional es una matriz que tiene el mismo rango que la de entrada, pero una forma más pequeña. Por ejemplo, en una matriz de entrada de 28 × 28, el filtro podría ser cualquier matriz 2D más pequeña que 28 × 28.

En la manipulación fotográfica, todas las celdas de un filtro convolucional suelen establecerse en un patrón constante de unos y ceros. En el aprendizaje automático, los filtros convolucionales suelen propagarse con números aleatorios y, luego, la red entrena los valores ideales.

capa convolucional

#image

Es una capa de una red neuronal profunda en la que un filtro convolucional pasa a lo largo de una matriz de entrada. Por ejemplo, considera el siguiente filtro convolucional de 3×3:

Una matriz de 3x3 con los siguientes valores: [[0,1,0], [1,0,1], [0,1,0]]

En la siguiente animación, se muestra una capa convolucional que consta de 9 operaciones que involucran la matriz de entrada de 5 × 5. Observa que cada operación convolucional funciona en una porción diferente de 3 x 3 de la matriz de entrada. La matriz 3 x 3 resultante (a la derecha) consta de los resultados de las 9 operaciones convolucionales:

Una animación que muestra dos matrices. La primera es la de 5x5: [[128,97,53,201,198], [35,22,25,200,195],
 [37,24,28,197,182], [33,28,92,195,179], [31,4].
          La segunda matriz es la de 3x3:
          [[181,303,618], [115,338,605], [169,351,560]].
          La segunda matriz se calcula aplicando el filtro
 convolucional [[0, 1, 0], [1, 0, 1], [0, 1, 0]] en diferentes subconjuntos de 3x3 de la matriz 5x5.

red neuronal convolucional

#image

Red neuronal en la que al menos una capa es una capa convolucional. Una red neuronal convolucional típica consiste en una combinación de las siguientes capas:

Las redes neuronales convolucionales han tenido gran éxito en ciertos tipos de problemas, como el reconocimiento de imágenes.

operación convolucional

#image

La siguiente operación matemática de dos pasos:

  1. Multiplicación por elementos del filtro convolucional y una porción de una matriz de entrada (la porción de la matriz de entrada tiene el mismo rango y tamaño que el filtro convolucional).
  2. Suma de todos los valores en la matriz de producto resultante.

Por ejemplo, considera la siguiente matriz de entrada de 5 x 5:

La matriz de 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,179].

Ahora imagina el siguiente filtro convolucional de 2 x 2:

La matriz de 2x2: [[1, 0], [0, 1]]

Cada operación convolucional implica una sola porción de 2 × 2 de la matriz de entrada. Por ejemplo, supongamos que usamos la porción de 2 x 2 en la parte superior izquierda de la matriz de entrada. Por lo tanto, la operación de convolución en esta porción se ve de la siguiente manera:

Aplicando el filtro convolucional [[1, 0], [0, 1]] a la sección superior izquierda de 2x2 de la matriz de entrada, que es [[128,97], [35,22]].
          El filtro convolucional deja los 128 y el 22 intactos, pero pone en cero el 97 y el 35. En consecuencia, la operación de convolución produce el valor 150 (128+22).

Una capa convolucional consta de una serie de operaciones convolucionales que actúan en una porción diferente de la matriz de entrada.

D

magnificación de datos

#image

Se aumenta artificialmente el rango y la cantidad de ejemplos de entrenamiento mediante la transformación de los ejemplos existentes para crear ejemplos adicionales. Por ejemplo, supongamos que las imágenes son uno de los atributos, pero tu conjunto de datos no contiene suficientes ejemplos de imágenes para que el modelo aprenda asociaciones útiles. Lo ideal sería agregar suficientes imágenes etiquetadas al conjunto de datos para permitir que el modelo se entrene de forma correcta. Si eso no es posible, la magnificación de datos puede rotar, estirar y reflejar cada imagen para producir muchas variantes de la imagen original, lo que podría producir suficientes datos etiquetados como para permitir un entrenamiento excelente.

Red neuronal convolucional separable en profundidad (sepCNN)

#image

Una arquitectura de red neuronal convolucional basada en Inception, pero en la que los módulos de Inception se reemplazan por convoluciones separables en profundidad. También conocido como Xception.

Una convolución separable en profundidad (también abreviada como convolución separable) factoriza una convolución 3D estándar en dos operaciones de convolución separadas que son más eficientes desde el punto de vista computacional: primero, una convolución en profundidad, con una profundidad de 1 (n ✕n ✕ 1) y, luego, una convolución de punto ✕ 1 con un ancho de ✕n y una convolución de punto ✕1).

Para obtener más información, consulta Xception: aprendizaje profundo con convoluciones separables de profundidad.

reducción de muestreo

#image

Término sobrecargado que puede significar cualquiera de las siguientes opciones:

  • Reducir la cantidad de información en un atributo para entrenar un modelo de manera más eficiente. Por ejemplo, antes de entrenar un modelo de reconocimiento de imágenes, se reduce el muestreo de imágenes de alta resolución a un formato de menor resolución.
  • Entrenar con un porcentaje desproporcionadamente bajo de ejemplos de clases sobrerrepresentados para mejorar el entrenamiento de modelos en clases subrepresentadas Por ejemplo, en un conjunto de datos desequilibrados, los modelos tienden a aprender mucho sobre la clase de mayoría y no lo suficiente sobre la clase minoritaria. La reducción de muestreo ayuda a equilibrar la cantidad de entrenamiento en la mayoría y las clases minoritarias.

F

ajuste

#language
#image
#IAgenerativa

Un segundo pase de entrenamiento específico para una tarea que se realiza en un modelo previamente entrenado a fin de definir mejor sus parámetros para un caso de uso específico. Por ejemplo, la secuencia de entrenamiento completa para algunos modelos grandes de lenguaje es la siguiente:

  1. Entrenamiento previo: Entrena un modelo grande de lenguaje con un amplio conjunto de datos general, como todas las páginas de Wikipedia en inglés.
  2. Ajuste: Entrena el modelo previamente entrenado para que realice una tarea específica, como responder consultas médicas. Por lo general, el ajuste implica cientos o miles de ejemplos centrados en la tarea específica.

Como otro ejemplo, la secuencia de entrenamiento completa para un modelo de imagen grande es la siguiente:

  1. Entrenamiento previo: Entrena un modelo grande de imágenes con un amplio conjunto de datos general de imágenes, como todas las imágenes de Wikimedia Commons.
  2. Ajuste: Entrena el modelo previamente entrenado para que realice una tarea específica, como generar imágenes de orcas.

La optimización puede implicar cualquier combinación de las siguientes estrategias:

  • Modificar todos los parámetros existentes del modelo previamente entrenado A veces, esto se denomina ajuste completo.
  • Modificar solo algunos de los parámetros existentes del modelo previamente entrenado (por lo general, las capas más cercanas a la capa de salida) y mantener otros parámetros existentes sin cambios (por lo general, las capas más cercanas a la capa de entrada) Consulta Ajuste eficiente de parámetros.
  • Agregar más capas, por lo general, sobre las capas existentes más cercanas a la capa de salida

El ajuste es una forma de aprendizaje por transferencia. Por lo tanto, el ajuste podría usar una función de pérdida diferente o un tipo de modelo diferente a los que se usan para entrenar el modelo previamente entrenado. Por ejemplo, puedes ajustar un modelo de imagen grande previamente entrenado para producir un modelo de regresión que devuelva la cantidad de aves en una imagen de entrada.

Compara y contrasta el ajuste con los siguientes términos:

G

IA generativa

#language
#image
#IAgenerativa

Un campo transformador emergente sin definición formal. Dicho esto, la mayoría de los expertos coinciden en que los modelos de IA generativa pueden crear ("generar") contenido que acoge lo siguiente:

  • complejo
  • coherente
  • original

Por ejemplo, un modelo de IA generativa puede crear imágenes o ensayos sofisticados.

Algunas tecnologías anteriores, como las LSTM y las RNN, también pueden generar contenido original y coherente. Algunos expertos consideran estas tecnologías anteriores como IA generativa, mientras que otros consideran que la IA generativa real requiere resultados más complejos de los que pueden producir esas tecnologías anteriores.

Compara esto con el AA predictivo.

I

reconocimiento de imágenes

#image

Es un proceso que clasifica objetos, patrones o conceptos de una imagen. El reconocimiento de imágenes también se conoce como clasificación de imágenes.

Para obtener más información, consulta Práctica de AA: Clasificación de imágenes.

intersección sobre unión (IoU)

#image

Intersección de dos conjuntos divididos por su unión. En las tareas de detección de imágenes de aprendizaje automático, la IoU se usa para medir la exactitud del cuadro de límite previsto del modelo con respecto al cuadro de límite de la verdad fundamental. En este caso, la IoU de los dos cuadros es la relación entre el área superpuesta y el área total, y su valor varía de 0 (sin superposición del cuadro de límite previsto y del cuadro de límite de la verdad fundamental) a 1 (el cuadro de límite previsto y el cuadro de límite de verdad del suelo tienen exactamente las mismas coordenadas).

Por ejemplo, en la siguiente imagen:

  • El cuadro de límite previsto (las coordenadas que delimitan el lugar en el que el modelo predice que se encuentra la tabla nocturna en la pintura) se muestra en color púrpura.
  • El cuadro delimitador de verdad fundamental (las coordenadas que delimitan el lugar en el que se encuentra realmente la mesa nocturna de la pintura) está delineado en verde.

La pintura de Van Gogh "La habitación de Vicente en Arlés" muestra dos cuadros delimitadores diferentes alrededor de la mesa de noche junto a la cama. El cuadro delimitador de verdad fundamental (en verde) circunscribe a la perfección la mesa de noche. El cuadro de límite previsto (en púrpura) se desplaza un 50% hacia abajo y a la derecha del cuadro de límite de verdad fundamental; encierra el cuarto inferior derecho de la mesa nocturna, pero omite el resto de la tabla.

Aquí, la intersección de los cuadros delimitadores para la predicción y la verdad fundamental (abajo a la izquierda) es 1, y la unión de los cuadros delimitadores para la predicción y la verdad fundamental (abajo a la derecha) es 7, por lo que la IoU es \(\frac{1}{7}\).

Es la misma imagen anterior, pero con cada cuadro de límite dividido en cuatro cuadrantes. Hay siete cuadrantes en total, ya que el cuadrante inferior derecho del cuadro de límite de verdad fundamental y el cuadrante superior izquierdo del cuadro de límite previsto se superponen entre sí. Esta sección superpuesta (resaltada en verde) representa la intersección y tiene un área de 1. Es la misma imagen anterior, pero con cada cuadro de límite dividido en cuatro cuadrantes. Hay siete cuadrantes en total, ya que el cuadrante inferior derecho del cuadro de límite de verdad fundamental y el cuadrante superior izquierdo del cuadro de límite previsto se superponen entre sí.
          Todo el interior delimitado por ambos cuadros delimitadores (destacados en verde) representa la unión y tiene un área de 7.

K

puntos clave

#image

Las coordenadas de características particulares en una imagen. Por ejemplo, para un modelo de reconocimiento de imágenes que distingue especies de flores, los puntos clave pueden ser el centro de cada pétalo, el tallo, el estambre, etcétera.

L

puntos de referencia

#image

Sinónimo de puntos clave.

M

MNIST

#image

Un conjunto de datos de dominio público compilado por LeCun, Cortes y Burges que contiene 60,000 imágenes, cada una de las cuales muestra cómo un ser humano escribió manualmente un dígito particular del 0 al 9. Cada imagen se almacena como un arreglo de números enteros de 28 × 28, en el que cada número entero es un valor en escala de grises entre 0 y 255, inclusive.

MNIST es un conjunto de datos canónico para el aprendizaje automático, que a menudo se usa para probar nuevos enfoques de aprendizaje automático. Para obtener más información, consulta The MNIST Database of HandWrite Digits.

P

reducción

#image

Reducir una matriz (o matrices) creada por una capa convolucional anterior a una matriz más pequeña. Por lo general, la reducción implica tomar el valor máximo o promedio en el área combinada. Por ejemplo, supongamos que tenemos la siguiente matriz de 3 x 3:

Matriz de 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Una operación de reducción, al igual que una convolucional, divide esa matriz en porciones y, luego, desliza esa operación convolucional en segmentaciones. Por ejemplo, supongamos que la operación de reducción divide la matriz convolucional en porciones de 2 x 2 con un segmento de 1 x 1. Como se ilustra en el siguiente diagrama, se llevan a cabo cuatro operaciones de reducción. Imagina que cada operación de reducción elige el valor máximo de los cuatro en esa porción:

La matriz de entrada es 3x3 con los valores [[5,3,1], [8,2,5], [9,4,3]].
          La submatriz de 2x2 de la parte superior izquierda de la matriz de entrada es [[5,3], [8,2]], por lo que la operación de reducción de la parte superior izquierda produce el valor 8 (que es el máximo de 5, 3, 8 y 2). La submatriz de 2x2 de la parte superior derecha de la matriz de entrada es [[3,1], [2,5]], por lo que la operación de reducción de la parte superior derecha produce el valor 5. La submatriz de 2x2 inferior izquierda de la matriz de entrada es [[8,2], [9,4]], por lo que la operación de reducción de la parte inferior izquierda produce el valor 9. La submatriz de 2x2 en la parte inferior derecha de la matriz de entrada es [[2,5], [4,3]], por lo que la operación de reducción en la esquina inferior derecha produce el valor 5. En resumen, la operación de reducción produce la matriz de 2x2 [[8,5], [9,5]].

La reducción permite aplicar la invariancia traslacional en la matriz de entrada.

La reducción para aplicaciones de visión se conoce más formalmente como reducción espacial. Por lo general, las aplicaciones de series de tiempo se refieren a la reducción como reducción temporal. De manera menos formal, la reducción a menudo se denomina submuestreo o reducción de muestreo.

modelo previamente entrenado

#language
#image
#IAgenerativa

Modelos o componentes del modelo (como un vector de incorporación) que ya se entrenaron. En algunas ocasiones, proporcionarás vectores de incorporación previamente entrenados en una red neuronal. En otras ocasiones, el modelo entrenará los vectores de incorporación en lugar de basarse en las incorporaciones previamente entrenadas.

El término modelo de lenguaje previamente entrenado hace referencia a un modelo grande de lenguaje que pasó por un entrenamiento previo.

entrenamiento previo

#language
#image
#IAgenerativa

Es el entrenamiento inicial de un modelo en un conjunto de datos grande. Algunos modelos previamente entrenados son gigantes torpes y, por lo general, deben definirse mejor con un entrenamiento adicional. Por ejemplo, los expertos en AA podrían entrenar previamente un modelo grande de lenguaje con un conjunto de datos de texto extenso, como todas las páginas en inglés de Wikipedia. Después del entrenamiento previo, el modelo resultante puede definirse aún más con cualquiera de las siguientes técnicas:

R

invariancia rotacional

#image

En un problema de clasificación de imágenes, es la capacidad de un algoritmo para clasificar correctamente imágenes, incluso cuando cambia su orientación. Por ejemplo, el algoritmo aún puede identificar una raqueta de tenis, ya sea que apunte hacia arriba, hacia los lados o hacia abajo. Ten en cuenta que la invariabilidad rotacional no siempre es conveniente; por ejemplo, un 9 al revés no debe clasificarse como un 9.

Consulta también la invariancia traslacional y la invariancia de tamaño.

S

invariancia de tamaño

#image

En un problema de clasificación de imágenes, es la capacidad de un algoritmo para clasificar correctamente imágenes, incluso cuando cambia el tamaño de la imagen. Por ejemplo, el algoritmo aún puede identificar a un gato si consume 2 millones de píxeles o 200,000 píxeles. Ten en cuenta que incluso los mejores algoritmos de clasificación de imágenes tienen límites prácticos sobre la invariancia de tamaño. Por ejemplo, es poco probable que un algoritmo (o una persona) clasifique correctamente una imagen de gato que consuma solo 20 píxeles.

Consulta también la invariancia traslacional y la invariancia rotacional.

reducción espacial

#image

Consulta reducción.

stride

#image

En una operación convolucional o reducción, el delta en cada dimensión de la siguiente serie de porciones de entrada. Por ejemplo, en la siguiente animación, se muestra un segmento (1,1) durante una operación convolucional. Por lo tanto, la siguiente porción de entrada comienza una posición a la derecha de la porción de entrada anterior. Cuando la operación alcanza el borde derecho, la siguiente porción se desplaza por completo a la izquierda, pero una posición hacia abajo.

Una matriz de entrada de 5 x 5 y un filtro convolucional de 3 x 3. Debido a que el segmento es (1,1), se aplicará un filtro convolucional 9 veces. La primera porción convolucional evalúa la submatriz superior izquierda de 3 x 3 de la matriz de entrada. Con la segunda porción, se evalúa la submatriz de 3 x 3 central superior. La tercera porción convolucional evalúa la submatriz de 3 x 3 de la parte superior derecha.  La cuarta porción evalúa la submatriz de 3x3 del medio izquierdo.
     La quinta porción evalúa la submatriz central de 3×3. La sexta porción evalúa la submatriz de 3 × 3 del medio derecho. La séptima porción evalúa la submatriz de 3×3 inferior izquierda.  La octava porción evalúa la submatriz de 3 x 3 central inferior. La novena porción evalúa la submatriz de 3×3 de la esquina inferior derecha.

En el ejemplo anterior, se muestra un segmento bidimensional. Si la matriz de entrada es tridimensional, el segmento también será tridimensional.

submuestreo

#image

Consulta reducción.

T

temperatura

#language
#image
#IAgenerativa

Es un hiperparámetro que controla el grado de aleatorización de la salida de un modelo. Las temperaturas más altas generan resultados más aleatorios, mientras que las temperaturas más bajas generan resultados menos aleatorios.

La elección de la mejor temperatura depende de la aplicación específica y de las propiedades preferidas de la salida del modelo. Por ejemplo, es probable que aumentes la temperatura cuando crees una aplicación que genere resultados de creatividades. Por el contrario, probablemente bajarías la temperatura cuando compiles un modelo que clasifique imágenes o texto para mejorar la precisión y coherencia del modelo.

La temperatura suele usarse con softmax.

invariancia traslacional

#image

En un problema de clasificación de imágenes, es la capacidad de un algoritmo para clasificar correctamente imágenes, incluso cuando cambia la posición de los objetos dentro de la imagen. Por ejemplo, el algoritmo aún puede identificar un perro, ya sea que se encuentre en el centro del marco o en su extremo izquierdo.

Consulta también la invariancia de tamaño y la invariancia rotacional.