Glosario sobre aprendizaje automático: Conceptos básicos del AA

Esta página contiene los términos del glosario de Fundamentos del AA. Para todos los términos del glosario, haz clic aquí.

A

accuracy

#fundamentals

La cantidad de predicciones de clasificación correctas dividida por la cantidad total de predicciones. Es decir:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Por ejemplo, un modelo que realizó 40 predicciones correctas y 10 predicciones incorrectas tendría la siguiente exactitud:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La clasificación binaria proporciona nombres específicos para las diferentes categorías de predicciones correctas y predicciones incorrectas. Por lo tanto, la fórmula de exactitud para la clasificación binaria es la siguiente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Donde:

Comparar y contrastar la precisión con la precisión y la recuperación

función de activación

#fundamentals

Una función que permite que las redes neuronales aprendan relaciones no lineales (complejas) entre los atributos y la etiqueta.

Entre las funciones de activación más populares, se incluyen las siguientes:

Las representaciones de las funciones de activación nunca son líneas rectas individuales. Por ejemplo, el trazado de la función de activación ReLU consta de dos líneas rectas:

Un diagrama cartesiano de dos líneas. La primera línea tiene un valor de y constante de 0, que se extiende a lo largo del eje x desde -infinity,0 hasta 0-0.
          La segunda línea comienza en 0,0. Esta línea tiene una pendiente de +1, por lo que va de 0,0 a +infinity,+infinity.

Un trazado de la función de activación sigmoidea tiene el siguiente aspecto:

Un diagrama curvo bidimensional con valores x que abarca el dominio -infinito hasta +positivo, mientras que los valores y abarcan el rango de 0 a casi 1. Cuando x es 0, y es 0.5. La pendiente de la curva siempre es positiva, con la pendiente más alta en 0.0.5 y las pendientes disminuyen gradualmente a medida que aumenta el valor absoluto de x.

inteligencia artificial

#fundamentals

Un programa o modelo no humano que pueda resolver tareas sofisticadas Por ejemplo, un programa o modelo que traduce texto o un programa o modelo que identifica enfermedades a partir de imágenes radiológicas exhiben inteligencia artificial.

De manera formal, el aprendizaje automático es un subcampo de la inteligencia artificial. Sin embargo, en los últimos años, algunas organizaciones comenzaron a usar los términos inteligencia artificial y aprendizaje automático indistintamente.

AUC (área bajo la curva ROC)

#fundamentals

Un número entre 0.0 y 1.0 que representa la capacidad de un modelo de clasificación binaria para separar clases positivas de clases negativas. Cuanto más cercano esté el AUC a 1.0, mejor será la capacidad del modelo de separar las clases entre sí.

Por ejemplo, en la siguiente ilustración, se muestra un modelo clasificador que separa a la perfección las clases positivas (óvalos verdes) de las negativas (rectángulos violetas). Este modelo casi realista tiene un AUC de 1.0:

Una línea numérica con 8 ejemplos positivos en un lado y 9 ejemplos negativos en el otro lado

Por el contrario, la siguiente ilustración muestra los resultados de un modelo clasificador que generó resultados aleatorios. Este modelo tiene un AUC de 0.5:

Una línea numérica con 6 ejemplos positivos y 6 ejemplos negativos
          La secuencia de ejemplos es positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa.

Sí, el modelo anterior tiene un AUC de 0.5, no de 0.0.

La mayoría de los modelos se encuentran entre los dos extremos. Por ejemplo, el siguiente modelo separa los positivos de los negativos y, por lo tanto, tiene un AUC entre 0.5 y 1.0:

Una línea numérica con 6 ejemplos positivos y 6 ejemplos negativos
          La secuencia de ejemplos es negativa, negativa, negativa, negativa, positiva, negativa, positiva, positiva, negativa, positiva, positiva, positiva.

El AUC ignora cualquier valor que establezcas para el umbral de clasificación. En cambio, el AUC considera todos los umbrales de clasificación posibles.

B

propagación inversa

#fundamentals

Algoritmo que implementa el descenso de gradientes en las redes neuronales.

El entrenamiento de una red neuronal implica muchas iteraciones del siguiente ciclo de dos pasos:

  1. Durante el pase directo, el sistema procesa un lote de ejemplos para generar predicciones. El sistema compara cada predicción con cada valor de label. La diferencia entre la predicción y el valor de la etiqueta es la pérdida de ese ejemplo. El sistema agrega las pérdidas de todos los ejemplos para calcular la pérdida total del lote actual.
  2. Durante el pase hacia atrás (propagación hacia atrás), el sistema ajusta la ponderación de todas las neuronas en todas las capas ocultas para reducir la pérdida.

Las redes neuronales a menudo contienen muchas neuronas en muchas capas ocultas. Cada una de esas neuronas contribuye a la pérdida general de diferentes maneras. La propagación inversa determina si se debe aumentar o disminuir las ponderaciones aplicadas a neuronas particulares.

La tasa de aprendizaje es un multiplicador que controla el grado en el que cada paso inverso aumenta o disminuye cada peso. Una tasa de aprendizaje grande aumentará o disminuirá cada peso más que una pequeña.

En términos de cálculo, la propagación inversa implementa el cálculo regla de la cadena. Es decir, la propagación inversa calcula la derivada parcial del error con respecto a cada parámetro. Para obtener más detalles, consulta este instructivo en el Curso intensivo de aprendizaje automático.

Hace años, los profesionales de AA tenían que escribir código para implementar la propagación inversa. Las API de AA modernas como TensorFlow ahora implementan la propagación inversa. ¡Vaya!

lote

#fundamentals

El conjunto de ejemplos usados en una iteración de entrenamiento. El tamaño del lote determina la cantidad de ejemplos en un lote.

Consulta epoch para obtener una explicación sobre cómo se relaciona un lote con una época.

tamaño del lote

#fundamentals

La cantidad de ejemplos de un lote Por ejemplo, si el tamaño del lote es 100, el modelo procesa 100 ejemplos por iteración.

Las siguientes son estrategias populares del tamaño del lote:

  • Descenso de gradientes estocástico (SGD), en el que el tamaño del lote es 1.
  • lote completo, en el que el tamaño del lote es la cantidad de ejemplos en todo el conjunto de entrenamiento. Por ejemplo, si el conjunto de entrenamiento contiene un millón de ejemplos, el tamaño del lote sería de un millón de ejemplos. El lote completo suele ser una estrategia ineficiente.
  • minilote en el que el tamaño del lote suele ser de entre 10 y 1,000. Por lo general, los minilotes son la estrategia más eficiente.

sesgo (ética/equidad)

#fairness
#fundamentals

1. Estereotipos, prejuicios o favoritismo sobre algunas cosas, personas o grupos por sobre otras. Estos sesgos pueden afectar la recopilación y la interpretación de datos, el diseño de un sistema y la forma en que los usuarios interactúan con él. Entre las formas de este tipo de sesgo, se incluyen las siguientes:

2. Error sistemático debido a un procedimiento de muestreo o de generación de informes Entre las formas de este tipo de sesgo, se incluyen las siguientes:

No debe confundirse con el término de ordenada al origen en los modelos de aprendizaje automático o el sesgo de predicción.

sesgo (matemática) o término de sesgo

#fundamentals

Intercepción o desplazamiento de un origen El sesgo es un parámetro en los modelos de aprendizaje automático, que se simboliza mediante una de las siguientes opciones:

  • b
  • s0

Por ejemplo, el sesgo es la b de la siguiente fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En una línea bidimensional, la ordenada al origen solo significa “intercepción Y”. Por ejemplo, el sesgo de la línea en la siguiente ilustración es 2.

Trazado de una línea con una pendiente de 0.5 y un sesgo (intersección y) de 2

El sesgo existe porque no todos los modelos comienzan desde el origen (0,0). Por ejemplo, supongamos que la entrada a un parque de atracciones cuesta 2 euros y 0.5 euros adicionales por cada hora que un cliente se queda. Por lo tanto, un modelo que asigna el costo total tiene un sesgo de 2 porque el costo más bajo es de 2 euros.

No se debe confundir sesgo con sesgo en ética y equidad ni sesgo de predicción.

clasificación binaria

#fundamentals

Un tipo de tarea de clasificación que predice una de las dos clases mutuamente excluyentes:

Por ejemplo, los siguientes dos modelos de aprendizaje automático realizan una clasificación binaria:

  • Un modelo que determina si los mensajes de correo electrónico son spam (la clase positiva) o no es spam (la clase negativa).
  • Modelo que evalúa los síntomas médicos para determinar si una persona tiene una enfermedad en particular (la clase positiva) o si no tiene esa enfermedad (la clase negativa).

Compara esto con la clasificación de clases múltiples.

Consulta también la regresión logística y el umbral de clasificación.

agrupamiento

#fundamentals

Convertir un solo atributo en varios atributos binarios, denominados depósitos o discretizaciones, por lo general, en función de un rango de valores El atributo picado suele ser un atributo continuo.

Por ejemplo, en lugar de representar la temperatura como un atributo continuo de punto flotante, podrías dividir los rangos de temperatura en depósitos discretos, como los siguientes:

  • <= 10 grados Celsius sería el balde & “frío”.
  • Entre 11 y 24 grados Celsius el balde se &templaría.
  • >= 25 grados Celsius sería el balde "&templado".

El modelo tratará todos los valores del mismo bucket de manera idéntica. Por ejemplo, los valores 13 y 22 están en el bucket templado, por lo que el modelo trata los dos valores de forma idéntica.

C

datos categóricos

#fundamentals

Atributos con un conjunto específico de valores posibles. Por ejemplo, considera un atributo categórico llamado traffic-light-state, que solo puede tener uno de los siguientes tres valores posibles:

  • red
  • yellow
  • green

Mediante la representación de traffic-light-state como un atributo categórico, un modelo puede aprender los diferentes impactos de red, green y yellow en el comportamiento del controlador.

Los atributos categóricos a veces se denominan atributos discretos.

Compara esto con los datos numéricos.

clase

#fundamentals

Es una categoría a la que puede pertenecer una etiqueta. Por ejemplo:

Un modelo de clasificación predice una clase. Por el contrario, un modelo de regresión predice un número en lugar de una clase.

modelo de clasificación

#fundamentals

Un modelo cuya predicción es una clase. Por ejemplo, los siguientes son todos los modelos de clasificación:

  • Un modelo que predice el idioma de una oración de entrada (francés? ¿Español? italiano?).
  • Un modelo que predice especies de árboles (Maple? ¿Roble? ¿Baobab?).
  • Modelo que predice la clase positiva o negativa de una afección médica en particular.

Por el contrario, los modelos de regresión predicen números en lugar de clases.

Los siguientes son dos tipos comunes de modelos de clasificación:

umbral de clasificación

#fundamentals

En una clasificación binaria, es un número entre 0 y 1 que convierte el resultado sin procesar de un modelo de regresión logística en una predicción de la clase positiva o la clase negativa. Ten en cuenta que el umbral de clasificación es un valor que elige una persona, no un valor elegido por el entrenamiento de modelos.

Un modelo de regresión logística genera un valor sin procesar entre 0 y 1. Luego, haga lo siguiente:

  • Si este valor sin procesar es mayor que el umbral de clasificación, se predice la clase positiva.
  • Si este valor sin procesar es inferior a el umbral de clasificación, se predice la clase negativa.

Por ejemplo, supongamos que el umbral de clasificación es 0.8. Si el valor sin procesar es 0.9, el modelo predice la clase positiva. Si el valor sin procesar es 0.7, el modelo predice la clase negativa.

La elección del umbral de clasificación influye fuertemente en la cantidad de falsos positivos y falsos negativos.

conjunto de datos de clase desequilibrada (class-imbalanced dataset)

#fundamentals

Un conjunto de datos para un problema de clasificación en el que la cantidad total de etiquetas de cada clase difiere significativamente. Por ejemplo, considera un conjunto de datos de clasificación binaria cuyas dos etiquetas se dividen de la siguiente manera:

  • 1,000,000 de etiquetas negativas
  • 10 etiquetas positivas

La proporción entre etiquetas negativas y positivas es de 100,000 a 1, por lo que este es un conjunto de datos desequilibrado.

Por el contrario, el siguiente conjunto de datos no está desequilibrado porque la proporción de etiquetas negativas respecto de las etiquetas positivas es relativamente cercana a 1:

  • 517 etiquetas negativas
  • 483 etiquetas positivas

Los conjuntos de datos de varias clases también pueden tener un desequilibrio de clases. Por ejemplo, el siguiente conjunto de datos de clasificación de clases múltiples también tiene un desequilibrio de clases porque una etiqueta tiene muchos más ejemplos que las otras dos:

  • 1,000,000 de etiquetas con verde "
  • 200 etiquetas con la clase "violeta"
  • 350 etiquetas con la clase "naranja"

Consulta también la entropía, la clase principal y la clase minoritaria.

recorte

#fundamentals

Técnica para manejar valores atípicos mediante una o ambas de las siguientes opciones:

  • Reducir los valores de feature que sean mayores que un umbral máximo hasta ese umbral máximo.
  • Aumentar los valores de atributos que sean inferiores a un umbral mínimo hasta ese límite mínimo

Por ejemplo, supongamos que el 0.5% de los valores de un atributo en particular están fuera del rango de 40 a 60. En este caso, puedes hacer lo siguiente:

  • Recorta todos los valores mayores que 60 (el límite máximo) para que sean exactamente 60.
  • Recorta todos los valores inferiores a 40 (el umbral mínimo) para que sean exactamente 40.

Los valores atípicos pueden dañar los modelos y, en ocasiones, causar que los pesos se desborden durante el entrenamiento. Algunos valores atípicos también pueden arruinar métricas, como la precisión. El recorte es una técnica común para limitar el daño.

El recorte de gradientes fuerza los valores de gradiente dentro de un rango designado durante el entrenamiento.

matriz de confusión

#fundamentals

Una tabla NxN que resume la cantidad de predicciones correctas e incorrectas que realizó un modelo de clasificación. Por ejemplo, considera la siguiente matriz de confusión para un modelo de clasificación binaria:

Tumor (predicho) No es tumor (predicho)
Tumor (verdad fundamental) 18 (VP) 1 (FP)
No es tumor (verdad fundamental) 6 (FN) 452 (VN)

La matriz de confusión anterior muestra lo siguiente:

  • De las 19 predicciones en las que la verdad fundamental fue Tumor, el modelo clasificó correctamente 18 como 1 de manera incorrecta.
  • De las 458 predicciones en las que la verdad fundamental era no tumoral, el modelo clasificó correctamente 452 como incorrecto 6.

La matriz de confusión de un problema de clasificación de clases múltiples puede ayudarte a identificar patrones de errores. Por ejemplo, considera la siguiente matriz de confusión para un modelo de clasificación de clases múltiples de 3 clases que categoriza tres tipos de iris diferentes (Virginia, Versicolor y Setosa). Cuando la verdad fundamental era virginica, la matriz de confusión muestra que el modelo tenía muchas más probabilidades de predecir erróneamente Versicolor que Setosa:

  Setosa (predicho) Versicolor (predicho) Virgen (predicho)
Setosa (verdad fundamental) 88 12 0
Versicolor (verdad fundamental) 6 141 7
Virgen (verdad fundamental) 2 27 109

Como otro ejemplo, una matriz de confusión podría revelar que un modelo entrenado para reconocer dígitos escritos a mano tiende a predecir de manera incorrecta 9 en lugar de 4, o predecir de manera incorrecta 1 en lugar de 7.

Las matrices de confusión contienen información suficiente para calcular una variedad de métricas de rendimiento, incluidas la precisión y la recuperación.

atributo continuo

#fundamentals

Atributo de punto flotante con un rango infinito de valores posibles, como la temperatura o el peso.

Compara esto con el atributo discreto.

convergencia

#fundamentals

Un estado que se alcanza cuando los valores de loss cambian muy poco o nada con cada iteración. Por ejemplo, la siguiente curva de pérdida sugiere convergencia en alrededor de 700 iteraciones:

Trazado cartesiano. El eje X es pérdida. El eje Y es la cantidad de iteraciones de entrenamiento. La pérdida es muy alta durante las primeras iteraciones, pero se reduce considerablemente. Después de unas 100 iteraciones, la pérdida es descendente, pero mucho más gradual. Después de unas 700 iteraciones, la pérdida se mantiene plana.

Un modelo convergece cuando el entrenamiento adicional no mejorará el modelo.

En el aprendizaje profundo, los valores de pérdida a veces permanecen constantes o casi constantes durante muchas iteraciones antes de bajar de forma definitiva. Durante un largo período de valores de pérdidas constantes, puedes obtener temporalmente una falsa sensación de convergencia.

Consulta también interrupción anticipada.

D

DataFrame

#fundamentals

Un tipo de datos popular de Pandas para representar conjuntos de datos en la memoria

Un DataFrame es análogo a una tabla o una hoja de cálculo. Cada columna de un DataFrame tiene un nombre (un encabezado) y cada fila se identifica con un número único.

Cada columna de un DataFrame está estructurada como un arreglo 2D, excepto que a cada columna se le puede asignar su propio tipo de datos.

Consulta también la página de referencia oficial de Pandas.DataFrame.

conjunto de datos o conjunto de datos

#fundamentals

Una colección de datos sin procesar, comúnmente (pero no exclusivamente) organizada en uno de los siguientes formatos:

  • una hoja de cálculo
  • un archivo en formato CSV (valores separados por comas)

modelo profundo (deep model)

#fundamentals

Una red neuronal que contiene más de una capa oculta.

Un modelo profundo también se denomina red neuronal profunda.

Compara esto con el modelo amplio.

atributo denso

#fundamentals

Atributo en el que la mayoría o todos los valores son distintos de cero, generalmente un tensor de valores de punto flotante. Por ejemplo, el siguiente tensor de 10 elementos es denso porque 9 de sus valores no son cero:

8 3 7 5 2 4 0 4 9 6

Compara esto con el atributo disperso.

depth

#fundamentals

La suma de los siguientes elementos en una red neuronal:

Por ejemplo, una red neuronal con cinco capas ocultas y una capa de salida tiene una profundidad de 6.

Ten en cuenta que la capa de entrada no influye en la profundidad.

atributo discreto

#fundamentals

Atributo con un conjunto finito de valores posibles. Por ejemplo, un atributo cuyos valores solo pueden ser animal, vegetal o mineral es un atributo discreto (o categórico).

Compara esto con el atributo continuo.

dinámico

#fundamentals

Algo que se hace con frecuencia o continuamente Los términos dinámico y en línea son sinónimos del aprendizaje automático. Los siguientes son usos comunes de dinámico y en línea en el aprendizaje automático:

  • Un modelo dinámico (o modelo en línea) es un modelo que se vuelve a entrenar con frecuencia o de forma continua.
  • El entrenamiento dinámico (o entrenamiento en línea) es el proceso de entrenamiento con frecuencia o de forma continua.
  • La inferencia dinámica (o inferencia en línea) es el proceso de generar predicciones a pedido.

modelo dinámico

#fundamentals

Modelo que se vuelve a entrenar con frecuencia (incluso de forma continua). Un modelo dinámico es un “aprendizaje permanente” que se adapta constantemente a los datos en constante evolución. Un modelo dinámico también se conoce como modelo en línea.

Compara esto con el modelo estático.

E

interrupción anticipada

#fundamentals

Método de regularización que implica finalizar el entrenamiento antes de que la pérdida de entrenamiento termine de disminuir. En la interrupción anticipada, dejas de entrenar el modelo de forma intencional cuando la pérdida en un conjunto de datos de validación comienza a aumentar, es decir, cuando el rendimiento de la generalización empeora.

capa de incorporación

#language
#fundamentals

Una capa oculta especial que se entrena con un atributo categórico de alta dimensión para aprender de forma gradual un vector de incorporación de menor dimensión. Una capa de incorporación permite que una red neuronal entrene con mucha más eficacia que el entrenamiento solo en el atributo categórico de dimensiones altas.

Por ejemplo, la Tierra actualmente admite unas 73,000 especies de árboles. Supongamos que las especies de árboles son un atributo en el modelo, por lo que la capa de entrada del modelo incluye un vector one-hot de 73,000 elementos. Por ejemplo, tal vez baobab se represente de la siguiente manera:

Un arreglo de 73,000 elementos. Los primeros 6,232 elementos contienen el valor 0. El siguiente elemento contiene el valor 1. Los 66,767 elementos finales tienen el valor cero.

Un arreglo de 73,000 elementos es muy largo. Si no agregas una capa de incorporación al modelo, el entrenamiento llevará mucho tiempo debido a la multiplicación de 72,999 ceros. Quizás elijas la capa de incorporación de 12 dimensiones. En consecuencia, la capa de incorporación aprenderá gradualmente un nuevo vector de incorporación para cada especie de árbol.

En ciertas situaciones, el hashing es una alternativa razonable a una capa de incorporación.

época

#fundamentals

Un pase de entrenamiento completo en todo el conjunto de entrenamiento, de modo que cada ejemplo se procese una vez

Un ciclo de entrenamiento representa el entrenamiento de N/tamaños de lotes iteraciones, en el que N es la cantidad total de ejemplos.

Por ejemplo, supongamos lo siguiente:

  • El conjunto de datos consta de 1,000 ejemplos.
  • El tamaño del lote es de 50 ejemplos.

Por lo tanto, un ciclo de entrenamiento único requiere 20 iteraciones:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

ejemplo

#fundamentals

Los valores de una fila de atributos y, posiblemente, una etiqueta. Los ejemplos del aprendizaje supervisado se dividen en dos categorías generales:

  • Un ejemplo etiquetado consta de uno o más atributos y una etiqueta. Los ejemplos etiquetados se usan durante el entrenamiento.
  • Un ejemplo sin etiqueta consta de uno o más atributos, pero no de etiquetas. Los ejemplos sin etiqueta se usan durante la inferencia.

Por ejemplo, supongamos que entrenas un modelo para determinar la influencia de las condiciones climáticas en las puntuaciones de los exámenes de los alumnos. Estos son tres ejemplos etiquetados:

Funciones Etiqueta
Temperatura Humedad Presión Puntuación de prueba
15 47 998 Buena
19 34 1020 Excelente
18 92 1012 Deficiente

Estos son tres ejemplos sin etiqueta:

Temperatura Humedad Presión  
12 62 1014  
21 47 1017  
19 41 1021  

Por lo general, la fila de un conjunto de datos es la fuente sin procesar de un ejemplo. Es decir, un ejemplo generalmente consiste en un subconjunto de columnas en el conjunto de datos. Además, los atributos de un ejemplo también pueden incluir atributos sintéticos, como combinaciones de atributos.

F

falso negativo (FN, false negative)

#fundamentals

Ejemplo en el que el modelo predice la clase negativa por error. Por ejemplo, el modelo predice que un mensaje de correo electrónico en particular no es spam (la clase negativa), pero ese mensaje de correo electrónico en realidad es spam.

falso positivo (FP)

#fundamentals

Ejemplo en el que el modelo predice la clase positiva por error. Por ejemplo, el modelo predice que un mensaje de correo electrónico en particular es spam (la clase positiva), pero ese mensaje de correo electrónico en realidad no es spam.

tasa de falsos positivos (FPR)

#fundamentals

La proporción de ejemplos negativos reales para los que el modelo predijo por error la clase positiva. La siguiente fórmula calcula la tasa de falsos positivos:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

La tasa de falsos positivos es el eje X en una curva ROC.

función

#fundamentals

Una variable de entrada para un modelo de aprendizaje automático. Un ejemplo consta de una o más funciones. Por ejemplo, supongamos que entrenas un modelo para determinar la influencia de las condiciones climáticas en las puntuaciones de los exámenes de los alumnos. En la siguiente tabla, se muestran tres ejemplos, cada uno de los cuales contiene tres atributos y una etiqueta:

Funciones Etiqueta
Temperatura Humedad Presión Puntuación de prueba
15 47 998 92
19 34 1020 84
18 92 1012 87

Compara esto con label.

combinación de atributos

#fundamentals

Atributo sintético formado por atributos categóricos o agrupados.

Por ejemplo, considera un modelo de "previsión del estado de ánimo" que represente la temperatura en uno de los siguientes cuatro depósitos:

  • freezing
  • chilly
  • temperate
  • warm

Y representa la velocidad del viento en uno de los siguientes tres grupos:

  • still
  • light
  • windy

Sin las combinaciones de atributos, el modelo lineal se entrena de forma independiente en cada uno de los siete depósitos anteriores. Por lo tanto, el modelo se entrena en freezing, por ejemplo, sin importar el entrenamiento, en windy.

Como alternativa, puedes crear una combinación de temperatura y velocidad del viento. Esta característica sintética tendría los siguientes 12 valores posibles:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Gracias a las combinaciones de atributos, el modelo puede aprender diferencias de estado de ánimo entre un freezing-windy y un día de freezing-still.

Si creas un atributo sintético a partir de dos atributos que tienen muchos depósitos diferentes, la combinación de atributos resultante tendrá una gran cantidad de combinaciones posibles. Por ejemplo, si un atributo tiene 1,000 buckets y el otro tiene 2,000 buckets, la combinación de atributos resultante tendrá 2,000,000 buckets.

De manera formal, una combinación es un producto cartesiano.

Las combinaciones de atributos se usan principalmente con modelos lineales y rara vez se usan con redes neuronales.

ingeniería de atributos

#fundamentals
#TensorFlow

Un proceso que implica los siguientes pasos:

  1. Determinar qué atributos podría ser útil para entrenar un modelo
  2. Convertir los datos sin procesar del conjunto de datos en versiones eficientes de esos atributos

Por ejemplo, puedes determinar que temperature podría ser una función útil. Luego, podrías experimentar con el agrupamiento para optimizar lo que el modelo puede aprender de diferentes rangos temperature.

En algunas ocasiones, la ingeniería de atributos se denomina extracción de atributos.

conjunto de atributos (feature set)

#fundamentals

El grupo de características con el que se entrena el modelo de aprendizaje automático. Por ejemplo, el código postal, el tamaño de la propiedad y el estado de la propiedad pueden constituir un conjunto de atributos simples para un modelo que predice los precios de la vivienda.

vector de atributos

#fundamentals

El arreglo de valores de feature que comprende un ejemplo. El vector de atributos se ingresa durante el entrenamiento y durante la inferencia. Por ejemplo, el vector de atributos de un modelo con dos atributos discretos podría ser el siguiente:

[0.92, 0.56]

Cuatro capas: una capa de entrada, dos capas ocultas y una capa de salida.
          La capa de entrada contiene dos nodos, uno que contiene el valor 0.92 y el otro, el valor 0.56.

Cada ejemplo proporciona valores diferentes para el vector de atributos, por lo que el vector de atributos del siguiente ejemplo podría ser similar al siguiente:

[0.73, 0.49]

La ingeniería de atributos determina cómo representar atributos en el vector de atributos. Por ejemplo, un atributo categórico binario con cinco valores posibles podría representarse con codificación one-hot. En este caso, la parte del vector de atributos para un ejemplo en particular constaría de cuatro ceros y un solo 1.0 en la tercera posición, de la siguiente manera:

[0.0, 0.0, 1.0, 0.0, 0.0]

Como otro ejemplo, supongamos que tu modelo consta de tres atributos:

  • un atributo categórico binario con cinco valores posibles representados con codificación one-hot; por ejemplo: [0.0, 1.0, 0.0, 0.0, 0.0]
  • otro atributo categórico binario con tres valores posibles representados con codificación one-hot; por ejemplo: [0.0, 0.0, 1.0]
  • Una función de punto flotante; por ejemplo: 8.3.

En este caso, el vector de atributos de cada ejemplo estaría representado por nueve valores. Dados los valores de ejemplo de la lista anterior, el vector de atributos sería:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

ciclo de reacción

#fundamentals

En el aprendizaje automático, una situación en la que las predicciones de un modelo influyen en los datos de entrenamiento para el mismo modelo o para otro modelo. Por ejemplo, un modelo que recomienda películas influirá en las películas que ven las personas y, luego, influirá en los modelos de recomendación de películas posteriores.

G

generalización

#fundamentals

Capacidad de modelo de realizar predicciones correctas sobre datos nuevos nunca antes vistos. Un modelo que puede generalizar es lo opuesto a un modelo que está sobreajustado.

curva de generalización

#fundamentals

Un gráfico de pérdida de entrenamiento y pérdida de validación como una función de la cantidad de iteraciones

Una curva de generalización puede ayudarte a detectar un sobreajuste posible. Por ejemplo, la siguiente curva de generalización sugiere un sobreajuste porque, en última instancia, la pérdida de validación se vuelve significativamente mayor que la pérdida de entrenamiento.

Un gráfico cartesiano en el que el eje &quot;y&quot; se etiqueta como &quot;pérdida&quot; y el eje &quot;x&quot; se etiqueta como &quot;iteraciones&quot;. Aparecerán dos trazados. Un trazado muestra la pérdida de entrenamiento y la otra muestra la pérdida de validación.
          Los dos trazados comienzan de manera similar, pero la pérdida de entrenamiento finalmente disminuye mucho más que la pérdida de validación.

descenso de gradientes

#fundamentals

Técnica matemática para minimizar la pérdida. El descenso de gradientes ajusta de forma iterativa pesos y sesgos, y encuentra de forma gradual la mejor combinación para minimizar la pérdida.

El descenso de gradientes es más antiguo que el aprendizaje automático.

verdad fundamental

#fundamentals

Realidad.

Algo que realmente ocurrió.

Por ejemplo, considera un modelo de clasificación binaria que predice si un estudiante en su primer año de universidad se graduará en seis años. La verdad fundamental de este modelo es si el estudiante se graduó o no en seis años.

H

capa oculta

#fundamentals

Una capa en una red neuronal entre la capa de entrada (las funciones) y la capa de salida (la predicción). Cada capa oculta consiste en una o más neuronas. Por ejemplo, la siguiente red neuronal contiene dos capas ocultas, la primera con tres neuronas y la segunda con dos neuronas:

Cuatro capas. La primera capa es una capa de entrada que contiene dos atributos. La segunda capa es una capa oculta que contiene tres neuronas. La tercera capa es una capa oculta que contiene dos neuronas. La cuarta capa es una capa de salida. Cada característica contiene tres bordes, cada uno de los cuales apunta a una neurona diferente en la segunda capa. Cada una de las neuronas de la segunda capa contiene dos bordes, y cada uno apunta a una neurona diferente en la tercera capa. Cada una de las neuronas de la tercera capa contiene un borde, que apunta a la capa de salida.

Una red neuronal profunda contiene más de una capa oculta. Por ejemplo, la ilustración anterior es una red neuronal profunda porque el modelo contiene dos capas ocultas.

hiperparámetro

#fundamentals

Las variables que tú o un servicio de ajuste de hiperparámetrosdurante las sucesivas ejecuciones de entrenamiento de un modelo Por ejemplo, la tasa de aprendizaje es un hiperparámetro. Puedes establecer la tasa de aprendizaje en 0.01 antes de una sesión de entrenamiento. Si determinas que 0.01 es demasiado alto, quizás puedas establecer la tasa de aprendizaje en 0.003 para la siguiente sesión de entrenamiento.

Por el contrario, los parámetros son los diversos pesos y sesgos que el modelo aprende durante el entrenamiento.

I

de manera independiente e idéntica (es decir,

#fundamentals

Los datos extraídos de una distribución que no cambia y los valores dibujados no dependen de los valores que se hayan extraído anteriormente. Un i.d. es el gas ideal del aprendizaje automático; es una construcción matemática útil, pero casi nunca se encuentra exactamente en el mundo real. Por ejemplo, la distribución de los visitantes de una página web puede ser "i.i.d." en un período breve; es decir, la distribución no cambia durante ese breve período, y la visita de una persona suele ser independiente de la visita de otra persona. Sin embargo, si expandes ese período, es posible que aparezcan diferencias estacionales en los visitantes de la página web.

Consulta también la información sobre nonstationarity.

inferencia

#fundamentals

En el aprendizaje automático, el proceso de realizar predicciones mediante la aplicación de un modelo entrenado a los ejemplos sin etiqueta.

La inferencia tiene un significado un tanto diferente en las estadísticas. Consulta el artículo de Wikipedia sobre inferencia estadística para obtener más detalles.

capa de entrada

#fundamentals

La capa de una red neuronal que contiene el vector de atributos. Es decir, la capa de entrada proporciona ejemplos para el entrenamiento o la inferencia. Por ejemplo, la capa de entrada en la siguiente red neuronal consta de dos atributos:

Cuatro capas: una capa de entrada, dos capas ocultas y una capa de salida.

interpretabilidad

#fundamentals

La capacidad de explicar o presentar a un humano el razonamiento de un modelo de AA en términos comprensibles

La mayoría de los modelos de regresión lineal, por ejemplo, son muy interpretables. (Solo debes ver los pesos entrenados para cada atributo). Los bosques de decisión también son muy interpretables. Sin embargo, algunos modelos requieren visualización sofisticada para ser interpretable.

iteración

#fundamentals

Una sola actualización de los parámetros de un modelo (los pesos y los sesgos del modelo) durante el entrenamiento El tamaño del lote determina cuántos ejemplos procesa el modelo en una sola iteración. Por ejemplo, si el tamaño del lote es 20, el modelo procesa 20 ejemplos antes de ajustar los parámetros.

Cuando se entrena una red neuronal, una sola iteración implica los siguientes dos pases:

  1. Un avance para evaluar la pérdida en un solo lote
  2. Un pase inverso (propagación inversa) para ajustar los parámetros del modelo en función de la pérdida y la tasa de aprendizaje

L

Regularización L0

#fundamentals

Tipo de regularización que penaliza la cantidad total de pesos distintos de cero en un modelo. Por ejemplo, un modelo con 11 pesos que no sean cero se penalizaría más que un modelo similar con 10 pesos diferentes.

La regularización L0 rara vez se usa.

pérdida L1 (L1 loss)

#fundamentals

Función de pérdida que calcula el valor absoluto de la diferencia entre los valores reales de la etiqueta y los valores que predice un modelo. Por ejemplo, aquí se muestra el cálculo de la pérdida L1 para un lote de cinco ejemplos:

Valor real del ejemplo Valor previsto del modelo Valor absoluto de delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = Pérdida L1

La pérdida L1 es menos sensible a los valores atípicos que la pérdidaL.

El error absoluto medio es la pérdida promedio de L1 por ejemplo.

Regularización L1

#fundamentals

Tipo de regularización que penaliza los pesos en proporción a la suma del valor absoluto de los pesos. La regularización L1 ayuda a llevar los pesos de los atributos irrelevantes o escasamente relevantes a exactamente 0. Un atributo con un peso de 0 se quita efectivamente del modelo.

Compara esto con la regularización L2.

Pérdida L2

#fundamentals

Función de pérdida que calcula el cuadrado de la diferencia entre los valores reales de la etiqueta y los valores que predice un modelo. Por ejemplo, aquí se muestra el cálculo de la pérdida L2 para un lote de cinco ejemplos:

Valor real del ejemplo Valor previsto del modelo Cuadrado delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = Pérdida L2

Debido al cuadrado, la pérdida L2 amplifica la influencia de los valores atípicos. Es decir, la2pérdida reacciona más fuerte a las predicciones erróneas que la p1pérdida. Por ejemplo, la pérdida L1 para el lote anterior sería 8 en lugar de 16. Ten en cuenta que un único valor atípico representa 9 de los 16.

Los modelos de regresión suelen usar la pérdida L2 como función de pérdida.

El error cuadrático medio es la pérdida promedio de L2 por ejemplo. Pérdida al cuadrado es otro nombre para la pérdida L2.

Regularización L2

#fundamentals

Tipo de regularización que penaliza los pesos en proporción a la suma de los cuadrados de los pesos. La regularización L2 ayuda a llevar los pesos atípicos (aquellos con valores negativos bajos o positivos altos) a 0, pero no exactamente a 0. Los atributos con valores muy cercanos a 0 permanecen en el modelo, pero no influyen mucho en la predicción del modelo.

La regularización L2 siempre mejora la generalización en modelos lineales.

Compara esto con la regularización L1.

label

#fundamentals

En el aprendizaje automático supervisado, la parte “answer” o el “resultado” de un ejemplo.

Cada ejemplo etiquetado consta de uno o más atributos y una etiqueta. Por ejemplo, en un conjunto de datos de detección de spam, la etiqueta probablemente sería “spam” o “no es spam”. En un conjunto de datos de lluvia, la etiqueta puede ser la cantidad de lluvia que cayó durante un período determinado.

ejemplo etiquetado

#fundamentals

Un ejemplo que contiene una o más características y una etiqueta. Por ejemplo, en la siguiente tabla, se muestran tres ejemplos etiquetados de un modelo de valoración de casas, cada uno con tres atributos y una etiqueta:

Cantidad de dormitorios Cantidad de baños Edad de la casa Precio de la casa (etiqueta)
3 2 15 USD 345,000
2 1 72 USD 179,000
4 2 34 USD 392,000

En el aprendizaje automático supervisado, los modelos se entrenan con ejemplos etiquetados y realizan predicciones en ejemplos sin etiqueta.

Comparar el ejemplo etiquetado con ejemplos sin etiqueta

Lambda

#fundamentals

Sinónimo de tasa de regularización.

Lambda es un término sobrecargado. Aquí nos centramos en la definición del término dentro de la regularización.

layer

#fundamentals

Un conjunto de neuronas en una red neuronal. Hay tres tipos comunes de capas:

Por ejemplo, en la siguiente ilustración, se muestra una red neuronal con una capa de entrada, dos capas ocultas y una capa de salida:

Una red neuronal con una capa de entrada, dos capas ocultas y una capa de salida La capa de entrada consta de dos funciones. La primera capa oculta consiste en tres neuronas y la segunda capa oculta consta de dos neuronas. La capa de salida consta de un solo nodo.

En TensorFlow, las capas también son funciones de Python que toman tensores y opciones de configuración como entrada y producen otros tensores como resultado.

tasa de aprendizaje

#fundamentals

Número de punto flotante que indica al algoritmo de descenso de gradientes qué tan fuerte debe ajustar los pesos y los sesgos en cada iteración. Por ejemplo, una tasa de aprendizaje de 0.3 ajustaría los pesos y los sesgos tres veces más fuerte que una tasa de aprendizaje de 0.1.

La tasa de aprendizaje es un hiperparámetro clave. Si estableces una tasa de aprendizaje muy baja, el entrenamiento tardará demasiado. Si configuras una tasa de aprendizaje demasiado alta, el descenso de gradientes suele tener problemas para alcanzar la convergencia.

modelo lineal

#fundamentals

Un modelo que asigna un peso por atributo para realizar predicciones. (Los modelos lineales también incorporan un sesgo). Por el contrario, la relación de los atributos con las predicciones en modelos profundos suele ser no lineal.

Por lo general, los modelos lineales son más fáciles de entrenar y más interpretables que los profundos. Sin embargo, los modelos profundos pueden aprender relaciones complejas entre atributos.

La regresión lineal y la regresión logística son dos tipos de modelos lineales.

linear

#fundamentals

Una relación entre dos o más variables que se pueden representar solo a través de la suma y la multiplicación.

La representación lineal de una relación es una línea.

Compara esto con no lineales.

regresión lineal (regresion lineal)

#fundamentals

Tipo de modelo de aprendizaje automático en el que se cumplen las siguientes condiciones:

  • El modelo es un modelo lineal.
  • La predicción es un valor de punto flotante. Esta es la parte de la regresión de la regresión lineal.

Compara la regresión lineal con la regresión logística. Además, contraste la regresión con la clasificación.

regresión logística

#fundamentals

Tipo de modelo de regresión que predice una probabilidad. Los modelos de regresión logística tienen las siguientes características:

  • La etiqueta es categórica. El término regresión logística suele hacer referencia a la regresión logística binaria, es decir, a un modelo que calcula probabilidades para etiquetas con dos valores posibles. Una variante menos común, la regresión logística multinomial, calcula las probabilidades para las etiquetas con más de dos valores posibles.
  • La función de pérdida durante el entrenamiento es la Pérdida logística. (Se pueden colocar varias unidades de pérdida logística en paralelo para las etiquetas con más de dos valores posibles).
  • El modelo tiene una arquitectura lineal, no una red neuronal profunda. Sin embargo, el resto de esta definición también se aplica a modelos profundos que predicen probabilidades para etiquetas categóricas.

Por ejemplo, considera un modelo de regresión logística que calcula la probabilidad de que un correo electrónico de entrada sea spam o no es spam. Durante la inferencia, supongamos que el modelo predice 0.72. Por lo tanto, el modelo estima:

  • Una probabilidad del 72% de que el correo electrónico sea spam
  • Una probabilidad del 28% de que el correo electrónico no sea spam

Un modelo de regresión logística usa la siguiente arquitectura de dos pasos:

  1. El modelo genera una predicción sin procesar (y #39;) mediante la aplicación de una función lineal de atributos de entrada.
  2. El modelo usa esa predicción sin procesar como entrada para una función sigmoidea, que convierte la predicción sin procesar en un valor entre 0 y 1, exclusivo.

Como cualquier modelo de regresión, un modelo de regresión logística predice un número. Sin embargo, este número suele formar parte de un modelo de clasificación binaria de la siguiente manera:

  • Si el número predicho es mayor que el umbral de clasificación, el modelo de clasificación binaria predice la clase positiva.
  • Si el número predicho es menor que el umbral de clasificación, el modelo de clasificación binaria predice la clase negativa.

Pérdida logística

#fundamentals

La función de pérdida que se usa en la regresión logística binaria.

probabilidad de log

#fundamentals

Logaritmo de las probabilidades de que ocurra algún evento

pérdida

#fundamentals

Durante el entrenamiento de un modelo supervisado, es una medida que indica qué tan lejos está la predicción de un modelo a partir de su etiqueta.

Una función de pérdida calcula la pérdida.

curva de pérdida

#fundamentals

Un gráfico de pérdida en función de la cantidad de iteraciones de entrenamiento En el siguiente gráfico, se muestra una curva de pérdida típica:

Un gráfico cartesiano de pérdida frente a iteraciones de entrenamiento, que muestra una caída rápida en la pérdida para las iteraciones iniciales, seguida de una disminución gradual y, luego, una pendiente plana durante las iteraciones finales.

Las curvas de pérdida pueden ayudarte a determinar cuándo tu modelo está convergando o sobreajustado.

Las curvas de pérdida pueden representar todos los siguientes tipos de pérdida:

Consulta también la curva de generalización.

función de pérdida (loss function)

#fundamentals

Durante el entrenamiento o las pruebas, es una función matemática que calcula la pérdida en un lote de ejemplos. Una función de pérdida muestra una pérdida más baja para los modelos que realizan buenas predicciones que para los modelos que hacen predicciones incorrectas.

El objetivo del entrenamiento suele ser minimizar la pérdida que muestra una función de pérdida.

Existen muchos tipos diferentes de funciones de pérdida. Elige la función de pérdida adecuada para el tipo de modelo que estás compilando. Por ejemplo:

M

aprendizaje automático

#fundamentals

Un programa o sistema que entrena un modelo a partir de datos de entrada. El modelo entrenado puede realizar predicciones útiles a partir de datos nuevos (nunca antes vistos) obtenidos de la misma distribución que la que se usó para entrenar el modelo.

El aprendizaje automático también se refiere al campo de estudio relacionado con estos programas o sistemas.

clase mayoritaria

#fundamentals

Etiqueta más común en un conjunto de datos con desequilibrio de clases. Por ejemplo, dado un conjunto de datos que contiene 99% de etiquetas negativas y 1% de etiquetas positivas, las etiquetas negativas son la clase mayoritaria.

Compara esto con la clase minoritaria.

minilote

#fundamentals

Subconjunto pequeño seleccionado al azar de un lote procesado en una iteración. El tamaño del lote de un minilote suele tener entre 10 y 1,000 ejemplos.

Por ejemplo, supongamos que todo el conjunto de entrenamiento (el lote completo) consta de 1,000 ejemplos. Además, supongamos que estableces el tamaño del lote de cada minilote en 20. Por lo tanto, cada iteración determina la pérdida en un 20 aleatorio de los 1,000 ejemplos y, luego, ajusta los pesos y los sesgos según corresponda.

Es mucho más eficiente calcular la pérdida en un minilote que la pérdida en todos los ejemplos del lote completo.

clase minoritaria

#fundamentals

Etiqueta menos común en un conjunto de datos con desequilibrio de clases. Por ejemplo, dado un conjunto de datos que contiene 99% de etiquetas negativas y 1% de etiquetas positivas, las etiquetas positivas son la clase minoritaria.

Compara esto con la clase principal.

modelo

#fundamentals

En general, cualquier construcción matemática que procese datos de entrada y muestre resultados En frases diferentes, un modelo es el conjunto de parámetros y estructura necesarios para que un sistema haga predicciones. En el aprendizaje automático supervisado, un modelo toma un ejemplo como entrada y, luego, infiere una predicción como salida. Dentro del aprendizaje automático supervisado, los modelos difieren un poco. Por ejemplo:

  • Un modelo de regresión lineal consiste en un conjunto de pesos y un sesgo.
  • Un modelo de red neuronal consta de lo siguiente:
    • Un conjunto de capas ocultas, cada una de las cuales contiene una o más neuronas.
    • Pesos y sesgos asociados a cada neurona.
  • Un modelo de árbol de decisión consta de los siguientes elementos:
    • Forma del árbol, es decir, el patrón en el que se conectan las condiciones y las hojas.
    • Las condiciones y las salidas.

Puedes guardar, restablecer o hacer copias de un modelo.

El aprendizaje automático no supervisado también genera modelos, por lo general, una función que puede asignar un ejemplo de entrada al clúster más adecuado.

clasificación de clases múltiples

#fundamentals

En el aprendizaje supervisado, es un problema de clasificación en el que el conjunto de datos contiene más de dos clases de etiquetas. Por ejemplo, las etiquetas del conjunto de datos Iris deben ser una de las siguientes tres clases:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Un modelo entrenado en el conjunto de datos Iris que predice el tipo Iris en ejemplos nuevos está realizando una clasificación de clases múltiples.

En cambio, los problemas de clasificación que distinguen exactamente dos clases son los modelos de clasificación binaria. Por ejemplo, un modelo de correo electrónico que predice spam o no spam es un modelo de clasificación binaria.

En los problemas de agrupamiento en clústeres, la clasificación de clases múltiples hace referencia a más de dos clústeres.

N

clase negativa

#fundamentals

En la clasificación binaria, una clase se denomina positiva y la otra se considera negativa. La clase positiva es la cosa o el evento que el modelo prueba, y la clase negativa es la otra posibilidad. Por ejemplo:

  • La clase negativa en un examen médico puede ser "no es un tumor".
  • La clase negativa en un clasificador de correo electrónico puede ser "no spam".

Compara esto con las clases positivas.

red neuronal

#fundamentals

Un modelo que contiene al menos una capa oculta. Una red neuronal profunda es un tipo de red neuronal que contiene más de una capa oculta. Por ejemplo, en el siguiente diagrama, se muestra una red neuronal profunda que contiene dos capas ocultas.

Una red neuronal con una capa de entrada, dos capas ocultas y una capa de salida

Cada neurona en una red neuronal se conecta a todos los nodos de la siguiente capa. Por ejemplo, en el diagrama anterior, observa que cada una de las tres neuronas de la primera capa oculta se conecta por separado a las dos neuronas de la segunda capa oculta.

Las redes neuronales implementadas en computadoras a veces se denominan redes neuronales artificiales para diferenciarlas de las redes neuronales que se encuentran en los cerebros y otros sistemas nerviosos.

Algunas redes neuronales pueden imitar relaciones no lineales extremadamente complejas entre diferentes atributos y la etiqueta.

Consulta también la red neuronal convolucional y la red neuronal recurrente.

neurona

#fundamentals

En el aprendizaje automático, es una unidad distinta dentro de una capa oculta de una red neuronal. Cada neurona realiza la siguiente acción en dos pasos:

  1. Calcula la suma ponderada de los valores de entrada multiplicada por sus pesos correspondientes.
  2. Pasa la suma ponderada como entrada a una función de activación.

Una neurona en la primera capa oculta acepta entradas de los valores de atributos en la capa de entrada. Una neurona en cualquier capa oculta más allá de la primera acepta entradas de las neuronas en la capa oculta anterior. Por ejemplo, una neurona en la segunda capa oculta acepta entradas de las neuronas en la primera capa oculta.

En la siguiente ilustración, se destacan dos neuronas y sus entradas.

Una red neuronal con una capa de entrada, dos capas ocultas y una capa de salida Se destacan dos neuronas: una en la primera capa oculta y una en la segunda capa oculta. La neurona destacada en la primera capa oculta recibe entradas de ambos atributos en la capa de entrada. La neurona destacada en la segunda capa oculta recibe entradas de cada una de las tres neuronas de la primera capa oculta.

Una neurona en una red neuronal imita el comportamiento de las neuronas en los cerebros y otras partes del sistema nervioso.

nodo (red neuronal)

#fundamentals

Una neurona en una capa oculta

no lineal

#fundamentals

Relación entre dos o más variables que no se pueden representar solo mediante la suma y la multiplicación. Una relación lineal se puede representar como una línea; una relación no lineal no se puede representar como una línea. Por ejemplo, considera dos modelos que relacionan cada atributo con una sola etiqueta. El modelo de la izquierda es lineal y el de la derecha no es lineal:

Dos trazados. Un gráfico es una línea, por lo que es una relación lineal.
          La otra representación es una curva, por lo que es una relación no lineal.

no estacionario/no estacionaria

#fundamentals

Una característica cuyos valores cambian en una o más dimensiones, generalmente tiempo. Por ejemplo, considera los siguientes ejemplos de no estacionar:

  • La cantidad de trajes de baño que se venden en una tienda en particular varía según la temporada.
  • La cantidad de una fruta en particular que se cosecha en una región en particular es cero durante gran parte del año, pero es grande durante un período breve.
  • Debido al cambio climático, las temperaturas anuales promedio están cambiando.

Compara esto con la estacionaria.

normalización (normalization)

#fundamentals

En términos generales, el proceso de convertir un rango de valores real de una variable en un rango estándar, como se muestra a continuación:

  • De -1 a +1
  • 0 a 1
  • la distribución normal

Por ejemplo, supongamos que el rango real de valores de un atributo determinado es de 800 a 2,400. Como parte de la ingeniería de atributos, puedes normalizar los valores reales hasta un rango estándar, como de -1 a +1.

La normalización es una tarea común en la ingeniería de atributos. Por lo general, los modelos se entrenan más rápido (y producen mejores predicciones) cuando cada atributo numérico del vector de atributos tiene aproximadamente el mismo rango.

datos numéricos

#fundamentals

Atributos representados como números enteros o de valores reales. Por ejemplo, un modelo de valoración de una casa probablemente representaría el tamaño de una casa (en pies cuadrados o metros cuadrados) como datos numéricos. La representación de un atributo como datos numéricos indica que los valores del atributo tienen una relación matemática con la etiqueta. Es decir, la cantidad de metros cuadrados en una casa probablemente tenga alguna relación matemática con el valor de la casa.

No todos los datos de números enteros deben representarse como datos numéricos. Por ejemplo, los códigos postales en algunas partes del mundo son números enteros; sin embargo, los códigos postales no deben representarse como datos numéricos en los modelos. Eso se debe a que un código postal de 20000 no es dos veces más (o menos) potente que un código postal de 10000. Además, aunque los diferentes códigos postales se correlacionan con diferentes valores de bienes raíces, no podemos suponer que los valores de bienes raíces en el código postal 20000 son dos veces más valiosos que los valores de bienes raíces en el código postal 10000. En su lugar, los códigos postales deben representarse como datos categóricos.

Los atributos numéricos a veces se denominan atributos continuos.

O

sin conexión

#fundamentals

Sinónimo de estático.

inferencia sin conexión

#fundamentals

Proceso de generar un lote de predicciones y almacenarlas en caché (guardarlas). Luego, las apps pueden acceder a la predicción deseada desde la caché en lugar de volver a ejecutar el modelo.

Por ejemplo, considera un modelo que genere pronósticos meteorológicos locales (predicciones) una vez cada cuatro horas. Después de ejecutar cada modelo, el sistema almacena en caché todas las previsiones meteorológicas locales. Las apps meteorológicas recuperan las previsiones de la caché.

La inferencia sin conexión también se denomina inferencia estática.

Compara esto con la inferencia en línea.

codificación one-hot

#fundamentals

Representa los datos categóricos como un vector en el que:

  • Un elemento se establece en 1.
  • Todos los demás elementos se establecen en 0.

La codificación one-hot se usa comúnmente para representar strings o identificadores que tienen un conjunto finito de valores posibles. Por ejemplo, supongamos que un determinado atributo categórico llamado Scandinavia tiene cinco valores posibles:

  • &Dinamarca;
  • &Suecia
  • "Noruega"
  • &Finlandia"
  • &Islandia"

La codificación one-hot podría representar cada uno de los cinco valores de la siguiente manera:

country Vector
&Dinamarca; 1 0 0 0 0
&Suecia 0 1 0 0 0
"Noruega" 0 0 1 0 0
&Finlandia" 0 0 0 1 0
&Islandia" 0 0 0 0 1

Gracias a la codificación one-hot, un modelo puede aprender diferentes conexiones en función de cada uno de los cinco países.

Representar un atributo como datos numéricos es una alternativa a la codificación one-hot. Lamentablemente, representar los países escandinavos de forma numérica no es una buena opción. Por ejemplo, considera la siguiente representación numérica:

  • &Dinamarca es 0
  • "Suecia" es 1
  • "Noruega" es 2
  • "Finlandia" es 3
  • "Islandia" es 4

Con la codificación numérica, un modelo interpretaría los números sin procesar de forma matemática y, luego, intentaría entrenarlos. Sin embargo, Islandia no es el doble (o la mitad) de algo que Noruega, por lo que el modelo llegaría a algunas conclusiones extrañas.

uno frente a todos

#fundamentals

Dado un problema de clasificación con N clases, una solución que consiste en N clasificadores binarios independientes, un clasificador binario para cada resultado posible. Por ejemplo, dado un modelo que clasifica ejemplos como animal, vegetal o mineral, una solución de uno frente a todos proporcionaría los siguientes tres clasificadores binarios independientes:

  • animal versus no animal
  • vegetal frente a no vegetal
  • mineral frente a no mineral

en línea

#fundamentals

Sinónimo de dinámico.

inferencia en línea

#fundamentals

Generación de predicciones a pedido. Por ejemplo, supongamos que una app pasa información a un modelo y emite una solicitud de predicción. Un sistema que usa inferencias en línea responde a la solicitud mediante la ejecución del modelo (y muestra la predicción en la app).

Compara esto con la inferencia sin conexión.

capa de salida

#fundamentals

Capa "final" de una red neuronal. La capa de salida contiene la predicción.

En la siguiente ilustración, se muestra una pequeña red neuronal profunda con una capa de entrada, dos capas ocultas y una capa de salida:

Una red neuronal con una capa de entrada, dos capas ocultas y una capa de salida La capa de entrada consta de dos funciones. La primera capa oculta consiste en tres neuronas y la segunda capa oculta consta de dos neuronas. La capa de salida consta de un solo nodo.

sobreajuste

#fundamentals

Crear un modelo que coincida con los datos de entrenamiento de forma tan precisa que no pueda realizar predicciones correctas con datos nuevos

La regularización puede reducir el sobreajuste. El entrenamiento en un conjunto grande y diverso también puede reducir el sobreajuste.

P

pandas

#fundamentals

Una API de análisis de datos orientada a columnas compilada sobre numpy. Muchos frameworks de aprendizaje automático, incluido TensorFlow, admiten estructuras de datos de Pandas como entradas. Consulta la documentación de Pandas para obtener más detalles.

parámetro

#fundamentals

Los pesos y los sesgos que un modelo aprende durante el entrenamiento Por ejemplo, en un modelo de regresión lineal, los parámetros consisten en el sesgo (b) y todas las ponderaciones (w1, w2, etc.) en la siguiente fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Por el contrario, los hiperparámetros son los valores que (o un servicio de giro de hiperparámetros) le proporcionas al modelo. Por ejemplo, la tasa de aprendizaje es un hiperparámetro.

clase positiva

#fundamentals

La clase que estás probando.

Por ejemplo, la clase positiva en un modelo de cáncer podría ser "tumor". La clase positiva en un clasificador de correo electrónico puede ser &spam;

Compara esto con la clase negativa.

posprocesamiento

#fairness
#fundamentals

Ajustar la salida de un modelo después de que se ejecute El procesamiento posterior se puede usar para aplicar restricciones de equidad sin modificar los modelos.

Por ejemplo, se podría aplicar el procesamiento posterior a un clasificador binario mediante la configuración de un umbral de clasificación de modo que la igualdad de oportunidades se mantenga para algún atributo verificando que la tasa de verdaderos positivos sea la misma para todos los valores de ese atributo.

Predicción

#fundamentals

Resultado de un modelo Por ejemplo:

  • La predicción de un modelo de clasificación binaria es la clase positiva o la clase negativa.
  • La predicción de un modelo de clasificación de clases múltiples es de una clase.
  • La predicción de un modelo de regresión lineal es un número.

etiquetas de proxy

#fundamentals

Datos usados para aproximar etiquetas que no están disponibles directamente en un conjunto de datos.

Por ejemplo, supongamos que debes entrenar un modelo para predecir el nivel de estrés de los empleados. Tu conjunto de datos contiene muchos atributos predictivos, pero no contiene una etiqueta llamada nivel de estrés. Con los resultados correctos, puedes seleccionar "accidentes de trabajo" como una etiqueta de proxy para el nivel de estrés. Después de todo, los empleados con mucho estrés entran en más accidentes que los empleados tranquilos. ¿O no? Quizás los accidentes de trabajo aumentan y disminuyen por varios motivos.

Como segundo ejemplo, supongamos que quieres que está lloviendo? Es una etiqueta booleana para tu conjunto de datos, pero este no contiene datos de lluvia. Si hay fotografías disponibles, puedes establecer imágenes de personas que lleven paraguas como una etiqueta de proxy para ¿está lloviendo? ¿Es una buena etiqueta de proxy? Posiblemente, pero en ciertas culturas es más probable que lleven sombrillas para protegerse del sol que la lluvia.

Las etiquetas de proxy suelen ser imperfectas. Cuando sea posible, elige etiquetas reales en lugar de etiquetas de proxy. Dicho esto, cuando una etiqueta real está ausente, elige la etiqueta de proxy con mucho cuidado y elige la opción de etiqueta de proxy menos horrible.

R

evaluador

#fundamentals

Un ser humano que proporciona etiquetas para ejemplos. "Annotator" es otro nombre para el evaluador.

Unidad lineal rectificada (ReLU)

#fundamentals

Una función de activación con el siguiente comportamiento:

  • Si la entrada es negativa o cero, entonces el resultado es 0.
  • Si la entrada es positiva, entonces el resultado es igual a la entrada.

Por ejemplo:

  • Si la entrada es -3, el resultado es 0.
  • Si la entrada es +3, el resultado es 3.0.

A continuación, se muestra una representación de ReLU:

Un diagrama cartesiano de dos líneas. La primera línea tiene un valor de y constante de 0, que se extiende a lo largo del eje x desde -infinity,0 hasta 0-0.
          La segunda línea comienza en 0,0. Esta línea tiene una pendiente de +1, por lo que va de 0,0 a +infinity,+infinity.

ReLU es una función de activación muy popular. A pesar de su comportamiento simple, ReLU aún permite que una red neuronal aprenda relaciones no lineales entre atributos y la etiqueta.

modelo de regresión

#fundamentals

De manera informal, un modelo que genera una predicción numérica. Por el contrario, un modelo de clasificación genera una predicción de clase. Por ejemplo, los siguientes son todos los modelos de regresión:

  • Un modelo que predice el valor de una casa determinada, como 423,000 euros
  • Un modelo que predice la expectativa de vida de un árbol en particular, como 23.2 años.
  • Un modelo que predice la cantidad de lluvia que caerá en una ciudad determinada durante las próximas seis horas, como 1.6 centímetros.

Los siguientes son dos tipos comunes de modelos de regresión:

  • Regresión lineal, que encuentra la línea que mejor se ajusta a los valores de las etiquetas de los atributos.
  • Regresión logística, que genera una probabilidad entre 0.0 y 1.0 que un sistema suele asignar a una predicción de clase.

No todos los modelos que generan predicciones numéricas son modelos de regresión. En algunos casos, una predicción numérica es solo un modelo de clasificación que tiene nombres de clase numéricos. Por ejemplo, un modelo que predice un código postal numérico es un modelo de clasificación, no un modelo de regresión.

regularización (regularization)

#fundamentals

Cualquier mecanismo que reduzca el sobreajuste Estos son algunos tipos populares de regularización:

La regularización también puede definirse como la penalización de la complejidad de un modelo.

tasa de regularización

#fundamentals

Un número que especifica la importancia relativa de la regularización durante el entrenamiento. El aumento de la frecuencia de regularización reduce el sobreajuste, pero puede reducir la potencia predictiva del modelo. Por el contrario, la reducción o la omisión de la tasa de regularización aumenta el sobreajuste.

ReLU

#fundamentals

Abreviatura de unidad lineal rectificada.

Curva ROC (característica operativa del receptor)

#fundamentals

Un gráfico de tasa de verdaderos positivos en comparación con una tasa de falsos positivos para diferentes umbrales de clasificación en la clasificación binaria.

La forma de una curva ROC sugiere la capacidad de un modelo de clasificación binaria para separar las clases positivas de las negativas. Supongamos, por ejemplo, que un modelo de clasificación binaria separa a la perfección todas las clases negativas de todas las clases positivas:

Una línea numérica con 8 ejemplos positivos a la derecha y 7 ejemplos negativos a la izquierda

La curva ROC para el modelo anterior se ve de la siguiente manera:

Una curva ROC. El eje x es una tasa de falsos positivos y el eje y es una tasa de verdaderos positivos. La curva tiene una forma de L invertida. La curva comienza en (0.0,0.0) y va directamente a (0.0.1.0). Luego, la curva va de (0.0,1.0) a (1.0,1.0).

Por el contrario, la siguiente ilustración muestra los valores de regresión logística sin procesar para un modelo terrible que no puede separar las clases negativas de las positivas:

Una línea numérica con ejemplos positivos y clases negativas completamente mezcladas.

La curva ROC de este modelo se ve de la siguiente manera:

Una curva ROC, que en realidad es una línea recta de (0.0.0.0) a (1.0.1.0).

Mientras tanto, en el mundo real, la mayoría de los modelos de clasificación binaria separan las clases positivas y negativas en cierta medida, pero, por lo general, no perfectamente. Por lo tanto, una curva ROC típica cae en algún punto entre los dos extremos:

Una curva ROC. El eje x es una tasa de falsos positivos y el eje y es una tasa de verdaderos positivos. La curva ROC se aproxima a un arco tembloroso que atraviesa los puntos de brújula de oeste a norte.

El punto en una curva ROC más cercano (0.0,1.0) identifica, en teoría, el umbral de clasificación ideal. Sin embargo, muchos otros problemas del mundo real influyen en la selección del umbral de clasificación ideal. Por ejemplo, tal vez los falsos negativos causan mucho más dolor que los falsos positivos.

Una métrica numérica llamada AUC resume la curva ROC en un solo valor de punto flotante.

Raíz cuadrada del error cuadrático medio (RMSE)

#fundamentals

Raíz cuadrada del error cuadrático medio.

S

función sigmoidea

#fundamentals

Una función matemática que "aplasta" un valor de entrada en un rango restringido, generalmente de 0 a 1 o de -1 a +1. Es decir, puedes pasar cualquier número (dos, un millón, mil millones negativos, lo que sea) a una sigmoidea y la salida seguirá en el rango restringido. Un trazado de la función de activación sigmoidea tiene el siguiente aspecto:

Un diagrama curvo bidimensional con valores x que abarca el dominio -infinito hasta +positivo, mientras que los valores y abarcan el rango de 0 a casi 1. Cuando x es 0, y es 0.5. La pendiente de la curva siempre es positiva, con la pendiente más alta en 0.0.5 y las pendientes disminuyen gradualmente a medida que aumenta el valor absoluto de x.

La función sigmoidea tiene varios usos en el aprendizaje automático, incluidos los siguientes:

softmax

#fundamentals

Función que determina las probabilidades para cada clase posible en un modelo de clasificación de clases múltiples. Las probabilidades suman 1.0. Por ejemplo, en la siguiente tabla, se muestra cómo softmax distribuye varias probabilidades:

La imagen es... Probabilidad
dog 0,85
gato 0.13
caballo 0.02

softmax también se denomina softmax completo.

Compara esto con el muestreo de candidatos.

atributo disperso

#language
#fundamentals

feature cuyos valores son predominantemente cero o están vacíos. Por ejemplo, un atributo que contiene un solo valor de 1 y un millón de valores de 0 es disperso. Por el contrario, un atributo denso tiene valores que no son cero o están vacíos.

En el aprendizaje automático, una cantidad sorprendente de atributos son dispersos. Los atributos categóricos suelen ser escasos. Por ejemplo, de las 300 especies de árboles posibles en un bosque, un solo ejemplo podría identificar solo un árbol de arce. O bien, entre los millones de posibles videos en una biblioteca de videos, un solo ejemplo podría identificar solamente "Casablanca".

Por lo general, en un modelo, se representan atributos dispersos con codificación one-hot. Si la codificación one-hot es grande, puedes colocar una capa de incorporación sobre la codificación one-hot para lograr una mayor eficiencia.

representación dispersa

#language
#fundamentals

Almacenar solo las posiciones de elementos distintos de cero en un atributo disperso.

Por ejemplo, supongamos que un atributo categórico llamado species identifica las 36 especies de árbol en un bosque en particular. Además, supone que cada ejemplo identifica solo una especie.

Podrías usar un vector de un solo 1 para representar las especies arbóreas en cada ejemplo. Un vector one-hot contendría un solo 1 (para representar la especie de árbol en particular en ese ejemplo) y 35 0 (para representar las 35 especies de árboles no en ese ejemplo). Por lo tanto, la representación one-hot de maple podría verse de la siguiente manera:

Un vector en el que las posiciones 0 a 23 contienen el valor 0, la posición 24 contiene el valor 1 y las posiciones 25 a 35 contienen el valor 0.

De manera alternativa, la representación dispersa simplemente identifica la posición de una especie en particular. Si maple está en la posición 24, la representación dispersa de maple sería simplemente:

24

Ten en cuenta que la representación dispersa es mucho más compacta que la representación one-hot.

vector disperso

#fundamentals

Vector cuyos valores son mayormente ceros. Consulta también atributo disperso y dispersión.

pérdida al cuadrado

#fundamentals

Sinónimo de L2pérdida.

static

#fundamentals

Algo que se hizo una vez en lugar de ser continuo Los términos estático y sin conexión son sinónimos. Los siguientes son usos comunes de estático y sin conexión en el aprendizaje automático:

  • modelo estático (o modelo sin conexión) es un modelo entrenado que se usa por un tiempo y por un tiempo.
  • El entrenamiento estático (o entrenamiento sin conexión) es el proceso de entrenamiento de un modelo estático.
  • La inferencia estática (o inferencia sin conexión) es un proceso en el que un modelo genera un lote de predicciones a la vez.

Compara esto con dinámico.

inferencia estática

#fundamentals

Sinónimo de inferencia fuera de línea.

estacionariedad

#fundamentals

Una característica cuyos valores no cambian en una o más dimensiones, generalmente tiempo. Por ejemplo, un atributo cuyos valores tienen un aspecto similar en 2020 y 2022 muestra estacionariedad.

En el mundo real, muy pocos elementos presentan estacionariedad. Incluso las características sinónimas de estabilidad (como el nivel del mar) cambian con el tiempo.

Compara esto con nonstationarity.

descenso de gradientes estocástico (SGD)

#fundamentals

Algoritmo de descenso de gradientes en el que el tamaño del lote es uno. En otras palabras, el SGD se entrena en un solo ejemplo elegido al azar de un conjunto de entrenamiento.

aprendizaje automático supervisado

#fundamentals

Entrenar un modelo a partir de atributos y sus etiquetas correspondientes El aprendizaje automático supervisado es análogo al aprendizaje de una materia mediante el estudio de un conjunto de preguntas y sus respuestas correspondientes. Después de dominar la asignación entre preguntas y respuestas, un alumno puede proporcionar respuestas a preguntas nuevas (nunca antes vistas) sobre el mismo tema.

Compara esto con el aprendizaje automático no supervisado.

atributo sintético

#fundamentals

Atributo que no está presente entre los atributos de entrada, pero que se ensambla a partir de uno o más de ellos. Entre los métodos para crear atributos sintéticos, se incluyen los siguientes:

  • Agrupamiento de un atributo continuo en discretizaciones de rango.
  • Crear una combinación de funciones
  • Multiplicación (o división) de un valor de atributo por otros atributos o por sí mismo Por ejemplo, si a y b son atributos de entrada, los siguientes son ejemplos de atributos sintéticos:
    • ab
    • a2
  • Aplicar una función trascendental a un valor de atributo Por ejemplo, si c es un atributo de entrada, los siguientes son ejemplos de atributos sintéticos:
    • sin(c)
    • ln(c)

Los atributos que se crean con normalización o escalamiento de forma independiente no se consideran atributos sintéticos.

T

pérdida de prueba

#fundamentals

Una métrica que representa la pérdida de un modelo en comparación con el conjunto de pruebas. Cuando compilas un modelo, por lo general, intentas minimizar la pérdida de prueba. Esto se debe a que una pérdida de prueba baja es un indicador de calidad más fuerte que una pérdida de entrenamiento baja o una pérdida de validación baja.

Una gran brecha entre la pérdida de prueba y la pérdida de entrenamiento o de validación a veces sugiere que necesitas aumentar la tasa de regularización.

modelos

#fundamentals

Proceso de determinar los parámetros (pesos y sesgos) ideales que comprenden un modelo Durante el entrenamiento, un sistema lee ejemplos y ajusta los parámetros de forma gradual. El entrenamiento usa cada ejemplo entre varias veces y miles de millones de veces.

pérdida de entrenamiento

#fundamentals

Una métrica que representa la pérdida de un modelo durante una iteración de entrenamiento en particular. Por ejemplo, supongamos que la función de pérdida es Error cuadrático medio. Quizás la pérdida de entrenamiento (el error cuadrático medio) para la décima iteración es 2.2 y la pérdida de entrenamiento para la 100.a iteración es 1.9.

Una curva de pérdida representa la pérdida de entrenamiento frente a la cantidad de iteraciones. Una curva de pérdida proporciona las siguientes sugerencias sobre el entrenamiento:

  • Una pendiente descendente significa que el modelo está mejorando.
  • Una pendiente ascendente indica que el modelo está empeorando.
  • Una pendiente plana implica que el modelo alcanzó la convergencia.

Por ejemplo, se muestra la siguiente curva de pérdida idealizada:

  • Una pendiente pronunciada durante las iteraciones iniciales, lo que implica una mejora rápida del modelo
  • Una pendiente aplanada de manera gradual (pero aún descendente) hasta el final del entrenamiento, lo que implica una mejora continua del modelo a un ritmo un poco más lento durante las iteraciones iniciales.
  • Una pendiente plana hacia el final del entrenamiento, lo que sugiere convergencia

Representación de pérdida de entrenamiento frente a iteraciones. Esta curva de pérdida comienza con una pendiente pronunciada hacia abajo. La pendiente se aplana gradualmente hasta que se vuelve cero.

Aunque la pérdida de entrenamiento es importante, consulta también generalización.

desviación entre el entrenamiento y la entrega

#fundamentals

La diferencia entre el rendimiento de un modelo durante el entrenamiento y el de ese mismo modelo durante la entrega

conjunto de entrenamiento

#fundamentals

Subconjunto del conjunto de datos que se usó para entrenar el modelo.

Por lo general, los ejemplos en el conjunto de datos se dividen en los siguientes tres subconjuntos distintos:

Lo ideal es que cada ejemplo del conjunto de datos pertenezca a uno de los subconjuntos anteriores. Por ejemplo, un solo ejemplo no debería pertenecer al conjunto de entrenamiento y al conjunto de validación.

verdadero negativo (VN)

#fundamentals

Ejemplo en el que el modelo predice correctamente la clase negativa. Por ejemplo, el modelo infiere que un mensaje de correo electrónico en particular no es spam y que en realidad no es spam.

verdadero positivo (VP) (TP, true positive)

#fundamentals

Ejemplo en el que el modelo predice correctamente la clase positiva. Por ejemplo, el modelo infiere que un mensaje de correo electrónico en particular es spam y que ese mensaje de correo electrónico en realidad es spam.

tasa de verdaderos positivos (TPR)

#fundamentals

Sinónimo de recuperación. Es decir:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

La tasa de verdaderos positivos es el eje "y" en una curva ROC.

U

subajuste

#fundamentals

Producir un modelo con poca capacidad predictiva porque el modelo no capturó por completo la complejidad de los datos de entrenamiento. Muchos problemas pueden causar un subajuste, incluidos los siguientes:

ejemplo sin etiqueta

#fundamentals

Ejemplo que contiene características, pero no una etiqueta. Por ejemplo, en la siguiente tabla, se muestran tres ejemplos sin etiqueta de un modelo de valoración de una casa, cada uno con tres atributos, pero sin valor de casa:

Cantidad de dormitorios Cantidad de baños Edad de la casa
3 2 15
2 1 72
4 2 34

En el aprendizaje automático supervisado, los modelos se entrenan con ejemplos etiquetados y realizan predicciones en ejemplos sin etiqueta.

En el aprendizaje semisupervisado y no supervisado, se usan ejemplos sin etiqueta durante el entrenamiento.

Compara un ejemplo sin etiqueta con un ejemplo etiquetado.

aprendizaje automático no supervisado

#clustering
#fundamentals

Entrenar un modelo para encontrar patrones en un conjunto de datos, generalmente sin etiqueta.

El uso más común del aprendizaje automático no supervisado es agrupar en clústeres los datos en grupos de ejemplos similares. Por ejemplo, un algoritmo de aprendizaje automático no supervisado puede agrupar canciones según varias propiedades de la música. Los clústeres resultantes pueden convertirse en una entrada de otros algoritmos de aprendizaje automático (por ejemplo, en un servicio de recomendación de música). El agrupamiento en clústeres puede ser útil cuando hay escasez de etiquetas útiles. Por ejemplo, en dominios como la protección contra el abuso y el fraude, los clústeres pueden ayudar a los humanos a comprender mejor los datos.

Compara esto con el aprendizaje automático supervisado.

V

validación

#fundamentals

Evaluación inicial de la calidad de un modelo La validación comprueba la calidad de las predicciones de un modelo con respecto al conjunto de validación.

Debido a que el conjunto de validación difiere del conjunto de entrenamiento, la validación ayuda a proteger contra el sobreajuste.

Puedes pensar en evaluar el modelo con el conjunto de validación como la primera ronda de prueba y evaluar el modelo con el conjunto de pruebas como la segunda ronda de prueba.

pérdida de validación

#fundamentals

Una métrica que representa la pérdida de un modelo en el conjunto de validación durante una iteración particular de entrenamiento.

Consulta también la curva de generalización.

conjunto de validación

#fundamentals

Subconjunto del conjunto de datos que realiza la evaluación inicial en función de un modelo entrenado. Por lo general, el modelo entrenado se compara con el conjunto de validación varias veces antes de evaluar el modelo con el conjunto de pruebas.

Por lo general, los ejemplos del conjunto de datos se dividen en los siguientes tres subconjuntos distintos:

Lo ideal es que cada ejemplo del conjunto de datos pertenezca a uno de los subconjuntos anteriores. Por ejemplo, un solo ejemplo no debería pertenecer al conjunto de entrenamiento y al conjunto de validación.

W

peso

#fundamentals

Valor que un modelo multiplica por otro valor. El entrenamiento es el proceso que consiste en determinar los pesos ideales de un modelo. La inferencia es el proceso de usar esos pesos aprendidos para hacer predicciones.

suma ponderada

#fundamentals

La suma de todos los valores de entrada relevantes multiplicada por sus pesos correspondientes. Por ejemplo, supongamos que las entradas relevantes constan de lo siguiente:

valor de entrada peso de entrada
2 -1,3
-1 0.6
3 0.4

Por lo tanto, la suma ponderada es la siguiente:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Una suma ponderada es el argumento de entrada para una función de activación.

Z

Normalización de puntuación Z

#fundamentals

Técnica de escalamiento que reemplaza un valor de atributo sin procesar por un valor de punto flotante que representa la cantidad de desviaciones estándar de la media de ese atributo. Por ejemplo, considera un atributo cuya media es 800 y cuya desviación estándar es 100. En la siguiente tabla, se muestra cómo la normalización de la puntuación Z asigna el valor sin procesar a su puntuación Z:

Valor sin procesar Puntuación Z
800 0
950 Más de 1.5
575 -2,25

Luego, el modelo de aprendizaje automático entrena en las puntuaciones Z de ese atributo en lugar de los valores sin procesar.