Glosario de aprendizaje automático: Conceptos básicos del AA

Esta página contiene los términos del glosario de Fundamentos del AA. Para ver todos los términos del glosario, haz clic aquí.

A

exactitud

#fundamentals

Es la cantidad de predicciones de clasificación correctas dividida por la cantidad total de predicciones. Es decir:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Por ejemplo, un modelo que realizó 40 predicciones correctas y 10 incorrectas tendría una precisión de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La clasificación binaria proporciona nombres específicos para las diferentes categorías de predicciones correctas y predicciones incorrectas. Por lo tanto, la fórmula de precisión para la clasificación binaria es la siguiente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Donde:

Compara y contrasta la exactitud con la precisión y la recuperación.

Consulta Clasificación: exactitud, recuperación, precisión y métricas relacionadas en el Curso intensivo de aprendizaje automático para obtener más información.

función de activación

#fundamentals

Es una función que permite que las redes neuronales aprendan relaciones no lineales (complejas) entre los atributos y la etiqueta.

Entre las funciones de activación populares, se incluyen las siguientes:

Los gráficos de las funciones de activación nunca son líneas rectas únicas. Por ejemplo, el gráfico de la función de activación ReLU consta de dos líneas rectas:

Una representación cartesiana de dos líneas. La primera línea tiene un valor y constante de 0, que se extiende a lo largo del eje x de -infinito,0 a 0,-0.
          La segunda línea comienza en 0,0. Esta línea tiene una pendiente de +1, por lo que va de 0,0 a infinito,infinito.

Un gráfico de la función de activación sigmoidea se ve de la siguiente manera:

Un gráfico curvo de dos dimensiones con valores de x que abarcan el dominio de menos infinito a positivo, mientras que los valores de y abarcan el rango de casi 0 a casi 1. Cuando x es 0, y es 0.5. La pendiente de la curva siempre es positiva, con la pendiente más alta en 0,0.5 y pendientes que disminuyen gradualmente a medida que aumenta el valor absoluto de x.

Consulta Redes neuronales: Funciones de activación en el Curso intensivo de aprendizaje automático para obtener más información.

inteligencia artificial

#fundamentals

Es un programa o modelo no humano que puede resolver tareas sofisticadas. Por ejemplo, los programas o modelos que traducen textos o que identifican enfermedades a partir de imágenes radiológicas son muestras de inteligencia artificial.

Técnicamente, el aprendizaje automático es un subcampo de la inteligencia artificial. Sin embargo, en los últimos años, algunas organizaciones comenzaron a usar los términos inteligencia artificial y aprendizaje automático de manera indistinta.

AUC (área bajo la curva ROC)

#fundamentals

Es un número entre 0.0 y 1.0 que representa la capacidad de un modelo de clasificación binaria para separar las clases positivas de las clases negativas. Cuanto más cerca esté la AUC de 1.0, mejor será la capacidad del modelo para separar las clases entre sí.

Por ejemplo, en la siguiente ilustración, se muestra un modelo de clasificador que separa perfectamente las clases positivas (óvalos verdes) de las clases negativas (rectángulos morados). Este modelo perfecto poco realista tiene una AUC de 1.0:

Una línea numérica con 8 ejemplos positivos en un lado y 9 ejemplos negativos en el otro.

Por el contrario, en la siguiente ilustración, se muestran los resultados de un modelo de clasificador que generó resultados aleatorios. Este modelo tiene un AUC de 0.5:

Una línea numérica con 6 ejemplos positivos y 6 ejemplos negativos.
          La secuencia de ejemplos es positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa.

Sí, el modelo anterior tiene un AUC de 0.5, no de 0.0.

La mayoría de los modelos se encuentran en algún punto intermedio entre los dos extremos. Por ejemplo, el siguiente modelo separa los valores positivos de los negativos y, por lo tanto, tiene un AUC entre 0.5 y 1.0:

Una línea numérica con 6 ejemplos positivos y 6 ejemplos negativos.
          La secuencia de ejemplos es negativa, negativa, negativa, negativa,
          positiva, negativa, positiva, positiva, negativa, positiva, positiva,
          positiva.

El AUC ignora cualquier valor que establezcas para el umbral de clasificación. En cambio, la AUC considera todos los umbrales de clasificación posibles.

Consulta Clasificación: ROC y AUC en el Curso intensivo de aprendizaje automático para obtener más información.

B

propagación inversa

#fundamentals

Es el algoritmo que implementa el descenso de gradientes en las redes neuronales.

El entrenamiento de una red neuronal implica muchas iterations del siguiente ciclo de dos pases:

  1. Durante el pase hacia adelante, el sistema procesa un lote de ejemplos para generar predicciones. El sistema compara cada predicción con cada valor de etiqueta. La diferencia entre la predicción y el valor de la etiqueta es la pérdida de ese ejemplo. El sistema agrega las pérdidas de todos los ejemplos para calcular la pérdida total del lote actual.
  2. Durante el paso hacia atrás (retropropagación), el sistema reduce la pérdida ajustando los pesos de todas las neuronas en todas las capas ocultas.

Las redes neuronales suelen contener muchas neuronas en muchas capas ocultas. Cada una de esas neuronas contribuye a la pérdida general de diferentes maneras. La propagación inversa determina si se deben aumentar o disminuir los pesos aplicados a neuronas específicas.

La tasa de aprendizaje es un multiplicador que controla el grado en el que cada paso hacia atrás aumenta o disminuye cada peso. Una tasa de aprendizaje alta aumentará o disminuirá cada peso más que una tasa de aprendizaje pequeña.

En términos de cálculo, la retropropagación implementa la regla de la cadena del cálculo. Es decir, la retropropagación calcula la derivada parcial del error con respecto a cada parámetro.

Hace años, los profesionales del AA tenían que escribir código para implementar la retropropagación. Las APIs de AA modernas, como Keras, ahora implementan la retropropagación por ti. ¡Vaya!

Consulta Redes neuronales en el Curso intensivo de aprendizaje automático para obtener más información.

lote

#fundamentals

Es el conjunto de ejemplos que se usan en una iteración de entrenamiento. El tamaño del lote determina la cantidad de ejemplos en un lote.

Consulta época para obtener una explicación de cómo se relaciona un lote con una época.

Consulta Regresión lineal: Hyperparameters en el Curso intensivo de aprendizaje automático para obtener más información.

tamaño del lote

#fundamentals

Es la cantidad de ejemplos en un lote. Por ejemplo, si el tamaño del lote es 100, el modelo procesa 100 ejemplos por iteración.

Las siguientes son estrategias populares de tamaño de lote:

  • Descenso de gradientes estocástico (SGD), en el que el tamaño del lote es 1.
  • Lote completo, en el que el tamaño del lote es la cantidad de ejemplos en todo el conjunto de entrenamiento. Por ejemplo, si el conjunto de entrenamiento contiene un millón de ejemplos, el tamaño del lote sería un millón de ejemplos. Por lo general, el lote completo es una estrategia ineficiente.
  • minilotes, en los que el tamaño del lote suele ser de entre 10 y 1,000. Por lo general, el minilote es la estrategia más eficiente.

Consulte los siguientes artículos para obtener más información:

sesgo (ética/equidad) (bias, ethics/fairness)

#fairness
#fundamentals

1. Estereotipo, prejuicio o preferencia de cosas, personas o grupos por sobre otros. Estos sesgos pueden afectar la recolección y la interpretación de datos, el diseño de un sistema y cómo los usuarios interactúan con él. Entre las formas de este tipo de sesgo, se incluyen las siguientes:

2. Error sistemático debido a un procedimiento de muestreo o de elaboración de informes. Entre las formas de este tipo de sesgo, se incluyen las siguientes:

No se debe confundir con el término de sesgo en modelos de aprendizaje automático o sesgo de predicción.

Consulta Equidad: Tipos de sesgos en el Curso intensivo de aprendizaje automático para obtener más información.

sesgo (matemática) o término de sesgo

#fundamentals

Una intersección o un desplazamiento de un origen. El sesgo es un parámetro en los modelos de aprendizaje automático, que se simboliza con cualquiera de los siguientes:

  • b
  • w0

Por ejemplo, la ordenada al origen es la b en la siguiente fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En una línea bidimensional simple, el sesgo solo significa “intercepto en y”. Por ejemplo, la pendiente de la línea en la siguiente ilustración es 2.

El gráfico de una línea con una pendiente de 0.5 y un sesgo (intercepto en y) de 2.

El sesgo existe porque no todos los modelos comienzan en el origen (0,0). Por ejemplo, imagina que un parque de diversiones cuesta 2 euros para ingresar y 0.5 euros adicionales por cada hora que un cliente permanece. Por lo tanto, un modelo que asigna el costo total tiene un sesgo de 2 porque el costo más bajo es de 2 euros.

No se debe confundir el sesgo con el sesgo en ética y equidad ni el sesgo de predicción.

Consulta Regresión lineal en el Curso intensivo de aprendizaje automático para obtener más información.

clasificación binaria

#fundamentals

Un tipo de tarea de clasificación que predice una de dos clases mutuamente excluyentes:

Por ejemplo, los siguientes dos modelos de aprendizaje automático realizan una clasificación binaria:

  • Un modelo que determina si los mensajes de correo electrónico son spam (la clase positiva) o no son spam (la clase negativa).
  • Un modelo que evalúa los síntomas médicos para determinar si una persona tiene una enfermedad en particular (la clase positiva) o no la tiene (la clase negativa).

Compara esto con la clasificación de clases múltiples.

Consulta también regresión logística y umbral de clasificación.

Consulta Clasificación en el Curso intensivo de aprendizaje automático para obtener más información.

Agrupamiento

#fundamentals

Conversión de un solo atributo en varios atributos binarios denominados buckets o bins, que en general se basan en un rango de valores. Por lo general, el atributo cortado es un atributo continuo.

Por ejemplo, en lugar de representar la temperatura como una sola característica de punto flotante continua, puedes dividir los rangos de temperaturas en intervalos discretos, como los siguientes:

  • <= 10 grados Celsius sería el bucket “frío”.
  • Entre 11 y 24 grados Celsius estaría el bucket "templado".
  • >= 25 grados Celsius sería el bucket "caliente".

El modelo tratará todos los valores del mismo bucket de manera idéntica. Por ejemplo, los valores 13 y 22 están en el bucket templado, por lo que el modelo trata los dos valores de manera idéntica.

Consulta Datos numéricos: agrupamiento en el Curso intensivo de aprendizaje automático para obtener más información.

C

datos categóricos

#fundamentals

Atributos que tienen un conjunto específico de valores posibles. Por ejemplo, considera un atributo categórico llamado traffic-light-state, que solo puede tener uno de los siguientes tres valores posibles:

  • red
  • yellow
  • green

Cuando se representa traffic-light-state como un atributo categórico, un modelo puede aprender los diferentes impactos de red, green y yellow en el comportamiento del conductor.

En ocasiones, los atributos categóricos se denominan atributos discretos.

Compara esto con los datos numéricos.

Consulta Cómo trabajar con datos categóricos en el Curso intensivo de aprendizaje automático para obtener más información.

clase

#fundamentals

Es una categoría a la que puede pertenecer una etiqueta. Por ejemplo:

Un modelo de clasificación predice una clase. Por el contrario, un modelo de regresión predice un número en lugar de una clase.

Consulta Clasificación en el Curso intensivo de aprendizaje automático para obtener más información.

modelo de clasificación

#fundamentals

Un modelo cuya predicción es una clase. Por ejemplo, los siguientes son todos modelos de clasificación:

  • Un modelo que predice el idioma de una oración de entrada (¿francés? ¿Español? ¿Italiano?).
  • Un modelo que predice especies de árboles (¿arce? ¿Roble? Baobab?).
  • Un modelo que predice la clase positiva o negativa de una condición médica particular.

Por el contrario, los modelos de regresión predicen números en lugar de clases.

Estos son dos tipos comunes de modelos de clasificación:

umbral de clasificación

#fundamentals

En una clasificación binaria, es un número entre 0 y 1 que convierte el resultado sin procesar de un modelo de regresión logística en una predicción de la clase positiva o la clase negativa. Ten en cuenta que el umbral de clasificación es un valor que elige una persona, no un valor que elige el entrenamiento del modelo.

Un modelo de regresión logística genera un valor sin procesar entre 0 y 1. Luego:

  • Si este valor sin procesar es mayor que el umbral de clasificación, se predice la clase positiva.
  • Si este valor sin procesar es menor que el umbral de clasificación, se predice la clase negativa.

Por ejemplo, supongamos que el umbral de clasificación es 0.8. Si el valor sin procesar es 0.9, el modelo predice la clase positiva. Si el valor sin procesar es 0.7, el modelo predice la clase negativa.

La elección del umbral de clasificación influye en gran medida en la cantidad de falsos positivos y falsos negativos.

Consulta Umbral y matriz de confusión en el Curso intensivo de aprendizaje automático para obtener más información.

conjunto de datos con desequilibrio de clases

#fundamentals

Un conjunto de datos para un problema de clasificación en el que la cantidad total de etiquetas de cada clase difiere significativamente. Por ejemplo, considera un conjunto de datos de clasificación binaria cuyas dos etiquetas se dividen de la siguiente manera:

  • 1,000,000 de etiquetas negativas
  • 10 etiquetas positivas

La proporción de etiquetas negativas a positivas es de 100,000 a 1, por lo que este es un conjunto de datos con desequilibrio de clases.

En cambio, el siguiente conjunto de datos no tiene desequilibrio de clases porque la proporción de etiquetas negativas a positivas es relativamente cercana a 1:

  • 517 etiquetas negativas
  • 483 etiquetas positivas

Los conjuntos de datos de varias clases también pueden tener desequilibrio de clases. Por ejemplo, el siguiente conjunto de datos de clasificación de varias clases también tiene un desequilibrio de clases porque una etiqueta tiene muchos más ejemplos que las otras dos:

  • 1,000,000 etiquetas con la clase "verde"
  • 200 etiquetas con la clase "purple"
  • 350 etiquetas con la clase "naranja"

Consulta también entropía, clase mayoritaria y clase minoritaria.

recorte

#fundamentals

Técnica para manejar valores atípicos mediante una de las siguientes acciones o ambas:

  • Reducción de los valores de atributo que sean mayores que un umbral máximo hasta ese umbral máximo
  • Aumentar los valores de atributos que son menores que un umbral mínimo hasta ese umbral mínimo

Por ejemplo, supongamos que menos del 0.5% de los valores de un atributo en particular se encuentra fuera del rango 40 a 60. En ese caso, puedes hacer lo siguiente:

  • Recortar todos los valores superiores a 60 (el umbral máximo) para que sean exactamente 60
  • Hacer un recorte de todos los valores menores que 40 (el umbral mínimo) para que sean exactamente 40

Los valores atípicos pueden dañar los modelos, lo que, a veces, hace que los pesos se desborden durante el entrenamiento. Algunos valores atípicos también pueden alterar de forma significativa métricas como la precisión. El recorte es una técnica común para limitar el daño.

El recorte de gradientes fuerza los valores de gradiente dentro de un rango designado durante el entrenamiento.

Consulta Datos numéricos: normalización en el Curso intensivo de aprendizaje automático para obtener más información.

matriz de confusión

#fundamentals

Una tabla de n×n que resume la cantidad de predicciones correctas e incorrectas que realizó un modelo de clasificación. Por ejemplo, considera la siguiente matriz de confusión para un modelo de clasificación binaria:

Tumor (previsto) No tumor (predicho)
Tumor (verdad fundamental) 18 (TP) 1 (FN)
No tumor (verdad fundamental) 6 (FP) 452 (TN)

En la matriz de confusión anterior, se muestra lo siguiente:

  • De las 19 predicciones en las que la verdad fundamental era Tumor, el modelo clasificó 18 de forma correcta y 1 de forma incorrecta.
  • De las 458 predicciones en las que la verdad fundamental era No tumor, el modelo clasificó correctamente 452 y 6 de forma incorrecta.

La matriz de confusión de un problema de clasificación de varias clases puede ayudarte a identificar patrones de errores. Por ejemplo, considera la siguiente matriz de confusión para un modelo de clasificación multiclase de 3 clases que clasifica tres tipos diferentes de iris (Virginica, Versicolor y Setosa). Cuando la verdad fundamental era Virginica, la matriz de confusión muestra que el modelo tenía muchas más probabilidades de predecir por error Versicolor que Setosa:

  Setosa (previsto) Versicolor (predicho) Virginica (predicho)
Setosa (verdad fundamental) 88 12 0
Versicolor (verdad fundamental) 6 141 7
Virginia (verdad fundamental) 2 27 109

Como otro ejemplo, una matriz de confusión podría revelar que un modelo entrenado para reconocer dígitos escritos a mano tiende a predecir de manera incorrecta 9 en lugar de 4, o 1 en lugar de 7.

Las matrices de confusión contienen información suficiente para calcular una variedad de métricas de rendimiento, como la precisión y la recuperación.

atributo continuo

#fundamentals

Un atributo de punto flotante con un rango infinito de valores posibles, como la temperatura o el peso.

Compara esto con el atributo discreto.

convergencia

#fundamentals

Es un estado que se alcanza cuando los valores de pérdida cambian muy poco o nada con cada iteración. Por ejemplo, la siguiente curva de pérdida sugiere una convergencia en alrededor de 700 iteraciones:

Gráfico cartesiano. El eje X es la pérdida. El eje Y es la cantidad de iteraciones de entrenamiento. La pérdida es muy alta durante las primeras iteraciones, pero disminuye de forma significativa. Después de unas 100 iteraciones, la pérdida sigue disminuyendo, pero de forma mucho más gradual. Después de unas 700 iteraciones,
          la pérdida se mantiene estable.

Un modelo converge cuando el entrenamiento adicional no mejora el modelo.

En el aprendizaje profundo, los valores de pérdida a veces permanecen constantes o casi constantes durante muchas iteraciones antes de descender. Durante un período prolongado de valores de pérdida constantes, es posible que obtengas temporalmente una sensación falsa de convergencia.

Consulta también interrupción anticipada.

Consulta Model convergence and loss curves en el Curso intensivo de aprendizaje automático para obtener más información.

D

DataFrame

#fundamentals

Es un tipo de datos pandas popular para representar conjuntos de datos en la memoria.

Un DataFrame es similar a una tabla o una hoja de cálculo. Cada columna de un DataFrame tiene un nombre (un encabezado) y cada fila se identifica con un número único.

Cada columna de un DataFrame está estructurada como un array 2D, excepto que a cada columna se le puede asignar su propio tipo de datos.

Consulta también la página de referencia de pandas.DataFrame oficial.

conjunto de datos (data set or dataset)

#fundamentals

Es un conjunto de datos sin procesar, que suelen organizarse (pero no exclusivamente) en uno de los siguientes formatos:

  • una hoja de cálculo
  • un archivo en formato CSV (valores separados por comas)

modelo profundo

#fundamentals

Una red neuronal que contiene más de una capa oculta.

Un modelo profundo también se denomina red neuronal profunda.

Compara esto con el modelo amplio.

atributo denso

#fundamentals

Un atributo en el que la mayoría o todos los valores son distintos de cero, por lo general, un tensor de valores de punto flotante. Por ejemplo, el siguiente tensor de 10 elementos es denso porque 9 de sus valores son distintos de cero:

8 3 7 5 2 4 0 4 9 6

Compara esto con el atributo disperso.

depth

#fundamentals

La suma de lo siguiente en una red neuronal:

Por ejemplo, una red neuronal con cinco capas ocultas y una capa de salida tiene una profundidad de 6.

Ten en cuenta que la capa de entrada no influye en la profundidad.

atributo discreto

#fundamentals

Un atributo con un conjunto finito de valores posibles. Por ejemplo, un atributo cuyos valores solo pueden ser animal, vegetal o mineral es un atributo discreto (o categórico).

Compara esto con el atributo continuo.

dinámico

#fundamentals

Algo que se hace con frecuencia o de forma continua. Los términos dinámico y en línea son sinónimos en el aprendizaje automático. Los siguientes son usos comunes de dinámico y en línea en el aprendizaje automático:

  • Un modelo dinámico (o modelo en línea) es un modelo que se vuelve a entrenar con frecuencia o de forma continua.
  • El entrenamiento dinámico (o entrenamiento en línea) es el proceso de entrenamiento frecuente o continuo.
  • La inferencia dinámica (o inferencia en línea) es el proceso de generar predicciones a pedido.

modelo dinámico

#fundamentals

Un modelo que se vuelve a entrenar con frecuencia (incluso de forma continua). Un modelo dinámico es un “aprendiz permanente” que se adapta constantemente a los datos en evolución. Un modelo dinámico también se conoce como modelo en línea.

Compara esto con el modelo estático.

E

interrupción anticipada

#fundamentals

Es un método de regularización que implica finalizar el entrenamiento antes de que la pérdida de entrenamiento deje de disminuir. En la detención anticipada, detienes intencionalmente el entrenamiento del modelo cuando la pérdida en un conjunto de datos de validación comienza a aumentar, es decir, cuando el rendimiento de la generalización empeora.

capa de incorporación

#language
#fundamentals

Una capa oculta especial que se entrena en un atributo categórico de alta dimensión para aprender gradualmente un vector de incorporación de dimensión inferior. Una capa de incorporación permite que una red neuronal se entrene de manera mucho más eficiente que solo en el atributo categórico de alta dimensión.

Por ejemplo, la Tierra actualmente alberga alrededor de 73,000 especies de árboles. Supongamos que la especie de árbol es un atributo en tu modelo, por lo que la capa de entrada de tu modelo incluye un vector de un solo 1 de 73,000 elementos de longitud. Por ejemplo, quizás baobab se representaría de la siguiente manera:

Un array de 73,000 elementos. Los primeros 6,232 elementos contienen el valor 0. El siguiente elemento contiene el valor 1. Los 66,767 elementos finales contienen el valor cero.

Un array de 73,000 elementos es muy largo. Si no agregas una capa de incorporación al modelo, el entrenamiento llevará mucho tiempo debido a que se multiplicarán 72,999 ceros. Quizás elijas que la capa de incorporación tenga 12 dimensiones. En consecuencia, la capa de incorporación aprenderá gradualmente un nuevo vector de incorporación para cada especie de árbol.

En algunas situaciones, el hash es una alternativa razonable a una capa de incorporación.

Consulta Inserciones en el Curso intensivo de aprendizaje automático para obtener más información.

época

#fundamentals

Recorrido de entrenamiento completo por todo el conjunto de entrenamiento de manera que cada ejemplo se haya procesado una vez.

Un ciclo de entrenamiento representa N/tamaño del lote iteraciones, donde N es la cantidad total de ejemplos.

Por ejemplo, supongamos lo siguiente:

  • El conjunto de datos consta de 1,000 ejemplos.
  • El tamaño del lote es de 50 ejemplos.

Por lo tanto, una sola época requiere 20 iteraciones:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Consulta Regresión lineal: Hyperparameters en el Curso intensivo de aprendizaje automático para obtener más información.

ejemplo

#fundamentals

Los valores de una fila de atributos y, posiblemente, una etiqueta. Los ejemplos de aprendizaje supervisado se dividen en dos categorías generales:

  • Un ejemplo etiquetado consiste en uno o más atributos y una etiqueta. Los ejemplos etiquetados se usan durante el entrenamiento.
  • Un ejemplo sin etiqueta consta de uno o más atributos, pero no tiene etiqueta. Los ejemplos sin etiqueta se usan durante la inferencia.

Por ejemplo, supongamos que entrenas un modelo para determinar la influencia de las condiciones climáticas en las calificaciones de los estudiantes. Estos son tres ejemplos etiquetados:

Funciones Etiqueta
Temperatura Humedad Presionar Puntuación de la prueba
15 47 998 Bueno
19 34 1020 Excelente
18 92 1012 Deficiente

Estos son tres ejemplos sin etiqueta:

Temperatura Humedad Presionar  
12 62 1014  
21 47 1017  
19 41 1021  

Por lo general, la fila de un conjunto de datos es la fuente sin procesar de un ejemplo. Es decir, un ejemplo suele consistir en un subconjunto de las columnas del conjunto de datos. Además, los atributos de un ejemplo también pueden incluir atributos sintéticos, como combinaciones de atributos.

Consulta Aprendizaje supervisado en el curso Introducción al aprendizaje automático para obtener más información.

F

falso negativo (FN)

#fundamentals

Ejemplo en el que el modelo predice de manera incorrecta la clase negativa. Por ejemplo, el modelo predice que un mensaje de correo electrónico en particular no es spam (la clase negativa), pero ese mensaje de correo electrónico en realidad es spam.

falso positivo (FP)

#fundamentals

Ejemplo en el que el modelo predice de manera incorrecta la clase positiva. Por ejemplo, el modelo predice que un mensaje de correo electrónico en particular es spam (la clase positiva), pero ese mensaje de correo electrónico en realidad no es spam.

Consulta Umbral y matriz de confusión en el Curso intensivo de aprendizaje automático para obtener más información.

tasa de falsos positivos (FPR)

#fundamentals

Es la proporción de ejemplos negativos reales para los que el modelo predijo de forma incorrecta la clase positiva. La siguiente fórmula calcula el porcentaje de falsos positivos:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

La tasa de falsos positivos es el eje x en una curva ROC.

Consulta Clasificación: ROC y AUC en el Curso intensivo de aprendizaje automático para obtener más información.

función

#fundamentals

Es una variable de entrada para un modelo de aprendizaje automático. Un ejemplo consiste en una o más características. Por ejemplo, supongamos que entrenas un modelo para determinar la influencia de las condiciones climáticas en las calificaciones de los estudiantes. En la siguiente tabla, se muestran tres ejemplos, cada uno de los cuales contiene tres atributos y una etiqueta:

Funciones Etiqueta
Temperatura Humedad Presionar Puntuación de la prueba
15 47 998 92
19 34 1020 84
18 92 1012 87

Compara esto con etiqueta.

Consulta Aprendizaje supervisado en el curso Introducción al aprendizaje automático para obtener más información.

combinación de atributos

#fundamentals

Un atributo sintético que se forma cuando se "combinan" atributos categóricos o agrupados en buckets.

Por ejemplo, considera un modelo de "pronóstico del estado de ánimo" que representa la temperatura en uno de los siguientes cuatro buckets:

  • freezing
  • chilly
  • temperate
  • warm

Y representa la velocidad del viento en uno de los siguientes tres buckets:

  • still
  • light
  • windy

Sin combinaciones de atributos, el modelo lineal se entrena de forma independiente en cada uno de los siete segmentos anteriores. Por lo tanto, el modelo se entrena en, por ejemplo, freezing, independientemente del entrenamiento en, por ejemplo, windy.

Como alternativa, puedes crear una combinación de atributos de temperatura y velocidad del viento. Esta característica sintética tendría los siguientes 12 valores posibles:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Gracias a las combinaciones de atributos, el modelo puede aprender las diferencias de estado de ánimo entre un día freezing-windy y un día freezing-still.

Si creas un atributo sintético a partir de dos atributos que tienen muchos segmentos diferentes, la combinación de atributos resultante tendrá una gran cantidad de combinaciones posibles. Por ejemplo, si un atributo tiene 1,000 buckets y el otro tiene 2,000 buckets, la intersección de atributos resultante tiene 2,000,000 buckets.

Formalmente, una combinación es un producto cartesiano.

Las combinaciones de atributos se usan principalmente con modelos lineales y rara vez con redes neuronales.

Consulta Datos categóricos: Cruces de atributos en el Curso intensivo de aprendizaje automático para obtener más información.

ingeniería de atributos.

#fundamentals
#TensorFlow

Un proceso que incluye los siguientes pasos:

  1. Determinar qué funciones podrían ser útiles para entrenar un modelo.
  2. Convertir los datos sin procesar del conjunto de datos en versiones eficientes de esos atributos

Por ejemplo, podrías determinar que temperature podría ser una función útil. Luego, puedes experimentar con el agrupamiento para optimizar lo que el modelo puede aprender de diferentes rangos de temperature.

En algunas ocasiones, la ingeniería de atributos se denomina extracción de atributos o creación de atributos.

Consulta Datos numéricos: Cómo un modelo transfiere datos con vectores de características en el Curso intensivo de aprendizaje automático para obtener más información.

conjunto de atributos

#fundamentals

Es el grupo de atributos con los que se entrena el modelo de aprendizaje automático. Por ejemplo, el código postal, el tamaño y el estado de la propiedad podrían ser un conjunto de atributos simple para un modelo que predice los precios de las viviendas.

vector de atributos

#fundamentals

El array de valores de feature que comprende un ejemplo. El vector de atributos se ingresa durante el entrenamiento y la inferencia. Por ejemplo, el vector de atributos de un modelo con dos atributos discretos podría ser el siguiente:

[0.92, 0.56]

Cuatro capas: una de entrada, dos ocultas y una de salida.
          La capa de entrada contiene dos nodos, uno que contiene el valor 0.92 y el otro que contiene el valor 0.56.

Cada ejemplo proporciona diferentes valores para el vector de características, por lo que el vector de características del siguiente ejemplo podría ser algo como lo siguiente:

[0.73, 0.49]

La ingeniería de atributos determina cómo representar los atributos en el vector de atributos. Por ejemplo, un atributo categórico binario con cinco valores posibles se puede representar con la codificación one-hot. En este caso, la parte del vector de características para un ejemplo en particular consistiría en cuatro ceros y un solo 1.0 en la tercera posición, de la siguiente manera:

[0.0, 0.0, 1.0, 0.0, 0.0]

Como otro ejemplo, supongamos que tu modelo consta de tres atributos:

  • un atributo categórico binario con cinco valores posibles representados con codificación one-hot; por ejemplo: [0.0, 1.0, 0.0, 0.0, 0.0]
  • otro atributo categórico binario con tres valores posibles representados con codificación one-hot; por ejemplo: [0.0, 0.0, 1.0]
  • Un componente de punto flotante, por ejemplo: 8.3.

En este caso, el vector de atributos de cada ejemplo estaría representado por nueve valores. Dados los valores de ejemplo de la lista anterior, el vector de características sería el siguiente:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Consulta Datos numéricos: Cómo un modelo transfiere datos con vectores de características en el Curso intensivo de aprendizaje automático para obtener más información.

ciclo de retroalimentación

#fundamentals

En el aprendizaje automático, es una situación en la que las predicciones de un modelo influyen en los datos de entrenamiento del mismo modelo o de otro. Por ejemplo, un modelo que recomienda películas influirá en las películas que miran las personas, lo que, a su vez, influirá en los modelos de recomendación de películas posteriores.

Consulta Sistemas de aprendizaje automático de producción: Preguntas que debes hacer en el Curso intensivo de aprendizaje automático para obtener más información.

G

generalización

#fundamentals

Es la capacidad de un modelo para realizar predicciones correctas sobre datos nuevos nunca antes vistos. Un modelo que puede generalizar es lo opuesto a un modelo que tiene un sobreajuste.

Consulta Generalización en el Curso intensivo de aprendizaje automático para obtener más información.

curva de generalización

#fundamentals

Un gráfico de la pérdida de entrenamiento y la pérdida de validación como función de la cantidad de iteraciones.

Una curva de generalización puede ayudarte a detectar un posible sobreajuste. Por ejemplo, la siguiente curva de generalización sugiere sobreajuste porque la pérdida de validación se vuelve, en última instancia, significativamente mayor que la pérdida de entrenamiento.

Un gráfico cartesiano en el que el eje y está etiquetado como pérdida y el eje x está etiquetado como iteraciones. Aparecerán dos parcelas. En uno de los gráficos, se muestra la pérdida de entrenamiento y, en el otro, la pérdida de validación.
          Las dos tramas comienzan de manera similar, pero la pérdida de entrenamiento eventualmente cae mucho más abajo que la pérdida de validación.

Consulta Generalización en el Curso intensivo de aprendizaje automático para obtener más información.

descenso de gradientes

#fundamentals

Es una técnica matemática para minimizar la pérdida. El descenso de gradientes ajusta de manera iterativa los pesos y los sesgos, lo que permite encontrar de forma gradual la mejor combinación para minimizar la pérdida.

El descenso por gradiente es más antiguo que el aprendizaje automático.

Consulta Regresión lineal: descenso por gradiente en el Curso intensivo de aprendizaje automático para obtener más información.

Verdad fundamental

#fundamentals

Realidad.

Lo que sucedió en realidad.

Por ejemplo, considera un modelo de clasificación binaria que predice si un estudiante en su primer año de universidad se graduará en un plazo de seis años. La verdad fundamental de este modelo es si ese estudiante se graduó en seis años o no.

H

capa oculta

#fundamentals

Es una capa en una red neuronal entre la capa de entrada (los atributos) y la capa de salida (la predicción). Cada capa oculta consta de una o más neuronas. Por ejemplo, la siguiente red neuronal contiene dos capas ocultas, la primera con tres neuronas y la segunda con dos:

Cuatro capas La primera capa es una capa de entrada que contiene dos atributos. La segunda capa es una capa oculta que contiene tres

          neuronas. La tercera capa es una capa oculta que contiene dos

          neuronas. La cuarta capa es una capa de salida. Cada característica
          contiene tres bordes, cada uno de los cuales apunta a una neurona
          diferente en la segunda capa. Cada una de las neuronas de la segunda capa
          contiene dos aristas, cada una de las cuales apunta a una neurona distinta
          en la tercera capa. Cada una de las neuronas de la tercera capa contiene un borde, cada uno de los cuales apunta a la capa de salida.

Una red neuronal profunda contiene más de una capa oculta. Por ejemplo, la ilustración anterior es una red neuronal profunda porque el modelo contiene dos capas ocultas.

Consulta Redes neuronales: Nodos y capas ocultas en el Curso intensivo de aprendizaje automático para obtener más información.

hiperparámetro

#fundamentals

Las variables que tú o un servicio de ajuste de hiperparámetros ajustan durante ejecuciones sucesivas del entrenamiento de un modelo. Por ejemplo, la tasa de aprendizaje es un hiperparámetro. Puedes configurar la tasa de aprendizaje en 0.01 antes de una sesión de entrenamiento. Si determinas que 0.01 es demasiado alto, puedes establecer la tasa de aprendizaje en 0.003 para la próxima sesión de entrenamiento.

En cambio, los parámetros son los diversos pesos y sesgos que el modelo aprende durante el entrenamiento.

Consulta Regresión lineal: Hyperparameters en el Curso intensivo de aprendizaje automático para obtener más información.

I

independiente e idénticamente distribuido (i.i.d.)

#fundamentals

Son datos extraídos de una distribución que no cambia y en la que cada valor extraído no depende de los valores que se extrajeron anteriormente. Una i.i.d. es el gas ideal del aprendizaje automático; es una construcción matemática útil, pero casi nunca se encuentra exactamente en el mundo real. Por ejemplo, la distribución de los visitantes de una página web pueden ser datos i.i.d. en una ventana de tiempo breve, es decir, la distribución no cambia durante esa ventana breve y la visita de una persona por lo general es independiente de la visita de otra. Sin embargo, si amplías ese período, es posible que aparezcan diferencias estacionales en los visitantes de la página web.

Consulta también no estacionariedad.

inferencia

#fundamentals

En el aprendizaje automático, el proceso de realizar predicciones mediante la aplicación de un modelo entrenado a ejemplos sin etiqueta.

La inferencia tiene un significado algo diferente en la estadística. Consulta el Artículo de Wikipedia sobre inferencia estadística para obtener más información.

Consulta Aprendizaje supervisado en el curso Introducción al AA para ver el rol de la inferencia en un sistema de aprendizaje supervisado.

capa de entrada

#fundamentals

La capa de una red neuronal que contiene el vector de características. Es decir, la capa de entrada proporciona ejemplos para el entrenamiento o la inferencia. Por ejemplo, la capa de entrada en la siguiente red neuronal consta de dos atributos:

Cuatro capas: una de entrada, dos ocultas y una de salida.

interpretabilidad

#fundamentals

La capacidad de explicar o presentar el razonamiento de un modelo de AA en términos comprensibles para los humanos.

Por ejemplo, la mayoría de los modelos de regresión lineal son muy interpretables. (solo debes mirar los pesos entrenados para cada característica). Los bosques de decisión también son altamente interpretables. Sin embargo, algunos modelos requieren una visualización sofisticada para convertirse en interpretables.

Puedes usar la herramienta de interpretabilidad del aprendizaje (LIT) para interpretar modelos de AA.

iteración

#fundamentals

Una sola actualización de los parámetros del modelo (los pesos y los sesgos del modelo) durante el entrenamiento. El tamaño del lote determina cuántos ejemplos procesa el modelo en una sola iteración. Por ejemplo, si el tamaño del lote es 20, el modelo procesa 20 ejemplos antes de ajustar los parámetros.

Cuando entrenas una red neuronal, una sola iteración implica los siguientes dos pases:

  1. Un pase hacia adelante para evaluar la pérdida en un solo lote.
  2. Un paso hacia atrás (retropropagación) para ajustar los parámetros del modelo en función de la pérdida y la tasa de aprendizaje.

L

Regularización L0

#fundamentals

Un tipo de regularización que penaliza la cantidad total de pesos distintos de cero en un modelo. Por ejemplo, un modelo que tenga 11 pesos distintos de cero se penalizará más que un modelo similar que tenga 10 pesos distintos de cero.

A veces, la regularización L0 se denomina regularización de la norma L0.

Pérdida L1

#fundamentals

Una función de pérdida que calcula el valor absoluto de la diferencia entre los valores reales de la etiqueta y los valores que predice un modelo. Por ejemplo, este es el cálculo de la pérdida de L1 para un lote de cinco ejemplos:

Valor real del ejemplo Valor predicho del modelo Valor absoluto de delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = Pérdida de L1

La pérdida L1 es menos sensible a los valores atípicos que la pérdida L2.

El error absoluto medio es la pérdida promedio de L1 por ejemplo.

Regularización L1

#fundamentals

Tipo de regularización que penaliza los pesos en proporción a la suma del valor absoluto de los pesos. La regularización L1 ayuda a llevar los pesos de los atributos irrelevantes o poco relevantes a exactamente 0. Un atributo con un peso de 0 se quita de forma efectiva del modelo.

Compara esto con la regularización L2.

Pérdida L2

#fundamentals

Una función de pérdida que calcula el cuadrado de la diferencia entre los valores reales de la etiqueta y los valores que predice un modelo. Por ejemplo, este es el cálculo de la pérdida L2 para un lote de cinco ejemplos:

Valor real del ejemplo Valor predicho del modelo Cuadrado de delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = Pérdida de L2

Debido al componente cuadrático, la pérdida L2 amplifica la influencia de los valores atípicos. Es decir, la pérdida de L2 reacciona de manera más severa a las predicciones incorrectas que la pérdida de L1. Por ejemplo, la pérdida de L1 para el lote anterior sería de 8 en lugar de 16. Ten en cuenta que un solo valor extremo representa 9 de los 16.

Los modelos de regresión suelen usar la pérdida L2 como función de pérdida.

El error cuadrático medio es la pérdida promedio de L2 por ejemplo. La pérdida al cuadrado es otro nombre para la pérdida de L2.

Regularización L2

#fundamentals

Tipo de regularización que penaliza los pesos en proporción a la suma de los cuadrados de los pesos. La regularización L2 ayuda a llevar los pesos de los valores atípicos (aquellos con valores negativos bajos o positivos altos) más cerca del 0, pero no exactamente a ese número. Los atributos con valores muy cercanos a 0 permanecen en el modelo, pero no influyen mucho en la predicción del modelo.

La regularización L2 siempre mejora la generalización en los modelos lineales.

Compara esto con la regularización1.

etiqueta

#fundamentals

En el aprendizaje automático supervisado, la parte de "respuesta" o "resultado" de un ejemplo.

Cada ejemplo etiquetado consta de uno o más atributos y una etiqueta. Por ejemplo, en un conjunto de datos de detección de spam, la etiqueta probablemente sería "es spam" o "no es spam". En un conjunto de datos de precipitación, la etiqueta podría ser la cantidad de lluvia que cayó durante un período determinado.

ejemplo etiquetado

#fundamentals

Un ejemplo que contiene uno o más atributos y una etiqueta. Por ejemplo, en la siguiente tabla, se muestran tres ejemplos etiquetados de un modelo de valoración de casas, cada uno con tres atributos y una etiqueta:

Cantidad de dormitorios Cantidad de baños Antigüedad de la casa Precio de la casa (etiqueta)
3 2 15 USD 345,000
2 1 72 USD 179,000
4 2 34 USD 392,000

En el aprendizaje automático supervisado, los modelos se entrenan con ejemplos etiquetados y realizan predicciones sobre ejemplos sin etiqueta.

Contrasta el ejemplo etiquetado con los ejemplos sin etiqueta.

lambda

#fundamentals

Sinónimo de tasa de regularización.

Lambda es un término sobrecargado. Aquí nos referimos a la definición del término dentro de la regularización.

oculta

#fundamentals

Un conjunto de neuronas en una red neuronal. Los siguientes son tres tipos comunes de capas:

Por ejemplo, en la siguiente ilustración, se muestra una red neuronal con una capa de entrada, dos capas ocultas y una capa de salida:

Una red neuronal con una capa de entrada, dos capas ocultas y una

          capa de salida. La capa de entrada consta de dos componentes. La primera capa oculta consta de tres neuronas y la segunda capa oculta consta de dos neuronas. La capa de salida consta de un solo nodo.

En TensorFlow, las capas también son funciones de Python que toman tensores y opciones de configuración como entrada y producen otros tensores como resultado.

tasa de aprendizaje

#fundamentals

Es un número de punto flotante que le indica al algoritmo de descenso de gradientes con qué intensidad ajustar los pesos y los sesgos en cada iteración. Por ejemplo, una tasa de aprendizaje de 0.3 ajustaría los pesos y sesgos tres veces más potente que una tasa de aprendizaje de 0.1.

La tasa de aprendizaje es un hiperparámetro clave. Si estableces demasiado baja la tasa de aprendizaje, el entrenamiento demorará demasiado. Si configuras la tasa de aprendizaje demasiado alta, el descenso de gradientes suele tener problemas para alcanzar la convergencia.

linear

#fundamentals

Es una relación entre dos o más variables que se puede representar únicamente a través de la adición y la multiplicación.

El gráfico de una relación lineal es una línea.

Compara esto con no lineal.

modelo lineal

#fundamentals

Un modelo que asigna un peso por atributo para realizar predicciones. (Los modelos lineales también incorporan un sesgo). Por el contrario, la relación de las características con las predicciones en los modelos profundos suele ser no lineal.

Los modelos lineales suelen ser más fáciles de entrenar y más interpretables que los modelos profundos. Sin embargo, los modelos profundos pueden aprender relaciones complejas entre atributos.

La regresión lineal y la regresión logística son dos tipos de modelos lineales.

regresión lineal

#fundamentals

Un tipo de modelo de aprendizaje automático en el que se cumplen las siguientes condiciones:

  • El modelo es un modelo lineal.
  • La predicción es un valor de punto flotante. (esta es la parte de regresión de la regresión lineal).

Compara la regresión lineal con la regresión logística. Además, compara la regresión con la clasificación.

regresión logística

#fundamentals

Es un tipo de modelo de regresión que predice una probabilidad. Los modelos de regresión logística tienen las siguientes características:

  • La etiqueta es categórica. El término regresión logística suele referirse a la regresión logística binaria, es decir, a un modelo que calcula probabilidades para etiquetas con dos valores posibles. Una variante menos común, la regresión logística multinomial, calcula las probabilidades de las etiquetas con más de dos valores posibles.
  • La función de pérdida durante el entrenamiento es la Pérdida logística. (Se pueden colocar varias unidades de pérdida de registro en paralelo para etiquetas con más de dos valores posibles).
  • El modelo tiene una arquitectura lineal, no una red neuronal profunda. Sin embargo, el resto de esta definición también se aplica a los modelos profundos que predicen probabilidades para etiquetas categóricas.

Por ejemplo, considera un modelo de regresión logística que calcula la probabilidad de que un correo electrónico de entrada sea spam o no. Durante la inferencia, supongamos que el modelo predice 0.72. Por lo tanto, el modelo estima lo siguiente:

  • Una probabilidad del 72% de que el correo electrónico sea spam.
  • Una probabilidad del 28% de que el correo electrónico no sea spam.

Un modelo de regresión logística usa la siguiente arquitectura de dos pasos:

  1. El modelo genera una predicción sin procesar (y') aplicando una función lineal de atributos de entrada.
  2. El modelo usa esa predicción sin procesar como entrada para una función sigmoidea, que convierte la predicción sin procesar en un valor entre 0 y 1, de forma exclusiva.

Al igual que cualquier modelo de regresión, un modelo de regresión logística predice un número. Sin embargo, este número suele formar parte de un modelo de clasificación binaria de la siguiente manera:

  • Si el número previsto es mayor que el umbral de clasificación, el modelo de clasificación binaria predice la clase positiva.
  • Si el número previsto es menor que el umbral de clasificación, el modelo de clasificación binaria predice la clase negativa.

Pérdida logística

#fundamentals

La función de pérdida que se usa en la regresión logística binaria.

logaritmo de probabilidad

#fundamentals

Es el logaritmo de las probabilidades de algún evento.

pérdida

#fundamentals

Durante el entrenamiento de un modelo supervisado, es una medida de qué tan lejos está la predicción de un modelo de su etiqueta.

Una función de pérdida calcula la pérdida.

curva de pérdida

#fundamentals

Un gráfico de pérdida como función de la cantidad de iteraciones de entrenamiento. En el siguiente gráfico, se muestra una curva de pérdida típica:

Un gráfico cartesiano de pérdida en comparación con las iteraciones de entrenamiento, que muestra una caída rápida de la pérdida para las iteraciones iniciales, seguida de una disminución gradual y, luego, una pendiente plana durante las iteraciones finales.

Las curvas de pérdida pueden ayudarte a determinar cuándo tu modelo está convergendo o sobreajustándose.

Las curvas de pérdidas pueden graficar todos los siguientes tipos de pérdidas:

Consulta también la curva de generalización.

función de pérdida

#fundamentals

Durante el entrenamiento o las pruebas, es una función matemática que calcula la pérdida en un lote de ejemplos. Una función de pérdida muestra una pérdida más baja para los modelos que hacen buenas predicciones que para los modelos que hacen predicciones erróneas.

Por lo general, el objetivo del entrenamiento es minimizar la pérdida que muestra una función de pérdida.

Existen muchos tipos diferentes de funciones de pérdida. Elige la función de pérdida adecuada para el tipo de modelo que estás compilando. Por ejemplo:

M

aprendizaje automático

#fundamentals

Es un programa o sistema que entrena un modelo a partir de datos de entrada. El modelo entrenado puede hacer predicciones útiles a partir de datos nuevos (nunca vistos) extraídos de la misma distribución que la utilizada para entrenar el modelo.

El aprendizaje automático también se conoce como el campo de estudio relacionado con estos programas o sistemas.

clase mayoritaria

#fundamentals

Es la etiqueta más común en un conjunto de datos con desequilibrio de clases. Por ejemplo, dado un conjunto de datos con 99% de etiquetas negativas y 1% de etiquetas positivas, la clase mayoritaria son las etiquetas negativas.

Compara esto con la clase minoritaria.

minilote

#fundamentals

Es un subconjunto pequeño seleccionado al azar de un lote procesado en una iteración. El tamaño del lote de un minilote suele ser de entre 10 y 1,000 ejemplos.

Por ejemplo, supongamos que todo el conjunto de entrenamiento (el lote completo) contiene 1,000 ejemplos. Supongamos además que estableces el tamaño del lote de cada minilote en 20. Por lo tanto, cada iteración determina la pérdida en 20 de los 1,000 ejemplos aleatorios y, luego, ajusta los pesos y los sesgos según corresponda.

Es mucho más eficiente calcular la pérdida en un minilote que la pérdida en todos los ejemplos del lote completo.

clase minoritaria

#fundamentals

Etiqueta menos común en un conjunto de datos con desequilibrio de clases. Por ejemplo, dado un conjunto de datos con 99% de etiquetas negativas y 1% de etiquetas positivas, la clase minoritaria son las etiquetas positivas.

Compara esto con la clase mayoritaria.

modelo

#fundamentals

En general, cualquier construcción matemática que procese datos de entrada y muestre resultados. Dicho de otra manera, un modelo es el conjunto de parámetros y estructura necesarios para que un sistema realice predicciones. En el aprendizaje automático supervisado, un modelo toma un ejemplo como entrada y deduce una predicción como resultado. Dentro del aprendizaje automático supervisado, los modelos difieren un poco. Por ejemplo:

  • Un modelo de regresión lineal consta de un conjunto de pesos y un sesgo.
  • Un modelo de red neuronal consta de lo siguiente:
    • Un conjunto de capas ocultas, cada una de las cuales contiene una o más neuronas.
    • Los pesos y sesgos asociados con cada neurona.
  • Un modelo de árbol de decisión consta de lo siguiente:
    • La forma del árbol, es decir, el patrón en el que se conectan las condiciones y las hojas.
    • Las condiciones y las hojas.

Puedes guardar, restablecer o hacer copias de un modelo.

El aprendizaje automático no supervisado también genera modelos, por lo general, una función que puede asignar un ejemplo de entrada al clúster más apropiado.

clasificación de varias clases

#fundamentals

En el aprendizaje supervisado, un problema de clasificación en el que el conjunto de datos contiene más de dos clases de etiquetas. Por ejemplo, las etiquetas del conjunto de datos de Iris deben ser una de las siguientes tres clases:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Un modelo entrenado en el conjunto de datos de Iris que predice el tipo de Iris en ejemplos nuevos realiza una clasificación de varias clases.

Por el contrario, los problemas de clasificación que distinguen entre exactamente dos clases son modelos de clasificación binaria. Por ejemplo, un modelo de correo electrónico que predice spam o no spam es un modelo de clasificación binaria.

En los problemas de agrupamiento, la clasificación de clases múltiples hace referencia a más de dos clústeres.

N

clase negativa

#fundamentals

En la clasificación binaria, una clase se expresa como positiva y la otra como negativa. La clase positiva es el objeto o evento que el modelo está probando, y la clase negativa es la otra posibilidad. Por ejemplo:

  • La clase negativa en una prueba médica puede ser "no es un tumor".
  • La clase negativa en un clasificador de correo electrónico puede ser "no es spam".

Compara esto con la clase positiva.

neuronal prealimentada

#fundamentals

Un modelo que contenga al menos una capa oculta. Una red neuronal profunda es un tipo de red neuronal que contiene más de una capa oculta. Por ejemplo, en el siguiente diagrama, se muestra una red neuronal profunda que contiene dos capas ocultas.

Una red neuronal con una capa de entrada, dos capas ocultas y una de salida

Cada neurona de una red neuronal se conecta a todos los nodos de la siguiente capa. Por ejemplo, en el diagrama anterior, observa que cada una de las tres neuronas de la primera capa oculta se conecta por separado a las dos neuronas de la segunda capa oculta.

Las redes neuronales implementadas en computadoras a veces se denominan redes neuronales artificiales para diferenciarlas de las redes neuronales que se encuentran en el cerebro y otros sistemas nerviosos.

Algunas redes neuronales pueden imitar relaciones no lineales extremadamente complejas entre diferentes atributos y la etiqueta.

Consulta también red neuronal convolucional y red neuronal recurrente.

neurona

#fundamentals

En el aprendizaje automático, es una unidad distinta dentro de una capa oculta de una red neuronal. Cada neurona realiza la siguiente acción de dos pasos:

  1. Calcula la suma ponderada de los valores de entrada multiplicados por sus pesos correspondientes.
  2. Pasa la suma ponderada como entrada a una función de activación.

Una neurona en la primera capa oculta acepta entradas de los valores de atributos en la capa de entrada. Una neurona en cualquier capa oculta después de la primera acepta entradas de las neuronas de la capa oculta anterior. Por ejemplo, una neurona en la segunda capa oculta acepta entradas de las neuronas de la primera capa oculta.

En la siguiente ilustración, se destacan dos neuronas y sus entradas.

Una red neuronal con una capa de entrada, dos capas ocultas y una de salida Se destacan dos neuronas: una en la primera
          capa oculta y otra en la segunda. La neurona destacada en la primera capa oculta recibe entradas de ambas características en la capa de entrada. La neurona destacada en la segunda capa oculta recibe entradas de cada una de las tres neuronas de la primera capa oculta.

Una neurona en una red neuronal imita el comportamiento de las neuronas en el cerebro y otras partes del sistema nervioso.

nodo (red neuronal)

#fundamentals

Una neurona en una capa oculta.

no lineal

#fundamentals

Es una relación entre dos o más variables que no se puede representar solo a través de la adición y la multiplicación. Una relación lineal se puede representar como una línea; una relación no lineal no se puede representar como una línea. Por ejemplo, considera dos modelos que relacionan un solo atributo con una sola etiqueta. El modelo de la izquierda es lineal y el de la derecha es no lineal:

Dos parcelas. Un gráfico es una línea, por lo que esta es una relación lineal.
          El otro gráfico es una curva, por lo que se trata de una relación no lineal.

no estacionariedad

#fundamentals

Es un atributo cuyos valores cambian en una o más dimensiones, por lo general, el tiempo. Por ejemplo, considera los siguientes ejemplos de no estacionariedad:

  • La cantidad de trajes de baño que se venden en una tienda en particular varía según la temporada.
  • La cantidad de una fruta en particular que se cosecha en una región determinada es cero durante gran parte del año, pero es grande durante un período breve.
  • Debido al cambio climático, las temperaturas medias anuales están cambiando.

Compara esto con la estabilidad.

normalización

#fundamentals

En términos generales, es el proceso de convertir el rango real de valores de una variable en un rango estándar de valores, como los siguientes:

  • De -1 a +1
  • De 0 a 1
  • Puntuaciones Z (aproximadamente, de -3 a +3)

Por ejemplo, supongamos que el rango real de valores de un atributo determinado es de 800 a 2,400. Como parte de la ingeniería de atributos, puedes normalizar los valores reales hasta un rango estándar, como de -1 a +1.

La normalización es una tarea común en la ingeniería de atributos. Los modelos suelen entrenarse más rápido (y producir mejores predicciones) cuando cada atributo numérico del vector de características tiene aproximadamente el mismo rango.

Consulta el módulo Trabajar con datos numéricos del Curso intensivo de aprendizaje automático para obtener más detalles. Consulta también Normalización de la puntuación Z.

datos numéricos

#fundamentals

Atributos representados como números enteros o de valores reales. Por ejemplo, un modelo de valoración de casas probablemente representaría el tamaño de una casa (en pies cuadrados o metros cuadrados) como datos numéricos. Representar una función como datos numéricos indica que los valores de la función tienen una relación matemática con la etiqueta. Es decir, la cantidad de metros cuadrados de una casa probablemente tenga alguna relación matemática con el valor de la casa.

No todos los datos de números enteros deben representarse como datos numéricos. Por ejemplo, los códigos postales de algunas partes del mundo son números enteros. Sin embargo, los códigos postales enteros no deben representarse como datos numéricos en los modelos. Esto se debe a que un código postal de 20000 no es el doble (o la mitad) de potente que un código postal de 10,000. Además, aunque los diferentes códigos postales se correlacionan con diferentes valores inmobiliarios, no podemos suponer que los valores inmobiliarios del código postal 20000 sean el doble de valiosos que los valores inmobiliarios del código postal 10000. Por lo tanto, los códigos postales deben representarse como datos categóricos.

En algunas ocasiones, las funciones numéricas se denominan atributos continuos.

O

sin conexión

#fundamentals

Es un sinónimo de estático.

inferencia sin conexión

#fundamentals

Es el proceso en el que un modelo genera un lote de predicciones y, luego, almacena en caché (guarda) esas predicciones. Luego, las apps pueden acceder a la predicción inferida desde la caché en lugar de volver a ejecutar el modelo.

Por ejemplo, considera un modelo que genera pronósticos del clima local (predicciones) una vez cada cuatro horas. Después de cada ejecución del modelo, el sistema almacena en caché todos los pronósticos del clima local. Las apps del clima recuperan los pronósticos de la caché.

La inferencia sin conexión también se denomina inferencia estática.

Compara esto con la inferencia en línea.

codificación one-hot

#fundamentals

Representar los datos categóricos como un vector en el que se cumple lo siguiente:

  • Un elemento se establece en 1.
  • Todos los demás elementos se establecen en 0.

La codificación one-hot se usa comúnmente para representar cadenas o identificadores que tienen un conjunto finito de valores posibles. Por ejemplo, supongamos que un atributo categórico determinado llamado Scandinavia tiene cinco valores posibles:

  • "Dinamarca"
  • "Suecia"
  • "Noruega"
  • "Finlandia"
  • "Islandia"

La codificación one-hot podría representar cada uno de los cinco valores de la siguiente manera:

country Vector
"Dinamarca" 1 0 0 0 0
"Suecia" 0 1 0 0 0
"Noruega" 0 0 1 0 0
"Finlandia" 0 0 0 1 0
"Islandia" 0 0 0 0 1

Gracias a la codificación one-hot, un modelo puede aprender diferentes conexiones según cada uno de los cinco países.

Representar un atributo como datos numéricos es una alternativa a la codificación one-hot. Lamentablemente, representar los países escandinavos de forma numérica no es una buena opción. Por ejemplo, considera la siguiente representación numérica:

  • "Denmark" es 0.
  • "Suecia" es 1.
  • "Norway" es 2.
  • "Finlandia" es 3.
  • "Islandia" es 4.

Con la codificación numérica, un modelo interpretaría los números sin procesar de forma matemática y trataría de entrenar con esos números. Sin embargo, Islandia no tiene el doble (ni la mitad) de algo que Noruega, por lo que el modelo llegaría a conclusiones extrañas.

uno frente a todos

#fundamentals

Dado un problema de clasificación con N clases, una solución que consta de N clasificadores binarios independientes, es decir, un clasificador binario para cada resultado posible. Por ejemplo, dado un modelo que clasifica ejemplos como animal, vegetal o mineral, una solución de uno frente a todos proporcionaría los siguientes tres clasificadores binarios independientes:

  • animal o no animal
  • vegetal o no vegetal
  • mineral y no mineral

en línea

#fundamentals

Es un sinónimo de dinámico.

inferencia en línea

#fundamentals

Generación de predicciones a pedido. Por ejemplo, imagina que una app pasa una entrada a un modelo y emite una solicitud para una predicción. Un sistema que usa inferencia en línea responde a la solicitud ejecutando el modelo (y devuelve la predicción a la app).

Compara esto con la inferencia sin conexión.

capa de salida

#fundamentals

La capa "final" de una red neuronal. La capa de salida contiene la predicción.

En la siguiente ilustración, se muestra una pequeña red neuronal profunda con una capa de entrada, dos capas ocultas y una capa de salida:

Una red neuronal con una capa de entrada, dos capas ocultas y una

          capa de salida. La capa de entrada consta de dos componentes. La primera capa oculta consta de tres neuronas y la segunda capa oculta consta de dos neuronas. La capa de salida consta de un solo nodo.

sobreajuste

#fundamentals

Creación de un modelo que coincida de tal manera con los datos de entrenamiento que no puede realizar predicciones correctas con datos nuevos.

La regularización puede reducir el sobreajuste. El entrenamiento en un conjunto de entrenamiento grande y diverso también puede reducir el sobreajuste.

P

pandas

#fundamentals

Es una API de análisis de datos orientada a columnas compilada en numpy. Muchos frameworks de aprendizaje automático, incluidos TensorFlow, son compatibles con estructuras de datos de Pandas como entradas. Para obtener más información, consulta la documentación de Pandas.

parámetro

#fundamentals

Los pesos y los sesgos que un modelo aprende durante el entrenamiento. Por ejemplo, en un modelo de regresión lineal, los parámetros consisten en la ordenada al origen (b) y todos los pesos (w1, w2, etcétera) en la siguiente fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En cambio, los hiperparámetros son los valores que (o un servicio de ajuste de hiperparámetros) le proporcionas al modelo. Por ejemplo, learning rate es un hiperparámetro.

clase positiva

#fundamentals

Es la clase para la que realizas la prueba.

Por ejemplo, la clase positiva en un modelo de cáncer podría ser "tumor". La clase positiva en un clasificador de correo electrónico puede ser "es spam".

Compara esto con la clase negativa.

posprocesamiento

#fairness
#fundamentals

Ajustar el resultado de un modelo después de que se ejecute El procesamiento posterior se puede usar para aplicar restricciones de equidad sin modificar los modelos.

Por ejemplo, se puede aplicar el procesamiento posterior a un clasificador binario si se establece un umbral de clasificación de modo que se mantenga la igualdad de oportunidades para algún atributo. Para ello, se debe verificar que la tasa de verdaderos positivos sea la misma para todos los valores de ese atributo.

predicción

#fundamentals

Es el resultado de un modelo. Por ejemplo:

  • La predicción de un modelo de clasificación binaria es la clase positiva o la clase negativa.
  • La predicción de un modelo de clasificación de varias clases es una clase.
  • La predicción de un modelo de regresión lineal es un número.

etiquetas de proxy

#fundamentals

Datos utilizados para aproximar etiquetas que no están disponibles en el conjunto de datos de forma directa.

Por ejemplo, supongamos que debes entrenar un modelo para predecir el nivel de estrés de los empleados. Tu conjunto de datos contiene muchas funciones predictivas, pero no contiene una etiqueta llamada nivel de estrés. Sin inmutarse, eliges “accidentes en el lugar de trabajo” como una etiqueta de proxy para el nivel de estrés. Después de todo, los empleados que están sometidos a mucho estrés sufren más accidentes que los empleados tranquilos. ¿O no? Quizás los accidentes laborales aumenten y disminuyan por varios motivos.

Como segundo ejemplo, supongamos que deseas que ¿está lloviendo? sea una etiqueta booleana para tu conjunto de datos, pero este no contiene datos sobre lluvia. Si hay fotografías disponibles, podrías establecer imágenes de personas con paraguas como una etiqueta de proxy para ¿está lloviendo? ¿Es una buena etiqueta de proxy? Es posible, pero es más probable que las personas de algunas culturas lleven paraguas para protegerse del sol en lugar de la lluvia.

Las etiquetas de proxy suelen ser imperfectas. Cuando sea posible, elige las etiquetas reales en lugar de las etiquetas de proxy. Dicho esto, cuando no haya una etiqueta real, elige la etiqueta de proxy con mucho cuidado y elige la candidata de etiqueta de proxy menos horrible.

R

RAG

#fundamentals

Abreviatura de generación mejorada por recuperación.

evaluador

#fundamentals

Es una persona que proporciona etiquetas para los ejemplos. "Anotador" es otro nombre para el calificador.

Unidad lineal rectificada (ReLU)

#fundamentals

Una función de activación con el siguiente comportamiento:

  • Si la entrada es negativa o cero, el resultado es 0.
  • Si la entrada es positiva, el resultado es igual a la entrada.

Por ejemplo:

  • Si la entrada es -3, el resultado es 0.
  • Si la entrada es +3, el resultado es 3.0.

Esta es una gráfica de ReLU:

Una representación cartesiana de dos líneas. La primera línea tiene un valor y constante de 0, que se extiende a lo largo del eje x de -infinito,0 a 0,-0.
          La segunda línea comienza en 0,0. Esta línea tiene una pendiente de +1, por lo que va de 0,0 a infinito,infinito.

ReLU es una función de activación muy popular. A pesar de su comportamiento simple, ReLU aún permite que una red neuronal aprenda relaciones no lineales entre los atributos y la etiqueta.

modelo de regresión

#fundamentals

De manera informal, es un modelo que genera una predicción numérica. (Por el contrario, un modelo de clasificación genera una predicción de clase). Por ejemplo, los siguientes son todos modelos de regresión:

  • Un modelo que predice el valor de una casa en euros, como 423,000.
  • Un modelo que predice la esperanza de vida de un árbol determinado en años, como 23.2.
  • Un modelo que predice la cantidad de lluvia en pulgadas que caerá en una ciudad determinada durante las próximas seis horas, como 0.18.

Estos son dos tipos comunes de modelos de regresión:

  • Regresión lineal, que encuentra la línea que mejor ajusta los valores de etiqueta a los atributos.
  • Regresión logística, que genera una probabilidad entre 0.0 y 1.0 que, por lo general, un sistema asigna a una predicción de clase.

No todos los modelos que generan predicciones numéricas son modelos de regresión. En algunos casos, una predicción numérica es en realidad un modelo de clasificación que tiene nombres de clase numéricos. Por ejemplo, un modelo que predice un código postal numérico es un modelo de clasificación, no un modelo de regresión.

regularización

#fundamentals

Cualquier mecanismo que reduzca el sobreajuste Entre los tipos de regularización populares, se incluyen los siguientes:

La regularización también se puede definir como la penalización de la complejidad de un modelo.

tasa de regularización

#fundamentals

Es un número que especifica la importancia relativa de la regularización durante el entrenamiento. Aumentar la tasa de regularización reduce el sobreajuste, pero puede reducir el poder predictivo del modelo. Por el contrario, reducir o omitir la tasa de regularización aumenta el sobreajuste.

ReLU

#fundamentals

Abreviatura de unidad lineal rectificada.

generación mejorada por recuperación (RAG)

#fundamentals

Es una técnica para mejorar la calidad del resultado del modelo de lenguaje grande (LLM) basándolo en fuentes de conocimiento recuperadas después de que se entrenó el modelo. La RAG mejora la precisión de las respuestas del LLM, ya que le proporciona al LLM entrenado acceso a información recuperada de bases de conocimiento o documentos de confianza.

Entre las motivaciones comunes para usar la generación mejorada por recuperación, se incluyen las siguientes:

  • Aumenta la precisión fáctica de las respuestas generadas por un modelo.
  • Darle al modelo acceso al conocimiento con el que no se entrenó
  • Cambiar el conocimiento que usa el modelo
  • Habilita el modelo para que cite fuentes.

Por ejemplo, supongamos que una app de química usa la API de PaLM para generar resúmenes relacionados con las consultas de los usuarios. Cuando el backend de la app recibe una consulta, hace lo siguiente:

  1. Busca ("recupera") datos relevantes para la búsqueda del usuario.
  2. Adjunta ("aumenta") los datos de química relevantes a la búsqueda del usuario.
  3. Le indica al LLM que cree un resumen basado en los datos agregados.

curva ROC (característica operativa del receptor)

#fundamentals

Gráfico de la tasa de verdaderos positivos en comparación con la tasa de falsos positivos para diferentes umbrales de clasificación en la clasificación binaria.

La forma de una curva ROC sugiere la capacidad de un modelo de clasificación binaria para separar las clases positivas de las negativas. Supongamos, por ejemplo, que un modelo de clasificación binaria separa perfectamente todas las clases negativas de todas las clases positivas:

Una línea numérica con 8 ejemplos positivos a la derecha y
          7 ejemplos negativos a la izquierda.

La curva ROC del modelo anterior se ve de la siguiente manera:

Una curva ROC. El eje X es la tasa de falsos positivos y el eje Y es la tasa de verdaderos positivos. La curva tiene forma de L invertida. La curva comienza en (0.0,0.0) y sube directamente a (0.0,1.0). Luego, la curva va de (0.0,1.0) a (1.0,1.0).

En cambio, en la siguiente ilustración, se grafican los valores de regresión logística sin procesar de un modelo terrible que no puede separar las clases negativas de las positivas:

Una línea numérica con ejemplos positivos y clases negativas completamente mezclados

La curva ROC de este modelo se ve de la siguiente manera:

Una curva ROC, que en realidad es una línea recta de (0.0,0.0) a (1.0,1.0).

Mientras tanto, en el mundo real, la mayoría de los modelos de clasificación binaria separan las clases positivas y negativas en cierta medida, pero, por lo general, no de forma perfecta. Por lo tanto, una curva ROC típica se encuentra en algún lugar entre los dos extremos:

Una curva ROC. El eje X es la tasa de falsos positivos y el eje Y es la tasa de verdaderos positivos. La curva ROC se aproxima a un arco inestable que atraviesa los puntos de la brújula de oeste a norte.

En teoría, el punto de una curva ROC más cercano a (0.0,1.0) identifica el umbral de clasificación ideal. Sin embargo, varios otros problemas del mundo real influyen en la selección del umbral de clasificación ideal. Por ejemplo, quizás los falsos negativos causen mucho más problemas que los falsos positivos.

Una métrica numérica llamada AUC resume la curva ROC en un solo valor de punto flotante.

Raíz cuadrada del error cuadrático medio (RMSE)

#fundamentals

Es la raíz cuadrada del error cuadrático medio.

S

función sigmoidea

#fundamentals

Es una función matemática que “aplasta” un valor de entrada en un rango limitado, por lo general, de 0 a 1 o de -1 a +1. Es decir, puedes pasar cualquier número (dos, un millón, mil millones negativos, lo que sea) a una función sigmoidea, y el resultado seguirá estando en el rango restringido. Un gráfico de la función de activación sigmoidea se ve de la siguiente manera:

Un gráfico curvo de dos dimensiones con valores de x que abarcan el dominio de menos infinito a positivo, mientras que los valores de y abarcan el rango de casi 0 a casi 1. Cuando x es 0, y es 0.5. La pendiente de la curva siempre es positiva, con la pendiente más alta en 0,0.5 y pendientes que disminuyen gradualmente a medida que aumenta el valor absoluto de x.

La función sigmoidea tiene varios usos en el aprendizaje automático, entre los que se incluyen los siguientes:

softmax

#fundamentals

Es una función que determina las probabilidades para cada clase posible en un modelo de clasificación de varias clases. Las probabilidades suman exactamente 1.0. Por ejemplo, en la siguiente tabla, se muestra cómo la función softmax distribuye variadas probabilidades:

La imagen es un… Probabilidad
perro .85
gato .13
caballo .02

La función softmax también se denomina softmax completo.

Compara esto con el muestreo de candidatos.

atributo disperso

#language
#fundamentals

Un atributo cuyos valores son predominantemente cero o están vacíos. Por ejemplo, un atributo que contiene un solo valor de 1 y un millón de valores de 0 es escaso. En cambio, un atributo denso tiene valores que, en su mayoría, no son cero ni están vacíos.

En el aprendizaje automático, una cantidad sorprendente de atributos son atributos dispersos. Los atributos categóricos suelen ser atributos dispersos. Por ejemplo, de las 300 especies de árboles posibles en un bosque, un solo ejemplo podría identificar solo un árbol de arce. O bien, de los millones de videos posibles en una biblioteca de video, un solo ejemplo podría identificar solo "Casablanca".

En un modelo, por lo general, representas atributos dispersos con codificación one-hot. Si la codificación one-hot es grande, puedes colocar una capa de incorporación sobre la codificación one-hot para obtener una mayor eficiencia.

representación dispersa

#language
#fundamentals

Almacena solo las posiciones de los elementos distintos de cero en un atributo disperso.

Por ejemplo, supongamos que un atributo categórico llamado species identifica las 36 especies de árboles en un bosque en particular. Supongamos además que cada ejemplo identifica solo una especie.

Podrías usar un vector de un valor para representar las especies de árboles en cada ejemplo. Un vector one-hot contendría un solo 1 (para representar la especie de árbol en particular en ese ejemplo) y 35 0 (para representar las 35 especies de árboles que no están en ese ejemplo). Por lo tanto, la representación one-hot de maple podría verse de la siguiente manera:

Un vector en el que las posiciones del 0 al 23 contienen el valor 0, la posición 24 contiene el valor 1 y las posiciones del 25 al 35 contienen el valor 0.

Como alternativa, la representación dispersa simplemente identificaría la posición de la especie en particular. Si maple está en la posición 24, la representación dispersa de maple sería la siguiente:

24

Ten en cuenta que la representación dispersa es mucho más compacta que la representación de uno caliente.

vector disperso

#fundamentals

Un vector cuyos valores son predominantemente cero. Consulta también atributo disperso y dispersión.

pérdida al cuadrado

#fundamentals

Es un sinónimo de pérdida de L2.

static

#fundamentals

Es algo que se hace una vez en lugar de de forma continua. Los términos estático y sin conexión son sinónimos. Los siguientes son usos comunes de estático y sin conexión en el aprendizaje automático:

  • Un modelo estático (o modelo sin conexión) es un modelo que se entrena una vez y luego se usa durante un tiempo.
  • El entrenamiento estático (o entrenamiento sin conexión) es el proceso de entrenar un modelo estático.
  • La inferencia estática (o inferencia sin conexión) es un proceso en el que un modelo genera un lote de predicciones a la vez.

Compara esto con el dinámico.

Inferencia estática

#fundamentals

Es un sinónimo de inferencia sin conexión.

estacionariedad

#fundamentals

Es una función cuyos valores no cambian en una o más dimensiones, por lo general, el tiempo. Por ejemplo, un atributo cuyos valores se ven aproximadamente iguales en 2021 y 2023 muestra estacionariedad.

En el mundo real, muy pocas características presentan estacionariedad. Incluso los atributos que son sinónimos de estabilidad (como el nivel del mar) cambian con el tiempo.

Compara esto con la no estacionariedad.

descenso de gradientes estocástico (SGD)

#fundamentals

Un algoritmo de descenso de gradientes en el que el tamaño del lote es uno. En otras palabras, el SGD se entrena en un solo ejemplo elegido de forma uniforme al azar de un conjunto de entrenamiento.

aprendizaje automático supervisado

#fundamentals

Entrenar un modelo a partir de características y sus etiquetas correspondientes. El aprendizaje automático supervisado es análogo a aprender un tema a través del estudio de un conjunto de preguntas y sus respuestas correspondientes. Después de dominar la asignación entre preguntas y respuestas, un estudiante puede proporcionar respuestas a preguntas nuevas (nunca antes vistas) sobre el mismo tema.

Compara esto con el aprendizaje automático no supervisado.

atributo sintético

#fundamentals

Un atributo que no está presente entre los atributos de entrada, pero que se deriva de uno o más de ellos. Entre los métodos para crear atributos sintéticos, se incluyen los siguientes:

  • Agrupamiento de un atributo continuo en discretizaciones de rango
  • Creación de una combinación de atributos
  • Multiplicación (o división) de un atributo por otros atributos o por sí mismo Por ejemplo, si a y b son atributos de entrada, los siguientes son ejemplos de atributos sintéticos:
    • ab
    • a2
  • Aplicación de una función trascendental a un valor de componente Por ejemplo, si c es un atributo de entrada, los siguientes son ejemplos de atributos sintéticos:
    • sin(c)
    • ln(c)

Los atributos creados solo con normalización o ajuste no se consideran atributos sintéticos.

T

pérdida de prueba

#fundamentals

Una métrica que representa la pérdida de un modelo en comparación con el conjunto de prueba. Cuando compilas un modelo, por lo general, intentas minimizar la pérdida de la prueba. Esto se debe a que una pérdida de prueba baja es un indicador de calidad más sólido que una pérdida de entrenamiento o una pérdida de validación baja.

A veces, una gran brecha entre la pérdida de prueba y la pérdida de entrenamiento o validación sugiere que debes aumentar la tasa de regularización.

entrenamiento

#fundamentals

Es el proceso de determinar los parámetros (pesos y sesgos) ideales que conforman un modelo. Durante el entrenamiento, un sistema lee los ejemplos y ajusta gradualmente los parámetros. El entrenamiento usa cada ejemplo entre unas pocas veces y miles de millones de veces.

pérdida de entrenamiento

#fundamentals

Es una métrica que representa la pérdida de un modelo durante una iteración de entrenamiento en particular. Por ejemplo, supongamos que la función de pérdida es el error cuadrático medio. Quizás la pérdida de entrenamiento (el error cuadrático medio) para la 10ª iteración sea 2.2 y la pérdida de entrenamiento para la 100ª iteración sea 1.9.

Una curva de pérdida traza la pérdida de entrenamiento en función de la cantidad de iteraciones. Una curva de pérdida proporciona las siguientes sugerencias sobre el entrenamiento:

  • Una pendiente descendente implica que el modelo está mejorando.
  • Una pendiente ascendente implica que el modelo empeora.
  • Una pendiente plana implica que el modelo alcanzó la convergencia.

Por ejemplo, la siguiente curva de pérdidas algo idealizada muestra lo siguiente:

  • Una pendiente descendente pronunciada durante las iteraciones iniciales, lo que implica una mejora rápida del modelo.
  • Una pendiente que se aplana gradualmente (pero sigue hacia abajo) hasta cerca del final del entrenamiento, lo que implica una mejora continua del modelo a un ritmo un poco más lento que durante las iteraciones iniciales.
  • Una pendiente plana hacia el final del entrenamiento, lo que sugiere convergencia.

El gráfico de la pérdida de entrenamiento en comparación con las iteraciones. Esta curva de pérdidas comienza con una pendiente descendente pronunciada. La pendiente se aplana gradualmente hasta que se vuelve cero.

Aunque la pérdida de entrenamiento es importante, consulta también la generalización.

sesgo del entrenamiento y la entrega

#fundamentals

Es la diferencia entre el rendimiento de un modelo durante el entrenamiento y el rendimiento de ese mismo modelo durante la entrega.

conjunto de entrenamiento

#fundamentals

Es el subconjunto del conjunto de datos que se usa para entrenar un modelo.

Tradicionalmente, los ejemplos del conjunto de datos se dividen en los siguientes tres subconjuntos distintos:

Lo ideal es que cada ejemplo del conjunto de datos pertenezca a solo uno de los subconjuntos anteriores. Por ejemplo, un solo ejemplo no debe pertenecer al conjunto de entrenamiento ni al conjunto de validación.

verdadero negativo (VN) (TN, true negative)

#fundamentals

Ejemplo en el que el modelo predice correctamente la clase negativa. Por ejemplo, el modelo infiere que un mensaje de correo electrónico en particular no es spam y que realmente no es spam.

verdadero positivo (VP)

#fundamentals

Ejemplo en el que el modelo predice correctamente la clase positiva. Por ejemplo, el modelo infiere que un mensaje de correo electrónico en particular es spam y realmente lo es.

tasa de verdaderos positivos (TPR)

#fundamentals

Sinónimo de recuperación. Es decir:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

La tasa de verdaderos positivos es el eje "y" en una curva ROC.

U

subajuste

#fundamentals

Producir un modelo con poca capacidad predictiva porque el modelo no capturó por completo la complejidad de los datos de entrenamiento. El subajuste puede estar causado por varios problemas, como los siguientes:

ejemplo sin etiqueta

#fundamentals

Un ejemplo que contiene atributos, pero no etiquetas. Por ejemplo, en la siguiente tabla, se muestran tres ejemplos sin etiqueta de un modelo de valoración de casas, cada uno con tres características, pero sin el valor de la casa:

Cantidad de dormitorios Cantidad de baños Antigüedad de la casa
3 2 15
2 1 72
4 2 34

En el aprendizaje automático supervisado, los modelos se entrenan con ejemplos etiquetados y realizan predicciones sobre ejemplos sin etiqueta.

En el aprendizaje semisupervisado y no supervisado, se usan ejemplos sin etiqueta durante el entrenamiento.

Compara el ejemplo sin etiqueta con el ejemplo etiquetado.

aprendizaje automático no supervisado

#clustering
#fundamentals

Entrenamiento de un modelo para encontrar patrones en un conjunto de datos, generalmente sin etiqueta.

El uso más común del aprendizaje automático no supervisado es la agrupación de datos en grupos de ejemplos similares. Por ejemplo, un algoritmo de aprendizaje automático no supervisado puede agrupar canciones según varias propiedades de la música. Los clústeres resultantes pueden convertirse en una entrada para otros algoritmos de aprendizaje automático (por ejemplo, para un servicio de recomendación de música). El agrupamiento puede ser útil cuando las etiquetas útiles son escasas o no existen. Por ejemplo, en dominios como la protección contra el abuso y el fraude, los clústeres pueden ayudar a los humanos a comprender mejor los datos.

Compara esto con el aprendizaje automático supervisado.

V

validación

#fundamentals

Es la evaluación inicial de la calidad de un modelo. La validación verifica la calidad de las predicciones de un modelo en función del conjunto de validación.

Debido a que el conjunto de validación difiere del conjunto de entrenamiento, la validación ayuda a evitar el sobreajuste.

Puedes pensar en evaluar el modelo con el conjunto de validación como la primera ronda de pruebas y evaluar el modelo con el conjunto de prueba como la segunda ronda de pruebas.

pérdida de validación

#fundamentals

Es una métrica que representa la pérdida de un modelo en el conjunto de validación durante una iteración de entrenamiento en particular.

Consulta también la curva de generalización.

conjunto de validación

#fundamentals

Es el subconjunto del conjunto de datos que realiza la evaluación inicial en comparación con un modelo entrenado. Por lo general, se evalúa el modelo entrenado con el conjunto de validación varias veces antes de evaluarlo con el conjunto de prueba.

Tradicionalmente, divides los ejemplos del conjunto de datos en los siguientes tres subconjuntos distintos:

Lo ideal es que cada ejemplo del conjunto de datos pertenezca a solo uno de los subconjuntos anteriores. Por ejemplo, un solo ejemplo no debe pertenecer al conjunto de entrenamiento ni al conjunto de validación.

W

peso

#fundamentals

Es un valor que un modelo multiplica por otro. El entrenamiento es el proceso de determinar los pesos ideales de un modelo. La inferencia es el proceso de usar esos pesos aprendidos para realizar predicciones.

suma ponderada

#fundamentals

La suma de todos los valores de entrada relevantes multiplicados por sus pesos correspondientes. Por ejemplo, supongamos que las entradas relevantes consisten en lo siguiente:

valor de entrada peso de entrada
2 -1.3
-1 0.6
3 0.4

Por lo tanto, la suma ponderada es la siguiente:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Una suma ponderada es el argumento de entrada de una función de activación.

Z

Normalización de la puntuación Z

#fundamentals

Es una técnica de ajuste que reemplaza un valor de atributo sin procesar por un valor de punto flotante que representa la cantidad de desviaciones estándar de la media de ese atributo. Por ejemplo, considera un atributo cuya media es 800 y cuya desviación estándar es 100. En la siguiente tabla, se muestra cómo la normalización de la puntuación Z asignaría el valor sin procesar a su puntuación Z:

Valor sin procesar Puntaje Z
800 0
950 +1.5
575 -2.25

Luego, el modelo de aprendizaje automático se entrena en las puntuaciones Z de esa característica en lugar de los valores sin procesar.