Glosario de aprendizaje automático: Conceptos básicos del AA

Esta página contiene términos del glosario de aspectos básicos del AA. Para todos los términos del glosario, haz clic aquí.

A

exactitud

#fundamentals

La cantidad de predicciones de clasificación correctas divididas por la cantidad total de predicciones. Es decir:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Por ejemplo, un modelo que realizó 40 predicciones correctas y 10 incorrectas predicciones tendrían la siguiente exactitud:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La clasificación binaria proporciona nombres específicos para las diferentes categorías de predicciones correctas y predicciones incorrectas Entonces, la fórmula de exactitud de la clasificación binaria es la siguiente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Donde:

Compara y contrasta la exactitud con precisión y recuperación.

función de activación

#fundamentals

Es una función que permite que las redes neuronales aprendan Relaciones nonlinear (complejas) entre atributos y la etiqueta.

Estas son algunas de las funciones de activación más populares:

Los diagramas de funciones de activación nunca tienen líneas rectas simples. Por ejemplo, el diagrama de la función de activación ReLU consta de dos líneas rectas:

Representación cartesiana de dos líneas. La primera línea tiene una constante
          y de 0, que se extiende a lo largo del eje x de -infinity,0 a 0,-0.
          La segunda línea comienza en 0,0. Esta línea tiene una pendiente de +1, de modo que
          va de 0,0 a +infinito,+infinito.

Un diagrama de la función de activación sigmoidea se ve de la siguiente manera:

Un diagrama curvo bidimensional con valores x que abarcan el dominio
          -infinity a +positivo, mientras que los valores y abarcan el rango casi 0 a
          casi 1. Cuando x es 0, y es 0.5. La pendiente de la curva es siempre
          positivo, con la pendiente más alta en 0,0.5 y disminuyendo gradualmente
          pendientes a medida que aumenta el valor absoluto de x.

inteligencia artificial

#fundamentals

Un programa o modelo no humano que puede resolver tareas sofisticadas. Por ejemplo, un programa o modelo que traduce texto o un programa o modelo que identifica enfermedades a partir de imágenes radiológicas en las que se usa inteligencia artificial.

De manera formal, el aprendizaje automático es un subcampo de la inteligencia artificial. Sin embargo, en los últimos años, algunas organizaciones han comenzado a utilizar el inteligencia artificial y aprendizaje automático.

AUC (área bajo la curva ROC)

#fundamentals

Un número entre 0.0 y 1.0 que representa un modelo de clasificación binaria capacidad para separar las clases positivas de clases negativas. Cuanto más cerca esté el AUC a 1.0, mejor será la capacidad del modelo para separarse clases entre sí.

Por ejemplo, en la siguiente ilustración se muestra un modelo clasificador que separa las clases positivas (óvalos verdes) de las negativas (rectángulos violetas) perfectamente. Este modelo irrealmente perfecto tiene un AUC de 1.0:

Una recta numérica con 8 ejemplos positivos en un lado y
          9 ejemplos negativos del otro lado.

Por el contrario, la siguiente ilustración muestra los resultados para un clasificador que generó resultados aleatorios. Este modelo tiene un AUC de 0.5:

Una recta numérica con 6 ejemplos positivos y 6 ejemplos negativos.
          La secuencia de ejemplos es positiva, negativa
          positivo, negativo, positivo, negativo, positivo, negativo, positivo
          como positivas, negativas, positivas y negativas.

Sí, el modelo anterior tiene un AUC de 0.5, no de 0.0.

La mayoría de los modelos están en algún punto entre los dos extremos. Por ejemplo, el siguiente modelo separa de algún modo positivos de negativos y, por lo tanto, tiene un AUC entre 0.5 y 1.0:

Una recta numérica con 6 ejemplos positivos y 6 ejemplos negativos.
          La secuencia de ejemplos es negativa, negativa, negativa, negativa,
          positivo, negativo, positivo, positivo, negativo, positivo,
          positivo.

El AUC ignora cualquier valor que establezcas umbral de clasificación. En cambio, el AUC considera todos los umbrales de clasificación posibles.

B

propagación inversa

#fundamentals

El algoritmo que implementa descenso de gradientes en redes neuronales.

Entrenar una red neuronal implica muchas iteraciones del siguiente ciclo de dos pasos:

  1. Durante el movimiento de avance, el sistema procesa un lote de ejemplos para generar predicciones. El sistema compara cada predicción a cada valor de label. La diferencia entre la predicción y el valor de la etiqueta es la pérdida de ese ejemplo. El sistema agrega las pérdidas de todos los ejemplos para calcular el total para el lote actual.
  2. Durante el retroceso (propagación inversa), el sistema reduce la pérdida en ajustar los pesos de todas las neuronas de todos los capas ocultas.

Las redes neuronales a menudo contienen muchas neuronas en muchas capas ocultas. Cada una de esas neuronas contribuye a la pérdida general de diferentes maneras. La propagación inversa determina si se deben aumentar o disminuir los pesos. aplicarse a neuronas particulares.

La tasa de aprendizaje es un multiplicador que controla el grado en el que cada salto hacia atrás aumenta o disminuye cada peso. Una tasa de aprendizaje alta aumentará o disminuirá cada peso más de un baja tasa de aprendizaje.

En términos de cálculo, la propagación inversa implementa la regla de la cadena. del cálculo. Es decir, la propagación inversa calcula el derivada parcial del error con con respecto a cada parámetro.

Hace años, los profesionales del AA tuvieron que escribir código para implementar la propagación inversa. Las APIs de AA modernas, como TensorFlow, ahora implementan la propagación inversa por ti. ¡Vaya!

lote

#fundamentals

Es el conjunto de ejemplos usado en una capacitación. iteración. El tamaño del lote determina la cantidad de ejemplos en una por lotes.

Consulta época para obtener una explicación de cómo se relaciona un lote con un ciclo de entrenamiento.

tamaño del lote

#fundamentals

La cantidad de ejemplos en un lote. Por ejemplo, si el tamaño del lote es 100, el modelo procesa 100 ejemplos por iteración.

Las siguientes son estrategias populares de tamaño de lote:

  • Descenso de gradientes estocástico (SGD), en el que el tamaño del lote es 1.
  • Lote completo, donde el tamaño del lote es la cantidad de ejemplos en todo el conjunto de entrenamiento. Por ejemplo, si el conjunto de entrenamiento contiene un millón de ejemplos, el tamaño del lote sería de un millón ejemplos. Por lo general, el lote completo es una estrategia ineficaz.
  • minilote en el que el tamaño del lote suele estar entre 10 y 1,000. Por lo general, la estrategia más eficiente es el minilote.

sesgo (ética/equidad)

#fairness
#fundamentals

1. Los estereotipos, los prejuicios o el favoritismo hacia cosas, personas o grupos por sobre otros. Estos sesgos pueden afectar la recopilación y interpretación de datos, el diseño de un sistema y la forma en que los usuarios interactúan con un sistema. Estas son algunas formas de este sesgo:

2. Error sistemático debido a un procedimiento de muestreo o de elaboración de informes. Estas son algunas formas de este sesgo:

No se debe confundir con el término sesgo en los modelos de aprendizaje automático. o sesgo de predicción.

sesgo (matemático) o término de sesgo

#fundamentals

Una intersección o desplazamiento desde un origen. El sesgo es un parámetro en de aprendizaje automático, que se simboliza con lo siguiente:

  • a
  • w0

Por ejemplo, el sesgo es la b en la siguiente fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En una línea bidimensional simple, sesgo solo significa "intercepción y". Por ejemplo, la compensación de la línea en la siguiente ilustración es 2.

La representación de una línea con una pendiente de 0.5 y un sesgo (intersección y) de 2.

El sesgo existe porque no todos los modelos comienzan desde el origen (0,0). Por ejemplo: supongamos que la entrada a un parque de diversiones cuesta 2 euros y una EUR 0.5 por cada hora de estadía de un cliente. Por lo tanto, un modelo que asigne los el costo total tiene un sesgo de 2 porque el costo más bajo es de 2 euros.

El sesgo no debe confundirse con el sesgo en ética y equidad. o sesgo de predicción.

clasificación binaria

#fundamentals

Un tipo de tarea de clasificación que que predice una de dos clases mutuamente excluyentes:

Por ejemplo, cada uno de los siguientes dos modelos de aprendizaje automático realiza Clasificación binaria:

  • Un modelo que determina si los mensajes de correo electrónico spam (la clase positiva) o no es spam (la clase negativa).
  • Un modelo que evalúa síntomas médicos para determinar si una persona tiene una enfermedad específica (la clase positiva) o no tiene esa enfermedad (clase negativa).

Compara esto con la clasificación de clases múltiples.

Consulta también regresión logística y umbral de clasificación.

Agrupamiento

#fundamentals

Conversión de un solo atributo en varios atributos binarios llamados buckets o bins normalmente se basa en un rango de valores. La característica cortada suele ser atributo continuo.

Por ejemplo, en lugar de representar la temperatura como una sola punto flotante continuo, puedes cortar rangos de temperatura en buckets discretos, como los siguientes:

  • <= 10 grados Celsius sería la temperatura "frío" bucket.
  • De 11 a 24 grados Celsius sería la temperatura “templada” bucket.
  • >= 25 grados Celsius sería la temperatura "templado" bucket.

El modelo tratará todos los valores en el mismo bucket de la misma manera. Para ejemplo, los valores 13 y 22 están en el bucket templado, por lo que modelo trata los dos valores de la misma manera.

C

datos categóricos

#fundamentals

Son atributos que tienen un conjunto específico de valores posibles. Por ejemplo: considera un atributo categórico llamado traffic-light-state, que solo puede tener uno de estos tres valores posibles:

  • red
  • yellow
  • green

Con la representación de traffic-light-state como un atributo categórico, un modelo puede aprender impactos diferentes de red, green y yellow en el comportamiento del conductor

A veces, los atributos categóricos se denominan atributos discretos.

Compara esto con los datos numéricos.

clase

#fundamentals

Categoría a la que puede pertenecer una etiqueta. Por ejemplo:

Un modelo de clasificación predice una clase. En cambio, un modelo de regresión predice un número en lugar de una clase.

modelo de clasificación

#fundamentals

Un modelo cuya predicción es una clase. Por ejemplo, estos son todos los modelos de clasificación:

  • Un modelo que predice el idioma de una oración de entrada (¿francés?, ¿Español? italiano?).
  • Un modelo que predice las especies arbóreas (¿Maple? ¿Roble? ¿baobab?).
  • Un modelo que predice la clase positiva o negativa para un determinado condición médica.

En cambio, los modelos de regresión predicen números en lugar de clases.

Los siguientes son dos tipos comunes de modelos de clasificación:

umbral de clasificación

#fundamentals

En una clasificación binaria, se un número entre 0 y 1 que convierta la salida sin procesar de un modelo de regresión logística en una predicción de la clase positiva o la clase negativa. Ten en cuenta que el umbral de clasificación es un valor que elige una persona, no es un valor elegido por el entrenamiento de modelos.

Un modelo de regresión logística da como resultado un valor sin procesar entre 0 y 1. Luego:

  • Si este valor sin procesar es mayor que el umbral de clasificación, entonces se predice la clase positiva.
  • Si este valor sin procesar es inferior al umbral de clasificación, se predice la clase negativa.

Por ejemplo, supongamos que el umbral de clasificación es 0.8. Si el valor sin procesar es 0.9, el modelo predice la clase positiva. Si el valor sin procesar es 0.7, el modelo predice la clase negativa.

La elección del umbral de clasificación influye fuertemente en la cantidad de los falsos positivos y falsos negativos.

conjunto de datos con desequilibrio de clases

#fundamentals

Conjunto de datos para un problema de clasificación en el que la cantidad total de las etiquetas de cada clase difiere significativamente. Por ejemplo, considera un conjunto de datos de clasificación binaria cuyas dos etiquetas se dividen de la siguiente manera:

  • 1,000,000 de etiquetas negativas
  • 10 etiquetas positivas

La proporción entre las etiquetas negativas y positivas es de 100,000 a 1, así que es un conjunto de datos con desequilibrio de clase.

En cambio, el siguiente conjunto de datos no está desequilibrado porque la la proporción entre las etiquetas negativas y las positivas se acerca relativamente a 1:

  • 517 etiquetas negativas
  • 483 etiquetas positivas

Los conjuntos de datos de clases múltiples también pueden tener clases desequilibradas. Por ejemplo, el siguiente conjunto de datos de clasificación de clases múltiples también presenta un desequilibrio de clases tiene muchos más ejemplos que los otros dos:

  • 1,000,000 de etiquetas con la clase “green”
  • 200 etiquetas con la clase "morado"
  • 350 etiquetas con la clase "orange"

Consulta también entropía, clase de mayoría, y la clase minoritaria.

recorte

#fundamentals

Una técnica para manejar los valores atípicos mediante una o ambas de las siguientes opciones:

  • Reducir los valores de feature que sean superiores al máximo límite hasta alcanzar ese umbral.
  • Aumentar los valores de atributos que sean inferiores a un umbral mínimo hasta ese umbral mínimo.

Por ejemplo, supongamos que <0.5% de los valores de un atributo en particular cae fuera del rango de 40-60. En ese caso, podrías hacer lo siguiente:

  • Recorta todos los valores superiores a 60 (umbral máximo) para que sean exactamente 60.
  • Recorta todos los valores por debajo de 40 (el umbral mínimo) para que sean exactamente 40.

Los valores atípicos pueden dañar los modelos y, en ocasiones, causar pesos. se desborde durante el entrenamiento. Algunos valores atípicos también pueden arruinar drásticamente métricas como exactitud. El recorte es una técnica común para limitar el daño.

Fuerzas de recorte de gradiente Valores de gradiente dentro de un rango designado durante el entrenamiento.

matriz de confusión

#fundamentals

Tabla de NxN que resume el número de predicciones correctas e incorrectas que creó un modelo de clasificación. Por ejemplo, considera la siguiente matriz de confusión para un Modelo de clasificación binaria:

Tumor (predicho) No es tumor (predicho)
Tumor (verdad fundamental) 18 (VP) 1 (FN)
No es tumor (verdad fundamental) 6 (FP) 452 (VN)

La matriz de confusión anterior muestra lo siguiente:

  • De las 19 predicciones en las que la verdad fundamental fue tumor, el modelo clasificó correctamente 18 y clasificó incorrectamente 1.
  • De las 458 predicciones en las que la verdad fundamental no era tumor, el modelo clasificaron correctamente 452 y erróneamente 6.

La matriz de confusión para una clasificación de clases múltiples problema puede ayudarte a identificar patrones de errores. Por ejemplo, considera la siguiente matriz de confusión para una clase modelo de clasificación de clases múltiples que clasifica tres tipos diferentes de iris (Vírgenes, Versicolor y Setosa). Cuando la verdad fundamental era Vírgenes, la de confusión muestra que era mucho más probable que el modelo predecir versicolor que setosa:

  Setosa (predicho) Versicolor (predicho) Vírgenes (predichos)
Setosa (verdad fundamental) 88 12 0
Versicolor (verdad fundamental) 6 141 7
virginica (verdad fundamental) 2 27 109

Como otro ejemplo, una matriz de confusión podría revelar que un modelo entrenado para reconocer dígitos escritos a mano tiende a predecir erróneamente 9 en lugar de 4, o predice erróneamente 1 en vez de 7.

Las matrices de confusión contienen suficiente información para calcular diversas métricas de rendimiento, incluida la precisión y recuperación.

atributo continuo

#fundamentals

Atributo de punto flotante con un rango infinito de valores posibles como la temperatura o el peso.

Compara esto con el atributo discreto.

convergencia

#fundamentals

Un estado que se alcanza cuando los valores de loss cambian muy poco o en absoluto con cada iteración. Por ejemplo, el siguiente La curva de pérdida sugiere una convergencia en alrededor de 700 iteraciones:

Representación cartesiana. el eje X es la pérdida. El eje Y es la cantidad de cargas
          iteraciones. La pérdida es muy alta
durante las primeras iteraciones,
          disminuye considerablemente. Después de unas 100 iteraciones, la pérdida sigue siendo
          descendente, pero mucho más gradual. Después de unas 700 iteraciones,
          pérdida de seguridad se mantiene sin cambios.

Un modelo converge cuando el entrenamiento adicional no mejorar el modelo.

En el aprendizaje profundo, los valores de pérdida a veces se mantienen constantes o casi así durante muchas iteraciones antes de descender finalmente. Durante un período prolongado de valores de pérdida constante, podrías tener una falsa sensación de convergencia temporal.

Consulta también interrupción anticipada.

D

DataFrame

#fundamentals

Un tipo de datos popular de Pandas para representar conjuntos de datos en la memoria.

Un DataFrame es similar a una tabla u hoja de cálculo. Cada columna de un DataFrame tiene un nombre (un encabezado) y cada fila se identifica con un un número único.

Cada columna en un DataFrame se estructura como un array 2D, con la excepción de que a cada columna se le puede asignar su propio tipo de datos.

Consulta también la Referencia de pandas.DataFrame .

conjunto de datos o conjunto de datos

#fundamentals

Conjunto de datos sin procesar, comúnmente (pero no exclusivamente) organizados en una de los siguientes formatos:

  • una hoja de cálculo
  • un archivo en formato CSV (valores separados por coma)

modelo profundo

#fundamentals

Una red neuronal que contiene más de una capa oculta.

Un modelo profundo también se denomina red neuronal profunda.

Compara esto con el modelo amplio.

atributo denso

#fundamentals

atributo en el que la mayoría o todos los valores no son cero, por lo general, un Tensor de valores de punto flotante. Por ejemplo, el siguiente El tensor de 10 elementos es denso porque 9 de sus valores no son cero:

8 3 7 5 2 4 0 4 9 6

Compara esto con el atributo disperso.

depth

#fundamentals

Es la suma de lo siguiente en una red neuronal:

Por ejemplo, una red neuronal con cinco capas ocultas y una capa de salida tiene una profundidad de 6.

Ten en cuenta que la capa de entrada no profundidad de la influencia.

atributo discreto

#fundamentals

Atributo con un conjunto finito de valores posibles. Por ejemplo: un atributo cuyos valores solo pueden ser animal, vegetal o mineral es un atributo discreto (o categórico).

Compara esto con el atributo continuo.

dinámico

#fundamentals

Algo que se hace de manera frecuente o continua. Los términos dinámico y en línea son sinónimos en el aprendizaje automático. Los siguientes son usos comunes de las funciones dinámicas y en línea en máquinas aprendizaje:

  • Un modelo dinámico (o modelo en línea) es un modelo. que se vuelve a entrenar con frecuencia o de forma continua.
  • El entrenamiento dinámico (o entrenamiento en línea) es el proceso de entrenamiento frecuente o continuamente.
  • La inferencia dinámica (o inferencia en línea) es el proceso de generar predicciones a pedido.

modelo dinámico

#fundamentals

Es un modelo que se ve con frecuencia (quizás incluso continuamente) que se debe volver a entrenar. Un modelo dinámico es un “estudiante continuo”. que se adapta constantemente a los datos en evolución. Un modelo dinámico también se conoce como modelo en línea.

Compara esto con el modelo estático.

E

interrupción anticipada

#fundamentals

Un método de regularización que implica finalizar el entrenamiento antes de que termine la pérdida del entrenamiento disminuyendo. En la interrupción anticipada, dejas intencionalmente entrenar el modelo cuando la pérdida en un conjunto de datos de validación comienza a increase; es decir, cuando empeora el rendimiento de la generalización.

capa de incorporación

#language
#fundamentals

Una capa oculta especial que se entrena en una atributo categórico de alta dimensión para aprender un vector de incorporación de menor dimensión. Los capa de incorporación permite que una red neuronal entrene mucho más de forma eficiente que entrenar solo con el atributo categórico de alta dimensión.

Por ejemplo, en la actualidad, la Tierra es compatible con unas 73,000 especies arbóreas. Supongamos especie de árbol es un atributo en tu modelo, por lo tanto, la capa de entrada incluye un vector one-hot 73,000 elementos largos. Por ejemplo, es posible que baobab se represente de la siguiente manera:

Un array de 73,000 elementos. Los primeros 6,232 elementos contienen el valor
     0. El siguiente elemento contiene el valor 1. Los últimos 66,767 elementos contienen
     el valor cero.

Un array de 73,000 elementos es muy largo. Si no agregas una capa de incorporación el entrenamiento le llevará mucho tiempo, ya que multiplicando 72,999 ceros. Quizás eliges la capa de incorporación para que consiste de 12 dimensiones. En consecuencia, la capa de incorporación aprenderá gradualmente un nuevo vector de incorporación para cada especie arbórea.

En algunos casos, la generación de hash es una alternativa razonable en una capa de incorporación.

época

#fundamentals

Un pase de entrenamiento completo en todo el conjunto de entrenamiento. para que cada ejemplo se procese una vez.

Un ciclo de entrenamiento representa el N/tamaño del lote iteraciones de entrenamiento, en las que N es el la cantidad total de ejemplos.

Por ejemplo, supongamos lo siguiente:

  • El conjunto de datos consta de 1,000 ejemplos.
  • El tamaño del lote es de 50 ejemplos.

Por lo tanto, un solo ciclo de entrenamiento requiere 20 iteraciones:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

ejemplo

#fundamentals

Son los valores de una fila de features y, posiblemente, una etiqueta. Ejemplos en el aprendizaje supervisado categorías generales:

  • Un ejemplo etiquetado consta de uno o más atributos y una etiqueta. Los ejemplos etiquetados se usan durante el entrenamiento.
  • Un ejemplo sin etiqueta consta de uno o tiene más atributos, pero no etiqueta. Los ejemplos sin etiqueta se usan durante la inferencia.

Por ejemplo, supongamos que entrenas un modelo para determinar la influencia de las condiciones climáticas en las calificaciones de los estudiantes. Aquí hay tres ejemplos etiquetados:

Funciones Etiqueta
Temperatura Humedad Presionar Puntuación de la prueba
15 47 998 Bueno
19 34 1020 Excelente
18 92 1012 Deficiente

Aquí hay tres ejemplos sin etiqueta:

Temperatura Humedad Presionar  
12 62 1014  
21 47 1017  
19 41 1021  

Por lo general, la fila de un conjunto de datos es la fuente sin procesar para un ejemplo. Es decir, un ejemplo generalmente consiste en un subconjunto de las columnas en del conjunto de datos. Además, las funciones de un ejemplo también pueden incluir atributos sintéticos, como combinaciones de atributos.

F

falso negativo (FN)

#fundamentals

Ejemplo en el que el modelo predice erróneamente la clase negativa. Por ejemplo, el modelo Predice que un mensaje de correo electrónico en particular no es spam. (la clase negativa), pero ese mensaje de correo electrónico en realidad es spam.

falso positivo (FP)

#fundamentals

Ejemplo en el que el modelo predice erróneamente la clase positiva. Por ejemplo, el modelo predice que un correo electrónico en particular es spam (la clase positiva), pero mensaje de correo electrónico en realidad no es spam.

tasa de falsos positivos (FPR)

#fundamentals

La proporción de ejemplos negativos reales para los que el modelo predijo la clase positiva. La siguiente fórmula calcula el valor falso tasa de positivos:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

La tasa de falsos positivos es el eje x en una curva ROC.

función

#fundamentals

Una variable de entrada para un modelo de aprendizaje automático. Ejemplo consta de uno o más atributos. Por ejemplo, supongamos que estás entrenando un para determinar la influencia de las condiciones climáticas en las calificaciones de los estudiantes. En la siguiente tabla, se muestran tres ejemplos, cada uno de los cuales contiene tres atributos y una etiqueta:

Funciones Etiqueta
Temperatura Humedad Presionar Puntuación de la prueba
15 47 998 92
19 34 1020 84
18 92 1012 87

Compara esto con label.

combinación de atributos

#fundamentals

Un atributo sintético formado por “combinación” atributos categóricos o en buckets.

Por ejemplo, considera un "previsión del estado de ánimo" que representa la temperatura en uno de los siguientes cuatro intervalos:

  • freezing
  • chilly
  • temperate
  • warm

Y representa la velocidad del viento en uno de los siguientes tres segmentos:

  • still
  • light
  • windy

Sin combinaciones de atributos, el modelo lineal se entrena de forma independiente en cada uno anterior a siete grupos diferentes. El modelo se entrena, por ejemplo, freezing, independientemente del entrenamiento, por ejemplo, windy

De forma alternativa, podrías crear una combinación de atributos de temperatura y velocidad del viento. Este atributo sintético tendría las siguientes 12 opciones valores:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Gracias a la combinación de atributos, el modelo puede aprender las diferencias del estado de ánimo entre un día de freezing-windy y uno de freezing-still.

Si crea un atributo sintético a partir de dos atributos que tienen muchas buckets distintos, la combinación de atributos resultante tendrá una gran cantidad de combinaciones posibles. Por ejemplo, si un atributo tiene 1,000 buckets y el otro tiene 2,000 buckets, y la combinación de atributos resultante tiene 2,000,000 buckets.

Formalmente, una cruz es una Producto cartesiano.

Las combinaciones de atributos se usan mayormente con modelos lineales y rara vez se usan con las redes neuronales.

ingeniería de atributos.

#fundamentals
#TensorFlow

Un proceso que implica los siguientes pasos:

  1. Determinar qué atributos podrían ser útiles en el entrenamiento de un modelo.
  2. Convertir los datos sin procesar del conjunto de datos en versiones eficientes de con esas funciones.

Por ejemplo, podrías determinar que temperature podría ser un elemento útil . Luego, puedes experimentar con el agrupamiento. para optimizar lo que el modelo puede aprender de diferentes rangos temperature.

A veces, la ingeniería de atributos se denomina extracción de atributos o Transformación de atributos.

conjunto de atributos

#fundamentals

El grupo de atributos que tu aprendizaje automático modelo entrena. Por ejemplo, el código postal, el tamaño de la propiedad y el estado de la propiedad podrían comprenden un conjunto de atributos sencillo para un modelo que predice los precios de las viviendas.

vector de atributos

#fundamentals

El array de valores de atributos que consta de un ejemplo. El vector de atributos se ingresa durante el entrenamiento y durante la inferencia. Por ejemplo, el vector de atributos para un modelo con dos atributos discretos podría ser la siguiente:

[0.92, 0.56]

Cuatro capas: una de entrada, dos ocultas y una de salida.
          La capa de entrada contiene dos nodos, uno con el valor
          0.92 y la otra que contiene el valor 0.56.

Cada ejemplo proporciona valores diferentes para el vector de atributos, por lo que El vector de atributos para el siguiente ejemplo podría ser algo como lo siguiente:

[0.73, 0.49]

La ingeniería de atributos determina cómo representar en el vector de atributos. Por ejemplo, un atributo categórico binario con cinco valores posibles se pueden representar con codificación one-hot. En este caso, la parte de la un vector de atributos de un ejemplo consiste en cuatro ceros un solo 1.0 en la tercera posición, de la siguiente manera:

[0.0, 0.0, 1.0, 0.0, 0.0]

Como otro ejemplo, supongamos que tu modelo consta de tres atributos:

  • un atributo categórico binario con cinco valores posibles representados con codificación one-hot; por ejemplo: [0.0, 1.0, 0.0, 0.0, 0.0]
  • otro atributo categórico binario con tres valores posibles representados con codificación one-hot; por ejemplo: [0.0, 0.0, 1.0]
  • un atributo de punto flotante; por ejemplo: 8.3.

En este caso, el vector de atributos para cada ejemplo se representaría por nueve valores. Dados los valores de ejemplo de la lista anterior, el El vector de atributos sería el siguiente:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

ciclo de retroalimentación

#fundamentals

En el aprendizaje automático, una situación en la que las predicciones de un modelo influyen datos de entrenamiento para el mismo modelo o para otro modelo. Por ejemplo, un modelo que recomendaciones de películas influirá en las que las personas verán y, luego, influir en los modelos posteriores de recomendación de películas.

G

generalización

#fundamentals

La capacidad del modelo de realizar predicciones correctas sobre modelos datos nunca antes vistos. Un modelo que puede generalizar es lo opuesto de un modelo que está sobreajustado.

curva de generalización

#fundamentals

Un diagrama de pérdida de entrenamiento y pérdida de validación como una función de la cantidad de iteraciones.

Una curva de generalización puede ayudar a detectar posibles sobreajuste. Por ejemplo, el siguiente la curva de generalización sugiere sobreajuste porque la pérdida de validación y, en última instancia, se vuelve mucho más alto que la pérdida de entrenamiento.

Gráfico cartesiano en el que el eje Y está etiquetado como pérdida y el eje X
          son iteraciones etiquetadas. Aparecerán dos diagramas. Un diagrama muestra la
          pérdida de entrenamiento,
y en el otro, la pérdida de validación.
          Los dos diagramas comienzan de manera similar, pero la pérdida de entrenamiento eventualmente
          cae por debajo de la pérdida de validación.

descenso de gradientes

#fundamentals

Es una técnica matemática para minimizar la pérdida. El descenso de gradientes se ajusta de forma iterativa pesos y sesgos encontrar gradualmente la mejor combinación para minimizar la pérdida.

El descenso de gradientes es mucho más antiguo que el aprendizaje automático.

Verdad fundamental

#fundamentals

Realidad.

La cosa que realmente sucedió.

Por ejemplo, considera una clasificación binaria que predice si un estudiante en su primer año de universidad se graduarán en seis años. La verdad fundamental para este modelo es si El estudiante no se graduó en seis años.

H

capa oculta

#fundamentals

Una capa en una red neuronal entre las capa de entrada (los atributos) y el capa de salida (la predicción). Cada capa oculta consta de una o más neuronas. Por ejemplo, la siguiente red neuronal contiene dos capas ocultas, la primera con tres neuronas y la segunda con dos neuronas:

Cuatro capas. La primera capa es una de entrada que contiene dos
          atributos. La segunda capa es una capa oculta que contiene tres
          neuronas. La tercera capa es una capa oculta que contiene dos
          neuronas. La cuarta capa es una capa de salida. Cada función
          contiene tres bordes, cada uno de los cuales apunta a una neurona diferente
          en la segunda capa. Cada una de las neuronas en la segunda capa
          contiene dos bordes, cada uno de los cuales apunta a una neurona diferente
          en la tercera capa. Cada neurona en la tercera capa contiene
          una arista, cada una apuntando a la capa de salida.

Una red neuronal profunda contiene más de una. capa oculta. Por ejemplo, la ilustración anterior es un modelo porque el modelo contiene dos capas ocultas.

hiperparámetro

#fundamentals

Las variables que tú o un servicio de ajuste de hiperparámetros ajustar durante ejecuciones sucesivas de entrenamiento de un modelo. Por ejemplo: La tasa de aprendizaje es un hiperparámetro. Podrías establece la tasa de aprendizaje en 0.01 antes de una sesión de capacitación. Si determinas que 0.01 es demasiado alto, tal vez 0.003 para la próxima sesión de capacitación.

En cambio, los parámetros son los diversos pesos y sesgos que el modelo aprende durante el entrenamiento.

I

independiente e idénticamente distribuido (es decir,

#fundamentals

Datos extraídos de una distribución que no cambia y en la que cada valor dibujada no depende de los valores que se han obtenido previamente. Los datos i.i.d. es el gas ideal de máquina aprendizaje: un constructo matemático útil, pero que casi nunca encontró exactamente en el mundo real. Por ejemplo, la distribución de visitantes a una página web pueden ser i.i.d. durante un período breve; es decir, la distribución durante ese período breve y la visita de una persona, por lo general, independiente de la visita de otra persona. Sin embargo, si amplías ese período, pueden aparecer diferencias de temporada en los visitantes de la página web.

Consulta también no estacionariedad.

inferencia

#fundamentals

En el aprendizaje automático, el proceso de hacer predicciones aplicar un modelo entrenado a ejemplos sin etiqueta.

La inferencia tiene un significado algo diferente en la estadística. Consulta la Artículo de Wikipedia sobre inferencia estadística para obtener más detalles.

capa de entrada

#fundamentals

La capa de una red neuronal que contiene el vector de atributos. Es decir, la capa de entrada proporciona ejemplos de capacitación o inferencia. Por ejemplo, la capa de entrada de la siguiente consta de dos atributos:

Cuatro capas: una de entrada, dos ocultas y una de salida.

interpretabilidad

#fundamentals

Es la capacidad de explicar o presentar el razonamiento de un modelo de AA de comprensibles para los humanos.

La mayoría de los modelos de regresión lineal, por ejemplo, son muy interpretable. (Solo tienes que mirar los pesos entrenados de cada feature.) Los bosques de decisiones también son altamente interpretables. Sin embargo, algunos modelos requieren visualizaciones sofisticadas para convertirse en interpretables.

Puedes usar la Herramienta de interpretabilidad del aprendizaje (LIT) para interpretar modelos de AA.

iteración

#fundamentals

Una sola actualización de los parámetros de un modelo, los pesos y sesgos durante capacitación. El tamaño del lote determina cuántos ejemplos procesa el modelo en una sola iteración. Por ejemplo: Si el tamaño del lote es 20, entonces el modelo procesa 20 ejemplos antes ajustando los parámetros.

Cuando se entrena una red neuronal, una única iteración implica los dos pases siguientes:

  1. Es un pase hacia delante para evaluar la pérdida en un solo lote.
  2. Una propagación inversa (propagación inversa) para ajustar la los parámetros del modelo según la pérdida y la tasa de aprendizaje.

L

regularización L0

#fundamentals

Un tipo de regularización que penaliza el número total de pesos distintos de cero en un modelo. Por ejemplo, un modelo con 11 pesos distintos de cero sería penalizado más que un modelo similar con 10 pesos distintos de cero.

A veces, la regularización L0 se denomina regularización de norma L0.

pérdida L1

#fundamentals

Una función de pérdida que calcula el valor absoluto de la diferencia entre los valores reales de las etiquetas y son los valores que predice un modelo. Por ejemplo, este es el cálculo de la pérdida L1 para un lote de cinco ejemplos:

Valor real del ejemplo Valor previsto del modelo Valor absoluto de delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = pérdida L1

La pérdida L1 es menos sensible a los valores atípicos. que la pérdida L2.

El error absoluto medio es el promedio pérdida L1 por ejemplo.

regularización L1

#fundamentals

Un tipo de regularización que penaliza pesos en proporción a la suma del valor absoluto de los pesos. La regularización L1 ayuda a impulsar los pesos de objetos irrelevantes o los atributos poco relevantes a exactamente 0. Una función con se quita efectivamente un peso de 0 del modelo.

Compara esto con la regularización L2.

pérdida L2

#fundamentals

Una función de pérdida que calcula el cuadrado de la diferencia entre los valores reales de las etiquetas y son los valores que predice un modelo. Por ejemplo, este es el cálculo de la pérdida L2 para un lote de cinco ejemplos:

Valor real del ejemplo Valor previsto del modelo Cuadrado de delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = pérdida L2

Debido a la cuadratura, la pérdida L2 amplifica la influencia de valores atípicos. Es decir, la pérdida L2 reacciona con mayor intensidad ante las predicciones erróneas que pérdida L1. Por ejemplo, la pérdida L1 para el lote anterior serían 8 en vez de 16. Observa que un solo los valores atípicos representan 9 de las 16.

Los modelos de regresión suelen usar pérdida L2. como la función de pérdida.

El error cuadrático medio es el promedio pérdida L2 por ejemplo. Pérdida al cuadrado es otro nombre para la pérdida L2.

Regularización L2

#fundamentals

Un tipo de regularización que penaliza pesos en proporción a la suma de los cuadrados de los pesos. La regularización L2 ayuda a generar pesos de valores atípicos (los con valores negativos bajos o positivos altos) más cerca de 0, pero no exactamente entre 0. Los atributos con valores muy cercanos a 0 permanecen en el modelo pero no influyen mucho en la predicción del modelo.

La regularización L2 siempre mejora la generalización en modelos lineales.

Compara esto con la regularización L1.

etiqueta

#fundamentals

En el aprendizaje automático supervisado, "respuesta" o "resultado" parte de un ejemplo.

Cada ejemplo etiquetado consta de uno o más atributos y una etiqueta. Por ejemplo, en una carpeta de spam, del conjunto de datos de detección, es probable que la etiqueta sea “spam” o "no es spam". En un conjunto de datos de lluvia, la etiqueta puede ser la cantidad de lluvia que cayó durante cierto período.

ejemplo etiquetado

#fundamentals

Un ejemplo que contiene uno o más atributos y una etiqueta. Por ejemplo, la siguiente tabla muestra tres ejemplos etiquetados de un modelo de valoración de viviendas, cada uno con tres atributos y una etiqueta:

Cantidad de dormitorios Cantidad de baños Antigüedad de la casa Precio de la casa (etiqueta)
3 2 15 USD 345,000
2 1 72 USD 179,000
4 2 34 USD 392,000

En el aprendizaje automático supervisado, los modelos se entrenan con ejemplos etiquetados y hacen predicciones sobre ejemplos sin etiqueta.

Compara el ejemplo etiquetado con los ejemplos sin etiqueta.

Lambda

#fundamentals

Sinónimo de tasa de regularización.

Lambda es un término sobrecargado. Aquí nos centramos en los atributos definición dentro de la regularización.

oculta

#fundamentals

Un conjunto de neuronas en un red neuronal. Tres tipos comunes de capas son los siguientes:

Por ejemplo, en la siguiente ilustración se muestra una red neuronal con una capa de entrada, dos capas ocultas y una capa de salida:

Una red neuronal con una capa de entrada, dos capas ocultas y una
          capa de salida. La capa de entrada consta de dos atributos. La primera
          Consta de tres neuronas, y la segunda capa oculta
          consta de dos neuronas. La capa de salida consta de un solo nodo.

En TensorFlow, las capas también son funciones de Python que toman Tensors y opciones de configuración como entrada y producir otros tensores como salida.

tasa de aprendizaje

#fundamentals

Un número de punto flotante que le indica al descenso de gradientes algoritmo la precisión con la que se ajustan los pesos y sesgos en cada iteración. Por ejemplo, una tasa de aprendizaje de 0.3 Ajustan las ponderaciones y los sesgos tres veces con mayor eficacia que una tasa de aprendizaje. de 0.1.

La tasa de aprendizaje es un hiperparámetro clave. Si estableces Si la tasa de aprendizaje es demasiado baja, el entrenamiento demorará demasiado. Si si estableces una tasa de aprendizaje muy alta, el descenso de gradientes suele tener problemas para llegar a la convergencia.

linear

#fundamentals

Es una relación entre dos o más variables que solo se pueden representar. a través de la suma y la multiplicación.

El diagrama de una relación lineal es una línea.

Compara esto con lo nonlinear.

modelo lineal

#fundamentals

Un modelo que asigna un peso por función para realizar predicciones. (Los modelos lineales también incorporan un sesgo). En cambio, la relación de los atributos con las predicciones en los modelos profundos suele ser nonlinear.

Por lo general, los modelos lineales son más fáciles de entrenar y más interpretables que los modelos profundos. Sin embargo, Los modelos profundos pueden aprender relaciones complejas entre atributos.

Regresión lineal y La regresión logística son dos tipos de modelos lineales.

regresión lineal

#fundamentals

Un tipo de modelo de aprendizaje automático en el que se cumplen las siguientes condiciones:

  • El modelo es un modelo lineal.
  • La predicción es un valor de punto flotante. (Este es el regresión parte de regresión lineal).

Compara la regresión lineal con la regresión logística. Además, contrasta la regresión con la clasificación.

regresión logística

#fundamentals

Es un tipo de modelo de regresión que predice una probabilidad. Los modelos de regresión logística tienen las siguientes características:

  • La etiqueta es categórica. El término logística por lo general, se refiere a la regresión logística binaria, es decir, en un modelo que calcula probabilidades para etiquetas con dos valores posibles. Una variante menos común, la regresión logística multinomial, calcula probabilidades para etiquetas con más de dos valores posibles.
  • La función de pérdida durante el entrenamiento es la pérdida logística. (Se pueden colocar en paralelo varias unidades de pérdida logística para las etiquetas con más de dos valores posibles).
  • El modelo tiene una arquitectura lineal, no una red neuronal profunda. Sin embargo, el resto de esta definición también se aplica a modelos profundos que predicen probabilidades. para las etiquetas categóricas.

Por ejemplo, considera un modelo de regresión logística que calcula la probabilidad de que un correo electrónico de entrada sea spam o no spam. Durante la inferencia, supongamos que el modelo predice 0.72. Por lo tanto, el que el modelo estima:

  • Un 72% de probabilidades de que el correo electrónico sea spam.
  • Existe una probabilidad del 28% de que el correo electrónico no sea spam.

Un modelo de regresión logística usa la siguiente arquitectura de dos pasos:

  1. El modelo genera una predicción sin procesar (y') aplicando una función lineal. de atributos de entrada.
  2. El modelo usa esa predicción sin procesar como entrada para un función sigmoidea, que convierte la expresión a un valor entre 0 y 1, exclusivo.

Como cualquier modelo de regresión, un modelo de regresión logística predice un número. Sin embargo, este número suele formar parte de una clasificación binaria modelo de la siguiente manera:

  • Si el número predicho es mayor que el el umbral de clasificación, el de clasificación binaria predice la clase positiva.
  • Si el número predicho es inferior al umbral de clasificación, el modelo de clasificación binaria predice la clase negativa.

Pérdida logística

#fundamentals

La función de pérdida que se usa en un objeto binario regresión logística.

logaritmo de probabilidad

#fundamentals

Logaritmo de las probabilidades de que ocurra algún evento.

pérdida

#fundamentals

Durante el entrenamiento de un modelo supervisado, una medida de hasta qué punto la predicción del modelo proviene de su etiqueta.

Una función de pérdida calcula la pérdida.

curva de pérdida

#fundamentals

Un gráfico de la pérdida como una función de la cantidad de entrenamiento iteraciones. El siguiente gráfico muestra una pérdida típica curva:

Un gráfico cartesiano de pérdida frente a iteraciones de entrenamiento que muestra un
          rápida de la pérdida en las iteraciones iniciales, seguida de una
          y, luego, una pendiente plana durante las iteraciones finales.

Las curvas de pérdida ayudan a determinar cuándo el modelo la convergencia o el sobreajuste.

Las curvas de pérdida pueden representar los siguientes tipos de pérdida:

Consulta también la curva de generalización.

función de pérdida

#fundamentals

Durante el entrenamiento o la prueba, un función matemática que calcula pérdida en un lote de ejemplos. Una función de pérdida devuelve una pérdida más baja para los modelos que hacen buenas predicciones que para los que hacen predicciones erróneas.

Por lo general, el objetivo del entrenamiento es minimizar la pérdida de retorno.

Existen muchos tipos diferentes de funciones de pérdida. Elige la pérdida adecuada para el tipo de modelo que estás creando. Por ejemplo:

M

aprendizaje automático

#fundamentals

Un programa o sistema que entrena a un model a partir de datos de entrada. El modelo entrenado puede hacer predicciones útiles a partir de datos nuevos (nunca antes vistos) extraídos de la misma distribución que se usó para entrenar el modelo.

El aprendizaje automático también hace referencia al campo de estudio involucrado con estos programas o sistemas.

clase mayoritaria

#fundamentals

La etiqueta más común en una Conjunto de datos con desequilibrio de clases. Por ejemplo: dado un conjunto de datos que contiene un 99% de etiquetas negativas y un 1% de etiquetas positivas, el las etiquetas negativas son la clase mayoritaria.

Compara esto con la clase minoritaria.

minilote

#fundamentals

Un pequeño subconjunto seleccionado al azar de un lote procesado en una iteración. Por lo general, el tamaño del lote de un minilote es el siguiente: entre 10 y 1,000 ejemplos.

Por ejemplo, supongamos que todo el conjunto de entrenamiento (el lote completo) consta de 1,000 ejemplos. Supongamos más también que estableces tamaño del lote de cada minilote hasta 20. Por lo tanto, cada la iteración determina la pérdida en 20 de los 1,000 ejemplos al azar y, luego, ajusta los pesos y los sesgos en consecuencia.

Es mucho más eficiente calcular la pérdida en un minilote que en todos los ejemplos del lote completo.

clase minoritaria

#fundamentals

La etiqueta menos común en una Conjunto de datos con desequilibrio de clases. Por ejemplo: dado un conjunto de datos que contiene un 99% de etiquetas negativas y un 1% de etiquetas positivas, el las etiquetas positivas son la clase minoritaria.

Compara esto con la clase mayor.

modelo

#fundamentals

En general, cualquier construcción matemática que procesa datos de entrada y devuelve salida. En una frase diferente, un modelo es el conjunto de parámetros y estructura necesarias para que un sistema haga predicciones. En el aprendizaje automático supervisado, un modelo toma un ejemplo como entrada y, luego, infiere un prediction como resultado. En el aprendizaje automático supervisado, varíe un poco. Por ejemplo:

  • Un modelo de regresión lineal consta de un conjunto de pesos y un sesgo.
  • Un modelo de red neuronal consta de lo siguiente:
      .
    • Un conjunto de capas ocultas, cada una con una o más neuronas.
    • Los pesos y el sesgo asociados con cada neurona.
  • Un modelo de árbol de decisión consta de lo siguiente:
      .
    • La forma del árbol; es decir, el patrón en el que las condiciones y las hojas están conectadas.
    • Las condiciones y las salidas.

Puedes guardar, restablecer o hacer copias de un modelo.

El aprendizaje automático no supervisado también genera modelos, generalmente una función que puede asignar un ejemplo de entrada a el clúster más adecuado.

clasificación de clases múltiples

#fundamentals

En el aprendizaje supervisado, un problema de clasificación en el que el conjunto de datos contiene más de dos clases de etiquetas. Por ejemplo, las etiquetas en el conjunto de datos Iris deben ser una de las siguientes tres clases:

  • Setosa de iris
  • Iris virginica
  • Iris versicolor

Modelo entrenado con el conjunto de datos Iris que predice el tipo de iris en ejemplos nuevos realiza una clasificación de clases múltiples.

En cambio, los problemas de clasificación que distinguen entre exactamente dos son modelos de clasificación binaria. Por ejemplo, un modelo de correo electrónico que prediga si es spam o no es spam es un modelo de clasificación binaria.

En los problemas de agrupamiento en clústeres, la clasificación de clases múltiples se refiere a más de entre dos clústeres.

N

clase negativa

#fundamentals

En la clasificación binaria, una clase es se considera positiva y la otra se denomina negativa. La clase positiva es el objeto o evento que el modelo está probando, y la clase negativa es otra posibilidad. Por ejemplo:

  • La clase negativa en una prueba médica puede ser "no es un tumor".
  • La clase negativa en un clasificador de correo electrónico puede ser “no es spam”.

Compara esto con la clase positiva.

neuronal prealimentada

#fundamentals

Un modelo que contenga al menos un capa oculta. Una red neuronal profunda es un tipo de red neuronal con más de una capa oculta. Por ejemplo, en el siguiente diagrama muestra una red neuronal profunda que contiene dos capas ocultas.

Una red neuronal con una capa de entrada, dos capas ocultas y un
          capa de salida.

Cada neurona en una red neuronal se conecta con todos los nodos de la siguiente capa. Por ejemplo, en el diagrama anterior, observa que cada una de las tres neuronas En la primera capa oculta, se conectan por separado a las dos neuronas segunda capa oculta.

Las redes neuronales implementadas en computadoras a veces se denominan redes neuronales artificiales para diferenciarlas de que se encuentran en el cerebro y otros sistemas nerviosos.

Algunas redes neuronales pueden imitar relaciones no lineales extremadamente complejas entre diferentes atributos y la etiqueta.

Consulta también red neuronal convolucional y red neuronal recurrente.

neurona

#fundamentals

En el aprendizaje automático, una unidad distinta dentro de una capa oculta de una red neuronal. Cada neurona realiza las siguientes acción en dos pasos:

  1. Calcula la suma ponderada de los valores de entrada multiplicados. según sus ponderaciones correspondientes.
  2. Pasa la suma ponderada como entrada a un función de activación.

Una neurona en la primera capa oculta acepta entradas de valores de atributos en la capa de entrada. Una neurona en cualquier capa oculta más allá la primera acepta entradas de las neuronas en la capa oculta anterior. Por ejemplo, una neurona en la segunda capa oculta acepta entradas de la neuronas en la primera capa oculta.

En la siguiente ilustración, se destacan dos neuronas y sus de datos.

Una red neuronal con una capa de entrada, dos capas ocultas y un
          capa de salida. Se destacan dos neuronas: una en la primera
          una capa oculta y otra en la segunda. El botón de
          La neurona en la primera capa oculta recibe entradas de ambos atributos.
          en la capa de entrada. La neurona destacada en la segunda capa oculta
          recibe entradas de cada una de las tres neuronas en la primera
          por la capa de prealimentación.

Una neurona en una red neuronal imita el comportamiento de las neuronas en el cerebro y y otras partes del sistema nervioso.

nodo (red neuronal)

#fundamentals

Una neurona en una capa oculta.

nonlinear

#fundamentals

Es una relación entre dos o más variables que no se pueden representar solo. a través de la suma y la multiplicación. Una relación lineal se puede representar como una línea; Una relación nonlinear no puede ser representados como una línea. Por ejemplo, considera dos modelos que se relacionan entre sí un solo atributo a una sola etiqueta. El modelo de la izquierda es lineal. y el modelo de la derecha es no lineal:

Dos diagramas. Un diagrama es una línea, por lo que esta es una relación lineal.
          El otro diagrama es una curva, por lo que esta es una relación no lineal.

no estacionariedad

#fundamentals

Es un atributo cuyos valores cambian en una o más dimensiones, por lo general, el tiempo. Por ejemplo, considera los siguientes ejemplos de no estacionariedad:

  • La cantidad de trajes de baño que se venden en una tienda varía según la temporada.
  • La cantidad de una fruta específica que se cosechó en una región determinada es cero durante gran parte del año, pero grande durante un período breve.
  • Debido al cambio climático, las temperaturas medias anuales están cambiando.

Compara esto con la estacionariedad.

normalización

#fundamentals

En términos generales, el proceso de convertir el rango real de una variable de valores en un rango estándar de valores, por ejemplo:

  • -1 a +1
  • De 0 a 1
  • la distribución normal

Por ejemplo, supongamos que el rango real de valores de un atributo determinado es De 800 a 2,400. Como parte de la ingeniería de atributos, podrías normalizar los valores reales a un rango estándar, como de -1 a +1.

La normalización es una tarea común ingeniería de atributos. Los modelos suelen entrenarse más rápido (y generar mejores predicciones) cuando cada atributo numérico del El vector de atributos tiene más o menos el mismo rango.

datos numéricos

#fundamentals

Atributos representados como números enteros o de valores reales. Por ejemplo, un modelo de valoración de casas probablemente representaría el tamaño de una casa (en pies cuadrados o metros cuadrados) como datos numéricos. Representando un atributo, ya que los datos numéricos indican que los valores del atributo tienen una relación matemática con la etiqueta. Es decir, el número de metros cuadrados de una casa probablemente tenga matemática y el valor de la vivienda.

No todos los datos de números enteros deben representarse como datos numéricos. Por ejemplo: los códigos postales en algunas partes del mundo son números enteros; sin embargo, el código postal con número entero los códigos no deben representarse como datos numéricos en los modelos. Esto se debe a que un código postal de 20000 no es el doble (o la mitad) más potente que un código postal de 10,000. Además, aunque los distintos códigos postales se correlacionan con diferentes de bienes raíces, no podemos suponer que los valores de bienes raíces en el código postal 20000 son el doble de valiosos que los valores de bienes raíces en el código postal 10000. Los códigos postales deben representarse como datos categóricos en su lugar.

A veces, los atributos numéricos se denominan funciones continuas.

O

sin conexión

#fundamentals

Sinónimo de estático.

inferencia sin conexión

#fundamentals

El proceso de un modelo que genera un lote de predicciones y, luego, almacenar en caché (guardar) esas predicciones. Luego, las apps pueden acceder al modelo desde la caché, en lugar de volver a ejecutar el modelo.

Por ejemplo, considera un modelo que genere pronósticos meteorológicos locales. (predicciones) una vez cada cuatro horas. Después de cada ejecución del modelo, el sistema almacena en caché todos los pronósticos meteorológicos locales. Apps del clima recuperan el pronóstico de la caché.

La inferencia sin conexión también se denomina inferencia estática.

Compara esto con la inferencia en línea.

codificación one-hot

#fundamentals

La representación de datos categóricos como un vector en el que:

  • Un elemento se establece en 1.
  • Todos los demás elementos se establecen en 0.

La codificación one-hot se usa para representar cadenas o identificadores tienen un conjunto finito de valores posibles. Por ejemplo, supongamos un cierto atributo categórico llamado Scandinavia tiene cinco valores posibles:

  • “Dinamarca”
  • “Suecia”
  • “Noruega”
  • “Finlandia”
  • “Islandia”

La codificación one-hot podría representar cada uno de los cinco valores de la siguiente manera:

country Vector
“Dinamarca” 1 0 0 0 0
“Suecia” 0 1 0 0 0
“Noruega” 0 0 1 0 0
“Finlandia” 0 0 0 1 0
“Islandia” 0 0 0 0 1

Gracias a la codificación one-hot, un modelo puede aprender diferentes conexiones en función de cada uno de los cinco países.

Representar un atributo como datos numéricos es un como alternativa a la codificación one-hot. Desafortunadamente, representar el Los países escandinavos, numéricamente, no son una buena opción. Por ejemplo: considera la siguiente representación numérica:

  • “Dinamarca” es 0
  • “Suecia” es 1
  • “Noruega” es 2
  • “Finlandia” es 3
  • “Islandia” es 4

Con la codificación numérica, un modelo interpretaría los números sin procesar matemáticamente y trataría de entrenar con esos números. Sin embargo, Islandia no tiene el doble (o la mitad) de algo como Noruega, por lo que el modelo llegaría a algunas conclusiones extrañas.

uno frente a todos

#fundamentals

Dado un problema de clasificación con clases N, un que consta de N unidades clasificadores binarios: un clasificador binario para cada resultado posible. Por ejemplo, dado un modelo que clasifica ejemplos como animal, vegetal o mineral, una solución de uno frente a todos brindaría la usando tres clasificadores binarios separados:

  • animal frente a no animal
  • vegetal frente a no vegetal
  • mineral frente a no mineral

en línea

#fundamentals

Sinónimo de dinámico.

inferencia en línea

#fundamentals

Generación de predicciones a pedido. Por ejemplo: supongamos que una aplicación pasa una entrada a un modelo y emite una solicitud para una para la predicción. Un sistema que usa inferencia en línea responde a la solicitud ejecutando el modelo (y mostrar la predicción a la app).

Compara esto con la inferencia sin conexión.

capa de salida

#fundamentals

La "final" de una red neuronal. La capa de salida contiene la predicción.

En la siguiente ilustración, se muestra una pequeña red neuronal profunda con una entrada de salida, dos capas ocultas y una de salida:

Una red neuronal con una capa de entrada, dos capas ocultas y una
          capa de salida. La capa de entrada consta de dos atributos. La primera
          Consta de tres neuronas, y la segunda capa oculta
          consta de dos neuronas. La capa de salida consta de un solo nodo.

sobreajuste

#fundamentals

Crear un modelo que coincida con datos de entrenamiento con tanta precisión que el modelo no puede hacer predicciones correctas con los datos nuevos.

La regularización puede reducir el sobreajuste. Entrenar con un conjunto de entrenamiento grande y diverso también puede reducir el sobreajuste.

P

pandas

#fundamentals

Una API de análisis de datos orientada a columnas compilada en numpy. Muchos frameworks de aprendizaje automático incluido TensorFlow, admiten estructuras de datos de Pandas como entradas. Consulta la documentación de Pandas para conocer los detalles.

parámetro

#fundamentals

Los pesos y los sesgos que aprende un modelo durante capacitación. Por ejemplo, en una regresión lineal, los parámetros constan de el sesgo (b) y todos los pesos (w1, w2, etcétera) en la siguiente fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Por el contrario, los hiperparámetros son los valores que (o un servicio de cambio de hiperparámetros) suministra al modelo. Por ejemplo, una tasa de aprendizaje es un hiperparámetro.

clase positiva

#fundamentals

La clase que estás probando.

Por ejemplo, la clase positiva en un modelo de cáncer podría ser "tumor". La clase positiva en un clasificador de correo electrónico puede ser “spam”.

Compara esto con la clase negativa.

posprocesamiento

#fairness
#fundamentals

Ajustar la salida de un modelo después de que este se haya ejecutado El procesamiento posterior se puede usar para aplicar las restricciones de equidad modificar los modelos por su cuenta.

Por ejemplo, se podría aplicar el procesamiento posterior a un clasificador binario. estableciendo un umbral de clasificación que La igualdad de oportunidades se mantiene. para algún atributo verificando que la tasa de verdaderos positivos es la misma para todos los valores de ese atributo.

Predicción

#fundamentals

La salida de un modelo. Por ejemplo:

  • La predicción de un modelo de clasificación binaria la clase negativa o la clase negativa.
  • La predicción de un modelo de clasificación de clases múltiples es una clase.
  • La predicción de un modelo de regresión lineal es un número.

etiquetas de proxy

#fundamentals

Son datos que se usan para aproximar etiquetas que no están disponibles directamente en un conjunto de datos.

Por ejemplo, supongamos que debes entrenar un modelo para predecir nivel de estrés. Tu conjunto de datos contiene muchos atributos predictivos no contiene una etiqueta llamada nivel de estrés. Sin desanimarte, eliges "accidentes de trabajo" como etiqueta de proxy para nivel de estrés. Después de todo, los empleados con mucho estrés se involucran en más accidentes que los empleados tranquilos. ¿O no? Quizás accidentes laborales subir y bajar en realidad por múltiples razones.

Como segundo ejemplo, supongamos que quieres que ¿está lloviendo? como una etiqueta booleana. para tu conjunto de datos, pero este no contiene datos de lluvia. Si hay fotografías disponibles, puedes establecer imágenes de personas con paraguas como etiqueta de proxy de ¿está lloviendo? Ese una buena etiqueta de proxy? Posiblemente, pero las personas de algunas culturas pueden estar es más probable que lleves paraguas para protegerte del sol en lugar de la lluvia.

Las etiquetas de proxy suelen ser imperfectas. Cuando sea posible, elige etiquetas reales en lugar las etiquetas de proxy. Dicho esto, cuando una etiqueta real esté ausente, elige el proxy con mucho cuidado, elegimos la etiqueta de proxy menos horrible.

R

RAG

#fundamentals

Abreviatura de generación aumentada de recuperación.

evaluador

#fundamentals

Una persona que proporciona etiquetas para ejemplos. “Anotador” es otro nombre para evaluador.

Unidad lineal rectificada (ReLU)

#fundamentals

Una función de activación con el siguiente comportamiento:

  • Si la entrada es negativa o cero, entonces el resultado es 0.
  • Si la entrada es positiva, entonces el resultado es igual a la entrada.

Por ejemplo:

  • Si la entrada es -3, entonces el resultado es 0.
  • Si la entrada es +3, entonces el resultado es 3.0.

A continuación, se muestra un gráfico de ReLU:

Representación cartesiana de dos líneas. La primera línea tiene una constante
          y de 0, que se extiende a lo largo del eje x de -infinity,0 a 0,-0.
          La segunda línea comienza en 0,0. Esta línea tiene una pendiente de +1, de modo que
          va de 0,0 a +infinito,+infinito.

ReLU es una función de activación muy popular. A pesar de su comportamiento simple, ReLU todavía permite que una red neuronal aprenda nonlinear relaciones entre los atributos y la etiqueta.

modelo de regresión

#fundamentals

Informalmente, un modelo que genera una predicción numérica. (En cambio, un modelo de clasificación genera una clase prediction.) Por ejemplo, los siguientes son todos los modelos de regresión:

  • Modelo que predice el valor de una casa determinada, como 423,000 euros.
  • Modelo que predice la esperanza de vida de un árbol determinado, como 23.2 años.
  • Un modelo que predice la cantidad de lluvia que caerá en una ciudad determinada en las próximas seis horas, como 0.48 pulgadas.

Los siguientes son dos tipos comunes de modelos de regresión:

  • Regresión lineal, que encuentra la línea que mejor ajusta los valores de las etiquetas a los atributos.
  • La regresión logística, que genera un entre 0.0 y 1.0 que un sistema suele asignar a una clase para la predicción.

No todos los modelos que generan predicciones numéricas son modelos de regresión. En algunos casos, una predicción numérica es solo un modelo de clasificación que sucede que tiene nombres de clases numéricos. Por ejemplo, un modelo que predice Un código postal numérico es un modelo de clasificación, no de regresión.

regularización

#fundamentals

Cualquier mecanismo que reduzca el sobreajuste Entre los tipos populares de regularización, se incluyen los siguientes:

La regularización también puede definirse como la penalización por la complejidad de un modelo.

tasa de regularización

#fundamentals

Número que especifica la importancia relativa de regularización durante el entrenamiento. Elevando la la tasa de regularización reduce el sobreajuste, pero puede reducir el poder predictivo del modelo. Por el contrario, omitir o reducir la tasa de regularización aumenta el sobreajuste.

ReLU

#fundamentals

Abreviatura de unidad lineal rectificada.

generación de recuperación aumentada (RAG)

#fundamentals

Una técnica para mejorar la calidad de Resultado del modelo de lenguaje grande (LLM) basándolo en fuentes de conocimiento recuperadas tras el entrenamiento del modelo. El RAG mejora la exactitud de las respuestas del LLM proporcionando al LLM entrenado acceso a información recuperada de bases de conocimiento o documentos confiables.

Entre las motivaciones comunes para usar la generación de aumento de recuperación, se incluyen las siguientes:

  • Aumentar la exactitud fáctica de las respuestas generadas de un modelo.
  • Darle al modelo acceso a conocimientos con los que no se entrenó
  • Cambiar el conocimiento que usa el modelo.
  • Habilita el modelo para citar fuentes.

Por ejemplo, supongamos que una app de química usa el PaLM API para generar resúmenes relacionadas con las consultas de los usuarios. Cuando el backend de la app recibe una consulta, el backend hace lo siguiente:

  1. Busca datos ("recupera") que son relevantes para la consulta del usuario.
  2. Agrega ("aumentos") los datos químicos relevantes a la consulta del usuario.
  3. Indica al LLM que cree un resumen basado en los datos agregados.

Curva ROC (característica operativa del receptor)

#fundamentals

Gráfico de la tasa de verdaderos positivos en comparación con tasa de falsos positivos de diferentes umbrales de clasificación en objeto binario clasificación.

La forma de una curva ROC sugiere la capacidad de un modelo de clasificación binaria para separar las clases positivas de las negativas. Supongamos, por ejemplo, que un modelo de clasificación binaria separe perfectamente de todas las clases positivas:

Una recta numérica con 8 ejemplos positivos a la derecha y
          7 ejemplos negativos a la izquierda.

La curva ROC para el modelo anterior se ve de la siguiente manera:

Una curva ROC. El eje X es la tasa de falsos positivos y el eje Y.
          es la tasa de verdaderos positivos. La curva tiene una forma de L invertida. La curva
          comienza en (0.0,0.0) y va directamente a (0.0,1.0). Luego, la curva
          va de (0.0,1.0) a (1.0,1.0).

En cambio, en la siguiente ilustración, se muestra la representación de la regresión logística sin procesar valores para un modelo terrible que no puede separar las clases negativas de positivas en absoluto:

Una recta numérica con ejemplos positivos y clases negativas
          están completamente mezclados.

La curva ROC para este modelo se ve de la siguiente manera:

Una curva ROC, que en realidad es una línea recta de (0.0,0.0)
          a (1.0,1.0).

En el mundo real, la mayoría de los modelos de clasificación binaria positivas y negativas en cierta medida, pero no por lo general a la perfección. Entonces: una curva ROC típica se encuentra en algún lugar entre los dos extremos:

Una curva ROC. El eje X es la tasa de falsos positivos y el eje Y.
          es la tasa de verdaderos positivos. La curva ROC se aproxima a un arco tembloroso
          que atraviesa los puntos de la brújula de oeste a norte.

El punto en una curva ROC más cercana a (0.0,1.0) identifica teóricamente el umbral de clasificación ideal. Sin embargo, otros problemas del mundo real influyen en la selección del umbral de clasificación ideal. Por ejemplo: quizás los falsos negativos causan mucho más dolor que los falsos positivos.

Una métrica numérica llamada AUC resume la curva ROC en un único valor de punto flotante.

Raíz cuadrada del error cuadrático medio (RMSE)

#fundamentals

Raíz cuadrada del error cuadrático medio.

S

función sigmoidea

#fundamentals

Una función matemática que "aplasta" un valor de entrada a un rango restringido generalmente de 0 a 1 o de -1 a +1. Es decir, puedes pasar cualquier número (dos, un millón, mil millones negativo, lo que sea) a una sigmoidea, y la salida seguirá estando en rango restringido. Un diagrama de la función de activación sigmoidea se ve de la siguiente manera:

Un diagrama curvo bidimensional con valores x que abarcan el dominio
          -infinity a +positivo, mientras que los valores y abarcan el rango casi 0 a
          casi 1. Cuando x es 0, y es 0.5. La pendiente de la curva es siempre
          positivo, con la pendiente más alta en 0,0.5 y disminuyendo gradualmente
          pendientes a medida que aumenta el valor absoluto de x.

La función sigmoidea tiene varios usos en el aprendizaje automático, incluidos los siguientes:

softmax

#fundamentals

Función que determina las probabilidades para cada clase posible en una modelo de clasificación de clases múltiples. Las probabilidades suman a exactamente 1.0. Por ejemplo, la siguiente tabla muestra cómo softmax distribuye varias probabilidades:

La imagen es... Probabilidad
perro 0,85
gato 0,13
caballo 0,02

Softmax también se denomina softmax completo.

Compara esto con el muestreo de candidatos.

atributo disperso

#language
#fundamentals

atributo cuyos valores son predominantemente cero o están vacíos. Por ejemplo, un atributo que contiene un solo valor 1 y un millón de valores 0 se dispersas. Por el contrario, un atributo denso tiene valores que no estén vacíos ni estén vacíos.

En el aprendizaje automático, un número sorprendente de atributos son atributos dispersos. Los atributos categóricos suelen ser atributos dispersos. Por ejemplo, de las 300 posibles especies de árboles en un bosque, un único ejemplo podría identificar solo un árbol de arce. O de los millones de videos posibles en una biblioteca de videos, un solo ejemplo podría identificar solo "Casablanca".

En un modelo, normalmente representas atributos dispersos con codificación one-hot. Si la codificación one-hot es grande, puedes colocar una capa de incorporación sobre el la codificación one-hot para una mayor eficiencia.

representación dispersa

#language
#fundamentals

Almacenar solo las posiciones de elementos distintos de cero en un atributo disperso

Por ejemplo, supongamos que un atributo categórico llamado species identifica las 36 las especies arbóreas de un bosque en particular. Supón además que cada example identifica solo una especie.

Podrías usar un vector one-hot para representar las especies arbóreas en cada ejemplo. Un vector one-hot contendría un único 1 (para representar la especie de árbol particular en ese ejemplo) y 35 0 (para representar la 35 especies de árboles no en ese ejemplo). La representación one-hot de maple podría verse de la siguiente manera:

Un vector en el que las posiciones 0 a 23 contienen el valor 0, posición
          24 contiene el valor 1, y las posiciones 25 a 35 tienen el valor 0.

Por otro lado, la representación dispersa simplemente identificaría la posición de la a una especie particular. Si maple está en la posición 24, entonces la representación dispersa de maple sería la siguiente:

24

Ten en cuenta que la representación dispersa es mucho más compacta que la one-hot para la representación de los datos.

vector disperso

#fundamentals

Vector cuyos valores son en su mayoría ceros. Consulta también dispersas atributo y dispersión.

pérdida al cuadrado

#fundamentals

Sinónimo de pérdida L2.

static

#fundamentals

Algo hecho una vez en lugar de hacerlo continuamente. Los términos estático y sin conexión son sinónimos. Los siguientes son usos comunes de estático y sin conexión en máquinas aprendizaje:

  • El modelo estático (o modelo sin conexión) es un modelo entrenado una vez y, luego, se usó durante un tiempo.
  • El entrenamiento estático (o entrenamiento sin conexión) es el proceso de entrenar un para un modelo estático.
  • La inferencia estática (o inferencia sin conexión) es una en el que un modelo genera un lote de predicciones a la vez.

Compara esto con los atributos dinámicos.

inferencia estática

#fundamentals

Sinónimo de inferencia sin conexión.

estacionariedad

#fundamentals

Es un atributo cuyos valores no cambian en una o más dimensiones, por lo general, en el tiempo. Por ejemplo, un atributo cuyos valores parecen casi los mismos en 2021 y El 2023 muestra estacionariedad.

En el mundo real, muy pocos atributos muestran estacionariedad. Funciones uniformes que son sinónimo de cambio de estabilidad (como el nivel del mar) con el tiempo.

Compara esto con la no estacionariedad.

descenso de gradientes estocástico (SGD)

#fundamentals

Es un algoritmo de descenso de gradientes en el que la tamaño del lote es uno. En otras palabras, el SGD entrena un solo ejemplo elegido de manera uniforme al aleatorias de un conjunto de entrenamiento.

aprendizaje automático supervisado

#fundamentals

Entrenar un modelo a partir de atributos y sus las etiquetas correspondientes. El aprendizaje automático supervisado es análogo hasta aprender un tema mediante el estudio de un conjunto de preguntas y sus respuestas correspondientes. Después de dominar el mapeo entre preguntas y respuestas, el estudiante puede dar respuestas a preguntas nuevas (nunca antes vistas) preguntas sobre el mismo tema.

Comparar con aprendizaje automático no supervisado.

atributo sintético

#fundamentals

Es un atributo que no está presente entre los atributos de entrada, pero ensamblado a partir de uno o más de ellos. Métodos para crear atributos sintéticos incluyen lo siguiente:

  • Agrupamiento de un atributo continuo en discretizaciones de rango.
  • Crear una combinación de atributos
  • Multiplicar (o dividir) el valor de un atributo por otros atributos o por su cuenta. Por ejemplo, si a y b son atributos de entrada, el Estos son ejemplos de atributos sintéticos:
    • ab
    • a2
  • Aplicar una función trascendental al valor de un atributo Por ejemplo, si c es un atributo de entrada, los siguientes son ejemplos de atributos sintéticos:
    • sen(c)
    • ln(c)

Funciones creadas mediante la normalización o el escalamiento por sí solos no se consideran atributos sintéticos.

T

pérdida de prueba

#fundamentals

Una métrica que representa la pérdida de un modelo según el conjunto de prueba. Cuando creas un modelo, suele intentar minimizar la pérdida de prueba. Eso se debe a que una pérdida de prueba baja es un una señal de mejor calidad que una baja pérdida de entrenamiento o baja pérdida de validación.

En ocasiones, hay una gran brecha entre la pérdida de prueba y la pérdida de entrenamiento o validación. sugiere que debes aumentar la probabilidad tasa de regularización.

modelos

#fundamentals

Proceso de determinar los parámetros ideales (pesos y sesgos) que comprende un modelo. Durante el entrenamiento, un sistema lee ejemplos y ajusta los parámetros de forma gradual. El entrenamiento usa cada de unas cuantas veces a miles de millones de veces.

pérdida de entrenamiento

#fundamentals

Una métrica que representa la pérdida de un modelo durante una en una iteración de entrenamiento específica. Por ejemplo, supongamos que la función de pérdida es el error cuadrático medio. Quizás la pérdida de entrenamiento (la media (error cuadrático) para la 10.a iteración es 2.2, y la pérdida de entrenamiento para la iteración número 100 es 1.9.

Una curva de pérdida representa la pérdida de entrenamiento frente a la cantidad de iteraciones. Una curva de pérdida proporciona las siguientes sugerencias sobre el entrenamiento:

  • Una pendiente descendente implica que el modelo está mejorando.
  • Una pendiente ascendente indica que el modelo está empeorando.
  • Una pendiente plana implica que el modelo alcanzó convergencia.

Por ejemplo, la siguiente curva de pérdida un poco idealizada muestra:

  • Una pendiente empinada hacia abajo durante las iteraciones iniciales, lo que implica una mejora rápida del modelo.
  • Una pendiente que se aplana gradualmente (pero aún baja) hasta llegar al final de entrenamiento, lo que implica una mejora continua del modelo a un cierto un ritmo más lento que durante las iteraciones iniciales.
  • Una pendiente plana hacia el final del entrenamiento, lo que sugiere convergencia.

La representación de la pérdida de entrenamiento frente a las iteraciones. Esta curva de pérdida comienza
     con una pendiente empinada. La pendiente se aplana gradualmente hasta que
     la pendiente se vuelve cero.

Aunque la pérdida de entrenamiento es importante, consulta también generalización.

desviación entre el entrenamiento y la entrega

#fundamentals

La diferencia entre el rendimiento de un modelo durante entrenamiento y el rendimiento del mismo modelo durante de publicación.

conjunto de entrenamiento

#fundamentals

Subconjunto del conjunto de datos que se usa para entrenar un modelo.

Tradicionalmente, los ejemplos del conjunto de datos se dividen en los siguientes tres subconjuntos distintos:

Idealmente, cada ejemplo del conjunto de datos debería pertenecer solo a uno de los subconjuntos anteriores. Por ejemplo, un solo ejemplo no debe pertenecer a el conjunto de entrenamiento y el de validación.

verdadero negativo (VN)

#fundamentals

Ejemplo en el que el modelo predice correctamente la clase negativa. Por ejemplo, el modelo infiere que un mensaje de correo electrónico en particular no es spam, el cual en realidad es no es spam.

verdadero positivo (VP)

#fundamentals

Ejemplo en el que el modelo predice correctamente la clase positiva. Por ejemplo, el modelo infiere que un mensaje de correo electrónico en particular es spam, y ese mensaje en realidad es spam.

tasa de verdaderos positivos (TPR)

#fundamentals

Sinónimo de recuperación. Es decir:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

La tasa de verdaderos positivos es el eje Y en una curva ROC.

U

subajuste

#fundamentals

Producir un modelo con una capacidad predictiva deficiente porque el modelo no haya capturado por completo la complejidad de los datos de entrenamiento. Muchos problemas pueden provocar subajuste, como

ejemplo sin etiqueta

#fundamentals

Un ejemplo que contiene atributos, pero no etiqueta. Por ejemplo, en la siguiente tabla se muestran tres ejemplos sin etiqueta de una casa de valoración, cada uno con tres atributos, pero sin valor de la casa:

Cantidad de dormitorios Cantidad de baños Antigüedad de la casa
3 2 15
2 1 72
4 2 34

En el aprendizaje automático supervisado, los modelos se entrenan con ejemplos etiquetados y hacen predicciones sobre ejemplos sin etiqueta.

En las estrategias semisupervisadas y el aprendizaje no supervisado, ejemplos sin etiqueta durante el entrenamiento.

Compara el ejemplo sin etiqueta con el ejemplo etiquetado.

aprendizaje automático no supervisado

#clustering
#fundamentals

Entrenar un modelo para encontrar patrones en un conjunto de datos, generalmente un sin etiquetar.

El uso más común del aprendizaje automático no supervisado Datos del clúster en grupos de ejemplos similares. Por ejemplo, una máquina no supervisada El algoritmo de aprendizaje puede agrupar canciones en función de distintas propiedades de la música. Los clústeres resultantes pueden convertirse en una entrada para otra máquina algoritmos de aprendizaje (por ejemplo, a un servicio de recomendación de música). El agrupamiento en clústeres puede ser útil cuando las etiquetas útiles son escasas o faltan. Por ejemplo, en dominios como la protección contra el abuso y el fraude, los clústeres a los seres humanos a comprender mejor los datos.

Compara esto con el aprendizaje automático supervisado.

V

validación

#fundamentals

Es la evaluación inicial de la calidad de un modelo. La validación comprueba la calidad de las predicciones de un modelo en comparación con el conjunto de validación.

Debido a que el conjunto de validación difiere del conjunto de entrenamiento, ayuda a protegerte contra el sobreajuste.

Puedes pensar en evaluar el modelo con el conjunto de validación como primera ronda de pruebas y evaluación del modelo en comparación con test set como segunda ronda de pruebas.

pérdida de validación

#fundamentals

Una métrica que representa la pérdida de un modelo en el conjunto de validación durante iteración del entrenamiento.

Consulta también la curva de generalización.

conjunto de validación

#fundamentals

El subconjunto del conjunto de datos que realiza evaluación de un modelo entrenado. Por lo general, se evalúan el modelo entrenado con el conjunto de validación veces antes de evaluar el modelo con el conjunto de prueba.

Tradicionalmente, se dividen los ejemplos del conjunto de datos en las siguientes tres subconjuntos distintos:

Idealmente, cada ejemplo del conjunto de datos debería pertenecer solo a uno de los subconjuntos anteriores. Por ejemplo, un solo ejemplo no debe pertenecer a el conjunto de entrenamiento y el de validación.

W

peso

#fundamentals

Es un valor que un modelo multiplica por otro valor. El entrenamiento es el proceso de determinar los pesos ideales de un modelo. La inferencia es el proceso de usar esas ponderaciones aprendidas para hacer predicciones.

suma ponderada

#fundamentals

La suma de todos los valores de entrada relevantes multiplicados por sus valores los pesos. Por ejemplo, supongamos que las entradas relevantes son las siguientes:

valor de entrada peso de entrada
2 −1.3
-1 0.6
3 0.4

Por lo tanto, la suma ponderada es la siguiente:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Una suma ponderada es el argumento de entrada para un función de activación.

Z

Normalización de puntuación Z

#fundamentals

Es una técnica de escalamiento que reemplaza un elemento sin procesar. valor de feature con un valor de punto flotante que representa el número de desviaciones estándar de la media de ese atributo. Por ejemplo, considera un atributo cuya media es 800 y cuyo estándar desviación de los recursos es 100. En la siguiente tabla, se muestra cómo la normalización de la puntuación Z asignaría el valor sin procesar a su puntuación Z:

Valor sin procesar Puntaje Z
800 0
950 +1.5
575 −2.25

Luego, el modelo de aprendizaje automático se entrena con la puntuación Z. para ese atributo en lugar de los valores sin procesar.