Glosario sobre aprendizaje automático

En este glosario, se definen los términos del aprendizaje automático.

A

ablación

Es una técnica para evaluar la importancia de un atributo o componente quitándolo temporalmente de un modelo. Luego, vuelve a entrenar el modelo sin esa función o componente, y si el modelo reentrenado tiene un rendimiento mucho peor, es probable que la función o el componente quitados fueran importantes.

Por ejemplo, supongamos que entrenas un modelo de clasificación en 10 atributos y logras un 88% de precisión en el conjunto de prueba. Para verificar la importancia de la primera característica, puedes volver a entrenar el modelo con solo las otras nueve características. Si el modelo reentrenado tiene un rendimiento significativamente peor (por ejemplo, una precisión del 55%), es probable que el atributo quitado fuera importante. Por el contrario, si el modelo reentrenado tiene un rendimiento igual de bueno, es probable que esa característica no sea tan importante.

La ablación también puede ayudar a determinar la importancia de lo siguiente:

  • Componentes más grandes, como un subsistema completo de un sistema de AA más grande
  • Procesos o técnicas, como un paso de procesamiento previo de datos

En ambos casos, observarías cómo cambia (o no) el rendimiento del sistema después de quitar el componente.

Pruebas A/B

Es una forma estadística de comparar dos (o más) técnicas: A y B. Por lo general, A es una técnica existente y B es una técnica nueva. Las pruebas A/B no solo determinan qué técnica tiene un mejor rendimiento, sino también si la diferencia es estadísticamente significativa.

Por lo general, las pruebas A/B comparan una sola métrica en dos técnicas. Por ejemplo, ¿cómo se compara la precisión del modelo en dos técnicas? Sin embargo, las pruebas A/B también pueden comparar cualquier cantidad finita de métricas.

chip de acelerador

#GoogleCloud

Es una categoría de componentes de hardware especializados diseñados para realizar cálculos clave necesarios para los algoritmos de aprendizaje profundo.

Los chips de acelerador (o simplemente aceleradores) pueden aumentar de forma significativa la velocidad y la eficiencia de las tareas de entrenamiento y de inferencia en comparación con una CPU de uso general. Son ideales para entrenar redes neuronales y tareas similares de procesamiento intensivo.

Estos son algunos ejemplos de chips aceleradores:

  • Las unidades de procesamiento tensorial (TPU) de Google con hardware dedicado para el aprendizaje profundo
  • Las GPUs de NVIDIA, que, aunque se diseñaron inicialmente para el procesamiento de gráficos, están diseñadas para permitir el procesamiento en paralelo, lo que puede aumentar significativamente la velocidad de procesamiento.

exactitud

#fundamentals

Es la cantidad de predicciones de clasificación correctas dividida por la cantidad total de predicciones. Es decir:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Por ejemplo, un modelo que realizó 40 predicciones correctas y 10 incorrectas tendría una precisión de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La clasificación binaria proporciona nombres específicos para las diferentes categorías de predicciones correctas y predicciones incorrectas. Por lo tanto, la fórmula de precisión para la clasificación binaria es la siguiente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Donde:

Compara y contrasta la exactitud con la precisión y la recuperación.

Consulta Clasificación: exactitud, recuperación, precisión y métricas relacionadas en el Curso intensivo de aprendizaje automático para obtener más información.

acción

#rl

En el aprendizaje por refuerzo, el mecanismo a través del cual el agente hace transiciones entre estados del entorno. El agente elige la acción con una política.

función de activación

#fundamentals

Es una función que permite que las redes neuronales aprendan relaciones no lineales (complejas) entre los atributos y la etiqueta.

Entre las funciones de activación populares, se incluyen las siguientes:

Los gráficos de las funciones de activación nunca son líneas rectas únicas. Por ejemplo, el gráfico de la función de activación ReLU consta de dos líneas rectas:

Una representación cartesiana de dos líneas. La primera línea tiene un valor y constante de 0, que se extiende a lo largo del eje x de -infinito,0 a 0,-0.
          La segunda línea comienza en 0,0. Esta línea tiene una pendiente de +1, por lo que va de 0,0 a infinito,infinito.

Un gráfico de la función de activación sigmoidea se ve de la siguiente manera:

Un gráfico curvo de dos dimensiones con valores de x que abarcan el dominio de menos infinito a positivo, mientras que los valores de y abarcan el rango de casi 0 a casi 1. Cuando x es 0, y es 0.5. La pendiente de la curva siempre es positiva, con la pendiente más alta en 0,0.5 y pendientes que disminuyen gradualmente a medida que aumenta el valor absoluto de x.

Consulta Redes neuronales: Funciones de activación en el Curso intensivo de aprendizaje automático para obtener más información.

aprendizaje activo

Un enfoque de entrenamiento en el que el algoritmo elige algunos de los datos sobre los cuales aprende. El aprendizaje activo es especialmente útil cuando los ejemplos etiquetados son escasos o difíciles de obtener. En lugar de buscar entre un amplio rango de ejemplos etiquetados, un algoritmo de aprendizaje activo busca selectivamente el rango particular de ejemplos que necesita para aprender.

AdaGrad

Algoritmo de descenso de gradientes que reajusta los gradientes de cada parámetro y le asigna una tasa de aprendizaje independiente a cada uno. Para obtener una explicación completa, consulta este artículo sobre AdaGrad.

agente

#rl

En el aprendizaje por refuerzo, la entidad que usa una política para maximizar el rendimiento esperado que se obtiene de la transición entre los estados del entorno.

En términos más generales, un agente es un software que planifica y ejecuta de forma autónoma una serie de acciones para lograr un objetivo, con la capacidad de adaptarse a los cambios en su entorno. Por ejemplo, un agente basado en un LLM podría usar un LLM para generar un plan, en lugar de aplicar una política de aprendizaje por refuerzo.

agrupamiento aglomerado

#clustering

Consulta agrupamiento en clústeres jerárquico.

detección de anomalías

Es el proceso de identificar valores atípicos. Por ejemplo, si la media de un atributo determinado es 100 con una desviación estándar de 10, la detección de anomalías debe marcar un valor de 200 como sospechoso.

AR

Abreviatura de realidad aumentada.

área bajo la curva de PR

Consulta AUC PR (área bajo la curva PR).

área bajo la curva ROC

Consulta AUC (área bajo la curva ROC).

inteligencia artificial general

Un mecanismo no humano que demuestra una amplia variedad de resolución de problemas, creatividad y adaptabilidad. Por ejemplo, un programa que demuestre la inteligencia general artificial podría traducir texto, componer sinfonías y destacarse en juegos que aún no se han inventado.

inteligencia artificial

#fundamentals

Es un programa o modelo no humano que puede resolver tareas sofisticadas. Por ejemplo, los programas o modelos que traducen textos o que identifican enfermedades a partir de imágenes radiológicas son muestras de inteligencia artificial.

Técnicamente, el aprendizaje automático es un subcampo de la inteligencia artificial. Sin embargo, en los últimos años, algunas organizaciones comenzaron a usar los términos inteligencia artificial y aprendizaje automático de manera indistinta.

Attention,

#language

Es un mecanismo que se usa en una red neuronal que indica la importancia de una palabra o parte de una palabra en particular. La atención comprime la cantidad de información que un modelo necesita para predecir el siguiente token o palabra. Un mecanismo de atención típico puede consistir en una suma ponderada sobre un conjunto de entradas, en la que otra parte de la red neuronal calcula el peso de cada entrada.

Consulta también la atención automática y la atención automática multidireccional, que son los componentes básicos de los transformadores.

Consulta LLM: ¿Qué es un modelo de lenguaje grande? en el Curso intensivo de aprendizaje automático para obtener más información sobre la autoatención.

atributo

#fairness

Sinónimo de función.

En la equidad del aprendizaje automático, los atributos suelen hacer referencia a las características de las personas.

muestreo de atributos

#df

Una táctica para entrenar un bosque de decisión en el que cada árbol de decisión considera solo un subconjunto aleatorio de atributos posibles cuando aprende la condición. Por lo general, se muestrea un subconjunto diferente de atributos para cada nodo. Por el contrario, cuando se entrena un árbol de decisión sin muestreo de atributos, se consideran todas las características posibles para cada nodo.

AUC (área bajo la curva ROC)

#fundamentals

Es un número entre 0.0 y 1.0 que representa la capacidad de un modelo de clasificación binaria para separar las clases positivas de las clases negativas. Cuanto más cerca esté la AUC de 1.0, mejor será la capacidad del modelo para separar las clases entre sí.

Por ejemplo, en la siguiente ilustración, se muestra un modelo de clasificador que separa perfectamente las clases positivas (óvalos verdes) de las clases negativas (rectángulos morados). Este modelo perfecto poco realista tiene una AUC de 1.0:

Una línea numérica con 8 ejemplos positivos en un lado y 9 ejemplos negativos en el otro.

Por el contrario, en la siguiente ilustración, se muestran los resultados de un modelo de clasificador que generó resultados aleatorios. Este modelo tiene un AUC de 0.5:

Una línea numérica con 6 ejemplos positivos y 6 ejemplos negativos.
          La secuencia de ejemplos es positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa.

Sí, el modelo anterior tiene un AUC de 0.5, no de 0.0.

La mayoría de los modelos se encuentran en algún punto intermedio entre los dos extremos. Por ejemplo, el siguiente modelo separa los valores positivos de los negativos y, por lo tanto, tiene un AUC entre 0.5 y 1.0:

Una línea numérica con 6 ejemplos positivos y 6 ejemplos negativos.
          La secuencia de ejemplos es negativa, negativa, negativa, negativa,
          positiva, negativa, positiva, positiva, negativa, positiva, positiva,
          positiva.

El AUC ignora cualquier valor que establezcas para el umbral de clasificación. En cambio, la AUC considera todos los umbrales de clasificación posibles.

Consulta Clasificación: ROC y AUC en el Curso intensivo de aprendizaje automático para obtener más información.

realidad aumentada

#image

Es una tecnología que superpone una imagen generada por computadora en la vista del mundo real de un usuario, lo que proporciona una vista compuesta.

codificador automático

#language
#image

Un sistema que aprende a extraer la información más importante de la entrada. Los autoencoders son una combinación de un codificador y un decodificador. Los autoencoders se basan en el siguiente proceso de dos pasos:

  1. El codificador asigna la entrada a un formato (por lo general) con pérdida de menor dimensión (intermedia).
  2. El decodificador crea una versión con pérdida de la entrada original asignando el formato de menor dimensión al formato de entrada original de mayor dimensión.

Los autoencoders se entrenan de extremo a extremo haciendo que el decodificador intente reconstruir la entrada original del formato intermedio del codificador lo más cerca posible. Debido a que el formato intermedio es más pequeño (de menor dimensión) que el formato original, el autocodificador se ve obligado a aprender qué información de la entrada es esencial, y el resultado no será perfectamente idéntico a la entrada.

Por ejemplo:

  • Si los datos de entrada son gráficos, la copia no exacta sería similar al gráfico original, pero algo modificado. Quizás la copia no exacta quite el ruido del gráfico original o complete algunos píxeles faltantes.
  • Si los datos de entrada son texto, un autocodificador generaría texto nuevo que imita (pero no es idéntico) al texto original.

Consulta también codificadores automáticos variacionales.

evaluación automática

#language
#generativeAI

Usar software para juzgar la calidad del resultado de un modelo

Cuando el resultado del modelo es relativamente sencillo, una secuencia de comandos o un programa puede comparar el resultado del modelo con una respuesta ideal. A veces, este tipo de evaluación automática se denomina evaluación programática. Las métricas como ROUGE o BLEU suelen ser útiles para la evaluación programática.

Cuando el resultado del modelo es complejo o no tiene una respuesta correcta, a veces un programa de AA independiente llamado calificador automático realiza la evaluación automática.

Compara esto con la evaluación humana.

sesgo de automatización

#fairness

Cuando una persona que toma decisiones favorece las recomendaciones hechas por un sistema automático de decisión por sobre la información obtenida sin automatización, incluso cuando el sistema de decisión automatizado comete un error.

Consulta Equidad: Tipos de sesgos en el Curso intensivo de aprendizaje automático para obtener más información.

AutoML

Cualquier proceso automatizado para compilar modelos de aprendizaje automático . AutoML puede realizar automáticamente tareas como las siguientes:

AutoML es útil para los científicos de datos, ya que puede ahorrarles tiempo y esfuerzo en el desarrollo de canalizaciones de aprendizaje automático y mejorar la precisión de las predicciones. También es útil para quienes no son expertos, ya que les permite acceder a tareas complicadas de AA.

Consulta Aprendizaje automático automatizado (AutoML) en el Curso intensivo de aprendizaje automático para obtener más información.

evaluación del evaluador automático

#language
#generativeAI
Un mecanismo híbrido para juzgar la calidad del resultado de un modelo de IA generativa que combina la evaluación humana con la evaluación automática. Un evaluador automático es un modelo de AA entrenado con datos creados por la evaluación humana. Idealmente, un autor aprende a imitar a un evaluador humano.

Hay autores calificadores precompilados disponibles, pero los mejores están ajustados específicamente a la tarea que evalúas.

modelo autorregresivo

#language
#image
#generativeAI

Un modelo que infiere una predicción en función de sus propias predicciones anteriores. Por ejemplo, los modelos de lenguaje autoregresivo predicen el siguiente token según los tokens pronosticados anteriormente. Todos los modelos de lenguaje extenso basados en Transformer son de regresión automática.

Por el contrario, los modelos de imágenes basados en GAN suelen no ser autorregresivos, ya que generan una imagen en un solo pase hacia adelante y no de forma iterativa en pasos. Sin embargo, algunos modelos de generación de imágenes son autorregresivos porque generan una imagen en pasos.

pérdida auxiliar

Una función de pérdida, que se usa junto con la función de pérdida principal del modelo de red neuronal, que ayuda a acelerar el entrenamiento durante las primeras iteraciones cuando los pesos se inicializan de forma aleatoria.

Las funciones de pérdida auxiliares envían gradientes efectivos a las capas anteriores. Esto facilita la convergencia durante el entrenamiento, ya que combate el problema de gradiente que desaparece.

precisión promedio en k

#language

Es una métrica para resumir el rendimiento de un modelo en una sola instrucción que genera resultados clasificados, como una lista numerada de recomendaciones de libros. La precisión promedio en k es el promedio de los valores de precisión en k para cada resultado relevante. Por lo tanto, la fórmula de la precisión promedio en k es la siguiente:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

Donde:

  • \(n\) es la cantidad de elementos relevantes de la lista.

Compara esto con la recuperación en k.

condición alineada con el eje

#df

En un árbol de decisión, una condición que solo involucra una sola función. Por ejemplo, si area es un componente, la siguiente es una condición alineada con el eje:

area > 200

Compara esto con la condición oblicua.

B

propagación inversa

#fundamentals

Es el algoritmo que implementa el descenso de gradientes en las redes neuronales.

El entrenamiento de una red neuronal implica muchas iterations del siguiente ciclo de dos pases:

  1. Durante el pase hacia adelante, el sistema procesa un lote de ejemplos para generar predicciones. El sistema compara cada predicción con cada valor de etiqueta. La diferencia entre la predicción y el valor de la etiqueta es la pérdida de ese ejemplo. El sistema agrega las pérdidas de todos los ejemplos para calcular la pérdida total del lote actual.
  2. Durante el paso hacia atrás (retropropagación), el sistema reduce la pérdida ajustando los pesos de todas las neuronas en todas las capas ocultas.

Las redes neuronales suelen contener muchas neuronas en muchas capas ocultas. Cada una de esas neuronas contribuye a la pérdida general de diferentes maneras. La propagación inversa determina si se deben aumentar o disminuir los pesos aplicados a neuronas específicas.

La tasa de aprendizaje es un multiplicador que controla el grado en el que cada paso hacia atrás aumenta o disminuye cada peso. Una tasa de aprendizaje alta aumentará o disminuirá cada peso más que una tasa de aprendizaje pequeña.

En términos de cálculo, la retropropagación implementa la regla de la cadena del cálculo. Es decir, la retropropagación calcula la derivada parcial del error con respecto a cada parámetro.

Hace años, los profesionales del AA tenían que escribir código para implementar la retropropagación. Las APIs de AA modernas, como Keras, ahora implementan la retropropagación por ti. ¡Vaya!

Consulta Redes neuronales en el Curso intensivo de aprendizaje automático para obtener más información.

bagging

#df

Un método para entrenar un conjunto en el que cada modelo constituyente se entrena en un subconjunto aleatorio de ejemplos de entrenamiento muestreados con reemplazo. Por ejemplo, un bosque aleatorio es una colección de árboles de decisión entrenados con el método de agrupamiento.

El término bagging es la forma abreviada en inglés de bootstrap aggregating.

Consulta Bosques aleatorios en el curso Bosques de decisión para obtener más información.

bolsa de palabras

#language

Representación de las palabras de una frase o pasaje, sin importar el orden. Por ejemplo, una bolsa de palabras representa las tres frases siguientes de forma idéntica:

  • el perro salta
  • salta el perro
  • perro salta el

Cada palabra se asigna a un índice en un vector disperso, en el que el vector tiene un índice para cada palabra del vocabulario. Por ejemplo, la frase el perro salta se asigna a un vector de características con valores distintos de cero en los tres índices correspondientes a las palabras el, perro y salta. El valor distinto de cero puede ser cualquiera de los siguientes:

  • Un 1 para indicar la presencia de una palabra
  • Es el recuento de la cantidad de veces que una palabra aparece en la bolsa. (por ejemplo, si la frase fuera el perro marrón es un perro con pelaje marrón, entonces tanto marrón como perro se representarían con un 2, mientras que las demás palabras con un 1)
  • Algún otro valor, como el logaritmo de la cantidad de veces que una palabra aparece en la bolsa

modelo de referencia

Un modelo que se usa como punto de referencia para comparar el rendimiento de otro modelo (por lo general, uno más complejo). Por ejemplo, un modelo de regresión logística podría servir como una buena referencia para un modelo profundo.

Para un problema en particular, el modelo de referencia ayuda a los desarrolladores de modelos a cuantificar el rendimiento mínimo esperado que debe alcanzar un modelo nuevo para que sea útil.

lote

#fundamentals

Es el conjunto de ejemplos que se usan en una iteración de entrenamiento. El tamaño del lote determina la cantidad de ejemplos en un lote.

Consulta época para obtener una explicación de cómo se relaciona un lote con una época.

Consulta Regresión lineal: Hyperparameters en el Curso intensivo de aprendizaje automático para obtener más información.

inferencia por lotes

#TensorFlow
#GoogleCloud

Es el proceso de inferir predicciones en varios ejemplos sin etiquetar divididos en subconjuntos más pequeños ("lotes").

La inferencia por lotes puede aprovechar las funciones de paralelización de los chips de acelerador. Es decir, varios aceleradores pueden inferir predicciones de forma simultánea en diferentes lotes de ejemplos sin etiquetar, lo que aumenta de forma significativa la cantidad de inferencias por segundo.

Consulta Sistemas de aprendizaje automático de producción: Inferencia estática en comparación con la dinámica en el Curso intensivo de aprendizaje automático para obtener más información.

normalización por lotes

Normaliza la entrada o la salida de las funciones de activación en una capa oculta. La normalización por lotes puede presentar los beneficios siguientes:

tamaño del lote

#fundamentals

Es la cantidad de ejemplos en un lote. Por ejemplo, si el tamaño del lote es 100, el modelo procesa 100 ejemplos por iteración.

Las siguientes son estrategias populares de tamaño de lote:

  • Descenso de gradientes estocástico (SGD), en el que el tamaño del lote es 1.
  • Lote completo, en el que el tamaño del lote es la cantidad de ejemplos en todo el conjunto de entrenamiento. Por ejemplo, si el conjunto de entrenamiento contiene un millón de ejemplos, el tamaño del lote sería un millón de ejemplos. Por lo general, el lote completo es una estrategia ineficiente.
  • minilotes, en los que el tamaño del lote suele ser de entre 10 y 1,000. Por lo general, el minilote es la estrategia más eficiente.

Consulte los siguientes artículos para obtener más información:

Red neuronal Bayesiana

Una red neuronal probabilística que representa la incertidumbre entre pesos y resultados. Un modelo de regresión de red neuronal estándar suele predecir un valor escalar; por ejemplo, un modelo estándar predice el precio de una casa en 853,000. En contraste, una red neuronal Bayesiana predice una distribución de valores, por ejemplo, un modelo Bayesiano predice el precio de una casa en 853,000 con una desviación estándar de 67,200.

Las redes neuronales Bayesianas se basan en el Teorema de Bayes para calcular la incertidumbre entre pesos y predicciones. Una red neuronal Bayesiana puede ser útil en los casos en que se precisa calcular el grado de incertidumbre, como en modelos relacionados con la industria farmacéutica. Las redes neuronales Bayesianas también pueden ayudar a reducir el sobreajuste.

Optimización bayesiana

Es una técnica de modelo de regresión probabilístico para optimizar funciones objetivo costosas en términos de procesamiento mediante la optimización de un sustituto que cuantifica la incertidumbre con una técnica de aprendizaje bayesiano. Dado que la optimización bayesiana es muy costosa, por lo general, se usa para optimizar tareas costosas de evaluar que tienen una pequeña cantidad de parámetros, como seleccionar hiperparámetros.

Ecuación de Bellman

#rl

En el aprendizaje por refuerzo, la siguiente identidad es satisfecha por la función Q óptima:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Los algoritmos de aprendizaje por refuerzo aplican esta identidad para crear aprendizaje Q a través de la siguiente regla de actualización:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Más allá del aprendizaje reforzado, la ecuación de Bellman tiene aplicaciones para la programación dinámica. Consulta la entrada de Wikipedia sobre la ecuación de Bellman.

BERT (Representaciones de codificador bidireccional de transformadores)

#language

Una arquitectura de modelo para la representación de texto. Un modelo BERT entrenado puede actuar como parte de un modelo más grande para la clasificación de texto o para otras tareas de AA.

BERT tiene las siguientes características:

Entre las variantes de BERT, se incluyen las siguientes:

Consulta Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing para obtener una descripción general de BERT.

sesgo (ética/equidad) (bias, ethics/fairness)

#fairness
#fundamentals

1. Estereotipo, prejuicio o preferencia de cosas, personas o grupos por sobre otros. Estos sesgos pueden afectar la recolección y la interpretación de datos, el diseño de un sistema y cómo los usuarios interactúan con él. Entre las formas de este tipo de sesgo, se incluyen las siguientes:

2. Error sistemático debido a un procedimiento de muestreo o de elaboración de informes. Entre las formas de este tipo de sesgo, se incluyen las siguientes:

No se debe confundir con el término de sesgo en modelos de aprendizaje automático o sesgo de predicción.

Consulta Equidad: Tipos de sesgos en el Curso intensivo de aprendizaje automático para obtener más información.

sesgo (matemática) o término de sesgo

#fundamentals

Una intersección o un desplazamiento de un origen. El sesgo es un parámetro en los modelos de aprendizaje automático, que se simboliza con cualquiera de los siguientes:

  • b
  • w0

Por ejemplo, la ordenada al origen es la b en la siguiente fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En una línea bidimensional simple, el sesgo solo significa “intercepto en y”. Por ejemplo, la pendiente de la línea en la siguiente ilustración es 2.

El gráfico de una línea con una pendiente de 0.5 y un sesgo (intercepto en y) de 2.

El sesgo existe porque no todos los modelos comienzan en el origen (0,0). Por ejemplo, imagina que un parque de diversiones cuesta 2 euros para ingresar y 0.5 euros adicionales por cada hora que un cliente permanece. Por lo tanto, un modelo que asigna el costo total tiene un sesgo de 2 porque el costo más bajo es de 2 euros.

No se debe confundir el sesgo con el sesgo en ética y equidad ni el sesgo de predicción.

Consulta Regresión lineal en el Curso intensivo de aprendizaje automático para obtener más información.

bidireccional

#language

Es un término que se usa para describir un sistema que evalúa el texto que precede y sigue a una sección de texto objetivo. Por el contrario, un sistema unidireccional solo evalúa el texto que precede a una sección de texto objetivo.

Por ejemplo, considera un modelo de lenguaje con enmascaramiento que debe determinar las probabilidades de la palabra o las palabras que representan la línea debajo de la siguiente pregunta:

¿Qué tal _____?

Un modelo de lenguaje unidireccional tendría que basar sus probabilidades solo en el contexto que proporcionan las palabras "¿Qué", "es" y "el". En cambio, un modelo de lenguaje bidireccional también podría obtener contexto de "con" y "tú", lo que podría ayudar al modelo a generar mejores predicciones.

modelo de lenguaje bidireccional

#language

Un modelo de lenguaje que determina la probabilidad de que un token determinado esté presente en una ubicación determinada en un extracto de texto según el texto anterior y posterior.

bigrama

#seq
#language

Un n-grama en el que n=2.

clasificación binaria

#fundamentals

Un tipo de tarea de clasificación que predice una de dos clases mutuamente excluyentes:

Por ejemplo, los siguientes dos modelos de aprendizaje automático realizan una clasificación binaria:

  • Un modelo que determina si los mensajes de correo electrónico son spam (la clase positiva) o no son spam (la clase negativa).
  • Un modelo que evalúa los síntomas médicos para determinar si una persona tiene una enfermedad en particular (la clase positiva) o no la tiene (la clase negativa).

Compara esto con la clasificación de clases múltiples.

Consulta también regresión logística y umbral de clasificación.

Consulta Clasificación en el Curso intensivo de aprendizaje automático para obtener más información.

condición binaria

#df

En un árbol de decisión, es una condición que solo tiene dos resultados posibles, por lo general, o no. Por ejemplo, la siguiente es una condición binaria:

temperature >= 100

Compara esto con la condición no binaria.

Consulta Tipos de condiciones en el curso Bosques de decisión para obtener más información.

discretización

Es un sinónimo de agrupamiento.

BLEU (Bilingual Evaluation Understudy)

#language

Es una métrica entre 0.0 y 1.0 para evaluar las traducciones automáticas, por ejemplo, del español al japonés.

Para calcular una puntuación, BLEU suele comparar la traducción de un modelo de AA (texto generado) con la traducción de un experto humano (texto de referencia). El grado en que coinciden los n-gramas en el texto generado y el texto de referencia determina la puntuación BLEU.

El artículo original sobre esta métrica es BLEU: a Method for Automatic Evaluation of Machine Translation.

Consulta también BLEURT.

BLEURT (Bilingual Evaluation Understudy from Transformers)

#language

Es una métrica para evaluar las traducciones automáticas de un idioma a otro, en particular, de y hacia el inglés.

En el caso de las traducciones de y hacia inglés, BLEURT se alinea más con las calificaciones humanas que BLEU. A diferencia de BLEU, BLEURT enfatiza las similitudes semánticas (de significado) y puede adaptarse al parafraseo.

BLEURT se basa en un modelo de lenguaje grande previamente entrenado (BERT, para ser exactos) que luego se ajusta en el texto de traductores humanos.

El artículo original sobre esta métrica es BLEURT: Learning Robust Metrics for Text Generation.

aumento

Técnica de aprendizaje automático que combina de forma iterativa un conjunto de clasificadores simples y no muy exactos (también conocidos como clasificadores "débiles") en un clasificador con exactitud alta (un clasificador "fuerte") mediante un incremento de ponderación para los ejemplos que el modelo actualmente clasifica de forma errónea.

Consulta Árboles de decisión impulsados por gradientes en el curso Bosques de decisión para obtener más información.

cuadro de límite

#image

En una imagen, las coordenadas (x, y) de un rectángulo alrededor de un área de interés, como el perro en la siguiente imagen.

Fotografía de un perro sentado en un sofá. Un cuadro de límite verde con coordenadas de la esquina superior izquierda (275, 1271) y coordenadas de la esquina inferior derecha (2954, 2761) circunscribe el cuerpo del perro.

transmisión

En una operación matemática de matrices, expansión de la forma de un operando a dimensiones compatibles para esa operación. Por ejemplo, el álgebra lineal requiere que los dos operandos en una operación de suma matriz tengan las mismas dimensiones. En consecuencia, no se puede agregar una matriz de forma (m, n) a un vector de longitud n. La transmisión permite esta operación mediante la expansión virtual del vector de longitud n en una matriz de forma (m, n) replicando los mismos valores en cada columna.

Por ejemplo, dadas las siguientes definiciones, el álgebra lineal prohíbe A+B porque A y B tienen dimensiones diferentes:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Sin embargo, la transmisión permite la operación A+B si se expande de forma virtual B a:

 [[2, 2, 2],
  [2, 2, 2]]

Por lo tanto, A+B se convierte en una operación válida:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Para obtener más detalles, consulta la siguiente descripción de emisión en NumPy.

Agrupamiento

#fundamentals

Conversión de un solo atributo en varios atributos binarios denominados buckets o bins, que en general se basan en un rango de valores. Por lo general, el atributo cortado es un atributo continuo.

Por ejemplo, en lugar de representar la temperatura como una sola característica de punto flotante continua, puedes dividir los rangos de temperaturas en intervalos discretos, como los siguientes:

  • <= 10 grados Celsius sería el bucket “frío”.
  • Entre 11 y 24 grados Celsius estaría el bucket "templado".
  • >= 25 grados Celsius sería el bucket "caliente".

El modelo tratará todos los valores del mismo bucket de manera idéntica. Por ejemplo, los valores 13 y 22 están en el bucket templado, por lo que el modelo trata los dos valores de manera idéntica.

Consulta Datos numéricos: agrupamiento en el Curso intensivo de aprendizaje automático para obtener más información.

C

capa de calibración

Es un ajuste posterior a la predicción, generalmente para dar cuenta del sesgo de predicción. Las predicciones ajustadas y las probabilidades deben coincidir con la distribución del conjunto de etiquetas observado.

generación de candidatos

#recsystems

Es el conjunto inicial de recomendaciones que elige un sistema de recomendación. Por ejemplo, considera una librería que ofrece 100,000 títulos. La fase de generación de candidatos crea una lista mucho menor de libros adecuados para un usuario específico, digamos 500. Pero incluso 500 libros son demasiados para recomendar a un usuario. Las fases posteriores y más costosas de un sistema de recomendación (como la calificación y la reclasificación) reducen esos 500 a un conjunto de recomendaciones mucho más útil.

Para obtener más información, consulta la descripción general de la generación de candidatos en el curso de Sistemas de recomendación.

muestreo de candidatos

Optimización del tiempo de entrenamiento que calcula una probabilidad para todas las etiquetas positivas (por ejemplo, a través de softmax), pero solo para una muestra aleatoria de etiquetas negativas. Por ejemplo, dado un ejemplo etiquetado como beagle y perro, el muestreo de candidatos calcula las probabilidades predichas y los términos de pérdida correspondientes para lo siguiente:

  • beagle
  • dog
  • un subconjunto aleatorio de las clases negativas restantes (por ejemplo, gato, golosina, cerca).

La idea es que las clases negativas puedan aprender de un refuerzo negativo menos frecuente, siempre y cuando las clases positivas siempre reciban el refuerzo positivo adecuado, y esto se observa empíricamente.

El muestreo de candidatos es más eficiente en términos de procesamiento que los algoritmos de entrenamiento que calculan predicciones para todas las clases negativas, en particular, cuando la cantidad de clases negativas es muy grande.

datos categóricos

#fundamentals

Atributos que tienen un conjunto específico de valores posibles. Por ejemplo, considera un atributo categórico llamado traffic-light-state, que solo puede tener uno de los siguientes tres valores posibles:

  • red
  • yellow
  • green

Cuando se representa traffic-light-state como un atributo categórico, un modelo puede aprender los diferentes impactos de red, green y yellow en el comportamiento del conductor.

En ocasiones, los atributos categóricos se denominan atributos discretos.

Compara esto con los datos numéricos.

Consulta Cómo trabajar con datos categóricos en el Curso intensivo de aprendizaje automático para obtener más información.

modelo de lenguaje causal

#language

Sinónimo de modelo de lenguaje unidireccional.

Consulta modelo de lenguaje bidireccional para comparar diferentes enfoques de direccionalidad en el modelado de lenguaje.

centroid

#clustering

El centro de un clúster según lo determine un algoritmo k-means o k-median. Por ejemplo, si k es 3, entonces el algoritmo k-means o k-median encuentra 3 centroides.

Consulta Algoritmos de agrupamiento en el curso de Agrupamiento para obtener más información.

agrupamiento en clústeres basado en centroides

#clustering

Es una categoría de algoritmos de agrupamiento que organiza los datos en clústeres no jerárquicos. K-means es el algoritmo de agrupamiento en clústeres basado en centroides más utilizado.

Compara esto con algoritmos de agrupamiento en clústeres jerárquico.

Consulta Algoritmos de agrupamiento en el curso de Agrupamiento para obtener más información.

cadena de pensamientos

#language
#generativeAI

Una técnica de ingeniería de instrucciones que fomenta que un modelo de lenguaje grande (LLM) explique su razonamiento paso a paso. Por ejemplo, considera la siguiente consigna y presta especial atención a la segunda oración:

¿Cuántas fuerzas g experimentaría un conductor en un automóvil que pasa de 0 a 96 kilómetros por hora en 7 segundos? En la respuesta, muestra todos los cálculos relevantes.

Es probable que la respuesta del LLM haga lo siguiente:

  • Muestra una secuencia de fórmulas de física y, luego, ingresa los valores 0, 60 y 7 en los lugares adecuados.
  • Explica por qué eligió esas fórmulas y qué significan las diferentes variables.

Las instrucciones de cadena de pensamientos obligan al LLM a realizar todos los cálculos, lo que podría generar una respuesta más correcta. Además, las indicaciones de cadena de pensamiento le permiten al usuario examinar los pasos del LLM para determinar si la respuesta tiene sentido o no.

chatear

#language
#generativeAI

El contenido de un diálogo de ida y vuelta con un sistema de AA, por lo general, un modelo de lenguaje extenso. La interacción anterior en un chat (lo que escribiste y cómo respondió el modelo de lenguaje extenso) se convierte en el contexto para las partes posteriores del chat.

Un chatbot es una aplicación de un modelo de lenguaje extenso.

punto de control

Datos que capturan el estado de los parámetros de un modelo, ya sea durante el entrenamiento o después de que este se completa. Por ejemplo, durante el entrenamiento, puedes hacer lo siguiente:

  1. Detener el entrenamiento, quizás de forma intencional o como resultado de ciertos errores
  2. Captura el punto de control.
  3. Más tarde, vuelve a cargar el punto de control, posiblemente en hardware diferente.
  4. Reinicia el entrenamiento.

clase

#fundamentals

Es una categoría a la que puede pertenecer una etiqueta. Por ejemplo:

Un modelo de clasificación predice una clase. Por el contrario, un modelo de regresión predice un número en lugar de una clase.

Consulta Clasificación en el Curso intensivo de aprendizaje automático para obtener más información.

modelo de clasificación

#fundamentals

Un modelo cuya predicción es una clase. Por ejemplo, los siguientes son todos modelos de clasificación:

  • Un modelo que predice el idioma de una oración de entrada (¿francés? ¿Español? ¿Italiano?).
  • Un modelo que predice especies de árboles (¿arce? ¿Roble? Baobab?).
  • Un modelo que predice la clase positiva o negativa de una condición médica particular.

Por el contrario, los modelos de regresión predicen números en lugar de clases.

Estos son dos tipos comunes de modelos de clasificación:

umbral de clasificación

#fundamentals

En una clasificación binaria, es un número entre 0 y 1 que convierte el resultado sin procesar de un modelo de regresión logística en una predicción de la clase positiva o la clase negativa. Ten en cuenta que el umbral de clasificación es un valor que elige una persona, no un valor que elige el entrenamiento del modelo.

Un modelo de regresión logística genera un valor sin procesar entre 0 y 1. Luego:

  • Si este valor sin procesar es mayor que el umbral de clasificación, se predice la clase positiva.
  • Si este valor sin procesar es menor que el umbral de clasificación, se predice la clase negativa.

Por ejemplo, supongamos que el umbral de clasificación es 0.8. Si el valor sin procesar es 0.9, el modelo predice la clase positiva. Si el valor sin procesar es 0.7, el modelo predice la clase negativa.

La elección del umbral de clasificación influye en gran medida en la cantidad de falsos positivos y falsos negativos.

Consulta Umbral y matriz de confusión en el Curso intensivo de aprendizaje automático para obtener más información.

conjunto de datos con desequilibrio de clases

#fundamentals

Un conjunto de datos para un problema de clasificación en el que la cantidad total de etiquetas de cada clase difiere significativamente. Por ejemplo, considera un conjunto de datos de clasificación binaria cuyas dos etiquetas se dividen de la siguiente manera:

  • 1,000,000 de etiquetas negativas
  • 10 etiquetas positivas

La proporción de etiquetas negativas a positivas es de 100,000 a 1, por lo que este es un conjunto de datos con desequilibrio de clases.

En cambio, el siguiente conjunto de datos no tiene desequilibrio de clases porque la proporción de etiquetas negativas a positivas es relativamente cercana a 1:

  • 517 etiquetas negativas
  • 483 etiquetas positivas

Los conjuntos de datos de varias clases también pueden tener desequilibrio de clases. Por ejemplo, el siguiente conjunto de datos de clasificación de varias clases también tiene un desequilibrio de clases porque una etiqueta tiene muchos más ejemplos que las otras dos:

  • 1,000,000 etiquetas con la clase "verde"
  • 200 etiquetas con la clase "purple"
  • 350 etiquetas con la clase "naranja"

Consulta también entropía, clase mayoritaria y clase minoritaria.

recorte

#fundamentals

Técnica para manejar valores atípicos mediante una de las siguientes acciones o ambas:

  • Reducción de los valores de atributo que sean mayores que un umbral máximo hasta ese umbral máximo
  • Aumentar los valores de atributos que son menores que un umbral mínimo hasta ese umbral mínimo

Por ejemplo, supongamos que menos del 0.5% de los valores de un atributo en particular se encuentra fuera del rango 40 a 60. En ese caso, puedes hacer lo siguiente:

  • Recortar todos los valores superiores a 60 (el umbral máximo) para que sean exactamente 60
  • Hacer un recorte de todos los valores menores que 40 (el umbral mínimo) para que sean exactamente 40

Los valores atípicos pueden dañar los modelos, lo que, a veces, hace que los pesos se desborden durante el entrenamiento. Algunos valores atípicos también pueden alterar de forma significativa métricas como la precisión. El recorte es una técnica común para limitar el daño.

El recorte de gradientes fuerza los valores de gradiente dentro de un rango designado durante el entrenamiento.

Consulta Datos numéricos: normalización en el Curso intensivo de aprendizaje automático para obtener más información.

Cloud TPU

#TensorFlow
#GoogleCloud

Un acelerador de hardware especializado diseñado para acelerar las cargas de trabajo de aprendizaje automático en Google Cloud.

agrupamiento

#clustering

Agrupar ejemplos relacionados, en particular durante el aprendizaje no supervisado Una vez que todos los ejemplos están agrupados, una persona puede, de forma opcional, asignar un significado a cada clúster.

Existen muchos algoritmos de agrupamiento en clústeres. Por ejemplo, el algoritmo k-means agrupa ejemplos en función de su proximidad a un centroide, como en el siguiente diagrama:

Un gráfico de dos dimensiones en el que el eje x está etiquetado como ancho del árbol y el eje y está etiquetado como altura del árbol. El gráfico contiene dos puntos medios y varias docenas de datos. Los datos se categorizan según su proximidad. Es decir, los datos más cercanos a un centroide se clasifican como clúster 1, mientras que los más cercanos al otro centroide se clasifican como clúster 2.

Un investigador humano podría luego revisar los clústeres y, por ejemplo, etiquetar el grupo 1 como "árboles enanos" y el grupo 2 como "árboles de tamaño completo".

Otro ejemplo podría ser un algoritmo de agrupamiento basado en la distancia del ejemplo desde un punto central, como se ilustra a continuación:

Decenas de datos se organizan en círculos concéntricos, casi

          como agujeros alrededor del centro de una tabla de dardos. El anillo más interno de los datos se clasifica como clúster 1, el anillo del medio se clasifica como clúster 2 y el anillo más externo como clúster 3.

Consulta el curso de clústeres para obtener más información.

coadaptación

Proceso en el cual las neuronas predicen patrones en los datos de entrenamiento basándose casi exclusivamente en salidas de otras neuronas específicas en lugar de basarse en el comportamiento de la red como un todo. Cuando los patrones que causan la coadaptación no están presentes en los datos de validación, la coadaptación provoca un sobreajuste. La regularización de retirados reduce la coadaptación ya que asegura que las neuronas no puedan basarse solo en otras neuronas específicas.

filtrado colaborativo

#recsystems

Hacer predicciones sobre los intereses de un usuario según los intereses de muchos otros. El filtrado colaborativo se usa con frecuencia en los sistemas de recomendación.

Consulta Filtrado colaborativo en el curso de Sistemas de recomendación para obtener más información.

desviación de conceptos

Un cambio en la relación entre los atributos y la etiqueta. Con el tiempo, la deriva de conceptos reduce la calidad de un modelo.

Durante el entrenamiento, el modelo aprende la relación entre los atributos y sus etiquetas en el conjunto de entrenamiento. Si las etiquetas del conjunto de entrenamiento son buenos proxies para el mundo real, el modelo debería realizar buenas predicciones del mundo real. Sin embargo, debido al desvío de conceptos, las predicciones del modelo tienden a degradarse con el tiempo.

Por ejemplo, considera un modelo de clasificación binaria que predice si un modelo de automóvil determinado es o no “económico en combustible”. Es decir, las funciones podrían ser las siguientes:

  • peso del vehículo
  • compresión del motor
  • tipo de transmisión

mientras que la etiqueta es una de las siguientes opciones:

  • ahorro de combustible
  • no es eficiente en el consumo de combustible

Sin embargo, el concepto de “automóvil eficiente en combustible” sigue cambiando. Es casi seguro que un modelo de automóvil etiquetado como eficiente en combustible en 1994 se etiquetaría como no eficiente en combustible en 2024. Un modelo que sufre de deriva del concepto tiende a hacer predicciones cada vez menos útiles con el tiempo.

Compara y contrasta con la no estacionariedad.

de transición

#df

En un árbol de decisión, cualquier nodo que evalúe una expresión. Por ejemplo, la siguiente parte de un árbol de decisiones contiene dos condiciones:

Un árbol de decisión que consta de dos condiciones: (x > 0) y
          (y > 0).

Una condición también se denomina división o prueba.

Compara la condición con hoja.

Consulta lo siguiente:

Consulta Tipos de condiciones en el curso Bosques de decisión para obtener más información.

confabulación

#language

Sinónimo de alucinación.

La confabulación es probablemente un término más técnicamente preciso que la alucinación. Sin embargo, la alucinación se hizo popular primero.

configuración

Es el proceso de asignar los valores de propiedad iniciales que se usan para entrenar un modelo, lo que incluye lo siguiente:

En los proyectos de aprendizaje automático, la configuración se puede realizar a través de un archivo de configuración especial o con bibliotecas de configuración, como las siguientes:

sesgo de confirmación

#fairness

Tendencia de buscar, interpretar, favorecer y recuperar información de una manera que confirme las creencias o hipótesis preexistentes propias. Los desarrolladores de aprendizaje automático pueden recopilar o etiquetar inadvertidamente los datos de formas que influyan en un resultado que respalde sus creencias. El sesgo de confirmación es una forma de sesgo implícito.

El sesgo del experimentador es una forma de sesgo de confirmación en el cual un investigador continúa entrenando modelos hasta confirmar una hipótesis preexistente.

matriz de confusión

#fundamentals

Una tabla de n×n que resume la cantidad de predicciones correctas e incorrectas que realizó un modelo de clasificación. Por ejemplo, considera la siguiente matriz de confusión para un modelo de clasificación binaria:

Tumor (previsto) No tumor (predicho)
Tumor (verdad fundamental) 18 (TP) 1 (FN)
No tumor (verdad fundamental) 6 (FP) 452 (TN)

En la matriz de confusión anterior, se muestra lo siguiente:

  • De las 19 predicciones en las que la verdad fundamental era Tumor, el modelo clasificó 18 de forma correcta y 1 de forma incorrecta.
  • De las 458 predicciones en las que la verdad fundamental era No tumor, el modelo clasificó correctamente 452 y 6 de forma incorrecta.

La matriz de confusión de un problema de clasificación de varias clases puede ayudarte a identificar patrones de errores. Por ejemplo, considera la siguiente matriz de confusión para un modelo de clasificación multiclase de 3 clases que clasifica tres tipos diferentes de iris (Virginica, Versicolor y Setosa). Cuando la verdad fundamental era Virginica, la matriz de confusión muestra que el modelo tenía muchas más probabilidades de predecir por error Versicolor que Setosa:

  Setosa (previsto) Versicolor (predicho) Virginica (predicho)
Setosa (verdad fundamental) 88 12 0
Versicolor (verdad fundamental) 6 141 7
Virginia (verdad fundamental) 2 27 109

Como otro ejemplo, una matriz de confusión podría revelar que un modelo entrenado para reconocer dígitos escritos a mano tiende a predecir de manera incorrecta 9 en lugar de 4, o 1 en lugar de 7.

Las matrices de confusión contienen información suficiente para calcular una variedad de métricas de rendimiento, como la precisión y la recuperación.

Análisis de distritos electorales

#language

Consiste en dividir una oración en estructuras gramaticales más pequeñas ("constituyentes"). Una parte posterior del sistema de AA, como un modelo de comprensión del lenguaje natural, puede analizar los constituyentes con mayor facilidad que la oración original. Por ejemplo, considera la siguiente oración:

Mi amigo adoptó dos gatos.

Un analizador de constituyentes puede dividir esta oración en los siguientes dos constituyentes:

  • Mi amigo es una frase nominal.
  • adoptó dos gatos es una frase verbal.

Estos constituyentes se pueden subdividir en constituyentes más pequeños. Por ejemplo, la frase verbal

adoptó dos gatos

se puede subdividir en lo siguiente:

  • adoptado es un verbo.
  • dos gatos es otra frase nominal.

incorporación de lenguaje contextualizado

#language
#generativeAI

Un enriquecimiento que se acerca a “comprender” palabras y frases de la misma manera que lo hacen los hablantes humanos nativos. Las incorporaciones de lenguaje contextualizadas pueden comprender la sintaxis, la semántica y el contexto complejos.

Por ejemplo, considera las incorporaciones de la palabra en inglés cow. Las incorporaciones más antiguas, como word2vec, pueden representar palabras en inglés de modo que la distancia en el espacio de incorporación de cow a bull sea similar a la distancia de ewe (oveja hembra) a ram (oveja macho) o de female a male. Las incorporaciones de lenguaje contextualizadas pueden ir un paso más allá y reconocer que, a veces, quienes hablan inglés usan la palabra cow para referirse a una vaca o un toro.

ventana de contexto

#language
#generativeAI

Es la cantidad de tokens que un modelo puede procesar en una sugerencia determinada. Cuanto más grande sea la ventana de contexto, más información puede usar el modelo para proporcionar respuestas coherentes y coherentes a la instrucción.

atributo continuo

#fundamentals

Un atributo de punto flotante con un rango infinito de valores posibles, como la temperatura o el peso.

Compara esto con el atributo discreto.

muestreo de conveniencia

Uso de un conjunto de datos no recopilado científicamente con el objetivo de realizar experimentos rápidos. Posteriormente, es fundamental cambiar un conjunto de datos recopilados científicamente.

convergencia

#fundamentals

Es un estado que se alcanza cuando los valores de pérdida cambian muy poco o nada con cada iteración. Por ejemplo, la siguiente curva de pérdida sugiere una convergencia en alrededor de 700 iteraciones:

Gráfico cartesiano. El eje X es la pérdida. El eje Y es la cantidad de iteraciones de entrenamiento. La pérdida es muy alta durante las primeras iteraciones, pero disminuye de forma significativa. Después de unas 100 iteraciones, la pérdida sigue disminuyendo, pero de forma mucho más gradual. Después de unas 700 iteraciones,
          la pérdida se mantiene estable.

Un modelo converge cuando el entrenamiento adicional no mejora el modelo.

En el aprendizaje profundo, los valores de pérdida a veces permanecen constantes o casi constantes durante muchas iteraciones antes de descender. Durante un período prolongado de valores de pérdida constantes, es posible que obtengas temporalmente una sensación falsa de convergencia.

Consulta también interrupción anticipada.

Consulta Model convergence and loss curves en el Curso intensivo de aprendizaje automático para obtener más información.

función convexa

Función en la que la región por encima del gráfico de la función es un conjunto convexo. La función convexa prototípica tiene una forma similar a la letra U. Por ejemplo, las siguientes son todas funciones convexas:

Curvas con forma de U, cada una con un solo punto mínimo.

En contraste, la siguiente función no es convexa. Observa cómo la región por encima del gráfico no es un conjunto convexo:

Una curva en forma de W con dos puntos mínimos locales diferentes.

Una función estrictamente convexa tiene exactamente un punto mínimo local, que también es el punto mínimo global. Las funciones clásicas con forma de U son funciones estrictamente convexas. Sin embargo, algunas funciones convexas (por ejemplo, las líneas rectas) no lo son.

Consulta Convergencia y funciones convexas en el Curso intensivo de aprendizaje automático para obtener más información.

optimización de función convexa

El proceso de usar técnicas matemáticas, como el descenso de gradientes, para encontrar el mínimo de una función convexa. Gran parte de la investigación sobre el aprendizaje automático se ha centrado en formular distintos problemas como problemas de optimización convexa y en solucionar esas cuestiones de manera más eficaz.

Para obtener más información, consulta Convex Optimization de Boyd y Vandenberghe.

conjunto convexo

Un subconjunto del espacio euclidiano de modo que una línea trazada entre cualquier par de puntos del subconjunto permanezca completamente dentro de él. Por ejemplo, las siguientes dos formas son conjuntos convexos:

Una ilustración de un rectángulo. Otra ilustración de un óvalo.

En cambio, las siguientes dos formas no son conjuntos convexos:

Una ilustración de un gráfico circular con una porción faltante.
          Otro ejemplo de un polígono muy irregular.

convolución

#image

En matemática, la convolución es (informalmente) una manera de mezclar dos funciones que mide cuanta superposición hay entre las dos funciones. En el aprendizaje automático, una convolución mezcla el filtro convolucional y la matriz de entrada para entrenar los pesos.

El término “convolución” en el aprendizaje automático suele ser una forma abreviada de referirse a la operación de convolución o a la capa de convolución.

Sin convoluciones, un algoritmo de aprendizaje automático tendría que aprender un peso separado para cada celda en un tensor grande. Por ejemplo, un algoritmo de aprendizaje automático que se entrena en imágenes de 2K × 2K se vería obligado a encontrar 4 millones de pesos separados. Gracias a las convoluciones, un algoritmo de aprendizaje automático solo tiene que encontrar pesos para cada celda en el filtro convolucional, lo que reduce drásticamente la memoria necesaria para entrenar el modelo. Cuando se aplica el filtro convolucional, se replica en todas las celdas de modo que cada una se multiplique por el filtro.

Consulta Introducción a las redes neuronales convolucionales en el curso de Clasificación de imágenes para obtener más información.

filtro convolucional

#image

Uno de los dos actores en una operación convolucional (el otro es una porción de una matriz de entrada). Un filtro convolucional es una matriz que tiene el mismo rango que la de entrada, pero una forma más pequeña. Por ejemplo, en una matriz de entrada 28 x 28, el filtro podría ser cualquier matriz 2D más pequeña que 28 x 28.

En la manipulación fotográfica, por lo general, todas las celdas de un filtro de convolución se configuran en un patrón constante de unos y ceros. En el aprendizaje automático, los filtros convolucionales suelen inicializarse con números aleatorios y, luego, la red entrena los valores ideales.

Consulta Convolución en el curso de Clasificación de imágenes para obtener más información.

capa convolucional

#image

Una capa de una red neuronal profunda en la que un filtro convolucional pasa a lo largo de una matriz de entrada. Por ejemplo, considera el siguiente filtro convolucional de 3 x 3:

Una matriz de 3 × 3 con los siguientes valores: [[0,1,0], [1,0,1], [0,1,0]]

En la siguiente animación, se muestra una capa convolucional que consta de 9 operaciones convolucionales que involucran la matriz de entrada de 5 × 5. Observa que cada operación convolucional funciona en una porción 3 × 3 diferente de la matriz de entrada. La matriz resultante de 3 × 3 (a la derecha) consta de los resultados de las 9 operaciones convolucionales:

Una animación que muestra dos matrices. La primera matriz es la matriz 5 × 5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          La segunda matriz es la matriz 3 × 3:
          [[181,303,618], [115,338,605], [169,351,560]].
          Para calcular la segunda matriz, se aplica el filtro convolucional [[0, 1, 0], [1, 0, 1], [0, 1, 0]] en diferentes subconjuntos de 3 × 3 de la matriz de 5 × 5.

Consulta Capas completamente conectadas en el curso de Clasificación de imágenes para obtener más información.

red neuronal convolucional

#image

Una red neuronal en la que al menos una capa es una capa convolucional. Una red neuronal convolucional típica consta de alguna combinación de las siguientes capas:

Las redes neuronales convolucionales tuvieron un gran éxito en ciertos tipos de problemas, como el reconocimiento de imágenes.

operación convolucional

#image

La siguiente operación matemática de dos pasos:

  1. Multiplicación por elementos del filtro convolucional y una porción de una matriz de entrada (la porción de la matriz de entrada tiene el mismo rango y tamaño que el filtro convolucional)
  2. Es la suma de todos los valores en la matriz de producto resultante.

Por ejemplo, considera la siguiente matriz de entrada de 5 × 5:

La matriz de 5 × 5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Ahora, imagina el siguiente filtro convolucional de 2 × 2:

La matriz 2 × 2: [[1, 0], [0, 1]]

Cada operación de convolución implica una sola porción de 2 × 2 de la matriz de entrada. Por ejemplo, supongamos que usamos la porción de 2 × 2 en la parte superior izquierda de la matriz de entrada. Por lo tanto, la operación de convolución en esta porción se ve de la siguiente manera:

Aplicación del filtro de convolución [[1, 0], [0, 1]] a la sección 2 × 2 de la parte superior izquierda de la matriz de entrada, que es [[128,97], [35,22]].
          El filtro convolucional deja los 128 y 22 intactos, pero anula los 97 y 35. En consecuencia, la operación de convolución genera el valor 150 (128 + 22).

Una capa convolucional consiste en una serie de operaciones convolucionales que actúan en porciones diferentes de la matriz de entrada.

costo

Sinónimo de pérdida.

coentrenamiento

Un enfoque de aprendizaje semisupervisado es particularmente útil cuando se cumplen todas las siguientes condiciones:

Básicamente, el entrenamiento conjunto amplifica los indicadores independientes en un indicador más sólido. Por ejemplo, considera un modelo de clasificación que categorize autos usados individuales como Buen estado o Mal estado. Un conjunto de atributos predictivos podría enfocarse en características agregadas, como el año, la marca y el modelo del automóvil. Otro conjunto de atributos predictivos podría enfocarse en el historial de conducción del propietario anterior y el historial de mantenimiento del automóvil.

El artículo seminal sobre el entrenamiento conjunto es Combining Labeled and Unlabeled Data with Co-Training de Blum y Mitchell.

equidad contrafáctica

#fairness

Una métrica de equidad que verifica si un clasificador produce el mismo resultado para una persona que para otra que es idéntica a la primera, excepto en relación con uno o más atributos sensibles. Evaluar un clasificador para la equidad contrafactual es un método para mostrar posibles fuentes de sesgo en un modelo.

Consulta cualquiera de los siguientes vínculos para obtener más información:

sesgo de cobertura

#fairness

Consulta sesgo de selección.

crash blossom

#language

Oración o frase con un significado ambiguo. Los crash blossoms presentan un problema importante para la comprensión del lenguaje natural. Por ejemplo, el titular La cinta roja que sostiene un rascacielos es un crash blossom porque un modelo CLN podría interpretar el titular en sentido literal o figurado.

crítico

#rl

Es un sinónimo de red de Deep Q.

entropía cruzada

Una generalización de la pérdida de registro a los problemas de clasificación de clases múltiples. La entropía cruzada cuantifica la diferencia entre dos distribuciones de probabilidad. Consulta también perplejidad.

validación cruzada

Un mecanismo para estimar qué tan bien un modelo generalizaría datos nuevos mediante pruebas al modelo con uno o más subconjuntos de datos no superpuestos retenidos del conjunto de entrenamiento.

función de distribución acumulada (CDF)

Es una función que define la frecuencia de muestras menores o iguales a un valor objetivo. Por ejemplo, considera una distribución normal de valores continuos. Una CDF te indica que aproximadamente el 50% de las muestras debe ser menor o igual que la media, y que aproximadamente el 84% de las muestras debe ser menor o igual que una desviación estándar por encima de la media.

D

análisis de datos

El proceso de obtener una comprensión de los datos mediante la consideración de muestras, mediciones y visualizaciones. El análisis de datos puede ser particularmente útil cuando se recibe por primera vez un conjunto de datos, antes de crear el primer modelo. También es crucial para comprender los experimentos y problemas de depuración del sistema.

magnificación de datos

#image

Se incrementa de forma artificial el rango y la cantidad de ejemplos de entrenamiento a través de transformaciones sobre los ejemplos existentes para crear ejemplos nuevos. Por ejemplo, supongamos que las imágenes son una de tus características, pero tu conjunto de datos no contiene suficientes ejemplos de imágenes para que el modelo aprenda asociaciones útiles. Lo ideal sería agregar suficientes imágenes etiquetadas al conjunto de datos para permitir que el modelo se entrene adecuadamente. De no ser posible, la magnificación de datos puede rotar, estirar y reflejar cada imagen para producir variantes de la imagen original, lo que producirá, posiblemente, suficientes datos etiquetados para permitir un excelente entrenamiento.

DataFrame

#fundamentals

Es un tipo de datos pandas popular para representar conjuntos de datos en la memoria.

Un DataFrame es similar a una tabla o una hoja de cálculo. Cada columna de un DataFrame tiene un nombre (un encabezado) y cada fila se identifica con un número único.

Cada columna de un DataFrame está estructurada como un array 2D, excepto que a cada columna se le puede asignar su propio tipo de datos.

Consulta también la página de referencia de pandas.DataFrame oficial.

paralelismo de datos

Es una forma de escalar la entrenamiento o la inferencia que replica un modelo completo en varios dispositivos y, luego, pasa un subconjunto de los datos de entrada a cada dispositivo. El paralelismo de datos puede habilitar el entrenamiento y la inferencia en tamaños de lotes muy grandes. Sin embargo, el paralelismo de datos requiere que el modelo sea lo suficientemente pequeño para caber en todos los dispositivos.

Por lo general, el paralelismo de datos acelera el entrenamiento y la inferencia.

Consulta también paralelismo de modelos.

API de Dataset (tf.data)

#TensorFlow

Una API de TensorFlow de alto nivel para leer datos y transformarlos en un formato que requiere un algoritmo de aprendizaje automático. Un objeto tf.data.Dataset representa una secuencia de elementos, en la que cada uno de ellos contiene uno o más tensores. Un objeto tf.data.Iterator proporciona acceso a los elementos de un Dataset.

conjunto de datos (data set or dataset)

#fundamentals

Es un conjunto de datos sin procesar, que suelen organizarse (pero no exclusivamente) en uno de los siguientes formatos:

  • una hoja de cálculo
  • un archivo en formato CSV (valores separados por comas)

límite de decisión

El separador entre las clases que aprende un modelo en un problema de clasificación binaria o de clasificación de varias clases. Por ejemplo, en la siguiente imagen, que representa un problema de clasificación binaria, el límite de decisión es la frontera entre la clase anaranjada y la azul:

Un límite bien definido entre una clase y otra.

bosque de decisión

#df

Un modelo creado a partir de varios árboles de decisión. Un bosque de decisión realiza una predicción a través de la agregación de las predicciones de sus árboles de decisión. Entre los tipos populares de bosques de decisión, se incluyen los bosques aleatorios y los árboles potenciados por gradientes.

Consulta la sección Bosques de decisión del curso Bosques de decisión para obtener más información.

umbral de decisión

Sinónimo de umbral de clasificación.

árbol de decisión

#df

Un modelo de aprendizaje supervisado compuesto por un conjunto de condiciones y hojas organizadas de forma jerárquica. Por ejemplo, el siguiente es un árbol de decisiones:

Un árbol de decisión que consta de cuatro condiciones organizadas de forma jerárquica, que conducen a cinco hojas.

decodificador

#language

En general, cualquier sistema de AA que convierte de una representación procesada, densa o interna a una representación más sin procesar, dispersa o externa.

Los decodificadores suelen ser un componente de un modelo más grande, en el que a menudo se vinculan con un codificador.

En las tareas de secuencia a secuencia, un decodificador comienza con el estado interno que genera el codificador para predecir la siguiente secuencia.

Consulta Transformer para obtener la definición de un decodificador dentro de la arquitectura de Transformer.

Consulta Modelos de lenguaje extenso en el Curso intensivo de aprendizaje automático para obtener más información.

modelo profundo

#fundamentals

Una red neuronal que contiene más de una capa oculta.

Un modelo profundo también se denomina red neuronal profunda.

Compara esto con el modelo amplio.

diseño de red neuronal profunda

Es un sinónimo de modelo profundo.

Red de Deep Q (DQN)

#rl

En el aprendizaje Q, se usa una red neuronal profunda que predice las funciones Q.

Crítico es un sinónimo de red de Deep Q.

paridad demográfica

#fairness

Una métrica de equidad que se satisface si los resultados de la clasificación de un modelo no dependen de un atributo sensible determinado.

Por ejemplo, si los liliputienses y los brobdingnagianos se postulan a la Universidad de Glubbdubdrib, se logra la paridad demográfica si el porcentaje de liliputienses admitidos es el mismo que el porcentaje de brobdingnagianos admitidos, independientemente de si un grupo es, en promedio, más calificado que el otro.

Contrasta con las probabilidades iguales y la igualdad de oportunidades, que permiten que los resultados de la clasificación en conjunto dependan de atributos sensibles, pero no permiten que los resultados de la clasificación de ciertas etiquetas de verdad fundamental especificadas dependan de atributos sensibles. Consulta "Cómo combatir la discriminación con un aprendizaje automático más inteligente" para ver una visualización que explora las compensaciones cuando se realiza la optimización para la paridad demográfica.

Consulta Equidad: paridad demográfica en el Curso intensivo de aprendizaje automático para obtener más información.

reducción de ruido

#language

Un enfoque común del aprendizaje autosupervisado en el que se cumple lo siguiente:

  1. El ruido se agrega de forma artificial al conjunto de datos.
  2. El modelo intenta quitar el ruido.

La reducción de ruido permite aprender de ejemplos sin etiqueta. El conjunto de datos original sirve como objetivo o etiqueta, y los datos con ruido como entrada.

Algunos modelos de lenguaje enmascarado usan la reducción de ruido de la siguiente manera:

  1. Se agrega ruido artificialmente a una oración sin etiqueta enmascarando algunos de los tokens.
  2. El modelo intenta predecir los tokens originales.

atributo denso

#fundamentals

Un atributo en el que la mayoría o todos los valores son distintos de cero, por lo general, un tensor de valores de punto flotante. Por ejemplo, el siguiente tensor de 10 elementos es denso porque 9 de sus valores son distintos de cero:

8 3 7 5 2 4 0 4 9 6

Compara esto con el atributo disperso.

capa densa

Sinónimo de capa completamente conectada.

depth

#fundamentals

La suma de lo siguiente en una red neuronal:

Por ejemplo, una red neuronal con cinco capas ocultas y una capa de salida tiene una profundidad de 6.

Ten en cuenta que la capa de entrada no influye en la profundidad.

red neuronal convolucional separable en profundidad (sepCNN)

#image

Una arquitectura de red neuronal convolucional basada en Inception, pero en la que los módulos de Inception se reemplazan por contracciones separables en profundidad. También se conoce como Xception.

Una convolución separable en profundidad (también abreviada como convolución separable) divide una convolución 3D estándar en dos operaciones de convolución separadas que son más eficientes en términos de procesamiento: primero, una convolución en profundidad, con una profundidad de 1 (n × n × 1) y, luego, una convolución puntual, con una longitud y un ancho de 1 (1 × 1 × n).

Para obtener más información, consulta Xception: Aprendizaje profundo con convoluciones separables en profundidad.

etiqueta derivada

Es un sinónimo de etiqueta de proxy.

dispositivo

#TensorFlow
#GoogleCloud

Un término sobrecargado con las siguientes dos definiciones posibles:

  1. Categoría de hardware que puede ejecutar una sesión de TensorFlow, que incluye CPUs, GPUs y TPU.
  2. Cuando se entrena un modelo de AA en chips de acelerador (GPU o TPU), la parte del sistema que realmente manipula los tensores y las incorporaciones. El dispositivo se ejecuta en chips de acelerador. Por el contrario, el host suele ejecutarse en una CPU.

privacidad diferencial

En el aprendizaje automático, un enfoque de anonimización para proteger cualquier dato sensible (por ejemplo, la información personal de una persona) incluido en el conjunto de entrenamiento de un modelo. Este enfoque garantiza que el modelo no aprenda ni recuerde mucho sobre una persona específica. Esto se logra mediante el muestreo y la adición de ruido durante el entrenamiento del modelo para ocultar datos individuales, lo que mitiga el riesgo de exponer datos de entrenamiento sensibles.

La privacidad diferencial también se usa fuera del aprendizaje automático. Por ejemplo, los científicos de datos a veces usan la privacidad diferencial para proteger la privacidad individual cuando calculan estadísticas de uso de productos para diferentes datos demográficos.

reducción de dimensiones

Disminución de la cantidad de dimensiones que se usan para representar una atributo particular en un vector de atributos, generalmente mediante la conversión en un vector de incorporación.

dimensiones

Término sobrecargado con alguna de las siguientes definiciones:

  • Es la cantidad de coordenadas en un Tensor. Por ejemplo:

    • Un escalar tiene cero dimensiones; por ejemplo, ["Hello"].
    • Un vector tiene una dimensión; por ejemplo, [3, 5, 7, 11].
    • Una matriz tiene dos dimensiones; por ejemplo, [[2, 4, 18], [5, 7, 14]]. Puedes especificar de forma única una celda en particular en un vector unidimensional con una coordenada; se necesitan dos coordenadas para especificar de forma única una celda particular en una matriz bidimensional.
  • Es la cantidad de entradas en un vector de atributos.

  • Es la cantidad de elementos en una capa de incorporación.

instrucciones directas

#language
#generativeAI

Sinónimo de instrucción sin ejemplos.

atributo discreto

#fundamentals

Un atributo con un conjunto finito de valores posibles. Por ejemplo, un atributo cuyos valores solo pueden ser animal, vegetal o mineral es un atributo discreto (o categórico).

Compara esto con el atributo continuo.

modelo discriminativo

Un modelo que predice etiquetas a partir de un conjunto de uno o más atributos. Más formalmente, los modelos discriminativos definen la probabilidad condicional de un resultado dados los atributos y los pesos, es decir:

p(output | features, weights)

Por ejemplo, un modelo que predice si un correo electrónico es spam o no a partir de atributos y pesos es un modelo discriminativo.

La gran mayoría de los modelos de aprendizaje supervisado, incluidos los modelos de clasificación y regresión, son modelos discriminativos.

Compara esto con el modelo generativo.

discriminante

Sistema que determina si los ejemplos son reales o falsos.

Como alternativa, el subsistema dentro de una red generativa adversaria que determina si los ejemplos creados por el generador son reales o falsos.

Consulta El discriminador en el curso de GAN para obtener más información.

impacto dispar

#fairness

Tomar decisiones sobre las personas que afectan de manera desproporcionada a diferentes subgrupos de la población Por lo general, se refiere a situaciones en las que un proceso de toma de decisiones algorítmico perjudica o beneficia a algunos subgrupos más que a otros.

Por ejemplo, supongamos que un algoritmo que determina la elegibilidad de una persona de Lilliput para un préstamo de casa en miniatura es más probable que la clasifique como "no apta" si su dirección de correo contiene un código postal determinado. Si es más probable que los liliputienses de Big-Endian tengan direcciones de correo con este código postal que los liliputienses de Little-Endian, este algoritmo puede generar un impacto dispar.

Compara esto con el tratamiento dispar, que se enfoca en las disparidades que se producen cuando las características de los subgrupos son entradas explícitas en un proceso de toma de decisiones algorítmico.

trato dispar

#fairness

Tener en cuenta los atributos sensibles de los sujetos en un proceso de toma de decisiones algorítmico de modo que se trate de manera diferente a los diferentes subgrupos de personas

Por ejemplo, considera un algoritmo que determina la elegibilidad de los liliputienses para un préstamo de casa en miniatura según los datos que proporcionan en su solicitud de préstamo. Si el algoritmo usa la afiliación de un liliputiense como Big-Endian o Little-Endian como entrada, aplica un tratamiento dispar en esa dimensión.

Contrasta con el impacto dispar, que se enfoca en las disparidades en los impactos sociales de las decisiones algorítmicas en los subgrupos, independientemente de si esos subgrupos son entradas del modelo.

destilación

#generativeAI

Es el proceso de reducir el tamaño de un modelo (conocido como profesor) en un modelo más pequeño (conocido como estudiante) que emula las predicciones del modelo original de la manera más fiel posible. La destilación es útil porque el modelo más pequeño tiene dos beneficios clave sobre el modelo más grande (el profesor):

  • Tiempo de inferencia más rápido
  • Reducción del uso de memoria y energía

Sin embargo, las predicciones del estudiante suelen no ser tan buenas como las del profesor.

La destilación entrena al modelo estudiante para minimizar una función de pérdida en función de la diferencia entre los resultados de las predicciones de los modelos estudiante y profesor.

Compara y contrasta la destilación con los siguientes términos:

Consulta LLM: Ajuste fino, destilación y ingeniería de instrucciones en el Curso intensivo de aprendizaje automático para obtener más información.

distribución

La frecuencia y el rango de diferentes valores para un atributo o una etiqueta determinados. Una distribución captura la probabilidad de un valor en particular.

En la siguiente imagen, se muestran histogramas de dos distribuciones diferentes:

  • A la izquierda, una distribución de la riqueza según la ley de potencias en comparación con la cantidad de personas que poseen esa riqueza.
  • A la derecha, una distribución normal de la altura en comparación con la cantidad de personas que poseen esa altura.

Dos histogramas. Un histograma muestra una distribución de ley de potencia con la riqueza en el eje x y la cantidad de personas que tienen esa riqueza en el eje y. La mayoría de las personas tienen muy poca riqueza y algunas tienen

          mucha. El otro histograma muestra una distribución normal con la altura en el eje x y la cantidad de personas que tienen esa altura en el eje y. La mayoría de las personas se agrupan cerca de la media.

Comprender la distribución de cada función y etiqueta puede ayudarte a determinar cómo normalizar los valores y detectar valores atípicos.

La frase fuera de distribución hace referencia a un valor que no aparece en el conjunto de datos o que es muy raro. Por ejemplo, una imagen del planeta Saturno se consideraría fuera de distribución para un conjunto de datos que consta de imágenes de gatos.

agrupamiento en clústeres divisivo

#clustering

Consulta agrupamiento en clústeres jerárquico.

reducción de muestreo

#image

Término sobrecargado que puede significar una de las siguientes opciones:

  • Reducir la cantidad de información en un atributo para entrenar un modelo de forma más eficiente. Por ejemplo, antes de entrenar un modelo de reconocimiento de imágenes, se reduce el muestreo llevando las imágenes de alta resolución a un formato de resolución más baja.
  • Entrenar con un porcentaje desproporcionalmente bajo de ejemplos de clase sobrerrepresentada para mejorar el entrenamiento del modelo en clases subrepresentadas. Por ejemplo, en un conjunto de datos con desequilibrio de clases, los modelos tienden a aprender mucho sobre la clase mayoritaria y no lo suficiente sobre la clase minoritaria. La reducción de muestreo ayuda a equilibrar la cantidad de entrenamiento en las clases mayoritarias y minoritarias.

Consulta Conjuntos de datos: Conjuntos de datos desequilibrados en el Curso intensivo de aprendizaje automático para obtener más información.

DQN

#rl

Abreviatura de red de Deep Q.

regularización de retirados

Es una forma de regularización útil para el entrenamiento de redes neuronales. La regularización de retirados quita una selección aleatoria de un número fijo de unidades de una capa de la red para un solo paso de gradiente. Cuanto más unidades se eliminen, más fuerte será la regularización. Esto es análogo a entrenar la red para emular un conjunto exponencialmente grande de redes más pequeñas. Para obtener más información, consulta Dropout: A Simple Way to Prevent Neural Networks from Overfitting.

dinámico

#fundamentals

Algo que se hace con frecuencia o de forma continua. Los términos dinámico y en línea son sinónimos en el aprendizaje automático. Los siguientes son usos comunes de dinámico y en línea en el aprendizaje automático:

  • Un modelo dinámico (o modelo en línea) es un modelo que se vuelve a entrenar con frecuencia o de forma continua.
  • El entrenamiento dinámico (o entrenamiento en línea) es el proceso de entrenamiento frecuente o continuo.
  • La inferencia dinámica (o inferencia en línea) es el proceso de generar predicciones a pedido.

modelo dinámico

#fundamentals

Un modelo que se vuelve a entrenar con frecuencia (incluso de forma continua). Un modelo dinámico es un “aprendiz permanente” que se adapta constantemente a los datos en evolución. Un modelo dinámico también se conoce como modelo en línea.

Compara esto con el modelo estático.

E

ejecución inmediata

#TensorFlow

Entorno de programación de TensorFlow en el que las operaciones se ejecutan de inmediato. Por el contrario, las operaciones llamadas en ejecución por grafos no se ejecutan hasta que no se evalúen explícitamente. La ejecución inmediata es una interfaz imperativa, al igual que el código en la mayoría de los lenguajes de programación. Los programas de ejecución inmediata son generalmente mucho más fáciles de depurar que los programas de ejecución por grafos.

interrupción anticipada

#fundamentals

Es un método de regularización que implica finalizar el entrenamiento antes de que la pérdida de entrenamiento deje de disminuir. En la detención anticipada, detienes intencionalmente el entrenamiento del modelo cuando la pérdida en un conjunto de datos de validación comienza a aumentar, es decir, cuando el rendimiento de la generalización empeora.

distancia del movimiento de tierras (EMD)

Es una medida de la similitud relativa de dos distribuciones. Cuanto menor sea la distancia del operador de transferencia, más similares serán las distribuciones.

editar distancia

#language

Es una medición de la similitud entre dos cadenas de texto. En el aprendizaje automático, la distancia de edición es útil por los siguientes motivos:

  • La distancia de edición es fácil de calcular.
  • La distancia de edición puede comparar dos cadenas que se sabe que son similares entre sí.
  • La distancia de edición puede determinar el grado en que diferentes cadenas son similares a una cadena determinada.

Existen varias definiciones de distancia de edición, cada una de las cuales usa diferentes operaciones de cadenas. Consulta Distancia de Levenshtein para ver un ejemplo.

Notación Einsum

Una notación eficiente para describir cómo se deben combinar dos tensores. Para combinar los tensores, se multiplican los elementos de un tensor por los elementos del otro y, luego, se suman los productos. La notación Einsum usa símbolos para identificar los ejes de cada tensor, y esos mismos símbolos se reorganizan para especificar la forma del nuevo tensor resultante.

NumPy proporciona una implementación común de Einsum.

capa de incorporación

#language
#fundamentals

Una capa oculta especial que se entrena en un atributo categórico de alta dimensión para aprender gradualmente un vector de incorporación de dimensión inferior. Una capa de incorporación permite que una red neuronal se entrene de manera mucho más eficiente que solo en el atributo categórico de alta dimensión.

Por ejemplo, la Tierra actualmente alberga alrededor de 73,000 especies de árboles. Supongamos que la especie de árbol es un atributo en tu modelo, por lo que la capa de entrada de tu modelo incluye un vector de un solo 1 de 73,000 elementos de longitud. Por ejemplo, quizás baobab se representaría de la siguiente manera:

Un array de 73,000 elementos. Los primeros 6,232 elementos contienen el valor 0. El siguiente elemento contiene el valor 1. Los 66,767 elementos finales contienen el valor cero.

Un array de 73,000 elementos es muy largo. Si no agregas una capa de incorporación al modelo, el entrenamiento llevará mucho tiempo debido a que se multiplicarán 72,999 ceros. Quizás elijas que la capa de incorporación tenga 12 dimensiones. En consecuencia, la capa de incorporación aprenderá gradualmente un nuevo vector de incorporación para cada especie de árbol.

En algunas situaciones, el hash es una alternativa razonable a una capa de incorporación.

Consulta Inserciones en el Curso intensivo de aprendizaje automático para obtener más información.

espacio de embedding

#language

Espacio de vector de d dimensiones al que se mapean atributos de un espacio de vector de más dimensiones. El espacio de incorporación se entrena para capturar la estructura que es significativa para la aplicación prevista.

El producto escalar de dos incorporaciones es la medida de su similitud.

vector de incorporación

#language

En términos generales, es un array de números de punto flotante tomados de cualquier capa oculta que describe las entradas de esa capa oculta. A menudo, un vector de incorporación es el array de números de punto flotante entrenado en una capa de incorporación. Por ejemplo, supongamos que una capa de incorporación debe aprender un vector de incorporación para cada una de las 73,000 especies de árboles de la Tierra. Quizás el siguiente array sea el vector de incorporación de un árbol de baobab:

Un array de 12 elementos, cada uno con un número de punto flotante entre 0.0 y 1.0.

Un vector de incorporación no es un conjunto de números aleatorios. Una capa de incorporación determina estos valores a través del entrenamiento, de manera similar a la forma en que una red neuronal aprende otros pesos durante el entrenamiento. Cada elemento del array es una calificación según alguna característica de una especie de árbol. ¿Qué elemento representa la característica de qué especie de árbol? Eso es muy difícil para que los humanos lo determinen.

La parte matemáticamente notable de un vector de incorporación es que los elementos similares tienen conjuntos similares de números de punto flotante. Por ejemplo, las especies de árboles similares tienen un conjunto más similar de números de punto flotante que las especies de árboles disímiles. Los robles rojos y las secuoyas son especies de árboles relacionadas, por lo que tendrán un conjunto más similar de números de punto flotante que los robles rojos y las palmeras de coco. Los números en el vector de incorporación cambiarán cada vez que vuelvas a entrenar el modelo, incluso si lo vuelves a entrenar con una entrada idéntica.

función de distribución acumulativa empírica (eCDF o EDF)

Una función de distribución acumulada basada en mediciones empíricas de un conjunto de datos real. El valor de la función en cualquier punto del eje x es la fracción de observaciones del conjunto de datos que son menores o iguales al valor especificado.

minimización del riesgo empírico (ERM)

Elegir la función que minimiza la pérdida en el conjunto de entrenamiento Compara esto con la minimización del riesgo estructural.

codificador

#language

En general, cualquier sistema de AA que convierte una representación sin procesar, dispersa o externa en una representación más procesada, más densa o más interna.

Los codificadores suelen ser un componente de un modelo más grande, en el que a menudo se combinan con un decodificador. Algunos transformadores vinculan codificadores con decodificadores, aunque otros solo usan el codificador o solo el decodificador.

Algunos sistemas usan la salida del codificador como entrada de una red de clasificación o de regresión.

En las tareas de secuencia a secuencia, un codificador toma una secuencia de entrada y muestra un estado interno (un vector). Luego, el decodificador usa ese estado interno para predecir la siguiente secuencia.

Consulta Transformer para obtener la definición de un codificador en la arquitectura de Transformer.

Consulta LLM: ¿Qué es un modelo de lenguaje grande? en el Curso intensivo de aprendizaje automático para obtener más información.

ensamble

Es una colección de modelos entrenados de forma independiente cuyas predicciones se promedian o se agregan. En muchos casos, un conjunto produce mejores predicciones que un solo modelo. Por ejemplo, un bosque aleatorio es un conjunto creado a partir de varios árboles de decisión. Ten en cuenta que no todos los bosques de decisión son conjuntos.

Consulta Bosque aleatorio en el Curso intensivo de aprendizaje automático para obtener más información.

entropía

#df

En la teoría de la información, es una descripción de lo impredecible que es una distribución de probabilidad. Como alternativa, la entropía también se define como la cantidad de información que contiene cada ejemplo. Una distribución tiene la entropía más alta posible cuando todos los valores de una variable aleatoria tienen la misma probabilidad.

La entropía de un conjunto con dos valores posibles "0" y "1" (por ejemplo, las etiquetas en un problema de clasificación binaria) tiene la siguiente fórmula:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Donde:

  • H es la entropía.
  • p es la fracción de ejemplos de "1".
  • q es la fracción de ejemplos de “0”. Ten en cuenta que q = (1 - p).
  • Por lo general, log es log2. En este caso, la unidad de entropía es un bit.

Por ejemplo, supongamos lo siguiente:

  • 100 ejemplos contienen el valor "1"
  • 300 ejemplos contienen el valor "0".

Por lo tanto, el valor de entropía es:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 bits por ejemplo

Un conjunto que esté perfectamente equilibrado (por ejemplo, 200 "0" y 200 "1") tendría una entropía de 1.0 bit por ejemplo. A medida que un conjunto se vuelve más desequilibrado, su entropía se mueve hacia 0.0.

En los árboles de decisión, la entropía ayuda a formular la ganancia de información para ayudar al divisor a seleccionar las condiciones durante el crecimiento de un árbol de decisión de clasificación.

Compara la entropía con lo siguiente:

A menudo, la entropía se denomina entropía de Shannon.

Consulta Divisor exacto para la clasificación binaria con atributos numéricos en el curso Bosques de decisión para obtener más información.

de producción

#rl

En el aprendizaje por refuerzo, el mundo que contiene el agente y le permite observar el estado de ese mundo. Por ejemplo, el mundo representado puede ser un juego como el ajedrez o un mundo físico como un laberinto. Cuando el agente aplica una acción al entorno, este realiza transiciones entre estados.

episodio

#rl

En el aprendizaje por refuerzo, cada uno de los intentos repetidos del agente para aprender un entorno.

época

#fundamentals

Recorrido de entrenamiento completo por todo el conjunto de entrenamiento de manera que cada ejemplo se haya procesado una vez.

Un ciclo de entrenamiento representa N/tamaño del lote iteraciones, donde N es la cantidad total de ejemplos.

Por ejemplo, supongamos lo siguiente:

  • El conjunto de datos consta de 1,000 ejemplos.
  • El tamaño del lote es de 50 ejemplos.

Por lo tanto, una sola época requiere 20 iteraciones:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Consulta Regresión lineal: Hyperparameters en el Curso intensivo de aprendizaje automático para obtener más información.

política de codicia de epsilon

#rl

En el aprendizaje por refuerzo, una política que sigue una política aleatoria con probabilidad de epsilon o una política codiciosa de lo contrario. Por ejemplo, si epsilon es 0.9, la política sigue una política aleatoria el 90% del tiempo y una política codiciosa el 10% del tiempo.

En episodios sucesivos, el algoritmo reduce el valor de epsilon para pasar de seguir una política aleatoria a seguir una política codiciosa. Cuando se cambia la política, el agente primero explora el entorno de forma aleatoria y, luego, aprovecha con avidez los resultados de la exploración aleatoria.

igualdad de oportunidades

#fairness

Una métrica de equidad para evaluar si un modelo predice el resultado deseado de la misma manera para todos los valores de un atributo sensible. En otras palabras, si el resultado deseable para un modelo es la clase positiva, el objetivo sería que la tasa de verdaderos positivos sea la misma para todos los grupos.

La igualdad de oportunidades se relaciona con las probabilidades igualadas, lo que requiere que ambas tasas, las de verdaderos positivos y las de falsos positivos, sean iguales para todos los grupos.

Supongamos que la Universidad de Glubbdubdrib admite a liliputienses y brobdingnagianos a un programa riguroso de matemáticas. Las instituciones educativas secundarias de Lilliput ofrecen un plan de estudios sólido de clases de matemáticas, y la gran mayoría de los estudiantes están calificados para el programa universitario. Las instituciones educativas secundarias de Brobdingnag no ofrecen clases de matemáticas y, como resultado, muchos menos estudiantes están calificados. Se satisface la igualdad de oportunidades para la etiqueta preferida de “admitido” con respecto a la nacionalidad (liliputiense o brobdingnagiense) si los estudiantes calificados tienen la misma probabilidad de ser admitidos, independientemente de si son liliputienses o brobdingnagienses.

Por ejemplo, supongamos que 100 liliputienses y 100 brobdingnagianos se postulan a la Universidad de Glubbdubdrib, y las decisiones de admisión se toman de la siguiente manera:

Tabla 1: Solicitantes liliputienses (el 90% son aptos)

  Calificado No cumple con los requisitos
Admitido 45 3
Rechazado 45 7
Total 90 10
Porcentaje de estudiantes calificados admitidos: 45/90 = 50%
Porcentaje de estudiantes no calificados rechazados: 7/10 = 70%
Porcentaje total de estudiantes liliputienses admitidos: (45+3)/100 = 48%

 

Tabla 2: Solicitantes de Brobdingnag (el 10% está calificado):

  Calificado No cumple con los requisitos
Admitido 5 9
Rechazado 5 81
Total 10 90
Porcentaje de estudiantes calificados admitidos: 5/10 = 50%
Porcentaje de estudiantes no calificados rechazados: 81/90 = 90%
Porcentaje total de estudiantes de Brobdingnagian admitidos: (5+9)/100 = 14%

Los ejemplos anteriores satisfacen la igualdad de oportunidades para la aceptación de estudiantes calificados, ya que los liliputienses y los brobdingnagianos calificados tienen un 50% de posibilidades de ser admitidos.

Si bien se cumple la igualdad de oportunidades, no se cumplen las siguientes dos métricas de equidad:

  • Paridad demográfica: Los liliputienses y los brobdingnagianos ingresan a la universidad a diferentes tasas; se admite el 48% de los estudiantes liliputienses, pero solo el 14% de los brobdingnagianos.
  • probabilidades iguales: Si bien los estudiantes liliputienses y brobdingnagianos calificados tienen la misma probabilidad de ser admitidos, no se satisface la restricción adicional de que los liliputienses y brobdingnagianos no calificados tienen la misma probabilidad de ser rechazados. Los liliputienses no calificados tienen un 70% de rechazo, mientras que los brobdingnagianos no calificados tienen un 90% de rechazo.

Consulta Equidad: igualdad de oportunidades en el Curso intensivo de aprendizaje automático para obtener más información.

probabilidades iguales

#fairness

Es una métrica de equidad para evaluar si un modelo predice resultados de la misma manera para todos los valores de un atributo sensible en relación con la clase positiva y la clase negativa, no solo una clase o la otra de forma exclusiva. En otras palabras, tanto la tasa de verdaderos positivos como la tasa de falsos negativos deben ser las mismas para todos los grupos.

Las probabilidades igualadas se relacionan con la igualdad de oportunidades, que solo se enfoca en las tasas de error de una sola clase (positiva o negativa).

Por ejemplo, supongamos que la Universidad de Glubbdubdrib admite a liliputienses y a brobdingnagianos en un programa de matemáticas riguroso. Las instituciones educativas secundarias de Lilliput ofrecen un plan de estudios sólido de clases de matemáticas, y la gran mayoría de los estudiantes están calificados para el programa universitario. Las escuelas secundarias de Brobdingnag no ofrecen clases de matemáticas y, como resultado, muchos menos de sus estudiantes están calificados. Se satisfacen las probabilidades iguales, siempre que, sin importar si un solicitante es un liliputiense o un brobdingnagiense, si es calificado, tenga las mismas probabilidades de ser admitido en el programa y, si no es calificado, tenga las mismas probabilidades de ser rechazado.

Supongamos que 100 liliputienses y 100 brobdingnagianos se postulan a la Universidad de Glubbdubdrib, y las decisiones de admisión se toman de la siguiente manera:

Tabla 3: Solicitantes liliputienses (el 90% son aptos)

  Calificado No cumple con los requisitos
Admitido 45 2
Rechazado 45 8
Total 90 10
Porcentaje de estudiantes calificados admitidos: 45/90 = 50%
Porcentaje de estudiantes no calificados rechazados: 8/10 = 80%
Porcentaje total de estudiantes liliputienses admitidos: (45+2)/100 = 47%

 

Tabla 4. Solicitantes de Brobdingnag (el 10% está calificado):

  Calificado No cumple con los requisitos
Admitido 5 18
Rechazado 5 72
Total 10 90
Porcentaje de estudiantes calificados admitidos: 5/10 = 50%
Porcentaje de estudiantes no calificados rechazados: 72/90 = 80%
Porcentaje total de estudiantes de Brobdingnagian admitidos: (5+18)/100 = 23%

Se satisfacen las probabilidades iguales porque los estudiantes Lilliputianos y Brobdingnagianos calificados tienen un 50% de probabilidades de ser admitidos, y los Lilliputianos y Brobdingnagianos no calificados tienen un 80% de probabilidades de ser rechazados.

Las probabilidades iguales se definen formalmente en "Igualdad de oportunidades en el aprendizaje supervisado" de la siguiente manera: "El predictor Ŷ satisface las probabilidades iguales con respecto al atributo protegido A y al resultado Y si Ŷ y A son independientes, condicionados a Y".

Estimador

#TensorFlow

Una API de TensorFlow obsoleta. Usa tf.keras en lugar de estimadores.

evals

#language
#generativeAI

Se usa principalmente como abreviatura de evaluaciones de LLM. En términos más generales, evals es una abreviatura de cualquier forma de evaluación.

sin conexión

#language
#generativeAI

Es el proceso de medir la calidad de un modelo o comparar diferentes modelos entre sí.

Para evaluar un modelo de aprendizaje automático supervisado, por lo general, se lo compara con un conjunto de validación y un conjunto de prueba. Evaluar un LLM suele implicar evaluaciones de calidad y seguridad más amplias.

ejemplo

#fundamentals

Los valores de una fila de atributos y, posiblemente, una etiqueta. Los ejemplos de aprendizaje supervisado se dividen en dos categorías generales:

  • Un ejemplo etiquetado consiste en uno o más atributos y una etiqueta. Los ejemplos etiquetados se usan durante el entrenamiento.
  • Un ejemplo sin etiqueta consta de uno o más atributos, pero no tiene etiqueta. Los ejemplos sin etiqueta se usan durante la inferencia.

Por ejemplo, supongamos que entrenas un modelo para determinar la influencia de las condiciones climáticas en las calificaciones de los estudiantes. Estos son tres ejemplos etiquetados:

Funciones Etiqueta
Temperatura Humedad Presionar Puntuación de la prueba
15 47 998 Bueno
19 34 1020 Excelente
18 92 1012 Deficiente

Estos son tres ejemplos sin etiqueta:

Temperatura Humedad Presionar  
12 62 1014  
21 47 1017  
19 41 1021  

Por lo general, la fila de un conjunto de datos es la fuente sin procesar de un ejemplo. Es decir, un ejemplo suele consistir en un subconjunto de las columnas del conjunto de datos. Además, los atributos de un ejemplo también pueden incluir atributos sintéticos, como combinaciones de atributos.

Consulta Aprendizaje supervisado en el curso Introducción al aprendizaje automático para obtener más información.

repetición de la experiencia

#rl

En el aprendizaje reforzado, es una técnica de DQN que se usa para reducir las correlaciones temporales en los datos de entrenamiento. El agente almacena las transiciones de estado en un búfer de repetición y, luego, toma muestras de las transiciones del búfer de repetición para crear datos de entrenamiento.

sesgo del investigador

#fairness

Consulta sesgo de confirmación.

problema de gradiente explosivo

#seq

La tendencia de los gradientes en las redes neuronales profundas (en especial, las redes neuronales recurrentes) a volverse sorprendentemente empinados (altos). Los gradientes pronunciados suelen causar actualizaciones muy grandes de los pesos de cada nodo en una red neuronal profunda.

Los modelos que sufren del problema del gradiente explosivo se vuelven difíciles o imposibles de entrenar. El recorte de gradientes puede mitigar este problema.

Compara con el problema de gradiente que desaparece.

F

F1

Una métrica de clasificación binaria "resumida" que se basa en la precisión y la recuperación. Esta es la fórmula:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

facticidad

#generativeAI

En el mundo del AA, es una propiedad que describe un modelo cuyo resultado se basa en la realidad. La veracidad es un concepto más que una métrica. Por ejemplo, supongamos que envías la siguiente instrucción a un modelo de lenguaje extenso:

¿Cuál es la fórmula química de la sal de mesa?

Un modelo que optimice la veracidad respondería lo siguiente:

NaCl

Es tentador suponer que todos los modelos deben basarse en hechos. Sin embargo, algunas instrucciones, como las siguientes, deberían hacer que un modelo de IA generativa optimice la creatividad en lugar de la veracidad.

Cuéntame un limerick sobre un astronauta y una oruga.

Es poco probable que el limerick resultante se base en la realidad.

Compara esto con la conexión a tierra.

restricción de equidad

#fairness
Aplicar una restricción a un algoritmo para garantizar que se satisfagan una o más definiciones de equidad Estos son algunos ejemplos de restricciones de equidad:

métrica de equidad

#fairness

Una definición matemática de "equidad" que sea medible. Estas son algunas de las métricas de equidad de uso general:

Muchas métricas de equidad son mutuamente excluyentes. Consulta la sección sobre incompatibilidad de métricas de equidad.

falso negativo (FN)

#fundamentals

Ejemplo en el que el modelo predice de manera incorrecta la clase negativa. Por ejemplo, el modelo predice que un mensaje de correo electrónico en particular no es spam (la clase negativa), pero ese mensaje de correo electrónico en realidad es spam.

tasa de falsos negativos

Es la proporción de ejemplos positivos reales para los que el modelo predijo de forma incorrecta la clase negativa. La siguiente fórmula calcula la tasa negativa falsa:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Consulta Umbral y matriz de confusión en el Curso intensivo de aprendizaje automático para obtener más información.

falso positivo (FP)

#fundamentals

Ejemplo en el que el modelo predice de manera incorrecta la clase positiva. Por ejemplo, el modelo predice que un mensaje de correo electrónico en particular es spam (la clase positiva), pero ese mensaje de correo electrónico en realidad no es spam.

Consulta Umbral y matriz de confusión en el Curso intensivo de aprendizaje automático para obtener más información.

tasa de falsos positivos (FPR)

#fundamentals

Es la proporción de ejemplos negativos reales para los que el modelo predijo de forma incorrecta la clase positiva. La siguiente fórmula calcula el porcentaje de falsos positivos:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

La tasa de falsos positivos es el eje x en una curva ROC.

Consulta Clasificación: ROC y AUC en el Curso intensivo de aprendizaje automático para obtener más información.

función

#fundamentals

Es una variable de entrada para un modelo de aprendizaje automático. Un ejemplo consiste en una o más características. Por ejemplo, supongamos que entrenas un modelo para determinar la influencia de las condiciones climáticas en las calificaciones de los estudiantes. En la siguiente tabla, se muestran tres ejemplos, cada uno de los cuales contiene tres atributos y una etiqueta:

Funciones Etiqueta
Temperatura Humedad Presionar Puntuación de la prueba
15 47 998 92
19 34 1020 84
18 92 1012 87

Compara esto con etiqueta.

Consulta Aprendizaje supervisado en el curso Introducción al aprendizaje automático para obtener más información.

combinación de atributos

#fundamentals

Un atributo sintético que se forma cuando se "combinan" atributos categóricos o agrupados en buckets.

Por ejemplo, considera un modelo de "pronóstico del estado de ánimo" que representa la temperatura en uno de los siguientes cuatro buckets:

  • freezing
  • chilly
  • temperate
  • warm

Y representa la velocidad del viento en uno de los siguientes tres buckets:

  • still
  • light
  • windy

Sin combinaciones de atributos, el modelo lineal se entrena de forma independiente en cada uno de los siete segmentos anteriores. Por lo tanto, el modelo se entrena en, por ejemplo, freezing, independientemente del entrenamiento en, por ejemplo, windy.

Como alternativa, puedes crear una combinación de atributos de temperatura y velocidad del viento. Esta característica sintética tendría los siguientes 12 valores posibles:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Gracias a las combinaciones de atributos, el modelo puede aprender las diferencias de estado de ánimo entre un día freezing-windy y un día freezing-still.

Si creas un atributo sintético a partir de dos atributos que tienen muchos segmentos diferentes, la combinación de atributos resultante tendrá una gran cantidad de combinaciones posibles. Por ejemplo, si un atributo tiene 1,000 buckets y el otro tiene 2,000 buckets, la intersección de atributos resultante tiene 2,000,000 buckets.

Formalmente, una combinación es un producto cartesiano.

Las combinaciones de atributos se usan principalmente con modelos lineales y rara vez con redes neuronales.

Consulta Datos categóricos: Cruces de atributos en el Curso intensivo de aprendizaje automático para obtener más información.

ingeniería de atributos.

#fundamentals
#TensorFlow

Un proceso que incluye los siguientes pasos:

  1. Determinar qué funciones podrían ser útiles para entrenar un modelo.
  2. Convertir los datos sin procesar del conjunto de datos en versiones eficientes de esos atributos

Por ejemplo, podrías determinar que temperature podría ser una función útil. Luego, puedes experimentar con el agrupamiento para optimizar lo que el modelo puede aprender de diferentes rangos de temperature.

En algunas ocasiones, la ingeniería de atributos se denomina extracción de atributos o creación de atributos.

Consulta Datos numéricos: Cómo un modelo transfiere datos con vectores de características en el Curso intensivo de aprendizaje automático para obtener más información.

extracción de atributos

Término sobrecargado con alguna de las siguientes definiciones:

importancias de los atributos

#df

Sinónimo de importancia de las variables.

conjunto de atributos

#fundamentals

Es el grupo de atributos con los que se entrena el modelo de aprendizaje automático. Por ejemplo, el código postal, el tamaño y el estado de la propiedad podrían ser un conjunto de atributos simple para un modelo que predice los precios de las viviendas.

especificación de atributos

#TensorFlow

Describe la información necesaria para extraer datos de features del búfer de protocolo tf.Example. Debido a que el buffer de protocolo de tf.Example es solo un contenedor de datos, debes especificar lo siguiente:

  • Los datos que se extraerán (es decir, las claves de los atributos)
  • El tipo de datos (por ejemplo, número de punto flotante o número entero)
  • La longitud (fija o variable)

vector de atributos

#fundamentals

El array de valores de feature que comprende un ejemplo. El vector de atributos se ingresa durante el entrenamiento y la inferencia. Por ejemplo, el vector de atributos de un modelo con dos atributos discretos podría ser el siguiente:

[0.92, 0.56]

Cuatro capas: una de entrada, dos ocultas y una de salida.
          La capa de entrada contiene dos nodos, uno que contiene el valor 0.92 y el otro que contiene el valor 0.56.

Cada ejemplo proporciona diferentes valores para el vector de características, por lo que el vector de características del siguiente ejemplo podría ser algo como lo siguiente:

[0.73, 0.49]

La ingeniería de atributos determina cómo representar los atributos en el vector de atributos. Por ejemplo, un atributo categórico binario con cinco valores posibles se puede representar con la codificación one-hot. En este caso, la parte del vector de características para un ejemplo en particular consistiría en cuatro ceros y un solo 1.0 en la tercera posición, de la siguiente manera:

[0.0, 0.0, 1.0, 0.0, 0.0]

Como otro ejemplo, supongamos que tu modelo consta de tres atributos:

  • un atributo categórico binario con cinco valores posibles representados con codificación one-hot; por ejemplo: [0.0, 1.0, 0.0, 0.0, 0.0]
  • otro atributo categórico binario con tres valores posibles representados con codificación one-hot; por ejemplo: [0.0, 0.0, 1.0]
  • Un componente de punto flotante, por ejemplo: 8.3.

En este caso, el vector de atributos de cada ejemplo estaría representado por nueve valores. Dados los valores de ejemplo de la lista anterior, el vector de características sería el siguiente:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Consulta Datos numéricos: Cómo un modelo transfiere datos con vectores de características en el Curso intensivo de aprendizaje automático para obtener más información.

transformación de atributos

Es el proceso de extraer atributos de una fuente de entrada, como un documento o un video, y asignarlos a un vector de atributos.

Algunos expertos en AA usan la creación de atributos como sinónimo de ingeniería de atributos o extracción de atributos.

aprendizaje federado

Un enfoque de aprendizaje automático distribuido que entrena modelos de aprendizaje automático con ejemplos descentralizados que residen en dispositivos como smartphones. En el aprendizaje federado, un subconjunto de dispositivos descarga el modelo actual desde un servidor de coordinación central. Los dispositivos usan los ejemplos almacenados en ellos para realizar mejoras en el modelo. Luego, los dispositivos suben las mejoras del modelo (pero no los ejemplos de entrenamiento) al servidor de coordinación, donde se agregan con otras actualizaciones para generar un modelo global mejorado. Después de la agregación, las actualizaciones del modelo que calculan los dispositivos ya no son necesarias y se pueden descartar.

Dado que los ejemplos de entrenamiento nunca se suben, el aprendizaje federado sigue los principios de privacidad de la recopilación de datos enfocada y la minimización de datos.

Para obtener más información sobre el aprendizaje federado, consulta este instructivo.

ciclo de retroalimentación

#fundamentals

En el aprendizaje automático, es una situación en la que las predicciones de un modelo influyen en los datos de entrenamiento del mismo modelo o de otro. Por ejemplo, un modelo que recomienda películas influirá en las películas que miran las personas, lo que, a su vez, influirá en los modelos de recomendación de películas posteriores.

Consulta Sistemas de aprendizaje automático de producción: Preguntas que debes hacer en el Curso intensivo de aprendizaje automático para obtener más información.

red neuronal prealimentada (FFN)

Una red neuronal sin conexiones cíclicas o recurrentes. Por ejemplo, las redes neuronales profundas tradicionales son redes neuronales prealimentadas. Compara esto con las redes neuronales recurrentes, que son cíclicas.

aprendizaje en pocos intentos

Un enfoque de aprendizaje automático, que a menudo se usa para la clasificación de objetos, diseñado para entrenar clasificadores eficaces a partir de solo una pequeña cantidad de ejemplos de entrenamiento.

Consulta también aprendizaje en un intento y aprendizaje sin ejemplos.

instrucción con varios ejemplos

#language
#generativeAI

Un prompt que contiene más de un ejemplo (algunos) que demuestra cómo debe responder el modelo de lenguaje extenso. Por ejemplo, la siguiente instrucción extensa contiene dos ejemplos que muestran a un modelo de lenguaje extenso cómo responder una consulta.

Partes de una instrucción Notas
¿Cuál es la moneda oficial del país especificado? La pregunta que quieres que responda el LLM.
Francia: EUR Un ejemplo.
Reino Unido: GBP Otro ejemplo.
India: Es la consulta real.

Por lo general, las instrucciones con varios ejemplos producen resultados más deseables que las instrucciones sin ejemplos y las instrucciones con un solo ejemplo. Sin embargo, las instrucciones con varios ejemplos requieren una instrucción más larga.

La instrucción con ejemplos limitados es una forma de aprendizaje en pocos intentos que se aplica al aprendizaje basado en instrucciones.

Consulta Ingeniería de instrucciones en el Curso intensivo de aprendizaje automático para obtener más información.

Violín tradicional

#language

Una biblioteca de configuración que prioriza Python y establece los valores de las funciones y las clases sin código ni infraestructura invasivos. En el caso de Pax y otras bases de código de AA, estas funciones y clases representan modelos y hiperparámetros de entrenamiento.

Fiddle asume que las bases de código de aprendizaje automático suelen dividirse en lo siguiente:

  • Código de la biblioteca, que define las capas y los optimizadores
  • Código de "unión" del conjunto de datos, que llama a las bibliotecas y conecta todo.

Fiddle captura la estructura de llamadas del código de unión en una forma no evaluada y mutable.

ajuste

#language
#image
#generativeAI

Un segundo pase de entrenamiento específico para la tarea que se realiza en un modelo previamente entrenado para definir mejor sus parámetros para un caso de uso específico. Por ejemplo, la secuencia de entrenamiento completa de algunos modelos grandes de lenguaje es la siguiente:

  1. Entrenamiento previo: Entrena un modelo de lenguaje grande en un vasto conjunto de datos general, como todas las páginas de Wikipedia en inglés.
  2. Ajuste fino: Entrena el modelo previamente entrenado para que realice una tarea específica, como responder consultas médicas. El perfeccionamiento suele implicar cientos o miles de ejemplos enfocados en la tarea específica.

A modo de ejemplo, la secuencia de entrenamiento completa para un modelo de imagen grande es la siguiente:

  1. Entrenamiento previo: Entrena un modelo de imagen grande en un vasto conjunto de datos de imágenes generales, como todas las imágenes de Wikimedia Commons.
  2. Ajuste fino: Entrena el modelo previamente entrenado para que realice una tarea específica, como generar imágenes de orcas.

El perfeccionamiento puede implicar cualquier combinación de las siguientes estrategias:

  • Modificar todos los parámetros existentes del modelo previamente entrenado A veces, esto se denomina ajuste fino completo.
  • Modificar solo algunos de los parámetros existentes del modelo previamente entrenado (por lo general, las capas más cercanas a la capa de salida) y mantener sin cambios otros parámetros existentes (por lo general, las capas más cercanas a la capa de entrada) Consulta ajuste eficiente de parámetros.
  • Agregar más capas, por lo general, sobre las capas existentes más cercanas a la capa de salida

El ajuste fino es una forma de aprendizaje por transferencia. Por lo tanto, el ajuste fino puede usar una función de pérdida o un tipo de modelo diferente de los que se usan para entrenar el modelo con entrenamiento previo. Por ejemplo, podrías ajustar un modelo de imagen grande previamente entrenado para producir un modelo de regresión que muestre la cantidad de aves en una imagen de entrada.

Compara y contrasta el perfeccionamiento con los siguientes términos:

Consulta Ajuste fino en el Curso intensivo de aprendizaje automático para obtener más información.

Lino

#language

Una biblioteca de código abierto de alto rendimiento para el aprendizaje profundo compilada en JAX. Flax proporciona funciones para entrenar redes neuronales, así como métodos para evaluar su rendimiento.

Flaxformer

#language

Una biblioteca de Transformer de código abierto compilada en Flax, diseñada principalmente para el procesamiento de lenguaje natural y la investigación multimodal.

puerta de olvido

#seq

Es la parte de una célula de memoria a largo plazo que regula el flujo de información a través de ella. Las puertas de olvido mantienen el contexto decidiendo qué información descartar del estado de la celda.

fracción de éxitos

#generativeAI

Es una métrica para evaluar el texto generado de un modelo de AA. La fracción de éxitos es la cantidad de resultados de texto generados "correctos" dividida por la cantidad total de resultados de texto generados. Por ejemplo, si un modelo de lenguaje grande generó 10 bloques de código, cinco de los cuales se ejecutaron correctamente, la fracción de éxitos sería del 50%.

Aunque la fracción de éxitos es ampliamente útil en todas las estadísticas, en el AA, esta métrica es útil principalmente para medir tareas verificables, como la generación de código o los problemas matemáticos.

softmax completo

Es un sinónimo de softmax.

Compara esto con el muestreo de candidatos.

Consulta Redes neuronales: Clasificación de clases múltiples en el Curso intensivo de aprendizaje automático para obtener más información.

capa completamente conectada

Una capa oculta en la que cada nodo está conectado a cada nodo de la capa oculta subsiguiente.

Una capa completamente conectada también se conoce como una capa densa.

transformación de funciones

Es una función que toma una función como entrada y muestra una función transformada como salida. JAX usa transformaciones de funciones.

G

GAN

Abreviatura de red generativa adversaria.

Gemini

#language
#image
#generativeAI

El ecosistema que comprende la IA más avanzada de Google. Entre los elementos de este ecosistema, se incluyen los siguientes:

Modelos de Gemini

#language
#image
#generativeAI

Los modelos multimodales de última generación de Google basados en Transformers Los modelos de Gemini están diseñados específicamente para integrarse con agentes.

Los usuarios pueden interactuar con los modelos de Gemini de diferentes maneras, por ejemplo, a través de una interfaz de diálogo interactiva y de SDKs.

generalización

#fundamentals

Es la capacidad de un modelo para realizar predicciones correctas sobre datos nuevos nunca antes vistos. Un modelo que puede generalizar es lo opuesto a un modelo que tiene un sobreajuste.

Consulta Generalización en el Curso intensivo de aprendizaje automático para obtener más información.

curva de generalización

#fundamentals

Un gráfico de la pérdida de entrenamiento y la pérdida de validación como función de la cantidad de iteraciones.

Una curva de generalización puede ayudarte a detectar un posible sobreajuste. Por ejemplo, la siguiente curva de generalización sugiere sobreajuste porque la pérdida de validación se vuelve, en última instancia, significativamente mayor que la pérdida de entrenamiento.

Un gráfico cartesiano en el que el eje y está etiquetado como pérdida y el eje x está etiquetado como iteraciones. Aparecerán dos parcelas. En uno de los gráficos, se muestra la pérdida de entrenamiento y, en el otro, la pérdida de validación.
          Las dos tramas comienzan de manera similar, pero la pérdida de entrenamiento eventualmente cae mucho más abajo que la pérdida de validación.

Consulta Generalización en el Curso intensivo de aprendizaje automático para obtener más información.

modelo lineal generalizado

Una generalización de los modelos de regresión de mínimos cuadrados, que se basan en el ruido gaussiano, a otros tipos de modelos basados en otros tipos de ruido, como el ruido de Poisson o el ruido categórico. Entre los ejemplos de modelos lineales generalizados, se incluyen los siguientes:

Los parámetros de un modelo lineal generalizado pueden encontrarse a través de la optimización convexa.

Los modelos lineales generalizados tienen las siguientes propiedades:

  • La predicción promedio del modelo óptimo de regresión de mínimos cuadrados es igual a la etiqueta promedio de los datos de entrenamiento.
  • La probabilidad promedio predicha por el modelo óptimo de regresión logística es igual a la etiqueta promedio de los datos de entrenamiento.

La potencia de un modelo lineal generalizado está limitada por sus atributos. A diferencia de un modelo profundo, un modelo lineal generalizado no puede "aprender atributos nuevos".

texto generado

#language
#generativeAI

En general, el texto que genera un modelo de AA. Cuando se evalúan modelos de lenguaje extensos, algunas métricas comparan el texto generado con el texto de referencia. Por ejemplo, supongamos que estás tratando de determinar la eficacia con la que un modelo de AA traduce del francés al holandés. En este caso, ocurre lo siguiente:

  • El texto generado es la traducción al holandés que genera el modelo de AA.
  • El texto de referencia es la traducción al holandés que crea un traductor humano (o un software).

Ten en cuenta que algunas estrategias de evaluación no incluyen texto de referencia.

red generativa adversaria (GAN)

Un sistema para crear datos nuevos en el que un generador crea datos y un discriminador determina si los datos creados son válidos o no.

Consulta el curso de redes generativas antagónicas para obtener más información.

IA generativa

#language
#image
#generativeAI

Es un campo transformador emergente sin definición formal. Dicho esto, la mayoría de los expertos coinciden en que los modelos de IA generativa pueden crear ("generar") contenido que cumpla con las siguientes características:

  • emergencia compleja,
  • coherente
  • original

Por ejemplo, un modelo de IA generativa puede crear ensayos o imágenes sofisticados.

Algunas tecnologías anteriores, como las LSTM y las RNN, también pueden generar contenido original y coherente. Algunos expertos consideran que estas tecnologías anteriores son IA generativa, mientras que otros creen que la verdadera IA generativa requiere resultados más complejos que los que pueden producir esas tecnologías anteriores.

Compara esto con el AA predictivo.

modelo generativo

Dicho en forma simple, un modelo que realiza una de las siguientes tareas:

  • Crea (genera) ejemplos nuevos a partir del conjunto de datos de entrenamiento. Por ejemplo, un modelo generativo podría crear poesía después de entrenar con un conjunto de datos de poemas. La parte del generador de una red generativa adversaria entra en esta categoría.
  • Determina la probabilidad de que un nuevo ejemplo provenga del conjunto de entrenamiento o se haya creada con el mismo mecanismo que creó al conjunto de entrenamiento. Por ejemplo, después de entrenar con un conjunto de datos formado por oraciones en inglés, un modelo generativo podría determinar la probabilidad de que una nueva entrada sea una oración válida en inglés.

Un modelo generativo puede, en teoría, diferenciar la distribución de ejemplos o atributos particulares en un conjunto de datos, Es decir:

p(examples)

Los modelos de aprendizaje no supervisado son generativos.

Compara esto con los modelos discriminativos.

generador

Es el subsistema dentro de una red generativa adversaria que crea ejemplos nuevos.

Compara esto con el modelo discriminativo.

impureza de Gini

#df

Es una métrica similar a la entropía. Los divisores usan valores derivados de la impureza de Gini o la entropía para componer condiciones para la clasificación de árboles de decisión. La ganancia de información se deriva de la entropía. No existe un término equivalente aceptado universalmente para la métrica derivada de la impureza de Gini. Sin embargo, esta métrica sin nombre es tan importante como la ganancia de información.

La impureza de Gini también se denomina índice de Gini o simplemente Gini.

conjunto de datos de referencia

Un conjunto de datos seleccionados de forma manual que capturan la verdad fundamental. Los equipos pueden usar uno o más conjuntos de datos de referencia para evaluar la calidad de un modelo.

Algunos conjuntos de datos de referencia capturan diferentes subdominios de la verdad fundamental. Por ejemplo, un conjunto de datos de referencia para la clasificación de imágenes podría capturar las condiciones de iluminación y la resolución de la imagen.

respuesta dorada

#language
#generativeAI

Una respuesta que se sabe que es buena. Por ejemplo, dada la siguiente sugerencia:

2 + 2

La respuesta ideal es la siguiente:

4

GPT (transformador generativo previamente entrenado)

#language

Es una familia de modelos de lenguaje grande basados en Transformer que desarrolló OpenAI.

Las variantes de GPT se pueden aplicar a varias modalidades, como las siguientes:

  • generación de imágenes (por ejemplo, ImageGPT)
  • generación de texto a imagen (por ejemplo, DALL-E).

gradient

Es el vector de las derivadas parciales con respecto a todas las variables independientes. En el aprendizaje automático, el gradiente es el vector de las derivadas parciales de la función del modelo. El gradiente apunta en la dirección del aumento más empinado.

acumulación de gradientes

Una técnica de retropropagación que actualiza los parámetros solo una vez por época en lugar de una vez por iteración. Después de procesar cada minilote, la acumulación de gradientes simplemente actualiza un total en ejecución de gradientes. Luego, después de procesar el último minilote de la época, el sistema finalmente actualiza los parámetros según el total de todos los cambios de gradiente.

La acumulación de gradientes es útil cuando el tamaño del lote es muy grande en comparación con la cantidad de memoria disponible para el entrenamiento. Cuando la memoria es un problema, la tendencia natural es reducir el tamaño del lote. Sin embargo, reducir el tamaño del lote en la retropropagación normal aumenta la cantidad de actualizaciones de parámetros. La acumulación de gradientes permite que el modelo evite problemas de memoria, pero aún así se entrene de manera eficiente.

árboles (de decisión) impulsados por gradientes (GBT)

#df

Es un tipo de bosque de decisión en el que se cumple lo siguiente:

Consulta Árboles de decisión mejorados por gradientes en el curso Bosques de decisión para obtener más información.

potenciación del gradiente

#df

Un algoritmo de entrenamiento en el que se entrenan modelos débiles para mejorar de forma iterativa la calidad (reducir la pérdida) de un modelo sólido. Por ejemplo, un modelo débil podría ser un modelo lineal o un árbol de decisión pequeño. El modelo sólido se convierte en la suma de todos los modelos débiles entrenados anteriormente.

En la forma más simple del aumento de gradientes, en cada iteración, se entrena un modelo débil para predecir el gradiente de pérdida del modelo fuerte. Luego, se actualiza el resultado del modelo sólido restando el gradiente previsto, similar al descenso del gradiente.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Donde:

  • $F_{0}$ es el modelo fuerte inicial.
  • $F_{i+1}$ es el siguiente modelo sólido.
  • $F_{i}$ es el modelo fuerte actual.
  • $\xi$ es un valor entre 0.0 y 1.0 llamado reducción, que es análogo a la tasa de aprendizaje en el descenso del gradiente.
  • $f_{i}$ es el modelo débil entrenado para predecir el gradiente de pérdida de $F_{i}$.

Las variaciones modernas del aumento de gradiente también incluyen la segunda derivada (Hessiana) de la pérdida en su cálculo.

Los árboles de decisión suelen usarse como modelos débiles en el aumento de gradiente. Consulta árboles (de decisión) potenciados por gradientes.

recorte de gradientes

#seq

Es un mecanismo de uso general para mitigar el problema del gradiente explosivo limitando artificialmente (recortando) el valor máximo de los gradientes cuando se usa el descenso de gradientes para entrenar un modelo.

descenso de gradientes

#fundamentals

Es una técnica matemática para minimizar la pérdida. El descenso de gradientes ajusta de manera iterativa los pesos y los sesgos, lo que permite encontrar de forma gradual la mejor combinación para minimizar la pérdida.

El descenso por gradiente es más antiguo que el aprendizaje automático.

Consulta Regresión lineal: descenso por gradiente en el Curso intensivo de aprendizaje automático para obtener más información.

gráfico

#TensorFlow

En TensorFlow, es una especificación de cálculo. Los nodos del grafo representan operaciones. Las conexiones están orientadas y representan el paso del resultado de una operación (un Tensor) como un operando para otra operación. Usa TensorBoard para visualizar un grafo.

ejecución de grafos

#TensorFlow

Entorno de programación de TensorFlow en el cual el programa primero construye un grafo y, luego, ejecuta todo el grafo o una parte de este. La ejecución por grafos es el modo de ejecución predeterminado en TensorFlow 1.x.

Compara esto con la ejecución inmediata.

política codiciosa

#rl

En el aprendizaje por refuerzo, una política que siempre elige la acción con el rendimiento esperado más alto.

fundamentación

Es una propiedad de un modelo cuyo resultado se basa en (se "fundamenta en") material de origen específico. Por ejemplo, supongamos que proporcionas un libro de texto de física completo como entrada ("contexto") a un modelo de lenguaje extenso. Luego, le haces una pregunta de física a ese modelo de lenguaje extenso. Si la respuesta del modelo refleja información de ese libro de texto, entonces ese modelo está fundamentado en ese libro de texto.

Ten en cuenta que un modelo basado en la realidad no siempre es un modelo fáctico. Por ejemplo, el libro de texto de física de entrada podría contener errores.

Verdad fundamental

#fundamentals

Realidad.

Lo que sucedió en realidad.

Por ejemplo, considera un modelo de clasificación binaria que predice si un estudiante en su primer año de universidad se graduará en un plazo de seis años. La verdad fundamental de este modelo es si ese estudiante se graduó en seis años o no.

sesgo de correspondencia

#fairness

La tendencia a creer que lo que es verdadero para un individuo, lo es también para todos los miembros de ese grupo Los efectos del sesgo de correspondencia pueden agravarse si se utiliza un muestreo de conveniencia para la recopilación de datos. En una muestra no representativa, puede que se creen atributos que no reflejen la realidad.

Consulta también el sesgo de homogeneidad de los demás y el sesgo endogrupal. Además, consulta Equidad: Tipos de sesgo en el Curso intensivo de aprendizaje automático para obtener más información.

H

alucinación

#language

La producción de resultados que parecen plausibles, pero que son incorrectos, por parte de un modelo de IA generativa que pretende hacer una afirmación sobre el mundo real. Por ejemplo, un modelo de IA generativa que afirme que Barack Obama murió en 1865 está hallucinando.

hash

En el aprendizaje automático, un mecanismo para agrupar datos categóricos, especialmente cuando hay una gran cantidad de categorías, pero la cantidad que realmente aparece en el conjunto de datos es comparativamente menor.

Por ejemplo, la Tierra es el hogar de alrededor de 73,000 especies de árboles. Se podría representar cada una de las 73,000 especies de árboles en 73,000 agrupaciones categóricas diferentes. Como alternativa, si solo 200 de esas especies arbóreas realmente aparecen en el conjunto de datos, se podría utilizar el hashing para dividir las especies en quizás 500 agrupaciones.

Un solo bucket podría contener varias especies arbóreas. Por ejemplo, con el hashing se podrían colocar baobab y arce rojo (dos especies con genéticas diferentes) en el mismo bucket. En cualquier caso, el hashing sigue siendo una buena manera de asignar grandes conjuntos de categorías a la cantidad seleccionada de buckets. El hash convierte un atributo categórico con una gran cantidad de valores posibles a una cantidad menor de valores agrupándolos de forma determinista.

Consulta Datos categóricos: Vocabulario y codificación one-hot en el Curso intensivo de aprendizaje automático para obtener más información.

heurística

Una solución simple y de rápida implementación para un problema. Por ejemplo, "Con una heurística, conseguimos un 86% de exactitud. Cuando cambiamos a una red neuronal profunda, la exactitud llego al 98%."

capa oculta

#fundamentals

Es una capa en una red neuronal entre la capa de entrada (los atributos) y la capa de salida (la predicción). Cada capa oculta consta de una o más neuronas. Por ejemplo, la siguiente red neuronal contiene dos capas ocultas, la primera con tres neuronas y la segunda con dos:

Cuatro capas La primera capa es una capa de entrada que contiene dos atributos. La segunda capa es una capa oculta que contiene tres

          neuronas. La tercera capa es una capa oculta que contiene dos

          neuronas. La cuarta capa es una capa de salida. Cada característica
          contiene tres bordes, cada uno de los cuales apunta a una neurona
          diferente en la segunda capa. Cada una de las neuronas de la segunda capa
          contiene dos aristas, cada una de las cuales apunta a una neurona distinta
          en la tercera capa. Cada una de las neuronas de la tercera capa contiene un borde, cada uno de los cuales apunta a la capa de salida.

Una red neuronal profunda contiene más de una capa oculta. Por ejemplo, la ilustración anterior es una red neuronal profunda porque el modelo contiene dos capas ocultas.

Consulta Redes neuronales: Nodos y capas ocultas en el Curso intensivo de aprendizaje automático para obtener más información.

agrupamiento en clústeres jerárquico

#clustering

Categoría de algoritmos de agrupamiento que crean un árbol de clústeres. El agrupamiento jerárquico es muy adecuado para datos jerárquicos, como por ej., taxonomías botánicas. Existen dos tipos de algoritmos de agrupamiento jerárquico:

  • El agrupamiento aglomerado asigna primero cada ejemplo a su propio clúster, luego une los clústeres más cercanos para crear un árbol de jerarquías.
  • El agrupamiento en clústeres divisivo agrupa primero todos los ejemplos en un clúster y divide varias veces el clúster en un árbol jerárquico.

Compara esto con el agrupamiento en clústeres basado en centroides.

Consulta Algoritmos de agrupamiento en el curso de Agrupamiento para obtener más información.

ascenso de colinas

Un algoritmo para mejorar de forma iterativa ("subir una colina") un modelo de AA hasta que este deje de mejorar ("llegar a la cima de una colina"). La forma general del algoritmo es la siguiente:

  1. Compila un modelo inicial.
  2. Crea modelos candidatos nuevos haciendo pequeños ajustes en la forma en que entrenas o ajustas. Esto podría implicar trabajar con un conjunto de entrenamiento o hiperparámetros ligeramente diferentes.
  3. Evalúa los nuevos modelos candidatos y toma una de las siguientes medidas:
    • Si un modelo candidato supera al modelo inicial, ese modelo candidato se convierte en el nuevo modelo inicial. En este caso, repite los pasos 1, 2 y 3.
    • Si ningún modelo supera al modelo inicial, significa que llegaste a la cima de la colina y debes dejar de iterar.

Consulta la Guía de ajuste del aprendizaje profundo para obtener orientación sobre el ajuste de hiperparámetros. Consulta los módulos de datos del Curso intensivo de aprendizaje automático para obtener orientación sobre la ingeniería de atributos.

pérdida de bisagra

Es una familia de funciones de pérdida para la clasificación diseñada para encontrar el límite de decisión lo más distante posible de cada ejemplo de entrenamiento, lo que maximiza el margen entre los ejemplos y el límite. Las KSVM usan la pérdida de bisagra (o una función relacionada, como la pérdida de bisagra al cuadrado). Para la clasificación binaria, la función de pérdida de bisagra se define de la siguiente manera:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

donde y es la etiqueta verdadera, ya sea -1 o +1, y y' es el resultado sin procesar del modelo del clasificador:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En consecuencia, un gráfico de la pérdida de bisagra en comparación con (y * y') se ve de la siguiente manera:

Una representación cartesiana que consta de dos segmentos de línea unidos. El primer segmento de línea comienza en (-3, 4) y termina en (1, 0). El segundo segmento de línea comienza en (1, 0) y continúa indefinidamente con una pendiente de 0.

sesgo histórico

#fairness

Un tipo de sesgo que ya existe en el mundo y se abrió camino en un conjunto de datos. Estos sesgos tienden a reflejar los estereotipos culturales, las desigualdades demográficas y los prejuicios existentes contra ciertos grupos sociales.

Por ejemplo, considera un modelo de clasificación que predijo si un solicitante de un préstamo incumplirá o no su préstamo, que se entrenó con datos históricos de incumplimientos de préstamos de la década de 1980 de bancos locales en dos comunidades diferentes. Si los solicitantes anteriores de la comunidad A tenían seis veces más probabilidades de incumplir sus préstamos que los solicitantes de la comunidad B, el modelo podría aprender un sesgo histórico, lo que reduciría las probabilidades de que apruebe préstamos en la comunidad A, incluso si las condiciones históricas que generaron las tasas de incumplimiento más altas de esa comunidad ya no fueran relevantes.

Consulta Equidad: Tipos de sesgos en el Curso intensivo de aprendizaje automático para obtener más información.

datos de exclusión

Ejemplos que de manera intencional no se usan (se "excluyen") durante el entrenamiento. El conjunto de datos de validación y el conjunto de datos de prueba son ejemplos de datos de exclusión. Los datos de exclusión ayudan a evaluar la capacidad del modelo para realizar generalizaciones con respecto a datos que no sean los datos con los que se entrenó. La pérdida en el conjunto de exclusión proporciona una mejor estimación de la pérdida en un conjunto de datos nunca antes vistos que de la pérdida en el conjunto de entrenamiento.

host

#TensorFlow
#GoogleCloud

Cuando entrenas un modelo de AA en chips de acelerador (GPU o TPU), la parte del sistema que controla lo siguiente:

  • El flujo general del código.
  • La extracción y transformación de la canalización de entrada

Por lo general, el host se ejecuta en una CPU, no en un chip de acelerador. El dispositivo manipula tensores en los chips de acelerador.

evaluación humana

#language
#generativeAI

Es un proceso en el que personas juzgan la calidad del resultado de un modelo de AA. Por ejemplo, hacer que personas bilingües juzguen la calidad de un modelo de traducción de AA. La evaluación humana es particularmente útil para juzgar modelos que no tienen una respuesta correcta.

Compara esto con la evaluación automática y la evaluación del autocalificador.

con interacción humana (HITL)

#generativeAI

Es un idioma poco definido que puede significar una de las siguientes opciones:

  • Una política de ver los resultados de la IA generativa de forma crítica o escéptica Por ejemplo, las personas que escriben este Glosario de AA se asombran de lo que pueden hacer los modelos de lenguaje grandes, pero tienen en cuenta los errores que cometen.
  • Una estrategia o un sistema para garantizar que las personas ayuden a definir, evaluar y definir mejor el comportamiento de un modelo. Mantener a una persona en el proceso permite que una IA se beneficie de la inteligencia humana y la artificial. Por ejemplo, un sistema en el que una IA genera código que los ingenieros de software revisan es un sistema de humano en el ciclo.

hiperparámetro

#fundamentals

Las variables que tú o un servicio de ajuste de hiperparámetros ajustan durante ejecuciones sucesivas del entrenamiento de un modelo. Por ejemplo, la tasa de aprendizaje es un hiperparámetro. Puedes configurar la tasa de aprendizaje en 0.01 antes de una sesión de entrenamiento. Si determinas que 0.01 es demasiado alto, puedes establecer la tasa de aprendizaje en 0.003 para la próxima sesión de entrenamiento.

En cambio, los parámetros son los diversos pesos y sesgos que el modelo aprende durante el entrenamiento.

Consulta Regresión lineal: Hyperparameters en el Curso intensivo de aprendizaje automático para obtener más información.

hiperplano

Un límite que separa un espacio en dos subespacios. Por ejemplo, una línea es un hiperplano en dos dimensiones y un plano es un hiperplano en tres dimensiones. En el aprendizaje automático, un hiperplano es el límite que separa un espacio de dimensiones altas. Las máquinas de vectores soporte de Kernel usan hiperplanos para separar las clases positivas de las negativas, frecuentemente en un espacio de dimensiones muy altas.

I

i.i.d.

Abreviatura de independiente e idénticamente distribuido.

reconocimiento de imágenes

#image

Proceso que clasifica objetos, patrones o conceptos en una imagen. El reconocimiento de imágenes también se conoce como clasificación de imágenes.

Para obtener más información, consulta Práctica de AA: Clasificación de imágenes.

Consulta el curso Práctica de AA: Clasificación de imágenes para obtener más información.

conjunto de datos desequilibrado

Sinónimo de conjunto de datos con desequilibrio de clases.

sesgo implícito

#fairness

Hacer una asociación o una suposición, de forma automática, con base en los modelos mentales o los recuerdos de cada uno. El sesgo implícito puede afectar los siguientes aspectos:

  • Cómo se recopilan y clasifican los datos
  • Cómo se diseñan y desarrollan los sistemas de aprendizaje automático

Por ejemplo, cuando se crea un clasificador para identificar fotos de bodas, un ingeniero puede utilizar como atributo la presencia de un vestido blanco en la foto. Sin embargo, los vestidos blancos han sido habituales durante ciertas épocas y en ciertas culturas.

Consulta también el sesgo de confirmación.

imputación

Forma abreviada de imputación de valores.

Incompatibilidad de métricas de equidad

#fairness

La idea de que algunas nociones de equidad son mutuamente incompatibles y no se pueden satisfacer de manera simultánea. Como resultado, no existe una sola métrica universal para cuantificar la equidad que se pueda aplicar a todos los problemas de AA.

Si bien esto puede parecer desalentador, la incompatibilidad de las métricas de equidad no implica que los esfuerzos por lograr la equidad sean infructuosos. En cambio, sugiere que la equidad debe definirse de forma contextual para un problema de AA determinado, con el objetivo de evitar daños específicos de sus casos de uso.

Consulta “Sobre la (im)posibilidad de la equidad” para obtener un análisis más detallado de este tema.

aprendizaje en contexto

#language
#generativeAI

Es un sinónimo de instrucciones con ejemplos limitados.

independiente e idénticamente distribuido (i.i.d.)

#fundamentals

Son datos extraídos de una distribución que no cambia y en la que cada valor extraído no depende de los valores que se extrajeron anteriormente. Una i.i.d. es el gas ideal del aprendizaje automático; es una construcción matemática útil, pero casi nunca se encuentra exactamente en el mundo real. Por ejemplo, la distribución de los visitantes de una página web pueden ser datos i.i.d. en una ventana de tiempo breve, es decir, la distribución no cambia durante esa ventana breve y la visita de una persona por lo general es independiente de la visita de otra. Sin embargo, si amplías ese período, es posible que aparezcan diferencias estacionales en los visitantes de la página web.

Consulta también no estacionariedad.

equidad individual

#fairness

Es una métrica de equidad que verifica si las personas similares se clasifican de manera similar. Por ejemplo, la Academia Brobdingnagian podría querer satisfacer la equidad individual asegurándose de que dos estudiantes con calificaciones idénticas y puntuaciones de pruebas estandarizadas tengan la misma probabilidad de ingresar.

Ten en cuenta que la equidad individual depende por completo de cómo definas la "similitud" (en este caso, las calificaciones y las puntuaciones de las pruebas) y que puedes correr el riesgo de introducir nuevos problemas de equidad si tu métrica de similitud omite información importante (como el rigor del plan de estudios de un estudiante).

Consulta "Equidad a través de la sensibilización" para obtener un análisis más detallado de la equidad individual.

inferencia

#fundamentals

En el aprendizaje automático, el proceso de realizar predicciones mediante la aplicación de un modelo entrenado a ejemplos sin etiqueta.

La inferencia tiene un significado algo diferente en la estadística. Consulta el Artículo de Wikipedia sobre inferencia estadística para obtener más información.

Consulta Aprendizaje supervisado en el curso Introducción al AA para ver el rol de la inferencia en un sistema de aprendizaje supervisado.

ruta de inferencia

#df

En un árbol de decisión, durante la inferencia, la ruta que toma un ejemplo en particular desde la raíz a otras condiciones finaliza con una hoja. Por ejemplo, en el siguiente árbol de decisión, las flechas más gruesas muestran la ruta de inferencia de un ejemplo con los siguientes valores de atributos:

  • x = 7
  • y = 12
  • z = -3

La ruta de inferencia de la siguiente ilustración pasa por tres condiciones antes de llegar a la hoja (Zeta).

Un árbol de decisión que consta de cuatro condiciones y cinco hojas.
          La condición raíz es (x > 0). Como la respuesta es Sí, la ruta de inferencia viaja de la raíz a la siguiente condición (y > 0).
          Como la respuesta es Sí, la ruta de inferencia pasa a la siguiente condición (z > 0). Como la respuesta es No, la ruta de inferencia se dirige a su nodo terminal, que es la hoja (Zeta).

Las tres flechas gruesas muestran la ruta de inferencia.

Consulta Árboles de decisión en el curso Bosques de decisión para obtener más información.

ganancia de información

#df

En los bosques de decisión, la diferencia entre la entropía de un nodo y la suma ponderada (por cantidad de ejemplos) de la entropía de sus nodos secundarios. La entropía de un nodo es la entropía de los ejemplos en ese nodo.

Por ejemplo, considera los siguientes valores de entropía:

  • Entropía del nodo superior = 0.6
  • entropía de un nodo secundario con 16 ejemplos relevantes = 0.2
  • entropía de otro nodo secundario con 24 ejemplos relevantes = 0.1

Por lo tanto, el 40% de los ejemplos se encuentra en un nodo secundario y el 60% en el otro. Por lo tanto:

  • suma de entropía ponderada de los nodos secundarios = (0.4 × 0.2) + (0.6 × 0.1) = 0.14

Por lo tanto, la ganancia de información es la siguiente:

  • ganancia de información = entropía del nodo superior - suma ponderada de la entropía de los nodos secundarios
  • ganancia de información = 0.6 - 0.14 = 0.46

La mayoría de los divisores buscan crear condiciones que maximicen la ganancia de información.

sesgo endogrupal

#fairness

Mostrar parcialidad por el propio grupo o las propias características Si quienes prueban o evalúan el modelo son amigos, familiares o colegas del desarrollador de aprendizaje automático, el sesgo endogrupal puede invalidar las pruebas del producto o el conjunto de datos.

El sesgo endogrupal es una forma de sesgo de correspondencia. Consulta también el sesgo de homogeneidad de los demás.

Consulta Equidad: Tipos de sesgos en el Curso intensivo de aprendizaje automático para obtener más información.

generador de entradas

Un mecanismo a través del cual se cargan datos en una red neuronal.

Un generador de entradas se puede considerar como un componente responsable de procesar datos sin procesar en tensores que se iteran para generar lotes para el entrenamiento, la evaluación y la inferencia.

capa de entrada

#fundamentals

La capa de una red neuronal que contiene el vector de características. Es decir, la capa de entrada proporciona ejemplos para el entrenamiento o la inferencia. Por ejemplo, la capa de entrada en la siguiente red neuronal consta de dos atributos:

Cuatro capas: una de entrada, dos ocultas y una de salida.

condición del conjunto

#df

En un árbol de decisión, es una condición que prueba la presencia de un elemento en un conjunto de elementos. Por ejemplo, la siguiente es una condición del conjunto:

  house-style in [tudor, colonial, cape]

Durante la inferencia, si el valor del atributo de estilo de casa es tudor, colonial o cape, esta condición se evalúa como Sí. Si el valor del atributo estilo de casa es otro (por ejemplo, ranch), esta condición se evalúa como No.

Las condiciones del conjunto suelen generar árboles de decisión más eficientes que las condiciones que prueban atributos codificados one-hot.

instancia

Sinónimo de ejemplo.

ajuste de instrucciones

#generativeAI

Es una forma de ajuste fino que mejora la capacidad de un modelo de IA generativa para seguir instrucciones. El ajuste de instrucciones implica entrenar un modelo en una serie de instrucciones, que suelen abarcar una amplia variedad de tareas. El modelo resultante ajustado a las instrucciones tiende a generar respuestas útiles a las instrucciones sin muestras en una variedad de tareas.

Compara y contrasta con lo siguiente:

interpretabilidad

#fundamentals

La capacidad de explicar o presentar el razonamiento de un modelo de AA en términos comprensibles para los humanos.

Por ejemplo, la mayoría de los modelos de regresión lineal son muy interpretables. (solo debes mirar los pesos entrenados para cada característica). Los bosques de decisión también son altamente interpretables. Sin embargo, algunos modelos requieren una visualización sofisticada para convertirse en interpretables.

Puedes usar la herramienta de interpretabilidad del aprendizaje (LIT) para interpretar modelos de AA.

acuerdo entre evaluadores

Es una medición de la frecuencia con la que los evaluadores humanos coinciden cuando realizan una tarea. Si los evaluadores no están de acuerdo, es posible que debas mejorar las instrucciones de la tarea. En algunas ocasiones, también se denomina acuerdo entre anotadores o fiabilidad entre evaluadores. Consulta también el coeficiente kappa de Cohen, que es una de las mediciones de acuerdo entre evaluadores más populares.

Consulta Datos categóricos: Problemas comunes en el Curso intensivo de aprendizaje automático para obtener más información.

intersección sobre la unión (IoU)

#image

La intersección de dos conjuntos dividida por su unión. En las tareas de detección de imágenes con aprendizaje automático, el IoU se usa para medir la precisión del cuadro de límite previsto del modelo en relación con el cuadro de límite de verdad fundamental. En este caso, el IoU de los dos cuadros es la proporción entre el área superpuesta y el área total, y su valor varía de 0 (sin superposición del cuadro de límite previsto y el cuadro de límite de la verdad fundamental) a 1 (el cuadro de límite previsto y el cuadro de límite de la verdad fundamental tienen las mismas coordenadas exactas).

Por ejemplo, en la siguiente imagen:

  • El cuadro de límite previsto (las coordenadas que delimitan dónde el modelo predijo que se encuentra la mesa de noche en el cuadro) se describe en púrpura.
  • El cuadro de límite de la verdad fundamental (las coordenadas que delimitan dónde se encuentra la mesa de noche en el cuadro) está delineado en verde.

El cuadro de Van Gogh, El dormitorio de Van Gogh en Arlés, con dos diferentes cajas de límite alrededor de la mesa de noche junto a la cama. El cuadro delimitador de la verdad fundamental (en verde) circunscribe perfectamente la mesa de noche. El cuadro de límite previsto (en púrpura) se desplaza un 50% hacia abajo y hacia la derecha del cuadro de límite de la verdad del suelo. Encierra el cuarto inferior derecho de la mesa de noche, pero no incluye el resto de la mesa.

Aquí, la intersección de los cuadros de límite para la predicción y la verdad fundamental (abajo a la izquierda) es 1, y la unión de los cuadros de límite para la predicción y la verdad fundamental (abajo a la derecha) es 7, por lo que el IoU es \(\frac{1}{7}\).

Es la misma imagen que la anterior, pero con cada cuadro de límite dividido en cuatro cuadrantes. Hay siete cuadrantes en total, ya que el cuadrante inferior derecho del cuadro de límite de la verdad fundamental y el cuadrante superior izquierdo del cuadro de límite previsto se superponen. Esta sección superpuesta (destacada en verde) representa la intersección y tiene un área de 1. Es la misma imagen que la anterior, pero con cada cuadro de límite dividido en cuatro cuadrantes. Hay siete cuadrantes en total, ya que el cuadrante inferior derecho del cuadro de límite de la verdad fundamental y el cuadrante superior izquierdo del cuadro de límite previsto se superponen.
          Todo el interior encerrado por ambos recuadros de límite
          (destacado en verde) representa la unión y tiene
          un área de 7.

IoU

Abreviatura de intersección sobre unión.

matriz de elementos

#recsystems

En los sistemas de recomendación, es una matriz de vectores de incorporación generados por la factorización de matrices que contiene indicadores latentes sobre cada elemento. Cada fila de la matriz de elementos contiene el valor de un solo atributo latente para todos los elementos. Por ejemplo, considera un sistema de recomendación de películas. Cada columna en la matriz de elementos representa una película. Las señales latentes pueden representar géneros o pueden ser señales más complicadas de interpretar que impliquen interacciones complejas entre género, valoración, antigüedad de la película y otros factores.

La matriz de elementos tiene la misma cantidad de columnas de la matriz de etiquetas que se factoriza. Por ejemplo, en un modelo de recomendación de películas que evalúa 10,000 nombres de películas, la matriz de elementos tendrá 10,000 columnas.

elementos

#recsystems

En un sistema de recomendación, las entidades que recomienda un sistema. Por ejemplo, para una tienda de videos los elementos son videos, mientras que para una tienda de libros los elementos son libros.

iteración

#fundamentals

Una sola actualización de los parámetros del modelo (los pesos y los sesgos del modelo) durante el entrenamiento. El tamaño del lote determina cuántos ejemplos procesa el modelo en una sola iteración. Por ejemplo, si el tamaño del lote es 20, el modelo procesa 20 ejemplos antes de ajustar los parámetros.

Cuando entrenas una red neuronal, una sola iteración implica los siguientes dos pases:

  1. Un pase hacia adelante para evaluar la pérdida en un solo lote.
  2. Un paso hacia atrás (retropropagación) para ajustar los parámetros del modelo en función de la pérdida y la tasa de aprendizaje.

J

JAX

Es una biblioteca de procesamiento de arrays que reúne XLA (álgebra lineal acelerada) y la diferenciación automática para el procesamiento numérico de alto rendimiento. JAX proporciona una API simple y potente para escribir código numérico acelerado con transformaciones componibles. JAX ofrece las siguientes funciones:

  • grad (diferenciación automática)
  • jit (compilación justo a tiempo)
  • vmap (vectorización o procesamiento por lotes automáticos)
  • pmap (paralelización)

JAX es un lenguaje para expresar y componer transformaciones de código numérico, similar, pero mucho más amplio en su alcance, a la biblioteca NumPy de Python. (De hecho, la biblioteca .numpy en JAX es una versión funcionalmente equivalente, pero completamente reescrita de la biblioteca NumPy de Python).

JAX es particularmente adecuado para acelerar muchas tareas de aprendizaje automático, ya que transforma los modelos y los datos en una forma adecuada para el paralelismo entre GPU y TPU chips de acelerador.

Flax, Optax, Pax y muchas otras bibliotecas se compilan en la infraestructura de JAX.

K

Keras

Una API de aprendizaje automático muy utilizada de Python. Keras se ejecuta en varios frameworks de aprendizaje profundo, incluido TensorFlow, donde está disponible como tf.keras.

Máquinas de vectores soporte de Kernel (KSVM)

Un algoritmo de clasificación que busca maximizar el margen entre las clases positivas y las clases negativas asignando vectores de datos de entrada a un espacio de dimensiones más altas. Por ejemplo, considera un problema de clasificación en el que el conjunto de datos de entrada tiene cien atributos. Para maximizar el margen entre las clases positivas y negativas, una KSVM puede asignar internamente esos atributos a un espacio de un millón de dimensiones. Las KSVM usan una función de pérdida denominada pérdida de bisagra.

puntos clave

#image

Son las coordenadas de componentes específicos en una imagen. Por ejemplo, para un modelo de reconocimiento de imágenes que distingue las especies de flores, los puntos clave podrían ser el centro de cada pétalo, el tallo, el estambre, etcétera.

validación cruzada de k-fold

Un algoritmo para predecir la capacidad de un modelo de generalizar a datos nuevos. El k en k-fold hace referencia a la cantidad de grupos iguales en los que divides los ejemplos de un conjunto de datos; es decir, entrenas y pruebas tu modelo k veces. Para cada ronda de entrenamiento y pruebas, un grupo diferente es el conjunto de prueba, y todos los grupos restantes se convierten en el conjunto de entrenamiento. Después de k rondas de entrenamiento y pruebas, calculas la media y la desviación estándar de las métricas de prueba elegidas.

Por ejemplo, supongamos que tu conjunto de datos consta de 120 ejemplos. Supongamos además que decides establecer k en 4. Por lo tanto, después de mezclar los ejemplos, debes dividir el conjunto de datos en cuatro grupos iguales de 30 ejemplos y realizar cuatro rondas de entrenamiento y prueba:

Un conjunto de datos dividido en cuatro grupos de ejemplos iguales. En la Ronda 1,
          los primeros tres grupos se usan para el entrenamiento y el último
          se usa para las pruebas. En la Ronda 2, los dos primeros grupos y el último se usan para el entrenamiento, mientras que el tercer grupo se usa para las pruebas. En la Ronda 3, el primer grupo y los dos últimos se usan para el entrenamiento, mientras que el segundo se usa para las pruebas.
          En la Ronda 4, el primer grupo se usa para las pruebas, mientras que los tres grupos finales se usan para el entrenamiento.

Por ejemplo, el error cuadrático medio (ECM) podría ser la métrica más significativa para un modelo de regresión lineal. Por lo tanto, encontrarías la media y la desviación estándar del MSE en las cuatro rondas.

k-means

#clustering

Algoritmo de agrupamiento en clústeres popular que agrupa ejemplos en el aprendizaje no supervisado. El algoritmo k-means hace básicamente lo siguiente:

  • Determina de forma iterativa los mejores puntos centrales k (conocidos como centroides).
  • Asigna cada ejemplo al centroide más cercano. Los ejemplos más cercanos al mismo centroide pertenecen al mismo grupo.

El algoritmo k-means selecciona las ubicaciones del centroide para minimizar el cuadrado acumulativo de las distancias desde cada ejemplo hasta su centroide más cercano.

Por ejemplo, considera la siguiente representación de altura y anchura de perro:

Una representación cartesiana con varias decenas de puntos de datos.

Si k=3, el algoritmo k-means determinará tres centroides. Cada ejemplo se asigna a su centroide más cercano, lo que genera tres grupos:

El mismo gráfico cartesiano que en la ilustración anterior, excepto que se agregaron tres centroides.
          Los datos anteriores se agrupan en tres grupos distintos, cada uno de los cuales representa los datos más cercanos a un centroide en particular.

Imagina que un fabricante quiere determinar los tamaños ideales para suéteres pequeños, medianos y grandes para perros. Los tres centroides identifican la altura promedio y el ancho promedio de cada perro en ese clúster. Por lo tanto, el fabricante debería basar los tamaños de los suéteres en esos tres centroides. Ten en cuenta que el centroide de un clúster, por lo general, no es un ejemplo en el clúster.

En las ilustraciones anteriores, se muestra el método k-means para ejemplos con solo dos atributos (altura y ancho). Ten en cuenta que k-means puede agrupar ejemplos entre muchos atributos.

k-median

#clustering

Es un algoritmo de agrupamiento estrechamente relacionado con k-means. La diferencia práctica entre los dos es la siguiente:

  • En k-means, los centroides se determinan minimizando la suma de los cuadrados de la distancia entre un centroide candidato y cada uno de sus ejemplos.
  • En k-median, los centroides se determinan minimizando la suma de la distancia entre un centroide candidato y cada uno de sus ejemplos.

Ten en cuenta que las definiciones de distancia también son diferentes:

  • k-means se basa en la distancia euclidiana del centroide a un ejemplo. (En dos dimensiones, la distancia euclidiana significa usar el teorema de Pitágoras para calcular la hipotenusa). Por ejemplo, la distancia de k-means entre (2,2) y (5,-2) sería:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median se basa en la distancia Manhattan del centroide a un ejemplo. Esta distancia es la suma de los deltas absolutos en cada dimensión. Por ejemplo, la distancia k-mediana entre (2,2) y (5,-2) sería:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regularización L0

#fundamentals

Un tipo de regularización que penaliza la cantidad total de pesos distintos de cero en un modelo. Por ejemplo, un modelo que tenga 11 pesos distintos de cero se penalizará más que un modelo similar que tenga 10 pesos distintos de cero.

A veces, la regularización L0 se denomina regularización de la norma L0.

Pérdida L1

#fundamentals

Una función de pérdida que calcula el valor absoluto de la diferencia entre los valores reales de la etiqueta y los valores que predice un modelo. Por ejemplo, este es el cálculo de la pérdida de L1 para un lote de cinco ejemplos:

Valor real del ejemplo Valor predicho del modelo Valor absoluto de delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = Pérdida de L1

La pérdida L1 es menos sensible a los valores atípicos que la pérdida L2.

El error absoluto medio es la pérdida promedio de L1 por ejemplo.

Regularización L1

#fundamentals

Tipo de regularización que penaliza los pesos en proporción a la suma del valor absoluto de los pesos. La regularización L1 ayuda a llevar los pesos de los atributos irrelevantes o poco relevantes a exactamente 0. Un atributo con un peso de 0 se quita de forma efectiva del modelo.

Compara esto con la regularización L2.

Pérdida L2

#fundamentals

Una función de pérdida que calcula el cuadrado de la diferencia entre los valores reales de la etiqueta y los valores que predice un modelo. Por ejemplo, este es el cálculo de la pérdida L2 para un lote de cinco ejemplos:

Valor real del ejemplo Valor predicho del modelo Cuadrado de delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = Pérdida de L2

Debido al componente cuadrático, la pérdida L2 amplifica la influencia de los valores atípicos. Es decir, la pérdida de L2 reacciona de manera más severa a las predicciones incorrectas que la pérdida de L1. Por ejemplo, la pérdida de L1 para el lote anterior sería de 8 en lugar de 16. Ten en cuenta que un solo valor extremo representa 9 de los 16.

Los modelos de regresión suelen usar la pérdida L2 como función de pérdida.

El error cuadrático medio es la pérdida promedio de L2 por ejemplo. La pérdida al cuadrado es otro nombre para la pérdida de L2.

Regularización L2

#fundamentals

Tipo de regularización que penaliza los pesos en proporción a la suma de los cuadrados de los pesos. La regularización L2 ayuda a llevar los pesos de los valores atípicos (aquellos con valores negativos bajos o positivos altos) más cerca del 0, pero no exactamente a ese número. Los atributos con valores muy cercanos a 0 permanecen en el modelo, pero no influyen mucho en la predicción del modelo.

La regularización L2 siempre mejora la generalización en los modelos lineales.

Compara esto con la regularización1.

etiqueta

#fundamentals

En el aprendizaje automático supervisado, la parte de "respuesta" o "resultado" de un ejemplo.

Cada ejemplo etiquetado consta de uno o más atributos y una etiqueta. Por ejemplo, en un conjunto de datos de detección de spam, la etiqueta probablemente sería "es spam" o "no es spam". En un conjunto de datos de precipitación, la etiqueta podría ser la cantidad de lluvia que cayó durante un período determinado.

ejemplo etiquetado

#fundamentals

Un ejemplo que contiene uno o más atributos y una etiqueta. Por ejemplo, en la siguiente tabla, se muestran tres ejemplos etiquetados de un modelo de valoración de casas, cada uno con tres atributos y una etiqueta:

Cantidad de dormitorios Cantidad de baños Antigüedad de la casa Precio de la casa (etiqueta)
3 2 15 USD 345,000
2 1 72 USD 179,000
4 2 34 USD 392,000

En el aprendizaje automático supervisado, los modelos se entrenan con ejemplos etiquetados y realizan predicciones sobre ejemplos sin etiqueta.

Contrasta el ejemplo etiquetado con los ejemplos sin etiqueta.

Filtración de etiquetas

Es un defecto de diseño del modelo en el que un atributo es un proxy para la etiqueta. Por ejemplo, considera un modelo de clasificación binaria que predice si un cliente potencial comprará o no un producto en particular. Supongamos que una de las características del modelo es un valor booleano llamado SpokeToCustomerAgent. Supongamos además que un agente de atención al cliente solo se asigna después de que el cliente potencial haya comprado el producto. Durante el entrenamiento, el modelo aprenderá rápidamente la asociación entre SpokeToCustomerAgent y la etiqueta.

lambda

#fundamentals

Sinónimo de tasa de regularización.

Lambda es un término sobrecargado. Aquí nos referimos a la definición del término dentro de la regularización.

LaMDA (Modelo de lenguaje para aplicaciones de diálogo)

#language

Un modelo de lenguaje extenso basado en Transformer desarrollado por Google y entrenado en un conjunto de datos de diálogo grande que puede generar respuestas de conversación realistas.

LaMDA: nuestra innovadora tecnología conversacional proporciona una descripción general.

puntos de referencia

#image

Sinónimo de puntos de interés.

modelo de lenguaje

#language

Un modelo que estima la probabilidad de que un token o una secuencia de tokens ocurra en una secuencia más larga de tokens.

modelo de lenguaje extenso

#language

Como mínimo, un modelo de lenguaje que tenga una cantidad muy alta de parámetros. De manera más informal, cualquier modelo de lenguaje basado en Transformer, como Gemini o GPT.

espacio latente

#language

Sinónimo de espacio de incorporación.

oculta

#fundamentals

Un conjunto de neuronas en una red neuronal. Los siguientes son tres tipos comunes de capas:

Por ejemplo, en la siguiente ilustración, se muestra una red neuronal con una capa de entrada, dos capas ocultas y una capa de salida:

Una red neuronal con una capa de entrada, dos capas ocultas y una

          capa de salida. La capa de entrada consta de dos componentes. La primera capa oculta consta de tres neuronas y la segunda capa oculta consta de dos neuronas. La capa de salida consta de un solo nodo.

En TensorFlow, las capas también son funciones de Python que toman tensores y opciones de configuración como entrada y producen otros tensores como resultado.

API de Layers (tf.layers)

#TensorFlow

API de TensorFlow para construir una red neuronal profunda como una composición de capas. Permite desarrollar diferentes tipos de capas, como las siguientes:

La API de Layers sigue las convenciones de la API de capas de Keras. Esto significa que, aparte de un prefijo diferente, todas las funciones de la API de Layers tienen los mismos nombres y firmas que sus contrapartes en la API de Layers de Keras.

hoja

#df

Cualquier extremo en un árbol de decisión A diferencia de una condición, un elemento hoja no realiza una prueba. En cambio, una hoja es una predicción posible. Una hoja también es el nodo terminal de una ruta de inferencia.

Por ejemplo, el siguiente árbol de decisión contiene tres hojas:

Árbol de decisión con dos condiciones que conducen a tres hojas.

Herramienta de interpretabilidad de aprendizaje (LIT)

Una herramienta visual e interactiva de comprensión de modelos y visualización de datos.

Puedes usar LIT de código abierto para interpretar modelos o visualizar datos tabulares, de imagen y de texto.

tasa de aprendizaje

#fundamentals

Es un número de punto flotante que le indica al algoritmo de descenso de gradientes con qué intensidad ajustar los pesos y los sesgos en cada iteración. Por ejemplo, una tasa de aprendizaje de 0.3 ajustaría los pesos y sesgos tres veces más potente que una tasa de aprendizaje de 0.1.

La tasa de aprendizaje es un hiperparámetro clave. Si estableces demasiado baja la tasa de aprendizaje, el entrenamiento demorará demasiado. Si configuras la tasa de aprendizaje demasiado alta, el descenso de gradientes suele tener problemas para alcanzar la convergencia.

regresión de mínimos cuadrados

Un modelo de regresión lineal entrenado mediante la minimización de la pérdida de L2.

Distancia de Levenshtein

#language
#metric

Es una métrica de distancia de edición que calcula la menor cantidad de operaciones de eliminación, inserción y sustitución necesarias para cambiar una palabra por otra. Por ejemplo, la distancia de Levenshtein entre las palabras “corazón” y “dardos” es tres porque las siguientes tres ediciones son los cambios más mínimos para convertir una palabra en la otra:

  1. corazón → deart (sustituye la “h” por la “d”)
  2. deart → dart (quita la "e")
  3. dardo → dardos (agregar “s”)

Ten en cuenta que la secuencia anterior no es la única ruta de tres ediciones.

linear

#fundamentals

Es una relación entre dos o más variables que se puede representar únicamente a través de la adición y la multiplicación.

El gráfico de una relación lineal es una línea.

Compara esto con no lineal.

modelo lineal

#fundamentals

Un modelo que asigna un peso por atributo para realizar predicciones. (Los modelos lineales también incorporan un sesgo). Por el contrario, la relación de las características con las predicciones en los modelos profundos suele ser no lineal.

Los modelos lineales suelen ser más fáciles de entrenar y más interpretables que los modelos profundos. Sin embargo, los modelos profundos pueden aprender relaciones complejas entre atributos.

La regresión lineal y la regresión logística son dos tipos de modelos lineales.

regresión lineal

#fundamentals

Un tipo de modelo de aprendizaje automático en el que se cumplen las siguientes condiciones:

  • El modelo es un modelo lineal.
  • La predicción es un valor de punto flotante. (esta es la parte de regresión de la regresión lineal).

Compara la regresión lineal con la regresión logística. Además, compara la regresión con la clasificación.

LIT

Es la sigla en inglés de la herramienta de interpretabilidad de aprendizaje (LIT), que antes se conocía como herramienta de interpretabilidad de lenguaje.

LLM

#language
#generativeAI

Abreviatura de modelo de lenguaje extenso.

Evaluaciones de LLM (evals)

#language
#generativeAI

Un conjunto de métricas y comparativas para evaluar el rendimiento de los modelos de lenguaje extenso (LLM). A grandes rasgos, las evaluaciones de LLM hacen lo siguiente:

  • Ayuda a los investigadores a identificar áreas en las que los LLM necesitan mejorar.
  • Son útiles para comparar diferentes LLM y, así, identificar el mejor para una tarea en particular.
  • Ayudar a garantizar que los LLM sean seguros y éticos de usar

regresión logística

#fundamentals

Es un tipo de modelo de regresión que predice una probabilidad. Los modelos de regresión logística tienen las siguientes características:

  • La etiqueta es categórica. El término regresión logística suele referirse a la regresión logística binaria, es decir, a un modelo que calcula probabilidades para etiquetas con dos valores posibles. Una variante menos común, la regresión logística multinomial, calcula las probabilidades de las etiquetas con más de dos valores posibles.
  • La función de pérdida durante el entrenamiento es la Pérdida logística. (Se pueden colocar varias unidades de pérdida de registro en paralelo para etiquetas con más de dos valores posibles).
  • El modelo tiene una arquitectura lineal, no una red neuronal profunda. Sin embargo, el resto de esta definición también se aplica a los modelos profundos que predicen probabilidades para etiquetas categóricas.

Por ejemplo, considera un modelo de regresión logística que calcula la probabilidad de que un correo electrónico de entrada sea spam o no. Durante la inferencia, supongamos que el modelo predice 0.72. Por lo tanto, el modelo estima lo siguiente:

  • Una probabilidad del 72% de que el correo electrónico sea spam.
  • Una probabilidad del 28% de que el correo electrónico no sea spam.

Un modelo de regresión logística usa la siguiente arquitectura de dos pasos:

  1. El modelo genera una predicción sin procesar (y') aplicando una función lineal de atributos de entrada.
  2. El modelo usa esa predicción sin procesar como entrada para una función sigmoidea, que convierte la predicción sin procesar en un valor entre 0 y 1, de forma exclusiva.

Al igual que cualquier modelo de regresión, un modelo de regresión logística predice un número. Sin embargo, este número suele formar parte de un modelo de clasificación binaria de la siguiente manera:

  • Si el número previsto es mayor que el umbral de clasificación, el modelo de clasificación binaria predice la clase positiva.
  • Si el número previsto es menor que el umbral de clasificación, el modelo de clasificación binaria predice la clase negativa.

logits

Es el vector de predicciones sin procesar (no normalizadas) que genera un modelo de clasificación, que, por lo general, se pasa a una función de normalización. Si el modelo resuelve un problema de clasificación multiclase, los logits suelen convertirse en una entrada para la función softmax. Luego, la función softmax genera un vector de probabilidades (normalizadas) con un valor para cada clase posible.

Pérdida logística

#fundamentals

La función de pérdida que se usa en la regresión logística binaria.

logaritmo de probabilidad

#fundamentals

Es el logaritmo de las probabilidades de algún evento.

Memoria a corto plazo de larga duración (LSTM)

#seq

Es un tipo de célula en una red neuronal recurrente que se usa para procesar secuencias de datos en aplicaciones como el reconocimiento de escritura a mano, la traducción automática y la generación de leyendas de imágenes. Las LSTM abordan el problema del gradiente que desaparece que se produce cuando se entrenan RNN debido a secuencias de datos largas, ya que mantienen el historial en un estado de memoria interna basado en la entrada y el contexto nuevos de las celdas anteriores en la RNN.

Laura

#language
#generativeAI

Abreviatura de adaptabilidad de bajo rango.

pérdida

#fundamentals

Durante el entrenamiento de un modelo supervisado, es una medida de qué tan lejos está la predicción de un modelo de su etiqueta.

Una función de pérdida calcula la pérdida.

agregador de pérdidas

Es un tipo de algoritmo de aprendizaje automático que mejora el rendimiento de un modelo combinando las predicciones de varios modelos y usándolas para hacer una sola predicción. Como resultado, un agregador de pérdidas puede reducir la varianza de las predicciones y mejorar su precisión.

curva de pérdida

#fundamentals

Un gráfico de pérdida como función de la cantidad de iteraciones de entrenamiento. En el siguiente gráfico, se muestra una curva de pérdida típica:

Un gráfico cartesiano de pérdida en comparación con las iteraciones de entrenamiento, que muestra una caída rápida de la pérdida para las iteraciones iniciales, seguida de una disminución gradual y, luego, una pendiente plana durante las iteraciones finales.

Las curvas de pérdida pueden ayudarte a determinar cuándo tu modelo está convergendo o sobreajustándose.

Las curvas de pérdidas pueden graficar todos los siguientes tipos de pérdidas:

Consulta también la curva de generalización.

función de pérdida

#fundamentals

Durante el entrenamiento o las pruebas, es una función matemática que calcula la pérdida en un lote de ejemplos. Una función de pérdida muestra una pérdida más baja para los modelos que hacen buenas predicciones que para los modelos que hacen predicciones erróneas.

Por lo general, el objetivo del entrenamiento es minimizar la pérdida que muestra una función de pérdida.

Existen muchos tipos diferentes de funciones de pérdida. Elige la función de pérdida adecuada para el tipo de modelo que estás compilando. Por ejemplo:

superficie de pérdida

Un gráfico de pesos en comparación con la pérdida. El descenso de gradientes tiene como objetivo encontrar los pesos para los cuales la superficie de pérdida es el mínimo local.

Adaptabilidad de bajo rango (LoRA)

#language
#generativeAI

Una técnica eficiente en parámetros para el ajuste fino que “congela” los pesos previamente entrenados del modelo (de modo que ya no se puedan modificar) y, luego, inserta un pequeño conjunto de pesos entrenables en el modelo. Este conjunto de pesos entrenables (también conocidos como "matrices de actualización") es considerablemente más pequeño que el modelo base y, por lo tanto, es mucho más rápido de entrenar.

LoRA ofrece los siguientes beneficios:

  • Mejora la calidad de las predicciones de un modelo para el dominio en el que se aplica el ajuste fino.
  • Realiza ajustes más rápido que las técnicas que requieren ajustar todos los parámetros de un modelo.
  • Reduce el costo de procesamiento de la inferencia, ya que habilita la entrega simultánea de varios modelos especializados que comparten el mismo modelo de base.

LSTM

#seq

Abreviatura de memoria a corto plazo de larga duración.

M

aprendizaje automático

#fundamentals

Es un programa o sistema que entrena un modelo a partir de datos de entrada. El modelo entrenado puede hacer predicciones útiles a partir de datos nuevos (nunca vistos) extraídos de la misma distribución que la utilizada para entrenar el modelo.

El aprendizaje automático también se conoce como el campo de estudio relacionado con estos programas o sistemas.

traducción automática

#generativeAI

Usar software (por lo general, un modelo de aprendizaje automático) para convertir texto de un idioma humano a otro, por ejemplo, de inglés a japonés

clase mayoritaria

#fundamentals

Es la etiqueta más común en un conjunto de datos con desequilibrio de clases. Por ejemplo, dado un conjunto de datos con 99% de etiquetas negativas y 1% de etiquetas positivas, la clase mayoritaria son las etiquetas negativas.

Compara esto con la clase minoritaria.

Proceso de decisión de Markov (MDP)

#rl

Un gráfico que representa el modelo de toma de decisiones en el que se toman decisiones (o acciones) para navegar por una secuencia de estados, suponiendo que se cumple la propiedad de Markov. En el aprendizaje por refuerzo, estas transiciones entre estados devuelven una recompensa numérica.

Propiedad de Markov

#rl

Es una propiedad de ciertos entornos, en los que las transiciones de estado están determinadas por completo por la información implícita en el estado actual y la acción del agente.

modelo de lenguaje enmascarado

#language

Un modelo de lenguaje que predice la probabilidad de que los tokens candidatos completen espacios en blanco en una secuencia. Por ejemplo, un modelo de lenguaje con enmascaramiento puede calcular las probabilidades de las palabras candidatas para reemplazar el subrayado en la siguiente oración:

Volvió el ____ en el sombrero.

Por lo general, la literatura usa la cadena "MASK" en lugar de una línea debajo. Por ejemplo:

Volvió a aparecer la "MASCARA" en el sombrero.

La mayoría de los modelos de lenguaje con enmascaramiento modernos son bidireccionales.

matplotlib

Es una biblioteca de código abierto Python 2D para generación de gráficos. matplotlib te ayuda a visualizar diferentes aspectos del aprendizaje automático.

factorización de matrices

#recsystems

En matemática, un mecanismo para encontrar las matrices cuyo producto escalar se aproxima a una matriz objetivo.

En los sistemas de recomendación, la matriz objetivo a menudo contiene las calificaciones de los usuarios sobre los elementos. Por ejemplo, la matriz objetivo para un sistema de recomendación de películas podría verse como la siguiente, donde los enteros positivos son calificaciones de usuarios y 0 significa que el usuario no calificó la película.

  Casablanca The Philadelphia Story Pantera Negra Mujer Maravilla Tiempos violentos
Usuario 1 5.0 3.0 0.0 2.0 0.0
Usuario 2 4.0 0.0 0.0 1.0 5.0
Usuario 3 3.0 1.0 4.0 5.0 0.0

El sistema de recomendación de películas apunta a predecir las calificaciones de los usuarios para las películas que no se calificaron. Por ejemplo, ¿le gustará al Usuario 1 Pantera Negra?

Un enfoque para sistemas de recomendación es utilizar la factorización de matrices para generar las siguientes dos matrices:

  • Una matriz de usuarios, formada por la cantidad de usuarios X la cantidad de dimensiones de incorporación
  • Una matriz de elementos, formada por la cantidad de dimensiones de incorporación X la cantidad de elementos

Por ejemplo, el uso de la factorización de matrices en estos tres usuarios y cinco elementos podría generar la siguiente matriz de usuarios y matriz de elementos:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

El producto escalar de la matriz de usuarios y la matriz de elementos produce una matriz de recomendación que contiene no solo las calificaciones originales de los usuarios, sino también las predicciones para las películas que cada usuario no ha visto. Por ejemplo, considera la calificación del Usuario 1 de Casablanca que fue de 5.0. El producto escalar correspondiente a esa celda en la matriz de recomendación debería ser de alrededor 5.0, y es:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Más importante aún, ¿al Usuario 1 le gustará Pantera Negra? Tomando el producto escalar correspondiente a la primera fila y la tercera columna se obtiene una calificación pronosticada de 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

La factorización de matrices generalmente produce una matriz de usuarios y una matriz de elementos que, en conjunto, son significativamente más compactas que la matriz objetivo.

Error absoluto medio (MAE)

Es la pérdida promedio por ejemplo cuando se usa la pérdida de L1. Calcula el error absoluto medio de la siguiente manera:

  1. Calcula la pérdida L1 de un lote.
  2. Divide la pérdida de L1 por la cantidad de ejemplos del lote.

Por ejemplo, considera el cálculo de la pérdida de L1 en el siguiente lote de cinco ejemplos:

Valor real del ejemplo Valor predicho del modelo Pérdida (diferencia entre el valor real y el previsto)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = Pérdida de L1

Por lo tanto, la pérdida de L1 es 8 y la cantidad de ejemplos es 5. Por lo tanto, el error absoluto medio es:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Contrasta el error absoluto medio con el error cuadrático medio y la raíz cuadrada del error cuadrático medio.

precisión promedio en k (mAP@k)

#language
#generativeAI

Es la media estadística de todas las puntuaciones de precisión promedio en k en un conjunto de datos de validación. Un uso de la precisión promedio ponderada en k es juzgar la calidad de las recomendaciones que genera un sistema de recomendación.

Aunque la frase “promedio medio” suena redundante, el nombre de la métrica es apropiado. Después de todo, esta métrica encuentra el promedio de varios valores de precisión promedio en k.

Error cuadrático medio (ECM)

Es la pérdida promedio por ejemplo cuando se usa la pérdida L2. Calcula el error cuadrático medio de la siguiente manera:

  1. Calcula la pérdida L2 de un lote.
  2. Divide la pérdida de L2 por la cantidad de ejemplos del lote.

Por ejemplo, considera la pérdida en el siguiente lote de cinco ejemplos:

Valor real Predicción del modelo Pérdida Pérdida al cuadrado
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = Pérdida de L2

Por lo tanto, el error cuadrático medio es:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

El error cuadrático medio es un optimizador de entrenamiento popular, en particular para la regresión lineal.

Contrasta el error cuadrático medio con el error absoluto medio y la raíz cuadrada del error cuadrático medio.

TensorFlow Playground usa el error cuadrático medio para calcular los valores de pérdida.

malla

#TensorFlow
#GoogleCloud

En la programación en paralelo de AA, es un término asociado con la asignación de los datos y el modelo a los chips de TPU, y la definición de cómo se fragmentarán o replicarán estos valores.

Malla es un término sobrecargado que puede significar una de las siguientes opciones:

  • Un diseño físico de los chips TPU.
  • Es una construcción lógica abstracta para asignar los datos y el modelo a los chips de TPU.

En cualquier caso, una malla se especifica como una forma.

metaaprendizaje

#language

Es un subconjunto del aprendizaje automático que descubre o mejora un algoritmo de aprendizaje. Un sistema de metaaprendizaje también puede tener como objetivo entrenar un modelo para que aprenda rápidamente una tarea nueva a partir de una pequeña cantidad de datos o de la experiencia obtenida en tareas anteriores. Por lo general, los algoritmos de metaaprendizaje intentan lograr lo siguiente:

  • Mejorar o aprender funciones diseñadas a mano (como un inicializador o un optimizador)
  • Son más eficientes en el uso de datos y procesamiento.
  • Mejora la generalización.

El metaaprendizaje está relacionado con el aprendizaje en pocos intentos.

métrica

#TensorFlow

Una estadística importante para ti.

Un objetivo es una métrica que un sistema de aprendizaje automático intenta optimizar.

API de Metrics (tf.metrics)

Una API de TensorFlow para evaluar modelos. Por ejemplo, tf.metrics.accuracy determina la frecuencia con la que las predicciones de un modelo coinciden con las etiquetas.

minilote

#fundamentals

Es un subconjunto pequeño seleccionado al azar de un lote procesado en una iteración. El tamaño del lote de un minilote suele ser de entre 10 y 1,000 ejemplos.

Por ejemplo, supongamos que todo el conjunto de entrenamiento (el lote completo) contiene 1,000 ejemplos. Supongamos además que estableces el tamaño del lote de cada minilote en 20. Por lo tanto, cada iteración determina la pérdida en 20 de los 1,000 ejemplos aleatorios y, luego, ajusta los pesos y los sesgos según corresponda.

Es mucho más eficiente calcular la pérdida en un minilote que la pérdida en todos los ejemplos del lote completo.

descenso de gradientes estocástico (SGD) de minilotes

Un algoritmo de descenso de gradientes que usa minilotes. En otras palabras, el descenso estocástico de gradientes por minilotes estima el gradiente en función de un subconjunto pequeño de los datos de entrenamiento. El descenso de gradientes estocástico normal usa un minilote de tamaño 1.

pérdida minimax

Una función de pérdida para las redes generativas adversas, basada en la entropía cruzada entre la distribución de datos generados y los datos reales.

La pérdida minimax se usa en el primer artículo para describir las redes generativas adversas.

clase minoritaria

#fundamentals

Etiqueta menos común en un conjunto de datos con desequilibrio de clases. Por ejemplo, dado un conjunto de datos con 99% de etiquetas negativas y 1% de etiquetas positivas, la clase minoritaria son las etiquetas positivas.

Compara esto con la clase mayoritaria.

mezcla de expertos

#language
#generativeAI

Un esquema para aumentar la eficiencia de la red neuronal con el uso de solo un subconjunto de sus parámetros (conocido como experto) para procesar un token o ejemplo de entrada determinado. Una red de control enruta cada token o ejemplo de entrada a los expertos adecuados.

Para obtener más información, consulta cualquiera de los siguientes documentos:

AA

Abreviatura de aprendizaje automático.

MMIT

#language
#image
#generativeAI

Abreviatura de ajuste de instrucciones multimodales.

MNIST

#image

Un conjunto de datos de dominio público compilado por LeCun, Cortes y Burges que contiene 60,000 imágenes, cada imagen muestra cómo un ser humano escribió de forma manual un dígito particular del 0 al 9. Cada imagen se almacena como una matriz de enteros de 28 × 28, donde cada número entero es un valor de una escala de grises entre 0 y 255, ambos incluidos.

MNIST es un conjunto de datos canónico para el aprendizaje automático que a menudo se utiliza para probar nuevos enfoques de AA. Para obtener más información, consulta The MNIST Database of Handwritten Digits.

modality

#language

Es una categoría de datos de alto nivel. Por ejemplo, los números, el texto, las imágenes, los videos y el audio son cinco modalidades diferentes.

modelo

#fundamentals

En general, cualquier construcción matemática que procese datos de entrada y muestre resultados. Dicho de otra manera, un modelo es el conjunto de parámetros y estructura necesarios para que un sistema realice predicciones. En el aprendizaje automático supervisado, un modelo toma un ejemplo como entrada y deduce una predicción como resultado. Dentro del aprendizaje automático supervisado, los modelos difieren un poco. Por ejemplo:

  • Un modelo de regresión lineal consta de un conjunto de pesos y un sesgo.
  • Un modelo de red neuronal consta de lo siguiente:
    • Un conjunto de capas ocultas, cada una de las cuales contiene una o más neuronas.
    • Los pesos y sesgos asociados con cada neurona.
  • Un modelo de árbol de decisión consta de lo siguiente:
    • La forma del árbol, es decir, el patrón en el que se conectan las condiciones y las hojas.
    • Las condiciones y las hojas.

Puedes guardar, restablecer o hacer copias de un modelo.

El aprendizaje automático no supervisado también genera modelos, por lo general, una función que puede asignar un ejemplo de entrada al clúster más apropiado.

capacidad del modelo

La complejidad de los problemas que un modelo puede aprender. Mientras más complejos sean los problemas que un modelo puede aprender, mayor será la capacidad del modelo. La capacidad de un modelo generalmente aumenta con la cantidad de parámetros del modelo. Para una definición formal de capacidad del clasificador, consulta Dimensión VC.

aplicación en cascada de modelos

#generativeAI

Un sistema que elige el modelo ideal para una consulta de inferencia específica.

Imagina un grupo de modelos, que van desde muy grandes (muchos parámetros) hasta mucho más pequeños (muchos menos parámetros). Los modelos muy grandes consumen más recursos de procesamiento en el momento de la inferencia que los modelos más pequeños. Sin embargo, los modelos muy grandes suelen inferir solicitudes más complejas que los modelos más pequeños. La anidación de modelos determina la complejidad de la consulta de inferencia y, luego, elige el modelo adecuado para realizar la inferencia. La motivación principal de la cascada de modelos es reducir los costos de inferencia, ya que, por lo general, se seleccionan modelos más pequeños y solo se selecciona un modelo más grande para consultas más complejas.

Imagina que un modelo pequeño se ejecuta en un teléfono y una versión más grande de ese modelo se ejecuta en un servidor remoto. Una buena cascada de modelos reduce el costo y la latencia, ya que permite que el modelo más pequeño controle solicitudes simples y solo llame al modelo remoto para controlar solicitudes complejas.

Consulta también model router.

paralelismo de modelos

#language

Es una forma de escalar el entrenamiento o la inferencia que coloca diferentes partes de un modelo en diferentes dispositivos. El paralelismo de modelos permite que los modelos que son demasiado grandes para caber en un solo dispositivo.

Para implementar el paralelismo de modelos, un sistema suele hacer lo siguiente:

  1. Fragmenta (divide) el modelo en partes más pequeñas.
  2. Distribuye el entrenamiento de esas partes más pequeñas en varios procesadores. Cada procesador entrena su propia parte del modelo.
  3. Combina los resultados para crear un solo modelo.

El paralelismo de modelos ralentiza el entrenamiento.

Consulta también paralelismo de datos.

router de modelo

#generativeAI

Es el algoritmo que determina el modelo ideal para la inferencia en la cascada de modelos. Por lo general, un router de modelos es un modelo de aprendizaje automático que aprende gradualmente a elegir el mejor modelo para una entrada determinada. Sin embargo, a veces, un router de modelos puede ser un algoritmo más simple que no es de aprendizaje automático.

entrenamiento de modelos

Proceso mediante el cual se determina el mejor modelo.

MOE

#language
#image
#generativeAI

Abreviatura de combinación de expertos.

Momentum

Un algoritmo de descenso de gradientes sofisticado en el que un paso de aprendizaje depende no solo de la derivada del paso actual, sino también de las derivadas de los pasos que lo precedieron inmediatamente. El momento implica calcular un promedio móvil ponderado exponencialmente de los gradientes a lo largo del tiempo, análogo al momento en física. En ocasiones, el momento impide que el aprendizaje se bloquee en mínimos locales.

MT

#generativeAI

Abreviatura de traducción automática.

clasificación de varias clases

#fundamentals

En el aprendizaje supervisado, un problema de clasificación en el que el conjunto de datos contiene más de dos clases de etiquetas. Por ejemplo, las etiquetas del conjunto de datos de Iris deben ser una de las siguientes tres clases:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Un modelo entrenado en el conjunto de datos de Iris que predice el tipo de Iris en ejemplos nuevos realiza una clasificación de varias clases.

Por el contrario, los problemas de clasificación que distinguen entre exactamente dos clases son modelos de clasificación binaria. Por ejemplo, un modelo de correo electrónico que predice spam o no spam es un modelo de clasificación binaria.

En los problemas de agrupamiento, la clasificación de clases múltiples hace referencia a más de dos clústeres.

regresión logística multiclase

Usar regresión logística en problemas de clasificación multiclase

autoatención de múltiples cabezas

#language

Es una extensión de la atención automática que aplica el mecanismo de atención automática varias veces para cada posición en la secuencia de entrada.

Transformers introdujo la autoatención multidireccional.

instrucción multimodal ajustada

#language

Un modelo ajustado por instrucciones que puede procesar entradas más allá del texto, como imágenes, videos y audio.

modelo multimodal

#language

Un modelo cuyas entradas o salidas incluyen más de una modalidad. Por ejemplo, considera un modelo que tome una imagen y una leyenda de texto (dos modalidades) como atributos y genere una puntuación que indique qué tan adecuada es la leyenda de texto para la imagen. Por lo tanto, las entradas de este modelo son multimodales y la salida es unimodal.

clasificación multinomial

Sinónimo de clasificación de clases múltiples.

regresión multinomial

Sinónimo de regresión logística multiclase.

realizar varias tareas a la vez

Es una técnica de aprendizaje automático en la que se entrena un solo modelo para realizar varias tareas.

Los modelos multitarea se crean entrenando con datos adecuados para cada una de las diferentes tareas. Esto permite que el modelo aprenda a compartir información entre las tareas, lo que lo ayuda a aprender de forma más eficaz.

Un modelo entrenado para varias tareas suele tener mejores capacidades de generalización y puede ser más sólido para manejar diferentes tipos de datos.

N

Trampa de NaN

Cuando un número del modelo se vuelve un NaN durante el entrenamiento, lo que causa que muchos otros números del modelo eventualmente se vuelvan un NaN.

NaN es una abreviatura de No un Número.

procesamiento de lenguaje natural

#language
Es el campo de la enseñanza a las computadoras para que procesen lo que un usuario dijo o escribió con reglas lingüísticas. Casi todo el procesamiento de lenguaje natural moderno se basa en el aprendizaje automático.

comprensión del lenguaje natural

#language

Es un subconjunto del procesamiento de lenguaje natural que determina las intenciones de algo que se dijo o escribió. La comprensión del lenguaje natural puede ir más allá del procesamiento de lenguaje natural para considerar aspectos complejos del lenguaje, como el contexto, el sarcasmo y las opiniones.

clase negativa

#fundamentals

En la clasificación binaria, una clase se expresa como positiva y la otra como negativa. La clase positiva es el objeto o evento que el modelo está probando, y la clase negativa es la otra posibilidad. Por ejemplo:

  • La clase negativa en una prueba médica puede ser "no es un tumor".
  • La clase negativa en un clasificador de correo electrónico puede ser "no es spam".

Compara esto con la clase positiva.

muestreo negativo

Sinónimo de muestreo de candidatos.

Búsqueda de arquitectura neuronal (NAS)

Es una técnica para diseñar automáticamente la arquitectura de una red neuronal. Los algoritmos de NAS pueden reducir la cantidad de tiempo y recursos necesarios para entrenar una red neuronal.

Por lo general, el NAS usa lo siguiente:

  • Un espacio de búsqueda, que es un conjunto de arquitecturas posibles.
  • Una función de aptitud, que es una medida de qué tan bien funciona una arquitectura particular en una tarea determinada.

Los algoritmos de NAS suelen comenzar con un pequeño conjunto de arquitecturas posibles y expandir gradualmente el espacio de búsqueda a medida que el algoritmo aprende más sobre qué arquitecturas son eficaces. Por lo general, la función de aptitud se basa en el rendimiento de la arquitectura en un conjunto de entrenamiento, y el algoritmo suele entrenarse con una técnica de aprendizaje por refuerzo.

Los algoritmos de NAS demostraron ser eficaces para encontrar arquitecturas de alto rendimiento para una variedad de tareas, como la clasificación de imágenes, la clasificación de texto y la traducción automática.

neuronal prealimentada

#fundamentals

Un modelo que contenga al menos una capa oculta. Una red neuronal profunda es un tipo de red neuronal que contiene más de una capa oculta. Por ejemplo, en el siguiente diagrama, se muestra una red neuronal profunda que contiene dos capas ocultas.

Una red neuronal con una capa de entrada, dos capas ocultas y una de salida

Cada neurona de una red neuronal se conecta a todos los nodos de la siguiente capa. Por ejemplo, en el diagrama anterior, observa que cada una de las tres neuronas de la primera capa oculta se conecta por separado a las dos neuronas de la segunda capa oculta.

Las redes neuronales implementadas en computadoras a veces se denominan redes neuronales artificiales para diferenciarlas de las redes neuronales que se encuentran en el cerebro y otros sistemas nerviosos.

Algunas redes neuronales pueden imitar relaciones no lineales extremadamente complejas entre diferentes atributos y la etiqueta.

Consulta también red neuronal convolucional y red neuronal recurrente.

neurona

#fundamentals

En el aprendizaje automático, es una unidad distinta dentro de una capa oculta de una red neuronal. Cada neurona realiza la siguiente acción de dos pasos:

  1. Calcula la suma ponderada de los valores de entrada multiplicados por sus pesos correspondientes.
  2. Pasa la suma ponderada como entrada a una función de activación.

Una neurona en la primera capa oculta acepta entradas de los valores de atributos en la capa de entrada. Una neurona en cualquier capa oculta después de la primera acepta entradas de las neuronas de la capa oculta anterior. Por ejemplo, una neurona en la segunda capa oculta acepta entradas de las neuronas de la primera capa oculta.

En la siguiente ilustración, se destacan dos neuronas y sus entradas.

Una red neuronal con una capa de entrada, dos capas ocultas y una de salida Se destacan dos neuronas: una en la primera
          capa oculta y otra en la segunda. La neurona destacada en la primera capa oculta recibe entradas de ambas características en la capa de entrada. La neurona destacada en la segunda capa oculta recibe entradas de cada una de las tres neuronas de la primera capa oculta.

Una neurona en una red neuronal imita el comportamiento de las neuronas en el cerebro y otras partes del sistema nervioso.

N-grama

#seq
#language

Es una secuencia ordenada de n palabras. Por ejemplo, realmente loco es un 2-grama. Ya que el orden es relevante, loco realmente es un 2-grama diferente a realmente loco.

N Nombres para este tipo de n-grama Ejemplos
2 bigrama o 2-grama ir por, por ir, asar carne, asar verduras
3 trigrama o 3-grama ate too much, three blind mice, the bell tolls
4 4-grama walk in the park, dust in the wind, the boy ate lentils

Muchos modelos de comprensión del lenguaje natural se basan en n-gramas para predecir la siguiente palabra que el usuario escribirá o dirá. Por ejemplo, que un usuario escribió tres tristes. Un modelo de CLN basado en trigramas probablemente predeciría que el usuario escribirá a continuación tigres.

Compara los n-gramas con la bolsa de palabras, que son conjuntos desordenados de palabras.

PLN

#language

Abreviatura de procesamiento de lenguaje natural.

CLN

#language

Abreviatura de comprensión del lenguaje natural.

nodo (árbol de decisiones)

#df

En un árbol de decisión, cualquier condición o hoja.

Árbol de decisión con dos condiciones y tres hojas.

nodo (red neuronal)

#fundamentals

Una neurona en una capa oculta.

nodo (grafo de TensorFlow)

#TensorFlow

Una operación en un grafo de TensorFlow.

ruido

En términos generales, cualquier cosa que tape las señales en un conjunto de datos. El ruido puede introducirse en los datos de varias maneras. Por ejemplo:

  • Los evaluadores humanos cometen errores durante el etiquetado.
  • Los instrumentos o personas omiten o registran incorrectamente los valores de atributo.

condición no binaria

#df

Es una condición que contiene más de dos resultados posibles. Por ejemplo, la siguiente condición no binaria contiene tres resultados posibles:

Una condición (number_of_legs = ?) que genera tres resultados posibles. Un resultado (number_of_legs = 8) genera una hoja con el nombre spider. Un segundo resultado (number_of_legs = 4) genera una hoja llamada dog. Un tercer resultado (number_of_legs = 2) genera una hoja llamada pingüino.

no lineal

#fundamentals

Es una relación entre dos o más variables que no se puede representar solo a través de la adición y la multiplicación. Una relación lineal se puede representar como una línea; una relación no lineal no se puede representar como una línea. Por ejemplo, considera dos modelos que relacionan un solo atributo con una sola etiqueta. El modelo de la izquierda es lineal y el de la derecha es no lineal:

Dos parcelas. Un gráfico es una línea, por lo que esta es una relación lineal.
          El otro gráfico es una curva, por lo que se trata de una relación no lineal.

sesgo de no respuesta

#fairness

Consulta sesgo de selección.

no estacionariedad

#fundamentals

Es un atributo cuyos valores cambian en una o más dimensiones, por lo general, el tiempo. Por ejemplo, considera los siguientes ejemplos de no estacionariedad:

  • La cantidad de trajes de baño que se venden en una tienda en particular varía según la temporada.
  • La cantidad de una fruta en particular que se cosecha en una región determinada es cero durante gran parte del año, pero es grande durante un período breve.
  • Debido al cambio climático, las temperaturas medias anuales están cambiando.

Compara esto con la estabilidad.

No hay una sola respuesta correcta (NORA)

#language
#generativeAI

Una sugerencia que tiene varias respuestas adecuadas. Por ejemplo, la siguiente instrucción no tiene una respuesta correcta:

Cuéntame un chiste sobre elefantes.

Evaluar las consignas que no tienen una respuesta correcta puede ser un desafío.

NORA

#language
#generativeAI

Es la sigla en inglés de no hay una sola respuesta correcta.

normalización

#fundamentals

En términos generales, es el proceso de convertir el rango real de valores de una variable en un rango estándar de valores, como los siguientes:

  • De -1 a +1
  • De 0 a 1
  • Puntuaciones Z (aproximadamente, de -3 a +3)

Por ejemplo, supongamos que el rango real de valores de un atributo determinado es de 800 a 2,400. Como parte de la ingeniería de atributos, puedes normalizar los valores reales hasta un rango estándar, como de -1 a +1.

La normalización es una tarea común en la ingeniería de atributos. Los modelos suelen entrenarse más rápido (y producir mejores predicciones) cuando cada atributo numérico del vector de características tiene aproximadamente el mismo rango.

Consulta el módulo Trabajar con datos numéricos del Curso intensivo de aprendizaje automático para obtener más detalles. Consulta también Normalización de la puntuación Z.

detección de novedades

Es el proceso de determinar si un ejemplo nuevo (original) proviene de la misma distribución que el conjunto de entrenamiento. En otras palabras, después de entrenar en el conjunto de entrenamiento, la detección de novedad determina si un ejemplo nuevo (durante la inferencia o durante el entrenamiento adicional) es un valor atípico.

Compara esto con la detección de valores atípicos.

datos numéricos

#fundamentals

Atributos representados como números enteros o de valores reales. Por ejemplo, un modelo de valoración de casas probablemente representaría el tamaño de una casa (en pies cuadrados o metros cuadrados) como datos numéricos. Representar una función como datos numéricos indica que los valores de la función tienen una relación matemática con la etiqueta. Es decir, la cantidad de metros cuadrados de una casa probablemente tenga alguna relación matemática con el valor de la casa.

No todos los datos de números enteros deben representarse como datos numéricos. Por ejemplo, los códigos postales de algunas partes del mundo son números enteros. Sin embargo, los códigos postales enteros no deben representarse como datos numéricos en los modelos. Esto se debe a que un código postal de 20000 no es el doble (o la mitad) de potente que un código postal de 10,000. Además, aunque los diferentes códigos postales se correlacionan con diferentes valores inmobiliarios, no podemos suponer que los valores inmobiliarios del código postal 20000 sean el doble de valiosos que los valores inmobiliarios del código postal 10000. Por lo tanto, los códigos postales deben representarse como datos categóricos.

En algunas ocasiones, las funciones numéricas se denominan atributos continuos.

NumPy

Biblioteca matemática de código abierto que proporciona operaciones de matrices eficaces en Python. Pandas se basa en NumPy.

O

objetivo

Una métrica que tu algoritmo intenta optimizar.

función objetivo

Es la fórmula matemática o métrica que un modelo intenta optimizar. Por ejemplo, la función objetivo para la regresión lineal suele ser la pérdida cuadrática media. Por lo tanto, cuando se entrena un modelo de regresión lineal, el objetivo es minimizar la pérdida cuadrática media.

En algunos casos, el objetivo es maximizar la función objetivo. Por ejemplo, si la función objetivo es la precisión, el objetivo es maximizarla.

Consulta también pérdida.

condición oblicua

#df

En un árbol de decisión, una condición que involucra más de un atributo. Por ejemplo, si la altura y el ancho son atributos, la siguiente es una condición oblicua:

  height > width

Compara esto con la condición alineada con el eje.

Sin conexión

#fundamentals

Es un sinónimo de estático.

inferencia sin conexión

#fundamentals

Es el proceso en el que un modelo genera un lote de predicciones y, luego, almacena en caché (guarda) esas predicciones. Luego, las apps pueden acceder a la predicción inferida desde la caché en lugar de volver a ejecutar el modelo.

Por ejemplo, considera un modelo que genera pronósticos del clima local (predicciones) una vez cada cuatro horas. Después de cada ejecución del modelo, el sistema almacena en caché todos los pronósticos del clima local. Las apps del clima recuperan los pronósticos de la caché.

La inferencia sin conexión también se denomina inferencia estática.

Compara esto con la inferencia en línea.

codificación one-hot

#fundamentals

Representar los datos categóricos como un vector en el que se cumple lo siguiente:

  • Un elemento se establece en 1.
  • Todos los demás elementos se establecen en 0.

La codificación one-hot se usa comúnmente para representar cadenas o identificadores que tienen un conjunto finito de valores posibles. Por ejemplo, supongamos que un atributo categórico determinado llamado Scandinavia tiene cinco valores posibles:

  • "Dinamarca"
  • "Suecia"
  • "Noruega"
  • "Finlandia"
  • "Islandia"

La codificación one-hot podría representar cada uno de los cinco valores de la siguiente manera:

country Vector
"Dinamarca" 1 0 0 0 0
"Suecia" 0 1 0 0 0
"Noruega" 0 0 1 0 0
"Finlandia" 0 0 0 1 0
"Islandia" 0 0 0 0 1

Gracias a la codificación one-hot, un modelo puede aprender diferentes conexiones según cada uno de los cinco países.

Representar un atributo como datos numéricos es una alternativa a la codificación one-hot. Lamentablemente, representar los países escandinavos de forma numérica no es una buena opción. Por ejemplo, considera la siguiente representación numérica:

  • "Denmark" es 0.
  • "Suecia" es 1.
  • "Norway" es 2.
  • "Finlandia" es 3.
  • "Islandia" es 4.

Con la codificación numérica, un modelo interpretaría los números sin procesar de forma matemática y trataría de entrenar con esos números. Sin embargo, Islandia no tiene el doble (ni la mitad) de algo que Noruega, por lo que el modelo llegaría a conclusiones extrañas.

aprendizaje en un intento

Un enfoque de aprendizaje automático, que se usa a menudo para la clasificación de objetos, diseñado para aprender clasificadores eficaces a partir de un solo ejemplo de entrenamiento.

Consulta también aprendizaje en pocos intentos y aprendizaje sin ejemplos.

instrucción con un solo ejemplo

#language
#generativeAI

Una sugerencia que contiene un ejemplo que demuestra cómo debería responder el modelo de lenguaje extenso. Por ejemplo, la siguiente instrucción contiene un ejemplo que muestra a un modelo de lenguaje extenso cómo debe responder una consulta.

Partes de una instrucción Notas
¿Cuál es la moneda oficial del país especificado? La pregunta que quieres que responda el LLM.
Francia: EUR Un ejemplo.
India: Es la consulta real.

Compara y contrasta las instrucciones únicas con los siguientes términos:

uno frente a todos

#fundamentals

Dado un problema de clasificación con N clases, una solución que consta de N clasificadores binarios independientes, es decir, un clasificador binario para cada resultado posible. Por ejemplo, dado un modelo que clasifica ejemplos como animal, vegetal o mineral, una solución de uno frente a todos proporcionaría los siguientes tres clasificadores binarios independientes:

  • animal o no animal
  • vegetal o no vegetal
  • mineral y no mineral

en línea

#fundamentals

Es un sinónimo de dinámico.

inferencia en línea

#fundamentals

Generación de predicciones a pedido. Por ejemplo, imagina que una app pasa una entrada a un modelo y emite una solicitud para una predicción. Un sistema que usa inferencia en línea responde a la solicitud ejecutando el modelo (y devuelve la predicción a la app).

Compara esto con la inferencia sin conexión.

operación (op)

#TensorFlow

En TensorFlow, cualquier procedimiento que crea, manipula o destruye un Tensor. Por ejemplo, una multiplicación de matrices es una operación que toma dos tensores como entrada y genera un tensor como resultado.

Optax

Una biblioteca de procesamiento y optimización de gradientes para JAX. Optax facilita la investigación, ya que proporciona componentes básicos que se pueden recombinar de formas personalizadas para optimizar los modelos paramétricos, como las redes neuronales profundas. Entre otros objetivos, se incluyen los siguientes:

  • Proporciona implementaciones legibles, bien probadas y eficientes de los componentes principales.
  • Mejora la productividad, ya que permite combinar ingredientes de bajo nivel en optimizadores personalizados (o en otros componentes de procesamiento de gradientes).
  • Acelera la adopción de ideas nuevas, ya que permite que cualquier persona contribuya con facilidad.

optimizer

Implementación específica del algoritmo de descenso de gradientes. Entre los optimizadores populares, se incluyen los siguientes:

  • AdaGrad, que significa descenso de gradientes ADAptivo.
  • Adam, que significa ADAptive with Momentum.

sesgo de homogeneidad de los demás

#fairness

La tendencia a ver a los miembros externos a un grupo como más parecidos que los miembros del grupo cuando se comparan actitudes, valores, rasgos de personalidad y otras características. Endogrupal refiere a las personas con las que interactúas regularmente; los demás refiere a las personas con las que no interactúas regularmente. Si se crea un conjunto de datos pidiéndoles atributos a las personas sobre los demás, esos atributos tendrán menos matices y serán más estereotípicos que los atributos que las personas pueden indicar sobre quienes pertenecen a su mismo grupo.

Por ejemplo, los liliputienses podrían describir las casas de otros liliputienses con gran detalle, citando pequeñas diferencias de estilos arquitectónicos, ventanas, puertas y tamaños. Sin embargo, la misma persona de Buenos Aires podría simplemente decir que los ciudadanos de Berlín viven todos en casas idénticas.

El sesgo de homogeneidad de los demás es una forma de sesgo de correspondencia.

Consulta también el sesgo endogrupal.

detección de valores atípicos

Es el proceso de identificar valores atípicos en un conjunto de entrenamiento.

Compara esto con la detección de novedades.

los valores atípicos

Valores alejados de la mayoría de los demás valores. En el aprendizaje automático, cualquiera de los siguientes son valores atípicos:

  • Datos de entrada cuyos valores son aproximadamente 3 desviaciones estándar de la media
  • Pesos con valores absolutos altos
  • Valores predichos relativamente alejados de los valores reales

Por ejemplo, supongamos que widget-price es una característica de un modelo determinado. Supongamos que la media widget-price es de 7 euros con una desviación estándar de 1 euro. Por lo tanto, los ejemplos que contienen un widget-price de 12 euros o 2 euros se considerarían valores atípicos, ya que cada uno de esos precios está a cinco desviaciones estándar de la media.

Los valores atípicos suelen deberse a errores tipográficos o a otros errores de entrada. En otros casos, los valores atípicos no son errores. Después de todo, los valores a cinco desviaciones estándar de la media son poco comunes, pero no imposibles.

Los valores atípicos suelen causar problemas en el entrenamiento del modelo. El recorte es una forma de administrar los valores atípicos.

evaluación fuera del modelo (evaluación fuera del modelo)

#df

Es un mecanismo para evaluar la calidad de un bosque de decisión probando cada árbol de decisión en comparación con los ejemplos que no se usaron durante el entrenamiento de ese árbol de decisión. Por ejemplo, en el siguiente diagrama, observa que el sistema entrena cada árbol de decisión en aproximadamente dos tercios de los ejemplos y, luego, realiza la evaluación en el tercio restante de los ejemplos.

Un bosque de decisión que consta de tres árboles de decisión.
          Un árbol de decisiones se entrena en dos tercios de los ejemplos y, luego, usa el tercio restante para la evaluación fuera del conjunto de entrenamiento.
          Un segundo árbol de decisión se entrena en dos tercios diferentes

          de los ejemplos que el árbol de decisión anterior y, luego,

          usa un tercio diferente para la evaluación fuera del conjunto de entrenamiento que el

          árbol de decisión anterior.

La evaluación fuera del conjunto es una aproximación conservadora y eficiente en términos de procesamiento del mecanismo de validación cruzada. En la validación cruzada, se entrena un modelo para cada ronda de validación cruzada (por ejemplo, se entrenan 10 modelos en una validación cruzada por 10). Con la evaluación fuera del modelo, se entrena un solo modelo. Debido a que el bagged retiene algunos datos de cada árbol durante el entrenamiento, la evaluación fuera del conjunto puede usar esos datos para aproximar la validación cruzada.

capa de salida

#fundamentals

La capa "final" de una red neuronal. La capa de salida contiene la predicción.

En la siguiente ilustración, se muestra una pequeña red neuronal profunda con una capa de entrada, dos capas ocultas y una capa de salida:

Una red neuronal con una capa de entrada, dos capas ocultas y una

          capa de salida. La capa de entrada consta de dos componentes. La primera capa oculta consta de tres neuronas y la segunda capa oculta consta de dos neuronas. La capa de salida consta de un solo nodo.

sobreajuste

#fundamentals

Creación de un modelo que coincida de tal manera con los datos de entrenamiento que no puede realizar predicciones correctas con datos nuevos.

La regularización puede reducir el sobreajuste. El entrenamiento en un conjunto de entrenamiento grande y diverso también puede reducir el sobreajuste.

sobremuestreo

Reutilizar los ejemplos de una clase minoritaria en un conjunto de datos con desequilibrio de clases para crear un conjunto de entrenamiento más equilibrado

Por ejemplo, considera un problema de clasificación binaria en el que la proporción de la clase mayoritaria con respecto a la clase minoritaria es de 5,000:1. Si el conjunto de datos contiene un millón de ejemplos, solo contiene alrededor de 200 ejemplos de la clase minoritaria, lo que podría ser demasiado poco para un entrenamiento eficaz. Para superar esta deficiencia, puedes muestrear en exceso (reutilizar) esos 200 ejemplos varias veces, lo que podría generar ejemplos suficientes para un entrenamiento útil.

Debes tener cuidado con el sobreajuste cuando realices el sobremuestreo.

Compara esto con el muestreo insuficiente.

P

datos empaquetados

Un enfoque para almacenar datos de forma más eficiente.

Los datos empaquetados almacenan datos mediante un formato comprimido o de alguna otra manera que permita acceder a ellos de forma más eficiente. Los datos empaquetados minimizan la cantidad de memoria y procesamiento necesarios para acceder a ellos, lo que genera un entrenamiento más rápido y una inferencia de modelos más eficiente.

Los datos empaquetados suelen usarse con otras técnicas, como la amplificación de datos y la regularización, lo que mejora aún más el rendimiento de los modelos.

pandas

#fundamentals

Es una API de análisis de datos orientada a columnas compilada en numpy. Muchos frameworks de aprendizaje automático, incluidos TensorFlow, son compatibles con estructuras de datos de Pandas como entradas. Para obtener más información, consulta la documentación de Pandas.

parámetro

#fundamentals

Los pesos y los sesgos que un modelo aprende durante el entrenamiento. Por ejemplo, en un modelo de regresión lineal, los parámetros consisten en la ordenada al origen (b) y todos los pesos (w1, w2, etcétera) en la siguiente fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En cambio, los hiperparámetros son los valores que (o un servicio de ajuste de hiperparámetros) le proporcionas al modelo. Por ejemplo, learning rate es un hiperparámetro.

ajuste eficiente de parámetros

#language
#generativeAI

Es un conjunto de técnicas para ajustar un modelo de lenguaje grande previamente entrenado (PLM) de manera más eficiente que el ajuste fino completo. El ajuste eficiente de parámetros suele ajustar muchos menos parámetros que el ajuste completo, pero, por lo general, produce un modelo de lenguaje grande que funciona tan bien (o casi tan bien) como un modelo de lenguaje grande creado a partir del ajuste completo.

Compara y contrasta el ajuste eficiente de parámetros con lo siguiente:

El ajuste eficiente de parámetros también se conoce como ajuste fino eficiente de parámetros.

Servidor de parámetros (PS)

#TensorFlow

Tarea que mantiene un registro de los parámetros de un modelo en una configuración distribuida.

actualización de parámetros

La operación de ajustar los parámetros de un modelo durante el entrenamiento, por lo general, dentro de una sola iteración del descenso del gradiente.

derivada parcial

Es una derivada en la que todas las variables, excepto una, se consideran constantes. Por ejemplo, la derivada parcial de f(x, y) con respecto a x es la derivada de f considerada como una función de x sola (es decir, manteniendo y constante). La derivada parcial de f con respecto a x se centra solamente en cómo cambia x e ignora todas las otras variables de la ecuación.

sesgo de participación

#fairness

Sinónimo de sesgo de no respuesta. Consulta sesgo de selección.

estrategia de partición

Algoritmo por el cual las variables se dividen en servidores de parámetros.

pasar en k (pass@k)

Es una métrica para determinar la calidad del código (por ejemplo, Python) que genera un modelo de lenguaje grande. Más específicamente, el pase en k te indica la probabilidad de que al menos un bloque de código generado de k bloques de código generados pase todas sus pruebas de unidades.

Los modelos de lenguaje grandes suelen tener dificultades para generar un buen código para problemas de programación complejos. Los ingenieros de software se adaptan a este problema pidiéndole al modelo de lenguaje grande que genere varias (k) soluciones para el mismo problema. Luego, los ingenieros de software prueban cada una de las soluciones con pruebas de unidades. El cálculo de la aprobación en k depende del resultado de las pruebas de unidades:

  • Si una o más de esas soluciones superan la prueba de unidad, el LLM supera ese desafío de generación de código.
  • Si ninguna de las soluciones supera la prueba de unidad, el LLM falla en ese desafío de generación de código.

La fórmula para el pase en k es la siguiente:

$$\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}$$

En general, los valores más altos de k producen puntuaciones más altas en las pruebas de k. Sin embargo, los valores más altos de k requieren más recursos de modelos grandes de lenguaje y pruebas de unidades.

Pax

Un framework de programación diseñado para entrenar redes neuronales modelos a gran escala tan grandes que abarcan varias TPU porciones de chips de acelerador o pods.

Pax se compila en Flax, que se compila en JAX.

Diagrama que indica la posición de Pax en la pila de software.
          Pax se compila sobre JAX. Pax consta de tres
          capas. La capa inferior contiene TensorStore y Flax.
          La capa intermedia contiene Optax y Flaxformer. La capa superior
          contiene la biblioteca de modelos de Praxis. Fiddle se compila sobre Pax.

perceptrón

Sistema (de hardware o software) que toma uno o más valores de entrada, ejecuta una función sobre la suma ponderada de las entradas y calcula un valor de salida. En el aprendizaje automático, la función suele ser no lineal, como ReLU, sigmoidea o tanh. Por ejemplo, el siguiente perceptrón utiliza la función sigmoidea para procesar tres valores de entrada:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

En la siguiente ilustración, el perceptrón toma tres entradas, cada una de las cuales se modifica por un peso antes de ingresar al perceptrón:

Un perceptrón que toma 3 entradas, cada una multiplicada por pesos separados. El perceptrón da como resultado un solo valor.

Los perceptrones son las neuronas de las redes neuronales.

rendimiento

Término sobrecargado con los siguientes significados:

  • El significado estándar dentro de la ingeniería de software. Es decir, ¿qué tan rápidamente (o eficazmente) se ejecuta este software?
  • El significado dentro del aprendizaje automático. Aquí, el rendimiento responde a la siguiente pregunta: ¿qué tan correcto es este modelo? Esto significa, ¿qué tan buenas son las predicciones del modelo?

importancias de las variables de permutación

#df

Es un tipo de importancia de las variables que evalúa el aumento en el error de predicción de un modelo después de permutar los valores del atributo. La importancia de las variables de permutación es una métrica independiente del modelo.

perplejidad

Es una medida de qué tan bien está logrando su tarea un modelo. Por ejemplo, supongamos que tu tarea es leer las primeras letras de una palabra que un usuario está escribiendo en el teclado de un teléfono y ofrecer una lista de posibles palabras de finalización. La perplejidad, P, para esta tarea es aproximadamente la cantidad de conjeturas que debes ofrecer para que tu lista contenga la palabra real que el usuario intenta escribir.

La perplejidad está relacionada con la entropía cruzada de la siguiente manera:

$$P= 2^{-\text{cross entropy}}$$

pipeline

La infraestructura que rodea un algoritmo de aprendizaje automático. Una canalización incluye recopilar los datos, colocarlos en archivos de datos de entrenamiento, entrenar uno o más modelos y exportarlos a producción.

canalización

#language

Es una forma de paralelismo de modelos en la que el procesamiento de un modelo se divide en etapas consecutivas y cada una se ejecuta en un dispositivo diferente. Mientras una etapa procesa un lote, la etapa anterior puede trabajar en el siguiente lote.

Consulta también entrenamiento por etapas.

pjit

Una función JAX que divide el código para ejecutarlo en varios chips de acelerador. El usuario pasa una función a pjit, que muestra una función que tiene la semántica equivalente, pero se compila en un cálculo de XLA que se ejecuta en varios dispositivos (como GPUs o núcleos de TPU).

pjit permite a los usuarios dividir los cálculos sin volver a escribirlos con el particionador SPMD.

A partir de marzo de 2023, pjit se fusionó con jit. Consulta Arrays distribuidos y paralelización automática para obtener más información.

PLM

#language
#generativeAI

Abreviatura de modelo de lenguaje previamente entrenado.

pmap

Es una función JAX que ejecuta copias de una función de entrada en varios dispositivos de hardware subyacentes (CPU, GPU o TPU), con diferentes valores de entrada. pmap se basa en SPMD.

política

#rl

En el aprendizaje por refuerzo, es la asignación probabilística de un agente de estados a acciones.

agrupación

#image

Reducir una matriz (o matrices) creada por una capa convolucional anterior a una matriz más pequeña. Por lo general, la agrupación implica tomar el valor máximo o promedio en el área agrupada. Por ejemplo, supongamos que tenemos la siguiente matriz de 3 × 3:

La matriz 3 × 3 [[5,3,1], [8,2,5], [9,4,3]].

Una operación de reducción, al igual que una convolucional, divide esa matriz en porciones y luego desliza esa operación convolucional en pasos. Por ejemplo, supongamos que la operación de reducción divide la matriz convolucional en porciones de 2 × 2 con un paso de 1 × 1. Como se ilustra en el siguiente diagrama, se realizan cuatro operaciones de agrupación. Imagina que cada operación de agrupación elige el valor máximo de los cuatro en esa porción:

La matriz de entrada es 3 × 3 con los valores: [[5,3,1], [8,2,5], [9,4,3]].
          La submatriz 2 × 2 superior izquierda de la matriz de entrada es [[5,3], [8,2]], por lo que la operación de agrupación superior izquierda genera el valor 8 (que es el máximo de 5, 3, 8 y 2). La submatriz 2 × 2 superior derecha de la matriz de entrada es [[3,1], [2,5]], por lo que la operación de reducción superior derecha genera el valor 5. La submatriz 2 × 2 inferior izquierda de la matriz de entrada es [[8,2], [9,4]], por lo que la operación de agregación inferior izquierda genera el valor 9. La submatriz 2 × 2 inferior derecha de la matriz de entrada es [[2,5], [4,3]], por lo que la operación de reducción inferior derecha genera el valor 5. En resumen, la operación de agrupación genera la matriz 2 × 2 [[8,5], [9,5]].

La reducción permite aplicar la invariancia traslacional en la matriz de entrada.

El agrupamiento para aplicaciones de visión se conoce más formalmente como agrupamiento espacial. Por lo general, las aplicaciones de series temporales se refieren a la agrupación como agrupación temporal. De manera menos formal, la agrupación se suele denominar submuestreo o muestreo reducido.

Codificación posicional

#language

Es una técnica para agregar información sobre la posición de un token en una secuencia a la incorporación del token. Los modelos de Transformer usan codificación posicional para comprender mejor la relación entre las diferentes partes de la secuencia.

Una implementación común de la codificación posicional usa una función sinusoidal. (Específicamente, la frecuencia y la amplitud de la función sinusoidal se determinan según la posición del token en la secuencia). Esta técnica permite que un modelo de Transformer aprenda a atender a diferentes partes de la secuencia según su posición.

clase positiva

#fundamentals

Es la clase para la que realizas la prueba.

Por ejemplo, la clase positiva en un modelo de cáncer podría ser "tumor". La clase positiva en un clasificador de correo electrónico puede ser "es spam".

Compara esto con la clase negativa.

posprocesamiento

#fairness
#fundamentals

Ajustar el resultado de un modelo después de que se ejecute El procesamiento posterior se puede usar para aplicar restricciones de equidad sin modificar los modelos.

Por ejemplo, se puede aplicar el procesamiento posterior a un clasificador binario si se establece un umbral de clasificación de modo que se mantenga la igualdad de oportunidades para algún atributo. Para ello, se debe verificar que la tasa de verdaderos positivos sea la misma para todos los valores de ese atributo.

modelo después del entrenamiento

#language
#image
#generativeAI

Es un término definido de forma imprecisa que, por lo general, hace referencia a un modelo previamente entrenado que pasó por algún procesamiento posterior, como una o más de las siguientes opciones:

AUC de PR (área bajo la curva de PR)

Es el área bajo la curva de precisión-recuperación interpolada, que se obtiene trazando puntos (recuperación, precisión) para diferentes valores del umbral de clasificación.

Praxis

Una biblioteca de AA principal y de alto rendimiento de Pax. A menudo, Praxis se llama "biblioteca de capas".

Praxis no solo contiene las definiciones de la clase Layer, sino también la mayoría de sus componentes de compatibilidad, incluidos los siguientes:

Praxis proporciona las definiciones de la clase Model.

precision

Métrica para los modelos de clasificación que responde a la siguiente pregunta:

Cuando el modelo predijo la clase positiva, ¿qué porcentaje de las predicciones fue correcto?

Esta es la fórmula:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

Donde:

  • verdadero positivo significa que el modelo predijo correctamente la clase positiva.
  • falso positivo significa que el modelo erróneamente predijo la clase positiva.

Por ejemplo, supongamos que un modelo realizó 200 predicciones positivas. De estas 200 predicciones positivas:

  • 150 fueron verdaderos positivos.
  • 50 fueron falsos positivos.

En este caso, ocurre lo siguiente:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Compara esto con la exactitud y la recuperación.

Consulta Clasificación: exactitud, recuperación, precisión y métricas relacionadas para obtener más información.

precisión en k (precision@k)

#language

Es una métrica para evaluar una lista de elementos clasificados (ordenados). La precisión en k identifica la fracción de los primeros k elementos de esa lista que son "relevantes". Es decir:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

El valor de k debe ser menor o igual que la longitud de la lista que se muestra. Ten en cuenta que la longitud de la lista que se muestra no forma parte del cálculo.

La relevancia suele ser subjetiva. Incluso los evaluadores humanos expertos suelen estar en desacuerdo sobre qué elementos son relevantes.

Comparar con:

curva de precisión-recuperación

Una curva de precisión en comparación con la recuperación en diferentes umbrales de clasificación.

predicción

#fundamentals

Es el resultado de un modelo. Por ejemplo:

  • La predicción de un modelo de clasificación binaria es la clase positiva o la clase negativa.
  • La predicción de un modelo de clasificación de varias clases es una clase.
  • La predicción de un modelo de regresión lineal es un número.

sesgo de predicción

Es un valor que indica qué tan alejado está el promedio de las predicciones del promedio de las etiquetas en el conjunto de datos.

No se debe confundir con el término sesgo en modelos de aprendizaje automático ni con el sesgo en ética y equidad.

AA predictivo

Cualquier sistema estándar ("clásico") de aprendizaje automático

El término AA predictivo no tiene una definición formal. En cambio, el término distingue una categoría de sistemas de AA que no se basan en la IA generativa.

paridad predictiva

#fairness

Una métrica de equidad que verifica si, para un clasificador determinado, las tasas de precisión son equivalentes para los subgrupos en consideración.

Por ejemplo, un modelo que predice la aceptación en la universidad satisfaría la paridad predictiva para la nacionalidad si su tasa de precisión fuera la misma para los liliputienses y los brobdingnagianos.

A veces, la paridad predictiva también se denomina paridad de tarifas predictiva.

Consulta "Explicación de las definiciones de equidad" (sección 3.2.1) para obtener una explicación más detallada de la paridad predictiva.

paridad de tarifas predictiva

#fairness

Es otro nombre para la paridad predictiva.

procesamiento previo

#fairness
Procesar los datos antes de usarlos para entrenar un modelo El procesamiento previo puede ser tan simple como quitar palabras de un corpus de texto en inglés que no aparecen en el diccionario en inglés, o puede ser tan complejo como volver a expresar los datos de una manera que elimine tantos atributos como sea posible que estén correlacionados con atributos sensibles. El procesamiento previo puede ayudar a satisfacer las restricciones de equidad.

modelo previamente entrenado

#language
#image
#generativeAI

Por lo general, un modelo que ya se entrenó. El término también podría referirse a un vector de incorporación previamente entrenado.

El término modelo de lenguaje previamente entrenado suele referirse a un modelo de lenguaje grande ya entrenado.

entrenamiento previo

#language
#image
#generativeAI

El entrenamiento inicial de un modelo en un conjunto de datos grande. Algunos modelos previamente entrenados son gigantes torpes y, por lo general, deben definirse mejor mediante un entrenamiento adicional. Por ejemplo, los expertos en AA podrían entrenar previamente un modelo de lenguaje grande en un vasto conjunto de datos de texto, como todas las páginas en inglés de Wikipedia. Después del entrenamiento previo, el modelo resultante se puede definir mejor con cualquiera de las siguientes técnicas:

creencia previa

Tu conocimiento acerca de los datos antes de que empieces a entrenarlos. Por ejemplo, la regularización L2 se basa en una creencia previa de que los pesos deben ser pequeños y, normalmente, estar distribuidos alrededor de cero.

modelo de regresión probabilístico

Un modelo de regresión que usa no solo los pesos para cada atributo, sino también la incertidumbre de esos pesos. Un modelo de regresión probabilístico genera una predicción y la incertidumbre de esa predicción. Por ejemplo, un modelo de regresión probabilística podría generar una predicción de 325 con una desviación estándar de 12. Para obtener más información sobre los modelos de regresión probabilística, consulta esta Colab en tensorflow.org.

función de densidad de probabilidad

Es una función que identifica la frecuencia de muestras de datos que tienen exactamente un valor en particular. Cuando los valores de un conjunto de datos son números de punto flotante continuos, raramente se producen coincidencias exactas. Sin embargo, integrar una función de densidad de probabilidad del valor x al valor y genera la frecuencia esperada de muestras de datos entre x y y.

Por ejemplo, considera una distribución normal con una media de 200 y una desviación estándar de 30. Para determinar la frecuencia esperada de muestras de datos que se encuentran dentro del rango de 211.4 a 218.7, puedes integrar la función de densidad de probabilidad para una distribución normal de 211.4 a 218.7.

instrucción

#language
#generativeAI

Cualquier texto que se ingresa como entrada a un modelo de lenguaje extenso para condicionar el modelo para que se comporte de cierta manera. Las indicaciones pueden ser tan breves como una frase o arbitrariamente largas (por ejemplo, el texto completo de una novela). Las instrucciones se dividen en varias categorías, incluidas las que se muestran en la siguiente tabla:

Categoría de instrucciones Ejemplo Notas
Pregunta ¿Qué tan rápido puede volar una paloma?
Instrucción Escribe un poema divertido sobre el arbitraje. Una instrucción que le pide al modelo de lenguaje grande que haga algo.
Ejemplo Traduce el código Markdown a HTML. Por ejemplo:
Markdown: * elemento de lista
HTML: <ul> <li>elemento de lista</li> </ul>
La primera oración de esta instrucción de ejemplo es una instrucción. El resto de la instrucción es el ejemplo.
Rol Explica por qué se usa el descenso de gradientes en el entrenamiento de aprendizaje automático a un doctorado en física. La primera parte de la oración es una instrucción; la frase “a un doctorado en física” es la parte del puesto.
Entrada parcial para que el modelo la complete El primer ministro del Reino Unido vive en Una instrucción de entrada parcial puede terminar abruptamente (como en este ejemplo) o con un guion bajo.

Un modelo de IA generativa puede responder a una instrucción con texto, código, imágenes, incorporaciones, videos… casi cualquier cosa.

aprendizaje basado en indicaciones

#language
#generativeAI

Es una función de ciertos modelos que les permite adaptar su comportamiento en respuesta a entradas de texto arbitrarias (indicaciones). En un paradigma de aprendizaje típico basado en instrucciones, un modelo de lenguaje grande responde a una instrucción generando texto. Por ejemplo, supongamos que un usuario ingresa la siguiente instrucción:

Resume la tercera ley del movimiento de Newton.

Un modelo capaz de aprender a partir de instrucciones no está entrenado específicamente para responder la instrucción anterior. En cambio, el modelo “sabe” muchos datos sobre la física, mucho sobre las reglas generales del lenguaje y mucho sobre lo que constituye respuestas generalmente útiles. Ese conocimiento es suficiente para proporcionar una respuesta (con suerte) útil. Los comentarios humanos adicionales ("Esa respuesta fue demasiado complicada" o "¿Qué es una reacción?") permiten que algunos sistemas de aprendizaje basados en indicaciones mejoren gradualmente la utilidad de sus respuestas.

diseño de instrucciones

#language
#generativeAI

Sinónimo de ingeniería de instrucciones.

ingeniería de instrucciones

#language
#generativeAI

El arte de crear instrucciones que generen las respuestas deseadas de un modelo de lenguaje grande. Los humanos realizan ingeniería de instrucciones. Escribir instrucciones bien estructuradas es una parte esencial de garantizar respuestas útiles de un modelo de lenguaje grande. La ingeniería oportuna depende de muchos factores, incluidos los siguientes:

  • Es el conjunto de datos que se usa para entrenar previamente y, posiblemente, ajustar el modelo de lenguaje grande.
  • La temperatura y otros parámetros de decodificación que el modelo usa para generar respuestas.

Consulta la sección Introducción al diseño de instrucciones para obtener más detalles sobre cómo escribir instrucciones útiles.

Diseño de instrucciones es un sinónimo de ingeniería de instrucciones.

ajuste de instrucciones

#language
#generativeAI

Un mecanismo de ajuste eficiente de parámetros que aprende un “prefijo” que el sistema agrega al prompt real.

Una variación del ajuste de instrucciones, que a veces se denomina ajuste de prefijos, es anteponer el prefijo en cada capa. En cambio, la mayoría de los ajustes de instrucciones solo agregan un prefijo a la capa de entrada.

proxy (atributos sensibles)

#fairness
Es un atributo que se usa como sustituto de un atributo sensible. Por ejemplo, el código postal de una persona puede usarse como proxy de su ingreso, origen étnico o raza.

etiquetas de proxy

#fundamentals

Datos utilizados para aproximar etiquetas que no están disponibles en el conjunto de datos de forma directa.

Por ejemplo, supongamos que debes entrenar un modelo para predecir el nivel de estrés de los empleados. Tu conjunto de datos contiene muchas funciones predictivas, pero no contiene una etiqueta llamada nivel de estrés. Sin inmutarse, eliges “accidentes en el lugar de trabajo” como una etiqueta de proxy para el nivel de estrés. Después de todo, los empleados que están sometidos a mucho estrés sufren más accidentes que los empleados tranquilos. ¿O no? Quizás los accidentes laborales aumenten y disminuyan por varios motivos.

Como segundo ejemplo, supongamos que deseas que ¿está lloviendo? sea una etiqueta booleana para tu conjunto de datos, pero este no contiene datos sobre lluvia. Si hay fotografías disponibles, podrías establecer imágenes de personas con paraguas como una etiqueta de proxy para ¿está lloviendo? ¿Es una buena etiqueta de proxy? Es posible, pero es más probable que las personas de algunas culturas lleven paraguas para protegerse del sol en lugar de la lluvia.

Las etiquetas de proxy suelen ser imperfectas. Cuando sea posible, elige las etiquetas reales en lugar de las etiquetas de proxy. Dicho esto, cuando no haya una etiqueta real, elige la etiqueta de proxy con mucho cuidado y elige la candidata de etiqueta de proxy menos horrible.

función pura

Una función cuyos resultados se basan solo en sus entradas y que no tiene efectos secundarios. Específicamente, una función pura no usa ni cambia ningún estado global, como el contenido de un archivo o el valor de una variable fuera de la función.

Las funciones puras se pueden usar para crear código seguro para subprocesos, lo que es beneficioso cuando se fragmenta el código del modelo en varios chips de acelerador.

Los métodos de transformación de funciones de JAX requieren que las funciones de entrada sean funciones puras.

P

Función Q

#rl

En el aprendizaje por refuerzo, la función que predice el rendimiento esperado de realizar una acción en un estado y, luego, seguir una política determinada.

La función Q también se conoce como función de valor de estado-acción.

Aprendizaje Q

#rl

En el aprendizaje por refuerzo, un algoritmo que permite que un agente aprenda la función Q óptima de un proceso de decisión de Markov aplicando la ecuación de Bellman. El proceso de toma de decisiones de Markov modela un entorno.

cuantil

Cada bucket en el agrupamiento en cuantiles.

agrupamiento en cuantiles

Distribución de los valores de un atributo en agrupamientos de forma tal que cada agrupamiento contenga la misma (o casi la misma) cantidad de ejemplos. Por ejemplo, la siguiente figura divide 44 puntos en 4 agrupaciones, cada una de las cuales contiene 11 puntos. Para que cada bucket en la figura contenga la misma cantidad de puntos, algunos buckets abarcan un ancho diferente de valores x.

44 puntos de datos divididos en 4 agrupaciones de 11 puntos cada una.
          Aunque cada bucket contiene la misma cantidad de datos, algunos contienen un rango más amplio de valores de atributos que otros.

cuantificación

Término sobrecargado que se podría usar de cualquiera de las siguientes maneras:

  • Implementar el agrupamiento en cuantiles en una función en particular
  • Transforma los datos en ceros y unos para almacenar, entrenar y concluir más rápido. Como los datos booleanos son más resistentes al ruido y a los errores que otros formatos, la cuantificación puede mejorar la exactitud del modelo. Las técnicas de cuantización incluyen el redondeo, la truncación y el agrupamiento.
  • Reducir la cantidad de bits que se usan para almacenar los parámetros de un modelo Por ejemplo, supongamos que los parámetros de un modelo se almacenan como números de punto flotante de 32 bits. La cuantificación convierte esos parámetros de 32 bits a 4, 8 o 16 bits. La cuantificación reduce lo siguiente:

    • Uso de procesamiento, memoria, disco y red
    • Tiempo para inferir una predicción
    • Consumo de energía

    Sin embargo, a veces, la cuantización disminuye la exactitud de las predicciones de un modelo.

cola

#TensorFlow

Una operación de TensorFlow que implementa una estructura de datos en cola. Por lo general, se usa en E/S.

R

RAG

#fundamentals

Abreviatura de generación mejorada por recuperación.

bosque aleatorio

#df

Un conjunto de árboles de decisión en el que cada árbol de decisión se entrena con un ruido aleatorio específico, como el bagging.

Los bosques aleatorios son un tipo de bosque de decisión.

política aleatoria

#rl

En el aprendizaje por refuerzo, es una política que elige una acción al azar.

rango (ordinalidad) (rank, ordinality)

La posición ordinal de una clase en un problema de aprendizaje automático que categoriza las clases de la más alta a la más baja. Por ejemplo, un sistema de clasificación de conducta podría ordenar las recompensas para un perro de la más alta (un filete) a la más baja (un repollo marchitado).

rango (tensor) (rank ,Tensor)

#TensorFlow

Es la cantidad de dimensiones de un Tensor. Por ejemplo, un escalar tiene rango 0, un vector tiene rango 1 y una matriz tiene rango 2.

No debe confundirse con rango (ordinalidad).

clasificación

Es un tipo de aprendizaje supervisado cuyo objetivo es ordenar una lista de elementos.

evaluador

#fundamentals

Es una persona que proporciona etiquetas para los ejemplos. "Anotador" es otro nombre para el calificador.

recall

Métrica para los modelos de clasificación que responde a la siguiente pregunta:

Cuando la verdad fundamental era la clase positiva, ¿qué porcentaje de predicciones identificó correctamente el modelo como la clase positiva?

Esta es la fórmula:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

Donde:

  • verdadero positivo significa que el modelo predijo correctamente la clase positiva.
  • Un falso negativo significa que el modelo erróneamente predijo la clase negativa.

Por ejemplo, supongamos que tu modelo realizó 200 predicciones en ejemplos para los que la verdad del suelo era la clase positiva. De estas 200 predicciones, ocurre lo siguiente:

  • 180 fueron verdaderos positivos.
  • 20 fueron falsos negativos.

En este caso, ocurre lo siguiente:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Consulta Clasificación: exactitud, recuperación, precisión y métricas relacionadas para obtener más información.

recuperación en k (recall@k)

#language

Es una métrica para evaluar sistemas que generan una lista de elementos clasificados (ordenados). La recuperación en k identifica la fracción de elementos relevantes en los primeros k elementos de esa lista de la cantidad total de elementos relevantes que se muestran.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Compara esto con la precisión en k.

sistema de recomendación

#recsystems

Sistema que selecciona para cada usuario un conjunto relativamente pequeño de elementos deseables de un gran corpus. Por ejemplo, un sistema de recomendación de videos podría recomendar dos videos de un corpus de 100,000 videos, seleccionando Casablanca y The Philadelphia Story para un usuario, y Wonder Woman y Black Panther para otro. Un sistema de recomendación de video puede basar sus recomendaciones en factores tales como:

  • Películas que usuarios similares han calificado o visto
  • Género, directores, actores, segmento demográfico...

Unidad lineal rectificada (ReLU)

#fundamentals

Una función de activación con el siguiente comportamiento:

  • Si la entrada es negativa o cero, el resultado es 0.
  • Si la entrada es positiva, el resultado es igual a la entrada.

Por ejemplo:

  • Si la entrada es -3, el resultado es 0.
  • Si la entrada es +3, el resultado es 3.0.

Esta es una gráfica de ReLU:

Una representación cartesiana de dos líneas. La primera línea tiene un valor y constante de 0, que se extiende a lo largo del eje x de -infinito,0 a 0,-0.
          La segunda línea comienza en 0,0. Esta línea tiene una pendiente de +1, por lo que va de 0,0 a infinito,infinito.

ReLU es una función de activación muy popular. A pesar de su comportamiento simple, ReLU aún permite que una red neuronal aprenda relaciones no lineales entre los atributos y la etiqueta.

red neuronal recurrente

#seq

Una red neuronal que se ejecuta intencionalmente varias veces, donde partes de cada ejecución se incorporan a la siguiente ejecución. Específicamente, las capas ocultas de la ejecución anterior proporcionan parte de la entrada a la misma capa oculta en la siguiente ejecución. Las redes neuronales recurrentes son particularmente útiles para evaluar secuencias, de modo que las capas ocultas puedan aprender de las ejecuciones anteriores de la red neuronal sobre partes anteriores de la secuencia.

Por ejemplo, en la siguiente figura se muestra una red neuronal recurrente que se ejecuta cuatro veces. Observa que los valores aprendidos en las capas ocultas de la primera ejecución se convierten en parte de la entrada para las mismas capas ocultas en la segunda ejecución. De manera similar, los valores aprendidos en la capa oculta en la segunda ejecución se convierten en parte de la entrada para la misma capa oculta en la tercera ejecución. De esta manera, la red neuronal recurrente entrena y predice gradualmente el significado de toda la secuencia en lugar de solo el significado de palabras individuales.

Una RNN que se ejecuta cuatro veces para procesar cuatro palabras de entrada.

texto de referencia

#language
#generativeAI

La respuesta de un experto a una sugerencia. Por ejemplo, dada la siguiente instrucción:

Traduce la pregunta “¿Cómo te llamas?” del inglés al francés.

La respuesta de un experto podría ser la siguiente:

Comment vous appelez-vous?

Varias métricas (como ROUGE) miden el grado en que el texto de referencia coincide con el texto generado de un modelo de AA.

modelo de regresión

#fundamentals

De manera informal, es un modelo que genera una predicción numérica. (Por el contrario, un modelo de clasificación genera una predicción de clase). Por ejemplo, los siguientes son todos modelos de regresión:

  • Un modelo que predice el valor de una casa en euros, como 423,000.
  • Un modelo que predice la esperanza de vida de un árbol determinado en años, como 23.2.
  • Un modelo que predice la cantidad de lluvia en pulgadas que caerá en una ciudad determinada durante las próximas seis horas, como 0.18.

Estos son dos tipos comunes de modelos de regresión:

  • Regresión lineal, que encuentra la línea que mejor ajusta los valores de etiqueta a los atributos.
  • Regresión logística, que genera una probabilidad entre 0.0 y 1.0 que, por lo general, un sistema asigna a una predicción de clase.

No todos los modelos que generan predicciones numéricas son modelos de regresión. En algunos casos, una predicción numérica es en realidad un modelo de clasificación que tiene nombres de clase numéricos. Por ejemplo, un modelo que predice un código postal numérico es un modelo de clasificación, no un modelo de regresión.

regularización

#fundamentals

Cualquier mecanismo que reduzca el sobreajuste Entre los tipos de regularización populares, se incluyen los siguientes:

La regularización también se puede definir como la penalización de la complejidad de un modelo.

tasa de regularización

#fundamentals

Es un número que especifica la importancia relativa de la regularización durante el entrenamiento. Aumentar la tasa de regularización reduce el sobreajuste, pero puede reducir el poder predictivo del modelo. Por el contrario, reducir o omitir la tasa de regularización aumenta el sobreajuste.

aprendizaje por refuerzo (RL)

#rl

Es una familia de algoritmos que aprenden una política óptima, cuyo objetivo es maximizar el rendimiento cuando interactúa con un entorno. Por ejemplo, la máxima recompensa para la mayoría de los juegos es la victoria. Los sistemas de aprendizaje de refuerzo pueden convertirse en expertos en juegos complejos mediante la evaluación de secuencias de movimientos de juego anteriores que finalmente llevaron a victorias y secuencias que finalmente llevaron a fracasos.

Aprendizaje por refuerzo con retroalimentación humana (RLHF)

#generativeAI
#rl

Usar los comentarios de los calificadores humanos para mejorar la calidad de las respuestas de un modelo Por ejemplo, un mecanismo de RLHF puede pedirles a los usuarios que califiquen la calidad de la respuesta de un modelo con un emoji 👍 o 👎. Luego, el sistema puede ajustar sus respuestas futuras en función de esos comentarios.

ReLU

#fundamentals

Abreviatura de unidad lineal rectificada.

búfer de reproducción

#rl

En los algoritmos similares a DQN, la memoria que usa el agente para almacenar transiciones de estado para usar en la repetición de experiencias.

de Cloud SQL

Una copia del conjunto de entrenamiento o del modelo, por lo general, en otra máquina. Por ejemplo, un sistema podría usar la siguiente estrategia para implementar el paralelismo de datos:

  1. Coloca réplicas de un modelo existente en varias máquinas.
  2. Envía diferentes subconjuntos del conjunto de entrenamiento a cada réplica.
  3. Agrupa las actualizaciones de los parámetros.

sesgo de reporte

#fairness

El hecho de que la frecuencia con la que las personas escriben sobre acciones, resultados o propiedades no es un reflejo fiel de las frecuencias reales o del grado en que una propiedad es típica de una clase de individuos. El sesgo de reporte puede influenciar la composición de los datos sobre los que el sistema de aprendizaje automático aprende.

Por ejemplo, en los libros, la palabra reír es más frecuente que la que se respirar. Un modelo de aprendizaje automático que estime la frecuencia relativa de reír y respirar a partir de un corpus de libros probablemente determine que reír es más frecuente que respirar.

representación de vectores

Es el proceso de asignar datos a atributos útiles.

reclasificación

#recsystems

La etapa final en un sistema de recomendación, durante la cual los elementos calificados se pueden volver a calificar de acuerdo con algún otro algoritmo (por lo general, no de AA). La reclasificación evalúa la lista de elementos generados por la fase de puntuación, realizando acciones tales como:

  • Eliminar los elementos que el usuario ya compró
  • Aumentar la puntuación de los elementos más recientes

generación mejorada por recuperación (RAG)

#fundamentals

Es una técnica para mejorar la calidad del resultado del modelo de lenguaje grande (LLM) basándolo en fuentes de conocimiento recuperadas después de que se entrenó el modelo. La RAG mejora la precisión de las respuestas del LLM, ya que le proporciona al LLM entrenado acceso a información recuperada de bases de conocimiento o documentos de confianza.

Entre las motivaciones comunes para usar la generación mejorada por recuperación, se incluyen las siguientes:

  • Aumenta la precisión fáctica de las respuestas generadas por un modelo.
  • Darle al modelo acceso al conocimiento con el que no se entrenó
  • Cambiar el conocimiento que usa el modelo
  • Habilita el modelo para que cite fuentes.

Por ejemplo, supongamos que una app de química usa la API de PaLM para generar resúmenes relacionados con las consultas de los usuarios. Cuando el backend de la app recibe una consulta, hace lo siguiente:

  1. Busca ("recupera") datos relevantes para la búsqueda del usuario.
  2. Adjunta ("aumenta") los datos de química relevantes a la búsqueda del usuario.
  3. Le indica al LLM que cree un resumen basado en los datos agregados.

retorno

#rl

En el aprendizaje por refuerzo, dada una política y un estado determinados, el rendimiento es la suma de todas las recompensas que el agente espera recibir cuando sigue la política desde el estado hasta el final del episodio. El agente tiene en cuenta la naturaleza retrasada de las recompensas esperadas descontando las recompensas según las transiciones de estado necesarias para obtenerlas.

Por lo tanto, si el factor de descuento es \(\gamma\)y \(r_0, \ldots, r_{N}\)representa las recompensas hasta el final del episodio, el cálculo del retorno es el siguiente:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

una recompensa

#rl

En el aprendizaje por refuerzo, el resultado numérico de realizar una acción en un estado, según lo define el entorno.

regularización de cresta

Sinónimo de regularización L2. El término regularización de cresta se usa con más frecuencia en contextos de estadística pura, mientras que la regularización L2 se usa con más frecuencia en el aprendizaje automático.

RNN

#seq

Abreviatura de redes neuronales recurrentes.

curva ROC (característica operativa del receptor)

#fundamentals

Gráfico de la tasa de verdaderos positivos en comparación con la tasa de falsos positivos para diferentes umbrales de clasificación en la clasificación binaria.

La forma de una curva ROC sugiere la capacidad de un modelo de clasificación binaria para separar las clases positivas de las negativas. Supongamos, por ejemplo, que un modelo de clasificación binaria separa perfectamente todas las clases negativas de todas las clases positivas:

Una línea numérica con 8 ejemplos positivos a la derecha y
          7 ejemplos negativos a la izquierda.

La curva ROC del modelo anterior se ve de la siguiente manera:

Una curva ROC. El eje X es la tasa de falsos positivos y el eje Y es la tasa de verdaderos positivos. La curva tiene forma de L invertida. La curva comienza en (0.0,0.0) y sube directamente a (0.0,1.0). Luego, la curva va de (0.0,1.0) a (1.0,1.0).

En cambio, en la siguiente ilustración, se grafican los valores de regresión logística sin procesar de un modelo terrible que no puede separar las clases negativas de las positivas:

Una línea numérica con ejemplos positivos y clases negativas completamente mezclados

La curva ROC de este modelo se ve de la siguiente manera:

Una curva ROC, que en realidad es una línea recta de (0.0,0.0) a (1.0,1.0).

Mientras tanto, en el mundo real, la mayoría de los modelos de clasificación binaria separan las clases positivas y negativas en cierta medida, pero, por lo general, no de forma perfecta. Por lo tanto, una curva ROC típica se encuentra en algún lugar entre los dos extremos:

Una curva ROC. El eje X es la tasa de falsos positivos y el eje Y es la tasa de verdaderos positivos. La curva ROC se aproxima a un arco inestable que atraviesa los puntos de la brújula de oeste a norte.

En teoría, el punto de una curva ROC más cercano a (0.0,1.0) identifica el umbral de clasificación ideal. Sin embargo, varios otros problemas del mundo real influyen en la selección del umbral de clasificación ideal. Por ejemplo, quizás los falsos negativos causen mucho más problemas que los falsos positivos.

Una métrica numérica llamada AUC resume la curva ROC en un solo valor de punto flotante.

indicaciones de roles

#language
#generativeAI

Es una parte opcional de una instrucción que identifica un público objetivo para la respuesta de un modelo de IA generativa. Sin una instrucción de rol, un modelo de lenguaje grande proporciona una respuesta que puede ser útil o no para la persona que hace las preguntas. Con una instrucción de rol, un modelo de lenguaje grande puede responder de una manera más apropiada y útil para un público objetivo específico. Por ejemplo, la parte de la instrucción de rol de las siguientes instrucciones está en negrita:

  • Resume este artículo para un doctorado en economía.
  • Describe cómo funcionan las mareas para un niño de diez años.
  • Explica la crisis financiera de 2008. Habla como lo harías con un niño pequeño o un golden retriever.

raíz

#df

El nodo inicial (la primera condición) en un árbol de decisión. Por convención, los diagramas colocan la raíz en la parte superior del árbol de decisión. Por ejemplo:

Árbol de decisión con dos condiciones y tres hojas. La condición inicial (x > 2) es la raíz.

directorio raíz

#TensorFlow

Es el directorio que especificas para alojar subdirectorios del punto de control de TensorFlow y archivos de eventos de varios modelos.

Raíz cuadrada del error cuadrático medio (RMSE)

#fundamentals

Es la raíz cuadrada del error cuadrático medio.

invariancia rotacional

#image

En un problema de clasificación de imágenes, la capacidad de un algoritmo para clasificar imágenes correctamente incluso cuando cambia la orientación de la imagen. Por ejemplo, el algoritmo aún puede identificar una raqueta de tenis, ya sea que esté apuntando hacia arriba, hacia un lado o hacia abajo. Ten en cuenta que la invariancia rotacional no siempre es deseable; por ejemplo, un 9 al revés no debe clasificarse como un 9.

Consulta también invariancia de traslación y invariancia de tamaño.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language

Es una familia de métricas que evalúan los modelos de resumen automático y de traducción automática. Las métricas de ROUGE determinan el grado en que un texto de referencia se superpone con el texto generado de un modelo de IA. Cada miembro de la familia de ROUGE mide la superposición de una manera diferente. Las puntuaciones más altas de ROUGE indican una mayor similitud entre el texto de referencia y el texto generado que las puntuaciones más bajas de ROUGE.

Por lo general, cada miembro de la familia ROUGE genera las siguientes métricas:

  • Precisión
  • Recuperación
  • F1

Para obtener detalles y ejemplos, consulta lo siguiente:

ROUGE-L

#language

Un miembro de la familia ROUGE se enfoca en la longitud de la subsecuencia común más larga en el texto de referencia y el texto generado. Las siguientes fórmulas calculan la recuperación y la precisión de ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Luego, puedes usar F1 para combinar la recuperación de ROUGE-L y la precisión de ROUGE-L en una sola métrica:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ROUGE-L ignora los saltos de línea en el texto de referencia y el texto generado, por lo que la subsecuencia común más larga podría cruzar varias oraciones. Cuando el texto de referencia y el texto generado incluyen varias oraciones, una variación de ROUGE-L llamada ROUGE-Lsum suele ser una mejor métrica. ROUGE-Lsum determina la subsecuencia común más larga para cada oración en un pasaje y, luego, calcula la media de esas subsecuencias comunes más largas.

ROUGE-N

#language

Es un conjunto de métricas dentro de la familia ROUGE que compara los n-gramas compartidos de un tamaño determinado en el texto de referencia y el texto generado. Por ejemplo:

  • ROUGE-1 mide la cantidad de tokens compartidos en el texto de referencia y el texto generado.
  • ROUGE-2 mide la cantidad de bigramas (2-gramas) compartidos en el texto de referencia y el texto generado.
  • ROUGE-3 mide la cantidad de trigramas (3-gramas) compartidos en el texto de referencia y el texto generado.

Puedes usar las siguientes fórmulas para calcular la recuperación y la precisión de ROUGE-N para cualquier miembro de la familia ROUGE-N:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Luego, puedes usar F1 para combinar la recuperación de ROUGE-N y la precisión de ROUGE-N en una sola métrica:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

ROUGE-S

#language

Es una forma tolerante de ROUGE-N que permite la coincidencia de skip-gram. Es decir, ROUGE-N solo cuenta los n-gramas que coinciden exactamente, pero ROUGE-S también cuenta los n-gramas separados por una o más palabras. Por ejemplo, considera lo siguiente:

Cuando se calcula ROUGE-N, el 2-gramo nubes blancas no coincide con nubes blancas ondulantes. Sin embargo, cuando se calcula ROUGE-S, Nubes blancas sí coincide con Nubes blancas ondulantes.

R al cuadrado

Es una métrica de regresión que indica qué porcentaje de la variación en una etiqueta se debe a un atributo individual o a un conjunto de atributos. El valor R cuadrado es un valor entre 0 y 1, que puedes interpretar de la siguiente manera:

  • Un valor de R cuadrado de 0 significa que ninguna de las variaciones de una etiqueta se debe al conjunto de atributos.
  • Un valor de R cuadrado de 1 significa que toda la variación de una etiqueta se debe al conjunto de atributos.
  • Un valor de R cuadrado entre 0 y 1 indica el grado en el que se puede predecir la variación de la etiqueta a partir de un atributo en particular o del conjunto de atributos. Por ejemplo, un R cuadrado de 0.10 significa que el 10 por ciento de la variación en la etiqueta se debe al conjunto de atributos, un R cuadrado de 0.20 significa que el 20 por ciento se debe al conjunto de atributos, y así sucesivamente.

R al cuadrado es el cuadrado del coeficiente de correlación de Pearson entre los valores que predijo un modelo y la verdad fundamental.

S

sesgo muestral

#fairness

Consulta sesgo de selección.

muestreo con reemplazo

#df

Es un método para elegir elementos de un conjunto de elementos candidatos en el que se puede elegir el mismo elemento varias veces. La frase “con reemplazo” significa que, después de cada selección, el elemento elegido se devuelve al grupo de elementos candidatos. El método inverso, el muestreo sin reemplazo, significa que un elemento candidato solo se puede elegir una vez.

Por ejemplo, considera el siguiente conjunto de frutas:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supongamos que el sistema elige fig de forma aleatoria como primer elemento. Si usas el muestreo con reemplazo, el sistema elige el segundo elemento del siguiente conjunto:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sí, es el mismo conjunto que antes, por lo que el sistema podría volver a elegir fig.

Si usas el muestreo sin reemplazo, una vez que se elige una muestra, no se puede volver a elegir. Por ejemplo, si el sistema elige fig de forma aleatoria como el primer ejemplo, no se puede volver a elegir fig. Por lo tanto, el sistema elige la segunda muestra del siguiente conjunto (reducido):

fruit = {kiwi, apple, pear, cherry, lime, mango}

modelo guardado

#TensorFlow

El formato recomendado para guardar y recuperar modelos de TensorFlow. SavedModel es un formato de serialización recuperable y neutral con respecto al lenguaje que permite que las herramientas y los sistemas de nivel superior produzcan, consuman y transformen modelos de TensorFlow.

Para obtener más información, consulta la sección Cómo guardar y restablecer de la Guía para programadores de TensorFlow.

Económico

#TensorFlow

Un objeto de TensorFlow responsable de guardar controles del modelo.

escalar

Un solo número o una sola cadena que se puede representar como un tensor de rango 0. Por ejemplo, cada una de las siguientes líneas de código crea un escalar en TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

escalamiento

Cualquier transformación o técnica matemática que cambie el rango de una etiqueta o el valor de un atributo. Algunas formas de escalamiento son muy útiles para transformaciones como la normalización.

Entre las formas comunes de escalamiento útiles en el aprendizaje automático, se incluyen las siguientes:

  • escalamiento lineal, que suele usar una combinación de resta y división para reemplazar el valor original por un número entre -1 y +1 o entre 0 y 1
  • escalamiento logarítmico, que reemplaza el valor original por su logaríti￳mo.
  • Normalización de puntuación Z, que reemplaza el valor original por un valor de punto flotante que representa la cantidad de desviaciones estándar de la media de esa característica.

scikit-learn

Una plataforma de aprendizaje automático de código abierto popular. Consulta scikit-learn.org.

puntuación

#recsystems

Es la parte de un sistema de recomendación que proporciona un valor o una clasificación para cada elemento que produce la fase de generación de candidatos.

sesgo de selección

#fairness

Errores en las conclusiones que se extraen de los datos muestreados debido a un proceso de selección que genera diferencias sistemáticas entre las muestras observadas en los datos y las no observadas. Existen las siguientes formas de sesgo de selección:

  • sesgo de cobertura: La población representada en el conjunto de datos no coincide con la población sobre la cual el modelo de aprendizaje automático predice.
  • sesgo muestral: Los datos no se recolectan en forma aleatoria del grupo objetivo.
  • sesgo de no respuesta (también llamado sesgo de participación): Los usuarios de ciertos grupos rechazan realizar encuestas con frecuencias diferentes que los usuarios de otros grupos.

Por ejemplo, supongamos que creas un modelo de aprendizaje automático que predice cuánto disfrutan las personas una película. Para recopilar datos de entrenamiento, dejas una encuesta a todos en frente del lugar donde se proyecta la película. A primera vista, esto puede parecer una forma razonable para recopilar un conjunto de datos; sin embargo, esta forma de recopilación de datos puede introducir las siguientes formas de sesgo de selección:

  • sesgo de cobertura: Tomar una muestra de una población que eligió ver la película posibilita que las predicciones de tu modelo no generalicen a las personas que aún no expresaron ese nivel de interés en la película.
  • sesgo muestral: En lugar de muestrear aleatoriamente desde la población prevista (todas las personas en la película), solo se muestrearon las personas en la primera fila. Es posible que las personas sentadas en la primera fila estén más interesadas en la película que aquellas en otras filas.
  • sesgo de no respuesta: En general, las personas con opiniones fuertes tienden a responder a las encuestas opcionales con mayor frecuencia que las personas con opiniones moderadas. Como la encuesta de la película es opcional, es más probable que las respuestas formen una distribución bimodal en lugar de una distribución normal (con forma de campana).

autoatención (también llamada capa de autoatención)

#language

Es una capa de red neuronal que transforma una secuencia de embeddings (por ejemplo, tokens) en otra secuencia de embeddings. Cada incorporación en la secuencia de salida se construye mediante la integración de información de los elementos de la secuencia de entrada a través de un mecanismo de atención.

La parte self de self-attention se refiere a la secuencia que se atiende a sí misma en lugar de a algún otro contexto. La autoatención es uno de los principales bloques de construcción de los transformadores y usa la terminología de búsqueda de diccionarios, como "consulta", "clave" y "valor".

Una capa de autoatención comienza con una secuencia de representaciones de entrada, una para cada palabra. La representación de entrada de una palabra puede ser una incorporación simple. Para cada palabra de una secuencia de entrada, la red asigna una puntuación a la relevancia de la palabra para cada elemento de toda la secuencia de palabras. Las puntuaciones de relevancia determinan en qué medida la representación final de la palabra incorpora las representaciones de otras palabras.

Por ejemplo, considera la siguiente oración:

El animal no cruzó la calle porque estaba muy cansado.

En la siguiente ilustración (de Transformer: A Novel Neural Network Architecture for Language Understanding), se muestra el patrón de atención de una capa de autoatención para el pronombre it, en el que la oscuridad de cada línea indica cuánto contribuye cada palabra a la representación:

La siguiente oración aparece dos veces: El animal no cruzó la calle porque estaba demasiado cansado. Las líneas conectan el pronombre it en una oración a cinco tokens (The, animal, street, it y el punto) en la otra oración.  La línea entre el pronombre it
          y la palabra animal es más fuerte.

La capa de autoatención destaca las palabras que son relevantes para "it". En este caso, la capa de atención aprendió a destacar las palabras a las que se podría referir, asignando el mayor peso a animal.

Para una secuencia de n tokens, la autoatención transforma una secuencia de incorporaciones n veces, una vez en cada posición de la secuencia.

Consulta también atención y atención automática multidireccional.

aprendizaje autosupervisado

Es una familia de técnicas para convertir un problema de aprendizaje automático no supervisado en un problema de aprendizaje automático supervisado mediante la creación de etiquetas sustitutivas a partir de ejemplos sin etiquetar.

Algunos modelos basados en Transformer, como BERT, usan el aprendizaje autosupervisado.

El entrenamiento autosupervisado es un enfoque de aprendizaje semisupervisado.

autoentrenamiento

Es una variante del aprendizaje autosupervisado que es particularmente útil cuando se cumplen todas las siguientes condiciones:

El autoentrenamiento funciona iterando los siguientes dos pasos hasta que el modelo deja de mejorar:

  1. Usa el aprendizaje automático supervisado para entrenar un modelo con los ejemplos etiquetados.
  2. Usa el modelo creado en el paso 1 para generar predicciones (etiquetas) en los ejemplos sin etiquetar y mover aquellos en los que hay una alta confianza a los ejemplos etiquetados con la etiqueta predicha.

Observa que cada iteración del paso 2 agrega más ejemplos etiquetados para que el paso 1 entrene.

aprendizaje semisupervisado

Entrenar un modelo con datos en los que algunos de los ejemplos de entrenamiento tienen etiquetas, pero otros no. Una técnica para el aprendizaje semisupervisado es inferir etiquetas para los ejemplos no etiquetados y, luego, entrenar con las etiquetas inferidas para crear un modelo nuevo. El aprendizaje semisupervisado puede ser útil si es costoso obtener las etiquetas, aun cuando los ejemplos no etiquetados son abundantes.

El autoentrenamiento es una técnica para el aprendizaje semisupervisado.

atributo sensible

#fairness
Un atributo humano que puede ser objeto de consideración especial por motivos legales, éticos, sociales o personales.

análisis de opiniones

#language

Usar algoritmos estadísticos o de aprendizaje automático para determinar la actitud general de un grupo (positiva o negativa) hacia un servicio, producto, organización o tema. Por ejemplo, con la comprensión del lenguaje natural, un algoritmo podría realizar un análisis de opiniones en los comentarios textuales de un curso universitario para determinar en qué grado les gustó o disgustó el curso a los estudiantes en general.

modelo de secuencia

#seq

Un modelo cuyas entradas tienen una dependencia secuencial. Por ejemplo, la predicción del siguiente video mirado desde una secuencia de videos mirados anteriormente.

tarea de secuencia a secuencia

#language

Es una tarea que convierte una secuencia de entrada de tokens en una secuencia de salida de tokens. Por ejemplo, estos son dos tipos populares de tareas de secuencia a secuencia:

  • Traductores:
    • Secuencia de entrada de muestra: "Te amo".
    • Ejemplo de secuencia de salida: "Je t'aime".
  • Búsqueda de respuestas:
    • Ejemplo de secuencia de entrada: "¿Necesito mi auto en la ciudad de Nueva York?"
    • Ejemplo de secuencia de salida: "No. Mantén el auto en casa".

modelos

Es el proceso de poner a disposición un modelo entrenado para proporcionar predicciones a través de la inferencia en línea o la inferencia sin conexión.

shape (Tensor)

Es la cantidad de elementos en cada dimensión de un tensor. La forma se representa como una lista de números enteros. Por ejemplo, el siguiente tensor de dos dimensiones tiene una forma de [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow usa el formato de filas principales (estilo C) para representar el orden de las dimensiones, por lo que la forma en TensorFlow es [3,4] en lugar de [4,3]. En otras palabras, en un tensor de TensorFlow de dos dimensiones, la forma es [cantidad de filas, cantidad de columnas].

Una forma estática es una forma de tensor que se conoce en el tiempo de compilación.

Una forma dinámica es desconocido en el tiempo de compilación y, por lo tanto, depende de los datos del entorno de ejecución. Este tensor se puede representar con una dimensión de marcador de posición en TensorFlow, como en [3, ?].

fragmento

#TensorFlow
#GoogleCloud

Es una división lógica del conjunto de entrenamiento o del modelo. Por lo general, algunos procesos crean fragmentos dividiendo los ejemplos o los parámetros en fragmentos (por lo general) de tamaño igual. Luego, cada fragmento se asigna a una máquina diferente.

La fragmentación de un modelo se denomina paralelismo de modelos; la fragmentación de datos se denomina paralelismo de datos.

contracción

#df

Un hiperparámetro en el aumento de gradiente que controla el ajuste excesivo. La contracción en el aumento de gradientes es análoga a la tasa de aprendizaje en el descenso de gradientes. El encogimiento es un valor decimal entre 0.0 y 1.0. Un valor de contracción más bajo reduce el sobreajuste más que un valor de contracción más alto.

función sigmoidea

#fundamentals

Es una función matemática que “aplasta” un valor de entrada en un rango limitado, por lo general, de 0 a 1 o de -1 a +1. Es decir, puedes pasar cualquier número (dos, un millón, mil millones negativos, lo que sea) a una función sigmoidea, y el resultado seguirá estando en el rango restringido. Un gráfico de la función de activación sigmoidea se ve de la siguiente manera:

Un gráfico curvo de dos dimensiones con valores de x que abarcan el dominio de menos infinito a positivo, mientras que los valores de y abarcan el rango de casi 0 a casi 1. Cuando x es 0, y es 0.5. La pendiente de la curva siempre es positiva, con la pendiente más alta en 0,0.5 y pendientes que disminuyen gradualmente a medida que aumenta el valor absoluto de x.

La función sigmoidea tiene varios usos en el aprendizaje automático, entre los que se incluyen los siguientes:

medida de similitud

#clustering

En los algoritmos de agrupamiento en clústeres, la métrica que se usa para determinar qué tan parecidos (cuán similares) son dos ejemplos cualquiera.

un solo programa y varios datos (SPMD)

Es una técnica de paralelismo en la que se ejecuta el mismo procesamiento en diferentes datos de entrada en paralelo en diferentes dispositivos. El objetivo de SPMD es obtener resultados más rápido. Es el estilo más común de programación en paralelo.

invariancia de tamaño

#image

En un problema de clasificación de imágenes, la capacidad de un algoritmo para clasificar correctamente las imágenes, incluso cuando cambia el tamaño de la imagen. Por ejemplo, el algoritmo aún puede identificar a un gato si consume 2 millones de píxeles o 200,000 píxeles. Ten en cuenta que incluso los mejores algoritmos de clasificación de imágenes aún tienen límites prácticos en la invariancia de tamaño. Por ejemplo, es poco probable que un algoritmo (o persona) clasifique correctamente una imagen de gato que consuma solo 20 píxeles.

Consulta también invariancia de traslación y invariancia rotacional.

esbozo

#clustering

En el aprendizaje automático no supervisado, una categoría de algoritmos que ejecutan un análisis preliminar de similitud de los ejemplos. Los algoritmos de esbozo usan una función de hash sensible a la localidad para identificar puntos que probablemente sean similares y luego juntarlos en agrupamientos.

El esbozo reduce el cómputo requerido para los cálculos de similitud en conjuntos de datos extensos. En lugar de calcular la similitud para cada par de ejemplos del conjunto de datos, se calcula la similitud solo para cada par de puntos dentro de cada bucket.

skip-gram

#language

Un n-grama que puede omitir (o “omitir”) palabras del contexto original, lo que significa que las N palabras podrían no haber estado adyacentes originalmente. Más precisamente, un "n-gram con omisión de k" es un n-gram para el que se pueden haber omitido hasta k palabras.

Por ejemplo, “the quick brown fox” tiene los siguientes 2-gramas posibles:

  • "the quick"
  • "quick brown"
  • "zorro marrón"

Un "1-skip-2-gram" es un par de palabras que tienen como máximo 1 palabra entre ellas. Por lo tanto, “the quick brown fox” tiene los siguientes 2-gramas con 1 omisión:

  • "the brown"
  • "quick fox"

Además, todos los bigramas también son bigramas de 1 omisión, ya que se puede omitir menos de una palabra.

Los saltos de palabras son útiles para comprender mejor el contexto que rodea a una palabra. En el ejemplo, “fox” se asoció directamente con “quick” en el conjunto de 1-skip-2-grams, pero no en el conjunto de 2-grams.

Los saltos de palabras ayudan a entrenar modelos de incorporación de palabras.

softmax

#fundamentals

Es una función que determina las probabilidades para cada clase posible en un modelo de clasificación de varias clases. Las probabilidades suman exactamente 1.0. Por ejemplo, en la siguiente tabla, se muestra cómo la función softmax distribuye variadas probabilidades:

La imagen es un… Probabilidad
perro .85
gato .13
caballo .02

La función softmax también se denomina softmax completo.

Compara esto con el muestreo de candidatos.

Ajuste de indicaciones suaves

#language
#generativeAI

Es una técnica para ajustar un modelo de lenguaje extenso para una tarea en particular, sin un ajuste fino intensivo en recursos. En lugar de volver a entrenar todos los pesos del modelo, el ajuste de instrucciones suaves ajusta automáticamente una instrucción para lograr el mismo objetivo.

Dada una instrucción textual, el ajuste de instrucciones suaves suele adjuntar incorporaciones de tokens adicionales a la instrucción y usa la retropropagación para optimizar la entrada.

Una instrucción "difícil" contiene tokens reales en lugar de incorporaciones de tokens.

atributo disperso

#language
#fundamentals

Un atributo cuyos valores son predominantemente cero o están vacíos. Por ejemplo, un atributo que contiene un solo valor de 1 y un millón de valores de 0 es escaso. En cambio, un atributo denso tiene valores que, en su mayoría, no son cero ni están vacíos.

En el aprendizaje automático, una cantidad sorprendente de atributos son atributos dispersos. Los atributos categóricos suelen ser atributos dispersos. Por ejemplo, de las 300 especies de árboles posibles en un bosque, un solo ejemplo podría identificar solo un árbol de arce. O bien, de los millones de videos posibles en una biblioteca de video, un solo ejemplo podría identificar solo "Casablanca".

En un modelo, por lo general, representas atributos dispersos con codificación one-hot. Si la codificación one-hot es grande, puedes colocar una capa de incorporación sobre la codificación one-hot para obtener una mayor eficiencia.

representación dispersa

#language
#fundamentals

Almacena solo las posiciones de los elementos distintos de cero en un atributo disperso.

Por ejemplo, supongamos que un atributo categórico llamado species identifica las 36 especies de árboles en un bosque en particular. Supongamos además que cada ejemplo identifica solo una especie.

Podrías usar un vector de un valor para representar las especies de árboles en cada ejemplo. Un vector one-hot contendría un solo 1 (para representar la especie de árbol en particular en ese ejemplo) y 35 0 (para representar las 35 especies de árboles que no están en ese ejemplo). Por lo tanto, la representación one-hot de maple podría verse de la siguiente manera:

Un vector en el que las posiciones del 0 al 23 contienen el valor 0, la posición 24 contiene el valor 1 y las posiciones del 25 al 35 contienen el valor 0.

Como alternativa, la representación dispersa simplemente identificaría la posición de la especie en particular. Si maple está en la posición 24, la representación dispersa de maple sería la siguiente:

24

Ten en cuenta que la representación dispersa es mucho más compacta que la representación de uno caliente.

vector disperso

#fundamentals

Un vector cuyos valores son predominantemente cero. Consulta también atributo disperso y dispersión.

dispersión

Es la cantidad de elementos que se establecen en cero (o nulos) en un vector o una matriz dividida por la cantidad total de entradas en ese vector o matriz. Por ejemplo, considera una matriz de 100 elementos en la que 98 celdas contienen cero. El cálculo de la dispersión es el siguiente:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

La esparsidad de atributos se refiere a la esparsidad de un vector de atributos. La esparsidad del modelo se refiere a la esparsidad de los pesos del modelo.

reducción espacial

#image

Consulta agrupación.

split

#df

En un árbol de decisión, es otro nombre para una condición.

divisor

#df

Durante el entrenamiento de un árbol de decisión, la rutina (y el algoritmo) son responsables de encontrar la mejor condición en cada nodo.

SPMD

Abreviatura de programa único / varios datos.

pérdida de bisagra al cuadrado

Es el cuadrado de la pérdida de bisagra. La pérdida de bisagra al cuadrado penaliza a los valores atípicos de manera más severa que la pérdida de bisagra normal.

pérdida al cuadrado

#fundamentals

Es un sinónimo de pérdida de L2.

entrenamiento por etapas

#language

Una táctica para entrenar un modelo en una secuencia de etapas discretas. El objetivo puede ser acelerar el proceso de entrenamiento o lograr una mejor calidad del modelo.

A continuación, se muestra una ilustración del enfoque de apilamiento progresivo:

  • La etapa 1 contiene 3 capas ocultas, la etapa 2 contiene 6 capas ocultas y la etapa 3 contiene 12 capas ocultas.
  • La etapa 2 comienza el entrenamiento con los pesos aprendidos en las 3 capas ocultas de la etapa 1. La etapa 3 comienza el entrenamiento con los pesos aprendidos en las 6 capas ocultas de la etapa 2.

Tres etapas, etiquetadas como Etapa 1, Etapa 2 y Etapa 3.
          Cada etapa contiene una cantidad diferente de capas: la etapa 1 contiene 3 capas, la etapa 2 contiene 6 capas y la etapa 3 contiene 12 capas.
          Las 3 capas de la etapa 1 se convierten en las primeras 3 capas de la etapa 2.
          De manera similar, las 6 capas de la etapa 2 se convierten en las primeras 6 capas de la etapa 3.

Consulta también encadenar.

state

#rl

En el aprendizaje por refuerzo, los valores de los parámetros que describen la configuración actual del entorno, que el agente usa para elegir una acción.

función de valor de estado-acción

#rl

Sinónimo de función Q.

static

#fundamentals

Es algo que se hace una vez en lugar de de forma continua. Los términos estático y sin conexión son sinónimos. Los siguientes son usos comunes de estático y sin conexión en el aprendizaje automático:

  • Un modelo estático (o modelo sin conexión) es un modelo que se entrena una vez y luego se usa durante un tiempo.
  • El entrenamiento estático (o entrenamiento sin conexión) es el proceso de entrenar un modelo estático.
  • La inferencia estática (o inferencia sin conexión) es un proceso en el que un modelo genera un lote de predicciones a la vez.

Compara esto con el dinámico.

Inferencia estática

#fundamentals

Es un sinónimo de inferencia sin conexión.

estacionariedad

#fundamentals

Es una función cuyos valores no cambian en una o más dimensiones, por lo general, el tiempo. Por ejemplo, un atributo cuyos valores se ven aproximadamente iguales en 2021 y 2023 muestra estacionariedad.

En el mundo real, muy pocas características presentan estacionariedad. Incluso los atributos que son sinónimos de estabilidad (como el nivel del mar) cambian con el tiempo.

Compara esto con la no estacionariedad.

paso

Un paso hacia adelante y un paso hacia atrás de un lote.

Consulta retropropagación para obtener más información sobre el paso hacia adelante y el paso hacia atrás.

tamaño del paso

Sinónimo de tasa de aprendizaje.

descenso de gradientes estocástico (SGD)

#fundamentals

Un algoritmo de descenso de gradientes en el que el tamaño del lote es uno. En otras palabras, el SGD se entrena en un solo ejemplo elegido de forma uniforme al azar de un conjunto de entrenamiento.

stride

#image

En una operación convolucional o de reducción, el delta en cada dimensión de la siguiente serie de porciones de entrada. Por ejemplo, la siguiente animación muestra un paso (1,1) durante una operación de convolución. Por lo tanto, la siguiente porción de entrada comienza una posición a la derecha de la porción de entrada anterior. Cuando la operación llega al borde derecho, la siguiente porción está completamente a la izquierda, pero una posición hacia abajo.

Una matriz de entrada de 5 × 5 y un filtro convolucional de 3 × 3. Debido a que el paso es (1,1), se aplicará un filtro convolucional 9 veces. La primera porción convolucional evalúa la submatriz de 3 × 3 en la parte superior izquierda de la matriz de entrada. La segunda porción evalúa la submatriz 3 × 3 de la parte superior central. La tercera porción de convolución evalúa la submatriz 3 × 3 de la esquina superior derecha.  El cuarto corte evalúa la submatriz 3 × 3 del medio izquierdo.
     El quinto corte evalúa la submatriz central de 3 × 3. El sexto corte
     evalúa la submatriz de 3 × 3 del medio derecho. El séptimo corte evalúa la submatriz 3 × 3 de la parte inferior izquierda.  El octavo corte evalúa la submatriz de 3 × 3 del medio inferior. El noveno corte evalúa la submatriz 3 × 3 de la esquina inferior derecha.

En el ejemplo anterior, se muestra un paso de dos dimensiones. Si la matriz de entrada es tridimensional, el paso también lo será.

minimización del riesgo estructural (SRM)

Un algoritmo que equilibra dos objetivos:

  • La necesidad de desarrollar el modelo más predictivo (por ejemplo, la pérdida más baja)
  • La necesidad de mantener el modelo lo más simple posible (por ejemplo, una regularización estricta)

Por ejemplo, una función que minimiza la pérdida + regularización en el conjunto de entrenamiento es un algoritmo de minimización del riesgo estructural.

Compara esto con la minimización del riesgo empírico.

submuestreo

#image

Consulta agrupación.

token de subpalabra

#language

En los modelos de lenguaje, un token es una subcadena de una palabra, que puede ser la palabra completa.

Por ejemplo, una palabra como "detallar" podría dividirse en las partes "detallar" (una palabra raíz) y "izar" (un sufijo), cada una de las cuales está representada por su propio token. Dividir las palabras poco comunes en esas partes, llamadas subpalabras, permite que los modelos de lenguaje operen en las partes constituyentes más comunes de la palabra, como los prefijos y sufijos.

Por el contrario, es posible que las palabras comunes, como "ir", no se dividan y se representen con un solo token.

resumen

#TensorFlow

En TensorFlow, un valor o conjunto de valores que se calcula en un paso determinado, que se suele usar para realizar un seguimiento de las métricas del modelo durante el entrenamiento.

aprendizaje automático supervisado

#fundamentals

Entrenar un modelo a partir de características y sus etiquetas correspondientes. El aprendizaje automático supervisado es análogo a aprender un tema a través del estudio de un conjunto de preguntas y sus respuestas correspondientes. Después de dominar la asignación entre preguntas y respuestas, un estudiante puede proporcionar respuestas a preguntas nuevas (nunca antes vistas) sobre el mismo tema.

Compara esto con el aprendizaje automático no supervisado.

atributo sintético

#fundamentals

Un atributo que no está presente entre los atributos de entrada, pero que se deriva de uno o más de ellos. Entre los métodos para crear atributos sintéticos, se incluyen los siguientes:

  • Agrupamiento de un atributo continuo en discretizaciones de rango
  • Creación de una combinación de atributos
  • Multiplicación (o división) de un atributo por otros atributos o por sí mismo Por ejemplo, si a y b son atributos de entrada, los siguientes son ejemplos de atributos sintéticos:
    • ab
    • a2
  • Aplicación de una función trascendental a un valor de componente Por ejemplo, si c es un atributo de entrada, los siguientes son ejemplos de atributos sintéticos:
    • sin(c)
    • ln(c)

Los atributos creados solo con normalización o ajuste no se consideran atributos sintéticos.

T

T5

#language

Un modelo de transferencia de aprendizaje de texto a texto que presentó Google AI en 2020. T5 es un modelo de codificador-decodificador, basado en la arquitectura de Transformer, entrenado en un conjunto de datos extremadamente grande. Es eficaz en una variedad de tareas de procesamiento de lenguaje natural, como generar texto, traducir idiomas y responder preguntas de forma conversacional.

T5 recibe su nombre de las cinco T de "Text-to-Text Transfer Transformer".

T5X

#language

Un framework de aprendizaje automático de código abierto diseñado para compilar y entrenar modelos de procesamiento de lenguaje natural (PLN) a gran escala. T5 se implementa en la base de código de T5X (que se compila en JAX y Flax).

aprendizaje Q tabular

#rl

En el aprendizaje por refuerzo, se implementa el aprendizaje Q con una tabla para almacenar las funciones Q para cada combinación de estado y acción.

objetivo

Sinónimo de etiqueta.

red de destino

#rl

En el aprendizaje profundo con Q, una red neuronal que es una aproximación estable de la red neuronal principal, en la que la red neuronal principal implementa una función Q o una política. Luego, puedes entrenar la red principal en los valores de Q que predice la red objetivo. Por lo tanto, evitas el bucle de retroalimentación que se produce cuando la red principal se entrena en valores Q que se predicen por sí mismos. Cuando se evita este tipo de comentarios, mejora la estabilidad del entrenamiento.

tarea

Un problema que se puede resolver con técnicas de aprendizaje automático, como las siguientes:

temperatura

#language
#image
#generativeAI

Un hiperparámetro que controla el grado de aleatoriedad del resultado de un modelo. Las temperaturas más altas generan resultados más aleatorios, mientras que las temperaturas más bajas generan resultados menos aleatorios.

La elección de la mejor temperatura depende de la aplicación específica y de las propiedades preferidas del resultado del modelo. Por ejemplo, es probable que aumentes la temperatura cuando crees una aplicación que genere resultados creativos. Por el contrario, es probable que disminuyas la temperatura cuando crees un modelo que clasifique imágenes o texto para mejorar su precisión y coherencia.

La temperatura se suele usar con softmax.

datos temporales

Datos registrados en diferentes momentos. Por ejemplo, las ventas de abrigos de invierno registradas para cada día del año serían datos temporales.

Tensor

#TensorFlow

Es la estructura de datos principal en los programas de TensorFlow. Los tensores son estructuras de datos n-dimensionales (donde N podría ser muy grande), generalmente escalares, vectores o matrices. Los elementos de un tensor pueden tener valores enteros, de punto flotante o de una cadena de caracteres.

TensorBoard

#TensorFlow

Panel que muestra los resúmenes generados durante la ejecución de uno o más programas de TensorFlow.

TensorFlow

#TensorFlow

Una plataforma de aprendizaje automático distribuida a gran escala. El término también se refiere a la capa de API base en la pila de TensorFlow, que admite el procesamiento general en gráficos de flujo de datos.

Aunque TensorFlow se usa principalmente para el aprendizaje automático, también puedes usarlo para tareas que no sean de AA que requieran cálculos numéricos con grafos de flujo de datos.

TensorFlow Playground

#TensorFlow

Programa que visualiza cómo los diferentes hiperparámetros influyen en el entrenamiento del modelo (principalmente en las redes neuronales). Para probar TensorFlow Playground, visita http://playground.tensorflow.org.

TensorFlow Serving

#TensorFlow

Una plataforma para implementar modelos entrenados en producción.

Unidad de procesamiento tensorial (TPU)

#TensorFlow
#GoogleCloud

Un circuito integrado específico de la aplicación (ASIC) que optimiza el rendimiento de las cargas de trabajo de aprendizaje automático. Estos ASIC se implementan como varios chips de TPU en un dispositivo TPU.

Rango de tensor

#TensorFlow

Consulta rango (tensor).

Forma del tensor

#TensorFlow

Cantidad de elementos que contiene un Tensor en varias dimensiones. Por ejemplo, un tensor [5, 10] tiene una forma de 5 en una dimensión y de 10 en la otra.

Tamaño del tensor

#TensorFlow

Cantidad total de escalares que contiene un Tensor. Por ejemplo, un tensor [5, 10] tiene un tamaño de 50.

TensorStore

Una biblioteca para leer y escribir de manera eficiente grandes arrays multidimensionales.

condición de rescisión

#rl

En el aprendizaje por refuerzo, las condiciones que determinan cuándo finaliza un episodio, como cuando el agente alcanza un estado determinado o supera una cantidad umbral de transiciones de estado. Por ejemplo, en el tres en raya (también conocido como tic-tac-toe), un episodio finaliza cuando un jugador marca tres espacios consecutivos o cuando se marcan todos los espacios.

prueba

#df

En un árbol de decisión, es otro nombre para una condición.

pérdida de prueba

#fundamentals

Una métrica que representa la pérdida de un modelo en comparación con el conjunto de prueba. Cuando compilas un modelo, por lo general, intentas minimizar la pérdida de la prueba. Esto se debe a que una pérdida de prueba baja es un indicador de calidad más sólido que una pérdida de entrenamiento o una pérdida de validación baja.

A veces, una gran brecha entre la pérdida de prueba y la pérdida de entrenamiento o validación sugiere que debes aumentar la tasa de regularización.

conjunto de prueba

Es un subconjunto del conjunto de datos reservado para probar un modelo entrenado.

Tradicionalmente, divides los ejemplos del conjunto de datos en los siguientes tres subconjuntos distintos:

Cada ejemplo de un conjunto de datos debe pertenecer a uno solo de los subconjuntos anteriores. Por ejemplo, un solo ejemplo no debe pertenecer al conjunto de entrenamiento ni al conjunto de prueba.

El conjunto de entrenamiento y el conjunto de validación están estrechamente vinculados al entrenamiento de un modelo. Debido a que el conjunto de prueba solo está asociado indirectamente con el entrenamiento, la pérdida de prueba es una métrica menos sesgada y de mayor calidad que la pérdida de entrenamiento o la pérdida de validación.

intervalo de texto

#language

Es el intervalo de índice de array asociado con una subsección específica de una cadena de texto. Por ejemplo, la palabra good en la cadena de Python s="Be good now" ocupa el intervalo de texto del 3 al 6.

tf.Example

#TensorFlow

Búfer de protocolo estándar que se usa para describir datos de entrada para el entrenamiento o la inferencia de modelos de aprendizaje automático.

tf.keras

#TensorFlow

Una implementación de Keras integrada en TensorFlow.

umbral (para árboles de decisión)

#df

En una condición alineada con el eje, es el valor con el que se compara una función. Por ejemplo, 75 es el valor del umbral en la siguiente condición:

grade >= 75

análisis de series temporales

#clustering

Subcampo del aprendizaje automático y la estadística que analiza datos temporales. Muchos tipos de problemas de aprendizaje automático requieren el análisis de series temporales, incluida la clasificación, el agrupamiento, la previsión y la detección de anomalías. Por ejemplo, puedes usar el análisis de series temporales para predecir las ventas futuras de abrigos de invierno por mes en función de los datos de ventas históricos.

paso de tiempo

#seq

Una celda “desenrollada” dentro de una red neuronal recurrente. Por ejemplo, en la siguiente figura, se muestran tres pasos de tiempo (etiquetados con los subíndices t-1, t y t+1):

Tres pasos en el tiempo en una red neuronal recurrente. El resultado del primer paso de tiempo se convierte en la entrada del segundo paso de tiempo. La salida del segundo paso de tiempo se convierte en la entrada del tercer paso de tiempo.

token

#language

En un modelo de lenguaje, es la unidad atómica con la que el modelo entrena y realiza predicciones. Por lo general, un token es uno de los siguientes:

  • una palabra; por ejemplo, la frase "dogs like cats" consta de tres tokens de palabra: "dogs", "like" y "cats".
  • un carácter; por ejemplo, la frase "bike fish" consta de nueve tokens de carácter. (Ten en cuenta que el espacio en blanco cuenta como uno de los tokens).
  • subpalabras, en las que una sola palabra puede ser un solo token o varios tokens. Una subpalabra consta de una palabra raíz, un prefijo o un sufijo. Por ejemplo, un modelo de lenguaje que usa subpalabras como tokens podría ver la palabra "dogs" como dos tokens (la palabra raíz "dog" y el sufijo plural "s"). Ese mismo modelo de lenguaje podría ver la palabra única “más alto” como dos subpalabras (la palabra raíz “alto” y el sufijo “er”).

En dominios fuera de los modelos de lenguaje, los tokens pueden representar otros tipos de unidades atómicas. Por ejemplo, en la visión artificial, un token puede ser un subconjunto de una imagen.

precisión Top-K

#language

Es el porcentaje de veces que aparece una "etiqueta de segmentación" en las primeras k posiciones de las listas generadas. Las listas pueden ser recomendaciones personalizadas o una lista de elementos ordenados por softmax.

La precisión Top-K también se conoce como precisión en k.

torre

Es un componente de una red neuronal profunda que, a su vez, es una red neuronal profunda. En algunos casos, cada torre lee de una fuente de datos independiente y esas torres permanecen independientes hasta que su salida se combina en una capa final. En otros casos (por ejemplo, en la torre de codificadores y decodificadores de muchos transformadores), las torres tienen conexiones cruzadas entre sí.

tóxico

#language

El grado en que el contenido es abusivo, amenazante o ofensivo Muchos modelos de aprendizaje automático pueden identificar y medir la toxicidad. La mayoría de estos modelos identifican la toxicidad en función de varios parámetros, como el nivel de lenguaje abusivo y el nivel de lenguaje amenazante.

TPU

#TensorFlow
#GoogleCloud

Abreviatura de unidad de procesamiento tensorial.

Chip de TPU

#TensorFlow
#GoogleCloud

Un acelerador de álgebra lineal programable con memoria de alto ancho de banda en chip que está optimizado para las cargas de trabajo de aprendizaje automático. Varios chips de TPU se implementan en un dispositivo de TPU.

Dispositivo de TPU

#TensorFlow
#GoogleCloud

Una placa de circuito impreso (PCB) con varios chips de TPU, interfaces de red de alto ancho de banda y hardware de refrigeración del sistema.

TPU principal

#TensorFlow
#GoogleCloud

Es el proceso de coordinación central que se ejecuta en una máquina host que envía y recibe datos, resultados, programas, rendimiento y estado del sistema a los trabajadores de TPU. El TPU principal también administra la configuración y el apagado de los dispositivos TPU.

Nodo TPU

#TensorFlow
#GoogleCloud

Un recurso de TPU en Google Cloud con un tipo de TPU específico El nodo TPU se conecta a tu red de VPC desde una red de VPC de intercambio de tráfico. Los nodos TPU son un recurso definido en la API de Cloud TPU.

pod de TPU

#TensorFlow
#GoogleCloud

Es una configuración específica de dispositivos de TPU en un centro de datos de Google. Todos los dispositivos de un pod de TPU se conectan entre sí a través de una red dedicada de alta velocidad. Un pod de TPU es la configuración más grande de dispositivos de TPU disponible para una versión específica de TPU.

Recurso de TPU

#TensorFlow
#GoogleCloud

Es una entidad de TPU en Google Cloud que creas, administras o consumes. Por ejemplo, los nodos TPU y los tipos de TPU son recursos de TPU.

Porción de TPU

#TensorFlow
#GoogleCloud

Una porción de TPU es una parte fraccionada de los dispositivos TPU en un pod de TPU. Todos los dispositivos de una porción de TPU se conectan entre sí en una red dedicada de alta velocidad.

Tipo de TPU

#TensorFlow
#GoogleCloud

Es una configuración de uno o más dispositivos de TPU con una versión específica de hardware de TPU. Seleccionas un tipo de TPU cuando creas un nodo TPU en Google Cloud. Por ejemplo, un tipo de TPU v2-8 es un solo dispositivo TPU v2 con 8 núcleos. Un tipo de TPU v3-2048 tiene 256 dispositivos TPU v3 en red y un total de 2,048 núcleos. Los tipos de TPU son un recurso definido en la API de Cloud TPU.

Trabajador de TPU

#TensorFlow
#GoogleCloud

Es un proceso que se ejecuta en una máquina host y ejecuta programas de aprendizaje automático en dispositivos TPU.

entrenamiento

#fundamentals

Es el proceso de determinar los parámetros (pesos y sesgos) ideales que conforman un modelo. Durante el entrenamiento, un sistema lee los ejemplos y ajusta gradualmente los parámetros. El entrenamiento usa cada ejemplo entre unas pocas veces y miles de millones de veces.

pérdida de entrenamiento

#fundamentals

Es una métrica que representa la pérdida de un modelo durante una iteración de entrenamiento en particular. Por ejemplo, supongamos que la función de pérdida es el error cuadrático medio. Quizás la pérdida de entrenamiento (el error cuadrático medio) para la 10ª iteración sea 2.2 y la pérdida de entrenamiento para la 100ª iteración sea 1.9.

Una curva de pérdida traza la pérdida de entrenamiento en función de la cantidad de iteraciones. Una curva de pérdida proporciona las siguientes sugerencias sobre el entrenamiento:

  • Una pendiente descendente implica que el modelo está mejorando.
  • Una pendiente ascendente implica que el modelo empeora.
  • Una pendiente plana implica que el modelo alcanzó la convergencia.

Por ejemplo, la siguiente curva de pérdidas algo idealizada muestra lo siguiente:

  • Una pendiente descendente pronunciada durante las iteraciones iniciales, lo que implica una mejora rápida del modelo.
  • Una pendiente que se aplana gradualmente (pero sigue hacia abajo) hasta cerca del final del entrenamiento, lo que implica una mejora continua del modelo a un ritmo un poco más lento que durante las iteraciones iniciales.
  • Una pendiente plana hacia el final del entrenamiento, lo que sugiere convergencia.

El gráfico de la pérdida de entrenamiento en comparación con las iteraciones. Esta curva de pérdidas comienza con una pendiente descendente pronunciada. La pendiente se aplana gradualmente hasta que se vuelve cero.

Aunque la pérdida de entrenamiento es importante, consulta también la generalización.

sesgo del entrenamiento y la entrega

#fundamentals

Es la diferencia entre el rendimiento de un modelo durante el entrenamiento y el rendimiento de ese mismo modelo durante la entrega.

conjunto de entrenamiento

#fundamentals

Es el subconjunto del conjunto de datos que se usa para entrenar un modelo.

Tradicionalmente, los ejemplos del conjunto de datos se dividen en los siguientes tres subconjuntos distintos:

Lo ideal es que cada ejemplo del conjunto de datos pertenezca a solo uno de los subconjuntos anteriores. Por ejemplo, un solo ejemplo no debe pertenecer al conjunto de entrenamiento ni al conjunto de validación.

trayectoria

#rl

En el aprendizaje por refuerzo, es una secuencia de tuplas que representan una secuencia de transiciones de estado del agente, en la que cada tupla corresponde al estado, la acción, la recompensa y el estado siguiente para una transición de estado determinada.

aprendizaje por transferencia

Transferencia de información de una tarea de aprendizaje automático a otra Por ejemplo, en el aprendizaje de tareas múltiples, un solo modelo resuelve varias tareas, como en el caso de un modelo profundo que tiene diferentes nodos de resultados para las distintas tareas. El aprendizaje por transferencia puede implicar transferir conocimiento de la solución de una tarea más simple a una más compleja, o bien transferir conocimiento de una tarea en la que hay más datos a una en la que hay menos datos.

La mayoría de los sistemas de aprendizaje automático resuelven una sola tarea. El aprendizaje por transferencia es un primer paso hacia la inteligencia artificial en el que un solo programa puede resolver varias tareas.

Transformador

#language

Es una arquitectura de red neuronal desarrollada en Google que se basa en mecanismos de autoatención para transformar una secuencia de incorporaciones de entrada en una secuencia de incorporaciones de salida sin depender de convoluciones ni redes neuronales recurrentes. Un transformador se puede ver como una pila de capas de autoatención.

Un transformador puede incluir cualquiera de los siguientes elementos:

Un codificador transforma una secuencia de incorporaciones en una secuencia nueva de la misma longitud. Un codificador incluye N capas idénticas, cada una de las cuales contiene dos subcapas. Estas dos subcapas se aplican en cada posición de la secuencia de incorporación de entrada y transforman cada elemento de la secuencia en una incorporación nueva. La primera subcapa del codificador agrega información de toda la secuencia de entrada. La segunda subcapa del codificador transforma la información agregada en una incorporación de salida.

Un decodificador transforma una secuencia de incorporaciones de entrada en una secuencia de incorporaciones de salida, posiblemente con una longitud diferente. Un decodificador también incluye N capas idénticas con tres subcapas, dos de las cuales son similares a las subcapas del codificador. La tercera subcapa del decodificador toma el resultado del codificador y aplica el mecanismo de autoatención para recopilar información de él.

La entrada de blog Transformer: A Novel Neural Network Architecture for Language Understanding proporciona una buena introducción a los transformadores.

invariancia traslacional

#image

En un problema de clasificación de imágenes, la capacidad de un algoritmo para clasificar imágenes de manera correcta incluso cuando cambia la posición de los objetos dentro de la imagen. Por ejemplo, el algoritmo aún puede identificar un perro, ya sea en el centro del marco o en el extremo izquierdo de este.

Consulta también invariancia de tamaño y invariancia rotacional.

trigrama

#seq
#language

Un n-grama en el que n=3.

verdadero negativo (VN) (TN, true negative)

#fundamentals

Ejemplo en el que el modelo predice correctamente la clase negativa. Por ejemplo, el modelo infiere que un mensaje de correo electrónico en particular no es spam y que realmente no es spam.

verdadero positivo (VP)

#fundamentals

Ejemplo en el que el modelo predice correctamente la clase positiva. Por ejemplo, el modelo infiere que un mensaje de correo electrónico en particular es spam y realmente lo es.

tasa de verdaderos positivos (TPR)

#fundamentals

Sinónimo de recuperación. Es decir:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

La tasa de verdaderos positivos es el eje "y" en una curva ROC.

U

desconocimiento (de un atributo sensible)

#fairness

Es una situación en la que hay atributos sensibles, pero no se incluyen en los datos de entrenamiento. Debido a que los atributos sensibles a menudo se correlacionan con otros atributos de los datos, un modelo entrenado sin conocimiento de un atributo sensible podría tener un impacto dispar con respecto a ese atributo o infringir otras restricciones de equidad.

subajuste

#fundamentals

Producir un modelo con poca capacidad predictiva porque el modelo no capturó por completo la complejidad de los datos de entrenamiento. El subajuste puede estar causado por varios problemas, como los siguientes:

submuestreo

Quitar ejemplos de la clase mayoritaria en un conjunto de datos con desequilibrio de clases para crear un conjunto de entrenamiento más equilibrado

Por ejemplo, considera un conjunto de datos en el que la proporción de la clase mayoritaria a la clase minoritaria es de 20:1. Para superar este desequilibrio de clases, puedes crear un conjunto de entrenamiento que conste de todos los ejemplos de la clase minoritaria, pero solo una décima parte de los ejemplos de la clase mayoritaria, lo que crearía una proporción de clases del conjunto de entrenamiento de 2:1. Gracias al submuestreo, este conjunto de entrenamiento más equilibrado podría producir un mejor modelo. Como alternativa, este conjunto de entrenamiento más equilibrado podría contener ejemplos insuficientes para entrenar un modelo eficaz.

Compara esto con el muestreo excesivo.

unidireccional

#language

Un sistema que solo evalúa el texto que precede a una sección de texto objetivo. En cambio, un sistema bidireccional evalúa el texto que precede y sigue a una sección de texto objetivo. Consulta bidireccional para obtener más detalles.

modelo de lenguaje unidireccional

#language

Un modelo de lenguaje que basa sus probabilidades solo en los tokens que aparecen antes, no después, de los tokens de destino. Compara esto con el modelo de lenguaje bidireccional.

ejemplo sin etiqueta

#fundamentals

Un ejemplo que contiene atributos, pero no etiquetas. Por ejemplo, en la siguiente tabla, se muestran tres ejemplos sin etiqueta de un modelo de valoración de casas, cada uno con tres características, pero sin el valor de la casa:

Cantidad de dormitorios Cantidad de baños Antigüedad de la casa
3 2 15
2 1 72
4 2 34

En el aprendizaje automático supervisado, los modelos se entrenan con ejemplos etiquetados y realizan predicciones sobre ejemplos sin etiqueta.

En el aprendizaje semisupervisado y no supervisado, se usan ejemplos sin etiqueta durante el entrenamiento.

Compara el ejemplo sin etiqueta con el ejemplo etiquetado.

aprendizaje automático no supervisado

#clustering
#fundamentals

Entrenamiento de un modelo para encontrar patrones en un conjunto de datos, generalmente sin etiqueta.

El uso más común del aprendizaje automático no supervisado es la agrupación de datos en grupos de ejemplos similares. Por ejemplo, un algoritmo de aprendizaje automático no supervisado puede agrupar canciones según varias propiedades de la música. Los clústeres resultantes pueden convertirse en una entrada para otros algoritmos de aprendizaje automático (por ejemplo, para un servicio de recomendación de música). El agrupamiento puede ser útil cuando las etiquetas útiles son escasas o no existen. Por ejemplo, en dominios como la protección contra el abuso y el fraude, los clústeres pueden ayudar a los humanos a comprender mejor los datos.

Compara esto con el aprendizaje automático supervisado.

modelado del aumento

Es una técnica de modelado, que se usa comúnmente en el marketing, que modela el “efecto causal” (también conocido como “impacto incremental”) de un “tratamiento” en un “individuo”. A continuación, presentamos dos ejemplos:

  • Los médicos pueden usar el modelado de aumento para predecir la disminución de la mortalidad (efecto causal) de un procedimiento médico (tratamiento) según la edad y el historial médico de un paciente (individuo).
  • Los especialistas en marketing pueden usar el modelado de aumento para predecir el aumento en la probabilidad de una compra (efecto causal) debido a un anuncio (tratamiento) en una persona (individuo).

El modelado del aumento difiere de la clasificación o la regresión en que siempre faltan algunas etiquetas (por ejemplo, la mitad de las etiquetas en los tratamientos binarios) en el modelado del aumento. Por ejemplo, un paciente puede recibir o no un tratamiento. Por lo tanto, solo podemos observar si el paciente se curará o no en una de estas dos situaciones (pero nunca en ambas). La principal ventaja de un modelo de aumento es que puede generar predicciones para la situación no observada (el contrafactual) y usarla para calcular el efecto causal.

incremento de ponderación

Aplicación de un peso a una clase con reducción de muestreo igual al factor por el que se realizó la reducción de muestreo.

matriz de usuarios

#recsystems

En los sistemas de recomendación, un vector de incorporación generado por la factorización de matrices que contiene indicadores latentes sobre las preferencias de los usuarios. Cada fila de la matriz de usuarios contiene información sobre la fuerza relativa de varias señales latentes para un solo usuario. Por ejemplo, considera un sistema de recomendación de películas. En este sistema, las señales latentes de la matriz de usuarios pueden representar el interés de cada usuario en géneros particulares o pueden ser señales más complicadas de interpretar que impliquen interacciones complejas entre múltiples factores.

La matriz de usuarios tiene una columna para cada atributo latente y una fila para cada usuario. Es decir, la matriz de usuarios tiene la misma cantidad de filas de la matriz objetivo que se factoriza. Por ejemplo, en un modelo de recomendación de películas para 1,000,000 de usuarios, la matriz de usuarios tendrá 1,000,000 de filas.

V

validación

#fundamentals

Es la evaluación inicial de la calidad de un modelo. La validación verifica la calidad de las predicciones de un modelo en función del conjunto de validación.

Debido a que el conjunto de validación difiere del conjunto de entrenamiento, la validación ayuda a evitar el sobreajuste.

Puedes pensar en evaluar el modelo con el conjunto de validación como la primera ronda de pruebas y evaluar el modelo con el conjunto de prueba como la segunda ronda de pruebas.

pérdida de validación

#fundamentals

Es una métrica que representa la pérdida de un modelo en el conjunto de validación durante una iteración de entrenamiento en particular.

Consulta también la curva de generalización.

conjunto de validación

#fundamentals

Es el subconjunto del conjunto de datos que realiza la evaluación inicial en comparación con un modelo entrenado. Por lo general, se evalúa el modelo entrenado con el conjunto de validación varias veces antes de evaluarlo con el conjunto de prueba.

Tradicionalmente, divides los ejemplos del conjunto de datos en los siguientes tres subconjuntos distintos:

Lo ideal es que cada ejemplo del conjunto de datos pertenezca a solo uno de los subconjuntos anteriores. Por ejemplo, un solo ejemplo no debe pertenecer al conjunto de entrenamiento ni al conjunto de validación.

Asignación de valores

Es el proceso de reemplazar un valor faltante por un sustituto aceptable. Cuando falta un valor, puedes descartar todo el ejemplo o usar la imputación de valores para recuperarlo.

Por ejemplo, considera un conjunto de datos que contiene un atributo temperature que se debe registrar cada hora. Sin embargo, la lectura de la temperatura no estaba disponible para una hora en particular. Esta es una sección del conjunto de datos:

Marca de tiempo Temperatura
1680561000 10
1680564600 12
1680568200 faltante
1680571800 20
1680575400 21
1680579000 21

Un sistema podría borrar el ejemplo faltante o imputar la temperatura faltante como 12, 16, 18 o 20, según el algoritmo de imputación.

problema de gradiente que desaparece

#seq

La tendencia de los gradientes de las primeras capas ocultas de algunas redes neuronales profundas a volverse sorprendentemente planos (bajos). Los gradientes cada vez más bajos generan cambios cada vez más pequeños en los pesos de los nodos de una red neuronal profunda, lo que genera poco o ningún aprendizaje. Los modelos que sufren del problema del gradiente que desaparece se vuelven difíciles o imposibles de entrenar. Las celdas de memoria a corto plazo de larga duración abordan este problema.

Compara con el problema de gradiente explosivo.

importancias de las variables

#df

Un conjunto de puntuaciones que indica la importancia relativa de cada atributo para el modelo.

Por ejemplo, considera un árbol de decisión que estime los precios de las casas. Supongamos que este árbol de decisión usa tres atributos: tamaño, edad y estilo. Si un conjunto de importancias de las variables para las tres características es {size=5.8, age=2.5, style=4.7}, entonces el tamaño es más importante para el árbol de decisión que la edad o el estilo.

Existen diferentes métricas de importancia de las variables, que pueden informar a los expertos en la IA sobre diferentes aspectos de los modelos.

codificador automático variacional (VAE)

#language

Un tipo de autocodificador que aprovecha la discrepancia entre las entradas y las salidas para generar versiones modificadas de las entradas. Los autocodificadores variacionales son útiles para la IA generativa.

Los VAE se basan en la inferencia variacional, una técnica para estimar los parámetros de un modelo de probabilidad.

vector

Es un término muy sobrecargado cuyo significado varía según los diferentes campos matemáticos y científicos. En el aprendizaje automático, un vector tiene dos propiedades:

  • Tipo de datos: Los vectores en el aprendizaje automático suelen contener números de punto flotante.
  • Cantidad de elementos: Es la longitud del vector o su dimensión.

Por ejemplo, considera un vector de características que contiene ocho números de punto flotante. Este vector de características tiene una longitud o dimensión de ocho. Ten en cuenta que los vectores de aprendizaje automático suelen tener una gran cantidad de dimensiones.

Puedes representar muchos tipos de información diferentes como un vector. Por ejemplo:

  • Cualquier posición en la superficie de la Tierra se puede representar como un vector de 2 dimensiones, en el que una dimensión es la latitud y la otra es la longitud.
  • Los precios actuales de cada una de las 500 acciones se pueden representar como un vector de 500 dimensiones.
  • Una distribución de probabilidad sobre una cantidad finita de clases se puede representar como un vector. Por ejemplo, un sistema de clasificación multiclase que predice uno de los tres colores de salida (rojo, verde o amarillo) podría generar el vector (0.3, 0.2, 0.5) para significar P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Los vectores se pueden concatenar, por lo que se puede representar una variedad de medios diferentes como un solo vector. Algunos modelos operan directamente en la concatenación de muchas codificaciones one-hot.

Los procesadores especializados, como las TPU, están optimizados para realizar operaciones matemáticas en vectores.

Un vector es un tensor de rango 1.

W

Pérdida de Wasserstein

Es una de las funciones de pérdida que se usan comúnmente en las redes generativas antagónicas, que se basan en la distancia de mover la tierra entre la distribución de datos generados y los datos reales.

peso

#fundamentals

Es un valor que un modelo multiplica por otro. El entrenamiento es el proceso de determinar los pesos ideales de un modelo. La inferencia es el proceso de usar esos pesos aprendidos para realizar predicciones.

Mínimos cuadrados ponderados alternos (WALS)

#recsystems

Un algoritmo para minimizar la función objetivo durante la factorización de matrices en sistemas de recomendación, lo que permite una reducción de los pesos de los ejemplos faltantes. WALS minimiza el error cuadrático ponderado entre la matriz original y la reconstrucción al alternan entre fijar la factorización de filas y la de columnas. Cada una de estas optimizaciones puede resolverse con optimización convexa de mínimos cuadrados. Para obtener más información, consulta el curso de Sistemas de recomendación.

suma ponderada

#fundamentals

La suma de todos los valores de entrada relevantes multiplicados por sus pesos correspondientes. Por ejemplo, supongamos que las entradas relevantes consisten en lo siguiente:

valor de entrada peso de entrada
2 -1.3
-1 0.6
3 0.4

Por lo tanto, la suma ponderada es la siguiente:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Una suma ponderada es el argumento de entrada de una función de activación.

modelo amplio

Un modelo lineal que generalmente tiene muchos atributos de entrada dispersos. Se hace referencia a este modelo como "amplio" porque se trata de un tipo especial de red neuronal con un alto número de entradas que se conectan directamente con el nodo de resultado. Los modelos amplios suelen ser más fáciles de inspeccionar y depurar que los modelos profundos. Aunque los modelos amplios no pueden expresar no linealidades a través de capas ocultas, pueden usar transformaciones como el cruzamiento de atributos y el agrupamiento para modelar no linealidades de diferentes maneras.

Compara esto con el modelo profundo.

ancho

Es la cantidad de neuronas en una capa particular de una red neuronal.

sabiduría de la multitud

#df

La idea de que el promedio de las opiniones o estimaciones de un gran grupo de personas ("la multitud") suele producir resultados sorprendentemente buenos. Por ejemplo, considera un juego en el que las personas adivinan la cantidad de gomitas de gelatina que hay en un frasco grande. Aunque la mayoría de las conjeturas individuales serán imprecisas, se demostró empíricamente que el promedio de todas las conjeturas es sorprendentemente cercano a la cantidad real de gomitas de gelatina en el frasco.

Los conjuntos son un análogo de software de la sabiduría de la multitud. Incluso si los modelos individuales hacen predicciones muy imprecisas, el promedio de las predicciones de muchos modelos a menudo genera predicciones sorprendentemente buenas. Por ejemplo, aunque un árbol de decisiones individual puede hacer predicciones deficientes, un bosque de decisión suele hacer predicciones muy buenas.

incorporación de palabras

#language

Representa cada palabra en un conjunto de palabras dentro de un vector de incorporación; es decir, representa cada palabra como un vector de valores de punto flotante entre 0.0 y 1.0. Las palabras con significados similares tienen representaciones más similares que las palabras con significados diferentes. Por ejemplo, las zanahorias, el apio y los pepinos tendrían representaciones relativamente similares, que serían muy diferentes de las representaciones de avión, lentes de sol y pasta dental.

X

XLA (álgebra lineal acelerada)

Un compilador de aprendizaje automático de código abierto para GPUs, CPUs y aceleradores de AA.

El compilador XLA toma modelos de frameworks de AA populares, como PyTorch, TensorFlow y JAX, y los optimiza para la ejecución de alto rendimiento en diferentes plataformas de hardware, incluidas las GPUs, las CPUs y los aceleradores de AA.

Z

aprendizaje sin ejemplos

Es un tipo de entrenamiento de aprendizaje automático en el que el modelo infiere una predicción para una tarea para la que no se entrenó específicamente. En otras palabras, al modelo no se le proporcionan ejemplos de entrenamiento específicos para la tarea, pero se le pide que realice una inferencia para esa tarea.

instrucción sin ejemplos

#language
#generativeAI

Una instrucción que no proporciona un ejemplo de cómo quieres que responda el modelo de lenguaje extenso. Por ejemplo:

Partes de una instrucción Notas
¿Cuál es la moneda oficial del país especificado? La pregunta que quieres que responda el LLM.
India: Es la consulta real.

El modelo de lenguaje grande podría responder con cualquiera de las siguientes opciones:

  • Rupia
  • INR
  • Rupia hindú
  • La rupia
  • La rupia india

Todas las respuestas son correctas, aunque es posible que prefieras un formato en particular.

Compara y contrasta las sugerencias de cero tomas con los siguientes términos:

Normalización de la puntuación Z

#fundamentals

Es una técnica de ajuste que reemplaza un valor de atributo sin procesar por un valor de punto flotante que representa la cantidad de desviaciones estándar de la media de ese atributo. Por ejemplo, considera un atributo cuya media es 800 y cuya desviación estándar es 100. En la siguiente tabla, se muestra cómo la normalización de la puntuación Z asignaría el valor sin procesar a su puntuación Z:

Valor sin procesar Puntaje Z
800 0
950 +1.5
575 -2.25

Luego, el modelo de aprendizaje automático se entrena en las puntuaciones Z de esa característica en lugar de los valores sin procesar.