Glosario sobre aprendizaje automático

En este glosario, se definen términos generales de aprendizaje automático, además de los específicos de TensorFlow.

A

ablación

Una técnica para evaluar la importancia de un atributo o componente mediante la eliminación temporal de un modelo. Luego, volver a entrenar el modelo sin ese atributo o componente, y si el modelo que se volvió a entrenar funciona mucho peor, entonces la función o el componente que se quitó no probablemente sea importante.

Por ejemplo, supongamos que entrenas un modelo de clasificación en 10 funciones y alcanza un 88% de precisión en la conjunto de prueba. Para verificar la importancia del primer atributo, puede volver a entrenarlo con solo los nueve atributos atributos. Si el modelo reentrenado tiene un rendimiento significativamente peor (por ejemplo, una precisión del 55%), es probable que el atributo quitado fuera importante. Por el contrario, Si el modelo que se volvió a entrenar tiene el mismo rendimiento, es probable que ese atributo no es tan importante.

La ablación también puede ayudar a determinar la importancia de los siguientes elementos:

  • Componentes más grandes, como un subsistema completo de un sistema de AA más grande
  • Procesos o técnicas, como un paso de procesamiento previo de datos

En ambos casos, observarías cómo cambia el rendimiento del sistema (o no cambia) después de haber quitado el componente.

Pruebas A/B

Forma estadística de comparar dos (o más) técnicas: la A y la B. Por lo general, A es una técnica existente y B es una técnica nueva. Las pruebas A/B no solo determinan qué técnica tiene un mejor rendimiento, sino también si la diferencia es estadísticamente significativa.

Por lo general, las pruebas A/B comparan una sola métrica con dos técnicas: Por ejemplo, ¿cómo se compara la exactitud del modelo para dos técnicas? Sin embargo, las pruebas A/B también pueden comparar cualquier cantidad finita de métricas.

chip acelerador

#GoogleCloud

Es una categoría de componentes de hardware especializados diseñados para realizar tareas para los algoritmos de aprendizaje profundo.

Los chips de acelerador (o simplemente aceleradores) pueden aumentar de forma significativa la velocidad y la eficiencia de las tareas de entrenamiento y de inferencia en comparación con una CPU de uso general. Son ideales para entrenar redes neuronales y tareas similares con mucha carga de cálculo.

Estos son algunos ejemplos de chips aceleradores:

  • Las unidades de procesamiento tensorial (TPU) de Google con hardware dedicado para el aprendizaje profundo
  • Las GPUs de NVIDIA, que, aunque se diseñaron inicialmente para el procesamiento de gráficos, están diseñadas para permitir el procesamiento en paralelo, lo que puede aumentar significativamente la velocidad de procesamiento.

exactitud

#fundamentals

La cantidad de predicciones de clasificación correctas divididas por la cantidad total de predicciones. Es decir:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Por ejemplo, un modelo que realizó 40 predicciones correctas y 10 incorrectas tendría una precisión de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La clasificación binaria proporciona nombres específicos para las diferentes categorías de predicciones correctas y predicciones incorrectas Entonces, la fórmula de exactitud de la clasificación binaria es la siguiente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Donde:

Compara y contrasta la exactitud con precisión y recuperación.

Consulta Clasificación: exactitud, recuperación, precisión y métricas relacionadas en el Curso intensivo de aprendizaje automático para obtener más información.

acción

#rl

En el aprendizaje por refuerzo, el mecanismo a través del cual el agente hace transiciones entre estados del entorno. El agente elige la acción mediante un política.

función de activación

#fundamentals

Es una función que permite que las redes neuronales aprendan relaciones no lineales (complejas) entre los atributos y la etiqueta.

Estas son algunas de las funciones de activación más populares:

Los diagramas de funciones de activación nunca tienen líneas rectas simples. Por ejemplo, el diagrama de la función de activación ReLU consta de dos líneas rectas:

Una representación cartesiana de dos líneas. La primera línea tiene un valor y constante de 0, que se extiende a lo largo del eje x de -infinito,0 a 0,-0.
          La segunda línea comienza en 0,0. Esta línea tiene una pendiente de +1, de modo que
          va de 0,0 a +infinito,+infinito.

Un gráfico de la función de activación sigmoidea se ve de la siguiente manera:

Un diagrama curvo bidimensional con valores x que abarcan el dominio
          -infinity a +positivo, mientras que los valores y abarcan el rango casi 0 a
          casi 1. Cuando x es 0, y es 0.5. La pendiente de la curva siempre es positiva, con la pendiente más alta en 0,0.5 y pendientes que disminuyen gradualmente a medida que aumenta el valor absoluto de x.

Consulta Redes neuronales: Funciones de activación en el Curso intensivo de aprendizaje automático para obtener más información.

aprendizaje activo

Un enfoque de entrenamiento en el que el algoritmo elige algunos de los datos sobre los cuales aprende. Aprendizaje activo es particularmente valiosa cuando los ejemplos etiquetados son escasos o costosos de obtener. En lugar de buscar a ciegas a una diversidad rango de ejemplos etiquetados, un algoritmo de aprendizaje activo busca al rango particular de ejemplos que necesita para el aprendizaje.

AdaGrad

Es un algoritmo de descenso de gradientes sofisticado que reajusta la gradientes de cada parámetro y le otorgan a cada uno una tasa de aprendizaje independiente Para obtener una explicación completa, consulta este informe de AdaGrad.

agente

#rl

En el aprendizaje por refuerzo, la entidad que usa una política para maximizar el rendimiento esperado que se obtiene de la transición entre los estados del entorno.

En términos más generales, un agente es un software que planifica y ejecuta de forma autónoma una una serie de acciones en pos de un objetivo, con la capacidad de adaptarse a los cambios en su entorno. Por ejemplo, un agente basado en un LLM podría usar un LLM para generar un plan, en lugar de aplicar una política de aprendizaje por refuerzo.

agrupamiento aglomerado

#clustering

Consulta agrupamiento en clústeres jerárquico.

detección de anomalías

Es el proceso de identificar valores atípicos. Por ejemplo, si la media de un atributo determinado es 100 con una desviación estándar de 10, la detección de anomalías debe marcar un valor de 200 como sospechoso.

AR

Abreviatura de realidad aumentada.

área bajo la curva de PR

Consulta el AUC (área bajo la curva PR).

área bajo la curva ROC

Consulta AUC (área bajo la curva ROC).

inteligencia artificial general

Un mecanismo no humano que demuestra una amplia variedad de resolución de problemas, creatividad y adaptabilidad. Por ejemplo, un programa que demuestre la inteligencia general artificial podría traducir texto, componer sinfonías y destacarse en juegos que aún no se inventaron.

inteligencia artificial

#fundamentals

Es un programa o modelo no humano que puede resolver tareas sofisticadas. Por ejemplo, un programa o modelo que traduce texto, o un programa o modelo que identifica enfermedades a partir de imágenes radiológicas en las que se usa inteligencia artificial.

De manera formal, el aprendizaje automático es un subcampo de la inteligencia artificial. Sin embargo, en los últimos años, algunas organizaciones han comenzado a utilizar el inteligencia artificial y aprendizaje automático.

Attention,

#language

Es un mecanismo utilizado en una red neuronal que indica la importancia de una palabra o parte de una palabra en particular. La atención comprime la cantidad de información que un modelo necesita para predecir el siguiente token o palabra. Un mecanismo de atención típico puede consistir en una suma ponderada sobre un conjunto de entradas, en la que otra parte de la red neuronal calcula el peso de cada entrada.

Consulta también la autoatención y la autoatención de varios cabezales, que son las componentes básicos de Transformers.

Consulta LLM: ¿Qué es un lenguaje grande? automático? en el Curso intensivo de aprendizaje automático para obtener más información sobre la autoatención.

atributo

#fairness

Sinónimo de atributo.

En la equidad del aprendizaje automático, los atributos se refieren a de los individuos.

muestreo de atributos

#df

Una táctica para entrenar un bosque de decisiones en el que cada El árbol de decisión considera solo un subconjunto aleatorio de posibles features cuando aprendes la condición. Por lo general, se muestrea un subconjunto diferente de atributos para cada nodo. En cambio, cuando se entrena un árbol de decisiones sin el muestreo de atributos, se consideran todos los atributos posibles para cada nodo.

AUC (área bajo la curva ROC)

#fundamentals

Es un número entre 0.0 y 1.0 que representa la capacidad de un modelo de clasificación binaria para separar las clases positivas de las clases negativas. Cuanto más cerca esté el AUC a 1.0, mejor será la capacidad del modelo para separarse clases entre sí.

Por ejemplo, en la siguiente ilustración se muestra un modelo clasificador que separa las clases positivas (óvalos verdes) de las negativas (rectángulos violetas) perfectamente. Este modelo perfecto poco realista tiene una AUC de 1.0:

Una recta numérica con 8 ejemplos positivos en un lado y
          9 ejemplos negativos del otro lado.

Por el contrario, la siguiente ilustración muestra los resultados para un clasificador que generó resultados aleatorios. Este modelo tiene un AUC de 0.5:

Una línea numérica con 6 ejemplos positivos y 6 ejemplos negativos.
          La secuencia de ejemplos es positiva, negativa
          positivo, negativo, positivo, negativo, positivo, negativo, positivo
          como positivas, negativas, positivas y negativas.

Sí, el modelo anterior tiene un AUC de 0.5, no de 0.0.

La mayoría de los modelos están en algún punto entre los dos extremos. Por ejemplo, el siguiente modelo separa de algún modo positivos de negativos y, por lo tanto, tiene un AUC entre 0.5 y 1.0:

Una recta numérica con 6 ejemplos positivos y 6 ejemplos negativos.
          La secuencia de ejemplos es negativa, negativa, negativa, negativa,
          positivo, negativo, positivo, positivo, negativo, positivo,
          positivo.

El AUC ignora cualquier valor que establezcas umbral de clasificación. En cambio, la AUC considera todos los umbrales de clasificación posibles.

Consulta Clasificación: ROC y AUC en el Curso intensivo de aprendizaje automático para obtener más información.

realidad aumentada

#image

Tecnología que superpone una imagen generada por computadora en la vista de un usuario de el mundo real y así proporcionar una vista compuesta.

codificador automático

#language
#image

Un sistema que aprende a extraer la información más importante de la entrada. Los autoencoders son una combinación de un codificador y un decodificador. Los autoencoders se basan en el siguiente proceso de dos pasos:

  1. El codificador asigna la entrada a una red de baja dimensión (intermedio).
  2. El decodificador compila una versión con pérdida de la entrada original asignando el formato de menor dimensión al formato de mayor dimensión original formato de entrada de texto.

Los codificadores automáticos se entrenan de extremo a extremo haciendo que el decodificador intente reconstruir la entrada original del formato intermedio del codificador lo mejor posible. Debido a que el formato intermedio es más pequeño (de menor dimensión) que el formato original, el autocodificador se ve obligado a aprender qué información de la entrada es esencial, y el resultado no será perfectamente idéntico a la entrada.

Por ejemplo:

  • Si los datos de entrada son gráficos, la copia no exacta sería similar al gráfico original, pero algo modificado. Quizás el La copia no exacta elimina el ruido del gráfico original o rellena faltan algunos píxeles.
  • Si los datos de entrada son texto, un autocodificador generaría texto nuevo que mimicka (pero no es idéntico) al texto original.

Consulta también los codificadores automáticos variacionales.

sesgo de automatización

#fairness

Cuando una persona que toma decisiones favorece las recomendaciones hechas por un sistema automático de decisión por sobre la información obtenida sin automatización, incluso cuando el sistema de decisión automatizado comete un error.

Consulta Equidad: Tipos de sesgos en el Curso intensivo de aprendizaje automático para obtener más información.

AutoML

Cualquier proceso automatizado para desarrollar el aprendizaje automático modelos. AutoML puede realizar automáticamente tareas como las siguientes:

AutoML es útil para los científicos de datos, ya que puede ahorrarles tiempo y esfuerzo en el desarrollo de canalizaciones de aprendizaje automático y mejorar la precisión de las predicciones. También es útil para los inexpertos, ya que dificulta que las tareas de aprendizaje automático sean más accesibles para ellos.

Consulta Aprendizaje automático automatizado (AutoML) en el Curso intensivo de aprendizaje automático para obtener más información.

modelo de regresión automático

#language
#image
#generativeAI

Un modelo que infiere una predicción en función de sus propias predicciones anteriores predicciones. Por ejemplo, los modelos de lenguaje autoregresivo predicen el siguiente token según los tokens pronosticados anteriormente. Todos los modelos de lenguaje extenso basados en Transformer son de regresión automática.

En cambio, los modelos de imagen basados en GAN no suelen ser autoregresivos. ya que generan una imagen en una sola propagación y no de manera iterativa en pasos. Sin embargo, ciertos modelos de generación de imágenes son autorregresivos porque generan una imagen en pasos.

pérdida auxiliar

Una función de pérdida, que se usa junto con la función de pérdida principal del modelo de la red neuronal, que ayuda a acelerar el entrenamiento durante las primeras iteraciones cuando los pesos se inicializan de forma aleatoria.

Las funciones de pérdida auxiliares envían gradientes efectivos a las capas anteriores. Esto facilita convergencia durante el entrenamiento para combatir el problema de gradiente de fuga.

precisión promedio

Es una métrica para resumir el rendimiento de una secuencia de resultados clasificados. La precisión promedio se calcula tomando el promedio de la precisión para cada resultado relevante (cada resultado en (la lista clasificada en la que la recuperación aumenta en relación con el resultado anterior)

Consulta también el área bajo la curva PR.

condición de alineación al eje

#df

En un árbol de decisión, una condición que solo involucra una sola función. Por ejemplo, si área es un componente, la siguiente es una condición alineada con el eje:

area > 200

Compara esto con la condición oblicua.

B

propagación inversa

#fundamentals

El algoritmo que implementa descenso de gradientes en redes neuronales.

Entrenar una red neuronal implica muchas iteraciones del siguiente ciclo de dos pasos:

  1. Durante el movimiento de avance, el sistema procesa un lote de ejemplos para generar predicciones. El sistema compara cada predicción con cada valor de etiqueta. La diferencia entre la predicción y el valor de la etiqueta es la pérdida de ese ejemplo. El sistema agrega las pérdidas de todos los ejemplos para calcular el total para el lote actual.
  2. Durante el retroceso (propagación inversa), el sistema reduce la pérdida en ajustar los pesos de todas las neuronas de todos los capas ocultas.

Las redes neuronales suelen contener muchas neuronas en muchas capas ocultas. Cada una de esas neuronas contribuye a la pérdida general de diferentes maneras. La propagación inversa determina si se deben aumentar o disminuir los pesos. aplicarse a neuronas particulares.

La tasa de aprendizaje es un multiplicador que controla el grado en el que cada paso hacia atrás aumenta o disminuye cada peso. Una tasa de aprendizaje alta aumentará o disminuirá cada peso más que una tasa de aprendizaje pequeña.

En términos de cálculo, la propagación inversa implementa la regla de la cadena. del cálculo. Es decir, la propagación inversa calcula el derivada parcial del error con con respecto a cada parámetro.

Hace años, los profesionales del AA tenían que escribir código para implementar la retropropagación. Las APIs de AA modernas, como Keras, ahora implementan la retropropagación por ti. ¡Vaya!

Consulta Redes neuronales. en el Curso intensivo de aprendizaje automático para obtener más información.

bagging

#df

Un método para entrenar un ensamble, en el que cada el modelo constituyente se entrena en un subconjunto aleatorio de entrenamiento ejemplos muestreados con reemplazo. Por ejemplo, un bosque aleatorio es una colección de árboles de decisión entrenados con el método de agrupamiento.

El término bagging es la forma abreviada de bootstrap aggregating.

Consulta Bosques aleatorios. en el curso Decision Forests para obtener más información.

bolsa de palabras

#language

Una representación de las palabras de una frase o pasaje independientemente del orden. Por ejemplo, una bolsa de palabras representa la después de tres frases de manera idéntica:

  • el perro salta
  • salta el perro
  • perro salta el

Cada palabra se asigna a un índice en un vector disperso, donde tiene un índice para cada palabra del vocabulario. Por ejemplo: la frase el perro salta se asigna a un vector de atributos con un valor distinto de cero en los tres índices correspondientes a las palabras the, dog y saltos. El valor distinto de cero puede ser cualquiera de los siguientes:

  • Un 1 para indicar la presencia de una palabra
  • Es el recuento de la cantidad de veces que una palabra aparece en la bolsa. (por ejemplo, si la frase fuera el perro marrón es un perro con pelaje marrón, entonces tanto marrón como perro se representarían con un 2, mientras que las demás palabras con un 1)
  • Algún otro valor, como el logaritmo de la cantidad de veces que una palabra aparece en la bolsa

modelo de referencia

Modelo que se usa como punto de referencia para comparar qué tan bien otro (por lo general, uno más complejo). Por ejemplo, un un modelo de regresión logística un buen modelo de referencia para un modelo profundo.

Para un problema en particular, el modelo de referencia ayuda a los desarrolladores de modelos a cuantificar El rendimiento mínimo esperado que el modelo nuevo debe lograr para el modelo nuevo. para que el modelo sea útil.

lote

#fundamentals

Es el conjunto de ejemplos usado en una capacitación. iteración. El tamaño del lote determina la cantidad de ejemplos en una por lotes.

Consulta época para obtener una explicación de cómo se relaciona un lote con una época.

Consulta Regresión lineal: Hyperparameters en el Curso intensivo de aprendizaje automático para obtener más información.

inferencia por lotes

#TensorFlow
#GoogleCloud

Es el proceso de inferir predicciones en varios ejemplos sin etiquetar divididos en subconjuntos más pequeños ("lotes").

La inferencia por lotes puede aprovechar los atributos de paralelización de chips aceleradores. Es decir, varios aceleradores pueden inferir predicciones de forma simultánea en diferentes lotes de ejemplos sin etiquetar, lo que aumenta de forma significativa la cantidad de inferencias por segundo.

Consulta Sistemas de aprendizaje automático de producción: Inferencia estática en comparación con la dinámica en el Curso intensivo de aprendizaje automático para obtener más información.

normalización por lotes

Normaliza la entrada o la salida de las funciones de activación en una capa oculta. La normalización por lotes puede proporcionan los siguientes beneficios:

tamaño del lote

#fundamentals

La cantidad de ejemplos en un lote. Por ejemplo, si el tamaño del lote es 100, el modelo procesa 100 ejemplos por iteración.

Las siguientes son estrategias populares de tamaño de lote:

  • Descenso de gradientes estocástico (SGD), en el que el tamaño del lote es 1.
  • Lote completo, donde el tamaño del lote es la cantidad de ejemplos en todo el conjunto de entrenamiento. Por ejemplo, si el conjunto de entrenamiento contiene un millón de ejemplos, el tamaño del lote sería de un millón ejemplos. Por lo general, el lote completo es una estrategia ineficiente.
  • minilote en el que el tamaño del lote suele estar entre 10 y 1,000. Por lo general, la estrategia más eficiente es el minilote.

Consulta los siguientes vínculos para obtener más información:

Red neuronal Bayesiana

Una red neuronal probabilística que representa incertidumbre en pesos y resultados. Un modelo de regresión de red neuronal estándar suele predecir un valor escalar; por ejemplo, un modelo estándar predice el precio de una casa en 853,000. En contraste, una red neuronal Bayesiana predice una distribución de valores, por ejemplo, un modelo Bayesiano predice el precio de una casa en 853,000 con una desviación estándar de 67,200.

Las redes neuronales Bayesianas se basan en el Teorema de Bayes para calcular la incertidumbre entre pesos y predicciones. Una neurona bayesiana red puede ser útil cuando es importante cuantificar la incertidumbre, por ejemplo, en relacionados con la industria farmacéutica. Las redes neuronales Bayesianas también pueden ayudar a reducir el sobreajuste.

Optimización bayesiana

Un modelo de regresión probabilística técnica para optimizar costos en términos de procesamiento funciones objetivo si, en cambio, se optimiza un subrogado que cuantifica la incertidumbre con una técnica de aprendizaje bayesiano. Desde La optimización bayesiana es muy costosa y, por lo general, se usa tareas costosas de evaluar que tienen un número pequeño de parámetros, como seleccionar hiperparámetros.

Ecuación de Bellman

#rl

En el aprendizaje por refuerzo, la siguiente identidad es satisfecha por la función Q óptima:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Los algoritmos de aprendizaje por refuerzo aplican esta identidad para crear aprendizaje Q a través de la siguiente regla de actualización:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Más allá del aprendizaje por refuerzo, la ecuación de Bellman tiene aplicaciones para la programación dinámica. Consulta la entrada de Wikipedia sobre la ecuación de Bellman.

BERT (codificador bidireccional Representaciones de transformadores)

#language

Una arquitectura de modelo para la representación de texto. Un profesional El modelo BERT puede actuar como parte de un modelo más grande para la clasificación de texto o otras tareas de AA.

BERT tiene las siguientes características:

Entre las variantes de BERT, se incluyen las siguientes:

Consulta Código abierto de BERT: Entrenamiento previo de vanguardia para Natural Language Procesando para obtener una descripción general de BERT.

sesgo (ética/equidad)

#fairness
#fundamentals

1. Los estereotipos, los prejuicios o el favoritismo hacia cosas, personas o grupos por sobre otros. Estos sesgos pueden afectar la recopilación y interpretación de datos, el diseño de un sistema y la forma en que los usuarios interactúan con un sistema. Estas son algunas formas de este sesgo:

2. Error sistemático debido a un procedimiento de muestreo o de elaboración de informes. Entre las formas de este tipo de sesgo, se incluyen las siguientes:

No se debe confundir con el término de sesgo en modelos de aprendizaje automático o sesgo de predicción.

Consulta Equidad: tipos de sesgo en Curso intensivo de aprendizaje automático para obtener más información.

sesgo (matemática) o término de sesgo

#fundamentals

Una intersección o un desplazamiento de un origen. El sesgo es un parámetro en de aprendizaje automático, que se simboliza con lo siguiente:

  • a
  • w0

Por ejemplo, el sesgo es la b en la siguiente fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En una línea bidimensional simple, sesgo solo significa "intercepción y". Por ejemplo, la pendiente de la línea en la siguiente ilustración es 2.

El gráfico de una línea con una pendiente de 0.5 y un sesgo (intercepto en Y) de 2.

El sesgo existe porque no todos los modelos comienzan en el origen (0,0). Por ejemplo: supongamos que la entrada a un parque de diversiones cuesta 2 euros y una EUR 0.5 por cada hora de estadía de un cliente. Por lo tanto, un modelo que asigna el costo total tiene un sesgo de 2 porque el costo más bajo es de 2 euros.

El sesgo no debe confundirse con el sesgo en ética y equidad. o sesgo de predicción.

Consulta Regresión lineal en el Curso intensivo de aprendizaje automático para obtener más información.

bidireccional

#language

Es un término que se usa para describir un sistema que evalúa el texto que precede y sigue a una sección de texto objetivo. Por el contrario, un Solo para el sistema unidireccional Evalúa el texto que antecede a una sección objetivo del texto.

Por ejemplo, considera un modelo de lenguaje enmascarado que debes determinar las probabilidades de la palabra o las palabras que representan el subrayado en la siguiente pregunta:

¿Qué es _____ con usted?

Un modelo unidireccional de lenguaje tendría que basar solo sus probabilidades. según el contexto proporcionado por las palabras “qué”, “es” y “el”. En cambio, un modelo bidireccional de lenguaje también podría adquirir contexto a partir de "with" y "ustedes", lo que podría ayudar al modelo a generar mejores predicciones.

modelo de lenguaje bidireccional

#language

Un modelo de lenguaje que determina la probabilidad de que un token determinado esté presente en una ubicación determinada de un extracto de texto según el texto anterior y posterior.

bigrama

#seq
#language

Un n-grama en el que n = 2.

clasificación binaria

#fundamentals

Un tipo de tarea de clasificación que predice una de dos clases mutuamente excluyentes:

Por ejemplo, cada uno de los siguientes dos modelos de aprendizaje automático realiza Clasificación binaria:

  • Un modelo que determina si los mensajes de correo electrónico spam (la clase positiva) o no es spam (la clase negativa).
  • Un modelo que evalúa síntomas médicos para determinar si una persona tiene una enfermedad específica (la clase positiva) o no tiene esa enfermedad (clase negativa).

Compara esto con la clasificación de clases múltiples.

Consulta también regresión logística y umbral de clasificación.

Consulta Clasificación en el Curso intensivo de aprendizaje automático para obtener más información.

condición binaria

#df

En un árbol de decisión, una condición que solo tiene dos resultados posibles, que suele ser o no. Por ejemplo, la siguiente es una condición binaria:

temperature >= 100

Compara esto con la condición no binaria.

Consulta Tipos de condiciones. en el curso Decision Forests para obtener más información.

discretización

Es un sinónimo de agrupamiento.

BLEU (Bilingual Evaluation Understudy)

#language

Es una puntuación entre 0.0 y 1.0 inclusive que indica la calidad de una traducción entre dos idiomas humanos (por ejemplo, entre inglés y ruso). Un BLEU una puntuación de 1.0 indica una traducción perfecta; una puntuación BLEU de 0.0 indica una Pésima traducción.

potencia

Técnica de aprendizaje automático que combina de forma iterativa un conjunto de clasificadores simples y no muy exactos (también conocidos como clasificadores "débiles") en un clasificador con exactitud alta (un clasificador "fuerte") mediante un incremento de ponderación para los ejemplos que el modelo actualmente clasifica de forma errónea.

Consulta Árboles de decisión impulsados por gradientes en el curso Bosques de decisión para obtener más información.

cuadro de límite

#image

En una imagen, las coordenadas (x, y) de un rectángulo alrededor de un área de interés, como el perro en la siguiente imagen.

Fotografía de un perro sentado en un sofá. Un cuadro delimitador verde
          con coordenadas superior izquierda de (275, 1271) y esquina inferior derecha
          coordenadas de (2954, 2761) circunscribe el cuerpo del perro

emisión

Expansión de la forma de un operando en una operación matemática de matrices a dimensions compatibles para esa operación. Por ejemplo: el álgebra lineal requiere que los dos operandos en una operación de suma matriz deben tener las mismas dimensiones. Por lo tanto, no puedes agregar una matriz de forma (m, n) a un vector de longitud n. La transmisión permite esta operación mediante expandiendo virtualmente el vector de longitud n a una matriz de forma (m, n) que replican los mismos valores en cada columna.

Por ejemplo, dadas las siguientes definiciones, el álgebra lineal prohíbe A+B porque A y B tienen dimensiones diferentes:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Sin embargo, la transmisión permite la operación A+B expandiendo virtualmente B a:

 [[2, 2, 2],
  [2, 2, 2]]

Por lo tanto, A+B se convierte en una operación válida:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Para obtener más detalles, consulta la siguiente descripción de emisión en NumPy.

Agrupamiento

#fundamentals

Conversión de un solo atributo en varios atributos binarios denominados buckets o bins, que en general se basan en un rango de valores. La característica cortada suele ser atributo continuo.

Por ejemplo, en lugar de representar la temperatura como una sola característica de punto flotante continua, puedes dividir los rangos de temperaturas en intervalos discretos, como los siguientes:

  • <= 10 grados Celsius sería la temperatura "frío" bucket.
  • De 11 a 24 grados Celsius sería la temperatura “templada” bucket.
  • >= 25 grados Celsius sería la temperatura "templado" bucket.

El modelo tratará todos los valores del mismo bucket de manera idéntica. Por ejemplo, los valores 13 y 22 están en el bucket templado, por lo que el modelo trata los dos valores de manera idéntica.

Consulta Datos numéricos: Discretización en el Curso intensivo de aprendizaje automático para obtener más información.

C

capa de calibración

Es un ajuste posterior a la predicción, generalmente para dar cuenta del sesgo de predicción. Las predicciones ajustadas y probabilidades deben coincidir con la distribución de un conjunto observado de etiquetas.

generación de candidatos

#recsystems

Es el conjunto inicial de recomendaciones que elige un sistema de recomendación. Por ejemplo, considera un librería que ofrece 100,000 títulos. La fase de generación de candidatos crea una lista mucho más pequeña de libros adecuados para un usuario en particular, digamos 500. Pero incluso 500 libros son demasiados para recomendar a un usuario. Las fases posteriores y más costosas de un sistema de recomendación (como la calificación y la reclasificación) reducen esos 500 a un conjunto mucho más pequeño y útil de recomendaciones.

Consulta Generación de candidatos descripción general en el curso Sistemas de recomendación para obtener más información.

muestreo de candidatos

Optimización del entrenamiento que calcula la probabilidad de todos los positivos usando, por ejemplo, softmax, pero solo para un muestra de etiquetas negativas. Por ejemplo, dado un ejemplo etiquetado como beagle y perro, el muestreo de candidatos calcula las probabilidades predichas y los términos de pérdida correspondientes para lo siguiente:

  • beagle
  • perro
  • un subconjunto aleatorio de las clases negativas restantes (por ejemplo, gato, golosina, cerca).

La idea es que las clases negativas puedan aprender de un refuerzo negativo menos frecuente, siempre y cuando las clases positivas siempre reciban el refuerzo positivo apropiado, y esto se observa empíricamente.

El muestreo de candidatos es más eficiente en términos de procesamiento que los algoritmos de entrenamiento que calculan predicciones para todas las clases negativas, en particular, cuando la cantidad de clases negativas es muy grande.

datos categóricos

#fundamentals

Son atributos que tienen un conjunto específico de valores posibles. Por ejemplo: considera un atributo categórico llamado traffic-light-state, que solo puede tener uno de estos tres valores posibles:

  • red
  • yellow
  • green

Con la representación de traffic-light-state como un atributo categórico, un modelo puede aprender impactos diferentes de red, green y yellow en el comportamiento del conductor

A veces, los atributos categóricos se denominan atributos discretos.

Compara esto con los datos numéricos.

Consulta Trabaja con valores categóricos datos en el Curso intensivo de aprendizaje automático para obtener más información.

modelo de lenguaje causal

#language

Sinónimo de modelo de lenguaje unidireccional.

Consulta modelo de lenguaje bidireccional para comparar diferentes enfoques de direccionalidad en el modelado de lenguaje.

centroid

#clustering

El centro de un clúster determinado por una k-means o k-median. Por ejemplo, si k es 3, entonces el algoritmo k-means o k-median encuentra 3 centroides.

Consulta Algoritmos de agrupamiento. en el curso Agrupamiento en clústeres para obtener más información.

agrupamiento en clústeres basado en centroides

#clustering

Es una categoría de algoritmos de agrupamiento que organiza los datos en clústeres no jerárquicos. K-means es el algoritmo de agrupamiento en clústeres basado en centroides más utilizado.

Compara esto con algoritmos de agrupamiento en clústeres jerárquico.

Consulta Algoritmos de agrupamiento en el curso de Agrupamiento para obtener más información.

cadena de pensamientos

#language
#generativeAI

Una técnica de ingeniería de instrucciones que fomenta que un modelo de lenguaje grande (LLM) explique su razonamiento paso a paso. Por ejemplo, considera la siguiente consigna y presta especial atención a la segunda oración:

¿Cuántas fuerzas g experimentaría un conductor en un automóvil que va de 0 a 60? millas por hora en 7 segundos? En la respuesta, muestra todos los cálculos relevantes.

Es probable que la respuesta del LLM haga lo siguiente:

  • Muestra una secuencia de fórmulas de física y, luego, ingresa los valores 0, 60 y 7 en los lugares adecuados.
  • Explica por qué eligió esas fórmulas y qué significan las distintas variables.

La instrucción de cadena de pensamiento obliga al LLM a realizar todos los cálculos, lo que podría llevar a una respuesta más correcta. Además, la cadena de pensamiento de instrucciones permite al usuario examinar los pasos del LLM para determinar si o no, la respuesta tiene sentido.

chatear

#language
#generativeAI

El contenido de un diálogo de ida y vuelta con un sistema de AA, por lo general, un modelo de lenguaje extenso. La interacción anterior en un chat (lo que escribiste y cómo respondió el modelo de lenguaje extenso) se convierte en contextual para las siguientes partes del chat.

Un chatbot es una aplicación de un modelo de lenguaje extenso.

punto de control

Datos que capturan el estado de los parámetros de un modelo, ya sea durante el entrenamiento o después de que este se completa. Por ejemplo, durante el entrenamiento, puedes hacer lo siguiente:

  1. Detener el entrenamiento, quizás de forma intencional o como resultado de ciertos errores
  2. Captura el punto de control.
  3. Más tarde, vuelve a cargar el punto de control, posiblemente en hardware diferente.
  4. Reinicia el entrenamiento.

clase

#fundamentals

Es una categoría a la que puede pertenecer una etiqueta. Por ejemplo:

Un modelo de clasificación predice una clase. Por el contrario, un modelo de regresión predice un número en lugar de una clase.

Consulta Clasificación en el Curso intensivo de aprendizaje automático para obtener más información.

modelo de clasificación

#fundamentals

Un modelo cuya predicción es una clase. Por ejemplo, los siguientes son todos modelos de clasificación:

  • Un modelo que predice el idioma de una oración de entrada (¿francés? ¿Español? ¿Italiano?).
  • Un modelo que predice especies de árboles (¿arce? ¿Roble? ¿Baobab?).
  • Un modelo que predice la clase positiva o negativa de una condición médica particular.

En cambio, los modelos de regresión predicen números en lugar de clases.

Estos son dos tipos comunes de modelos de clasificación:

umbral de clasificación

#fundamentals

En una clasificación binaria, es un número entre 0 y 1 que convierte el resultado sin procesar de un modelo de regresión logística en una predicción de la clase positiva o la clase negativa. Ten en cuenta que el umbral de clasificación es un valor que elige una persona, no es un valor elegido por el entrenamiento de modelos.

Un modelo de regresión logística genera un valor sin procesar entre 0 y 1. Luego:

  • Si este valor sin procesar es mayor que el umbral de clasificación, entonces se predice la clase positiva.
  • Si este valor sin procesar es inferior al umbral de clasificación, se predice la clase negativa.

Por ejemplo, supongamos que el umbral de clasificación es 0.8. Si el valor sin procesar es 0.9, el modelo predice la clase positiva. Si el valor sin procesar es 0.7, el modelo predice la clase negativa.

La elección del umbral de clasificación influye fuertemente en la cantidad de los falsos positivos y falsos negativos.

Consulta Los umbrales y la confusión. matrix en el Curso intensivo de aprendizaje automático para obtener más información.

conjunto de datos con desequilibrio de clases

#fundamentals

Conjunto de datos para un problema de clasificación en el que la cantidad total de las etiquetas de cada clase difiere significativamente. Por ejemplo, considera un conjunto de datos de clasificación binaria cuyas dos etiquetas se dividen de la siguiente manera:

  • 1,000,000 de etiquetas negativas
  • 10 etiquetas positivas

La proporción de etiquetas negativas a positivas es de 100,000 a 1, por lo que este es un conjunto de datos con desequilibrio de clases.

En cambio, el siguiente conjunto de datos no tiene desequilibrio de clases porque la proporción de etiquetas negativas a positivas es relativamente cercana a 1:

  • 517 etiquetas negativas
  • 483 etiquetas positivas

Los conjuntos de datos de varias clases también pueden tener desequilibrio de clases. Por ejemplo, el siguiente conjunto de datos de clasificación de varias clases también tiene un desequilibrio de clases porque una etiqueta tiene muchos más ejemplos que las otras dos:

  • 1,000,000 de etiquetas con la clase “green”
  • 200 etiquetas con la clase "morado"
  • 350 etiquetas con la clase "orange"

Consulta también entropía, clase de mayoría, y la clase minoritaria.

recorte

#fundamentals

Técnica para manejar valores atípicos mediante una de las siguientes acciones o ambas:

  • Reducir los valores de feature que sean superiores al máximo límite hasta alcanzar ese umbral.
  • Aumentar los valores de atributos que sean inferiores a un umbral mínimo hasta ese umbral mínimo.

Por ejemplo, supongamos que <0.5% de los valores de un atributo en particular cae fuera del rango de 40-60. En ese caso, puedes hacer lo siguiente:

  • Hacer un recorte de todos los valores mayores que 60 (el umbral máximo) para que sean exactamente 60
  • Recorta todos los valores por debajo de 40 (el umbral mínimo) para que sean exactamente 40.

Los valores atípicos pueden dañar los modelos, lo que, a veces, hace que los pesos se desborden durante el entrenamiento. Algunos valores atípicos también pueden arruinar drásticamente métricas como exactitud. El recorte es una técnica común para limitar el daño.

Fuerzas de recorte de gradiente Valores de gradiente dentro de un rango designado durante el entrenamiento.

Consulta Datos numéricos: normalización en el Curso intensivo de aprendizaje automático para obtener más información.

Cloud TPU

#TensorFlow
#GoogleCloud

Un acelerador de hardware especializado diseñado para acelerar las cargas de trabajo de aprendizaje automático en Google Cloud.

agrupamiento en clústeres

#clustering

Agrupar ejemplos relacionados, particularmente durante aprendizaje no supervisado. Una vez que y los ejemplos están agrupados, y una persona puede, de forma opcional, proporcionar un significado a cada clúster.

Existen muchos algoritmos de agrupamiento en clústeres. Por ejemplo, el algoritmo k-means agrupa ejemplos en función de su proximidad a un centroide, como en el siguiente diagrama:

Un gráfico bidimensional en el que el eje X está etiquetado como ancho del árbol.
          y el eje Y está etiquetado como altura del árbol. El gráfico contiene dos puntos medios y varias docenas de datos. Los datos se categorizan según su proximidad. Es decir, los datos más cercanos a un centroide se clasifican como clúster 1, mientras que los más cercanos al otro centroide se clasifican como clúster 2.

Un investigador humano podría revisar los grupos y, por ejemplo, etiquetar clúster 1 como “árboles enanos” y el clúster 2 como “árboles de tamaño completo”.

Otro ejemplo es considerar un algoritmo de agrupamiento en clústeres basado en una ejemplo a distancia desde un punto central, como se ilustra de la siguiente manera:

Decenas de datos se organizan en círculos concéntricos, casi

          como agujeros alrededor del centro de una tabla de dardos. El anillo más interno
          de datos se categoriza como grupo 1, el anillo del medio
          se categoriza como clúster 2, y el anillo más externo como
          clúster 3.

Consulta el curso de clústeres para obtener más información.

coadaptación

Proceso en el cual las neuronas predicen patrones en los datos de entrenamiento basándose casi exclusivamente en salidas de otras neuronas específicas en lugar de basarse en el comportamiento de la red como un todo. Cuando los patrones que causan la coadaptación no están presentes en los datos de validación, la coadaptación provoca un sobreajuste. La regularización de retirados reduce la coadaptación ya que asegura que las neuronas no puedan depender únicamente de otras neuronas específicas.

filtrado colaborativo

#recsystems

Hacer predicciones sobre los intereses de un usuario según los intereses de muchos otros. El filtrado colaborativo se usa con frecuencia en los sistemas de recomendación.

Consulta Filtrado colaborativo en el curso de Sistemas de recomendación para obtener más información.

desviación de conceptos

Un cambio en la relación entre los atributos y la etiqueta Con el tiempo, la deriva de conceptos reduce la calidad de un modelo.

Durante el entrenamiento, el modelo aprende la relación entre los atributos sus etiquetas en el conjunto de entrenamiento. Si las etiquetas del conjunto de entrenamiento son buenos proxies para el mundo real, el modelo debería hacer buenas predicciones del mundo real. Sin embargo, debido a la desviación de conceptos, las predicciones tienden a degradarse con el tiempo.

Por ejemplo, considera un modelo de clasificación binaria que predice si un modelo de automóvil determinado es o no “económico en combustible”. Es decir, las funciones podrían ser las siguientes:

  • peso del auto
  • compresión de motor
  • tipo de transmisión

mientras que la etiqueta es:

  • ahorro de combustible
  • no ahorra combustible

Sin embargo, el concepto de “automóvil eficiente en combustible” sigue cambiando. Es casi seguro que un modelo de automóvil etiquetado como eficiente en combustible en 1994 se etiquetaría como no eficiente en combustible en 2024. Un modelo que sufre de deriva conceptual tiende a hacer predicciones cada vez menos útiles con el tiempo.

Compara y contrasta con la no estacionariedad.

de transición

#df

En un árbol de decisión, cualquier nodo que evalúa una expresión. Por ejemplo, la siguiente parte de una el árbol de decisión contiene dos condiciones:

Árbol de decisión que consta de dos condiciones: (x > 0)
          (y > 0).

Una condición también se denomina división o prueba.

Compara la condición con hoja.

Consulta lo siguiente:

Consulta Tipos de condiciones en el curso Bosques de decisión para obtener más información.

confabulación

#language

Sinónimo de alucinación.

La confabulación es probablemente un término más técnicamente preciso que la alucinación. Sin embargo, la alucinación se volvió popular primero.

configuración

Es el proceso de asignación de los valores de propiedad iniciales que se usan para entrenar un modelo. como:

En los proyectos de aprendizaje automático, la configuración se puede realizar a través de un archivo de configuración especial o con bibliotecas de configuración, como las siguientes:

sesgo de confirmación

#fairness

Tendencia de buscar, interpretar, favorecer y recuperar información de una manera que confirme las creencias o hipótesis preexistentes propias. Los desarrolladores de aprendizaje automático pueden recopilar o etiquetar inadvertidamente los datos de formas que influyan en un resultado que respalde sus creencias. El sesgo de confirmación es una forma de sesgo implícito.

El sesgo del experimentador es una forma de sesgo de confirmación en el cual un investigador continúa entrenando modelos hasta confirmar una hipótesis preexistente.

matriz de confusión

#fundamentals

Tabla de NxN que resume el número de predicciones correctas e incorrectas que creó un modelo de clasificación. Por ejemplo, considera la siguiente matriz de confusión para un modelo de clasificación binaria:

Tumor (previsto) No tumor (predicho)
Tumor (verdad fundamental) 18 (VP) 1 (FN)
No tumor (verdad fundamental) 6 (FP) 452 (TN)

En la matriz de confusión anterior, se muestra lo siguiente:

  • De las 19 predicciones en las que la verdad fundamental era Tumor, el modelo clasificó correctamente 18 y 1 de forma incorrecta.
  • De las 458 predicciones en las que la verdad fundamental no era tumor, el modelo clasificaron correctamente 452 y erróneamente 6.

La matriz de confusión para una clasificación de clases múltiples problema puede ayudarte a identificar patrones de errores. Por ejemplo, considera la siguiente matriz de confusión para una clase modelo de clasificación de clases múltiples que clasifica tres tipos diferentes de iris (Vírgenes, Versicolor y Setosa). Cuando la verdad fundamental era Vírgenes, la de confusión muestra que era mucho más probable que el modelo predecir versicolor que setosa:

  Setosa (predicho) Versicolor (predicho) Vírgenes (predichos)
Setosa (verdad fundamental) 88 12 0
Versicolor (verdad fundamental) 6 141 7
virginica (verdad fundamental) 2 27 109

Como otro ejemplo, una matriz de confusión podría revelar que un modelo entrenado para reconocer dígitos escritos a mano tiende a predecir erróneamente 9 en lugar de 4, o predice erróneamente 1 en vez de 7.

Las matrices de confusión contienen suficiente información para calcular varias métricas de rendimiento, incluida la precisión y recuperación.

Análisis de distritos electorales

#language

Consiste en dividir una oración en estructuras gramaticales más pequeñas ("constituyentes"). Una parte posterior del sistema de AA, como de comprensión del lenguaje natural puede analizar a los constituyentes con mayor facilidad que la oración original. Por ejemplo, considera la siguiente oración:

Mi amigo adoptó dos gatos.

Un analizador de constituyentes puede dividir esta oración en los siguientes dos constituyentes:

  • Mi amigo es una frase nominal.
  • adopted two cats es una frase verbal.

Estos constituyentes se pueden subdividir en constituyentes más pequeños. Por ejemplo, la frase verbal

adoptó dos gatos

se puede subdividir en lo siguiente:

  • adopted es un verbo.
  • dos gatos es otra frase nominal.

incorporación de lenguaje contextualizada

#language
#generativeAI

Un enriquecimiento que se acerca a “comprender” palabras y frases de la misma manera que lo hacen los hablantes humanos nativos. Lenguaje contextualizado pueden comprender sintaxis, semántica y contexto complejos.

Por ejemplo, considera las incorporaciones de la palabra inglesa cow. Incorporaciones más antiguas como word2vec puede representar el inglés palabras para que la distancia en el espacio de incorporación de vaca a toro es similar a la distancia de oveja (oveja hembra) a ram (oveja macho) o hembra a macho. Lenguaje contextualizado las incorporaciones pueden ir un paso más allá reconociendo que los hablantes de inglés a veces usa informalmente la palabra cow para referirse a "cow" o "toro".

ventana de contexto

#language
#generativeAI

La cantidad de tokens que un modelo puede procesar en un instrucción. Mientras más grande es la ventana de contexto, más información que el modelo puede usar para brindar respuestas coherentes al mensaje.

atributo continuo

#fundamentals

Un atributo de punto flotante con un rango infinito de valores posibles, como la temperatura o el peso.

Compara esto con el atributo discreto.

muestreo de conveniencia

Uso de un conjunto de datos no recopilado científicamente con el objetivo de realizar experimentos rápidos. Posteriormente, es fundamental cambiar un conjunto de datos recopilados científicamente.

convergencia

#fundamentals

Un estado que se alcanza cuando los valores de loss cambian muy poco o en absoluto con cada iteración. Por ejemplo, la siguiente curva de pérdida sugiere una convergencia en alrededor de 700 iteraciones:

Gráfico cartesiano. el eje X es la pérdida. El eje Y es la cantidad de iteraciones de entrenamiento. La pérdida es muy alta
durante las primeras iteraciones,
          disminuye considerablemente. Después de unas 100 iteraciones, la pérdida sigue siendo
          descendente, pero mucho más gradual. Después de unas 700 iteraciones,
          pérdida de seguridad se mantiene sin cambios.

Un modelo converge cuando el entrenamiento adicional no mejorar el modelo.

En el aprendizaje profundo, los valores de pérdida a veces permanecen constantes o casi constantes durante muchas iteraciones antes de descender. Durante un período prolongado de valores de pérdida constante, podrías tener una falsa sensación de convergencia temporal.

Consulta también interrupción anticipada.

Consulta Convergencia y pérdida de modelos curvas en el Curso intensivo de aprendizaje automático para obtener más información.

función convexa

Función en la que la región por encima del gráfico de la función es una conjunto convexo. La función convexa prototípica es tiene una forma como la letra U. Por ejemplo, los siguientes son todas funciones convexas:

Curvas con forma de U, cada una con un solo punto mínimo.

En cambio, la siguiente función no es convexa. Observa cómo la región por encima del gráfico no es un conjunto convexo:

Una curva con forma de W con dos puntos mínimos locales diferentes.

Una función estrictamente convexa tiene exactamente un punto mínimo local, que también es el punto mínimo global. Las funciones clásicas con forma de U son funciones estrictamente convexas. Sin embargo, algunas funciones convexas (por ejemplo, las líneas rectas) no tienen forma de U.

Consulta Convergencia y convexa funciones en el Curso intensivo de aprendizaje automático para obtener más información.

optimización de función convexa

Es el proceso de usar técnicas matemáticas, como el descenso de gradientes, para encontrar el mínimo de una función convexa. Gran parte de la investigación sobre el aprendizaje automático se ha centrado en formular distintos problemas como problemas de optimización convexa y en solucionar esas cuestiones de manera más eficaz.

Para obtener más información, consulta Convex Optimization de Boyd y Vandenberghe.

conjunto convexo

Un subconjunto del espacio euclidiano de modo que una línea trazada entre cualquier par de puntos del subconjunto permanezca completamente dentro de él. Por ejemplo, las siguientes dos formas son conjuntos convexos:

Una ilustración de un rectángulo. Otra ilustración de un óvalo.

En cambio, las siguientes dos formas no son conjuntos convexos:

Una ilustración de un gráfico circular con una porción faltante.
          Otro ejemplo de un polígono muy irregular.

convolución

#image

En matemática, la convolución es (informalmente) una manera de mezclar dos funciones que mide cuanta superposición hay entre las dos funciones En el aprendizaje automático, una convolución mezcla el filtro convolucional y la matriz de entrada para entrenar los pesos.

El término “convolución” en el aprendizaje automático suele ser una forma abreviada de referirse a la operación de convolución o a la capa de convolución.

Sin convoluciones, un algoritmo de aprendizaje automático tendría que aprender un peso separado para cada celda en un tensor grande. Por ejemplo, un algoritmo de aprendizaje automático que se entrena en imágenes de 2K × 2K se vería obligado a encontrar 4 millones de pesos separados. Gracias a las convoluciones, un sistema de el algoritmo solo tiene que encontrar los pesos de cada celda del filtro convolucional para reducir drásticamente la memoria necesaria para entrenar el modelo. Cuando se aplica el filtro convolucional, se replica en todas las celdas de modo que cada una se multiplique por el filtro.

Consulta Introducción a las redes neuronales convolucionales en el curso de Clasificación de imágenes para obtener más información.

filtro convolucional

#image

Uno de los dos actores de una operación convolucional. (El otro actor es una porción de una matriz de entrada). Un filtro convolucional es una matriz que tiene el mismo rango que la de entrada, pero una forma más pequeña. Por ejemplo, en una matriz de entrada 28 x 28, el filtro podría ser cualquier matriz 2D más pequeña que 28 x 28.

En la manipulación fotográfica, por lo general, todas las celdas de un filtro de convolución se configuran en un patrón constante de unos y ceros. En el aprendizaje automático, los filtros convolucionales suelen inicializarse con números aleatorios y, luego, la red entrena los valores ideales.

Consulta Convolución. del curso Clasificación de imágenes para obtener más información.

capa convolucional

#image

Es una capa de una red neuronal profunda en la que filtro convolucional pasa por una entrada de salida. Por ejemplo, considera el siguiente filtro convolucional de 3 x 3:

Una matriz de 3x3 con los siguientes valores: [[0,1,0], [1,0,1], [0,1,0]]

En la siguiente animación, se muestra una capa convolucional que consta de 9 operaciones convolucionales que involucran la matriz de entrada de 5 × 5. Ten en cuenta que cada La operación convolucional funciona en una porción diferente de 3x3 de la matriz de entrada. La matriz resultante de 3 × 3 (a la derecha) consta de los resultados de las 9 operaciones convolucionales:

Una animación que muestra dos matrices. La primera es la matriz de 5 × 5
          matriz: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          La segunda es la de 3 x 3:
          [[181,303,618], [115,338,605], [169,351,560]].
          La segunda matriz se calcula aplicando la fórmula convolucional
          filtrar [[0, 1, 0], [1, 0, 1], [0, 1, 0]] entre
          diferentes subconjuntos 3x3 de la matriz 5x5.

Consulta Capas completamente conectadas en el curso de Clasificación de imágenes para obtener más información.

red neuronal convolucional

#image

Una red neuronal en la que al menos una capa es una capa convolucional. Una red neuronal convolucional típica consta de alguna combinación de las siguientes capas:

Las redes neuronales convolucionales tuvieron un gran éxito en ciertos tipos de problemas, como el reconocimiento de imágenes.

operación convolucional

#image

La siguiente operación matemática de dos pasos:

  1. Multiplicación por elementos del filtro convolucional y una porción de una matriz de entrada (La porción de la matriz de entrada tiene el mismo rango y el tamaño como el filtro convolucional).
  2. Es la suma de todos los valores en la matriz de producto resultante.

Por ejemplo, considera la siguiente matriz de entrada de 5 × 5:

La matriz de 5 × 5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Ahora imagina el siguiente filtro convolucional de 2 × 2:

La matriz 2 × 2: [[1, 0], [0, 1]]

Cada operación de convolución implica una sola porción de 2 × 2 de la matriz de entrada. Por ejemplo, supongamos que usamos la porción de 2 × 2 en la parte superior izquierda de la matriz de entrada. Entonces, la operación de convolución en esta porción se ve de la siguiente manera:

Aplicando el filtro convolucional [[1, 0], [0, 1]] a la parte superior izquierda
          Sección de 2 x 2 de la matriz de entrada, que es [[128,97], [35,22]].
          El filtro convolucional deja intactos los 128 y 22, pero anula los 97 y 35. En consecuencia, la operación de convolución genera el valor 150 (128 + 22).

Una capa convolucional consta de una serie de operaciones convolucionales, cada una actúa sobre una porción diferente de la matriz de entrada.

costo

Sinónimo de pérdida.

coentrenamiento

Un enfoque de aprendizaje semisupervisado es particularmente útil cuando se cumplen todas las siguientes condiciones:

Básicamente, el entrenamiento conjunto amplifica los indicadores independientes en un indicador más fuerte. Por ejemplo, considera un modelo de clasificación que categorize autos usados individuales como Buen estado o Mal estado. Un conjunto de los atributos predictivos podrían enfocarse en características agregadas, como el año, la marca y el modelo del automóvil; otro conjunto de funciones predictivas podría enfocarse el historial de conducción del propietario anterior y el historial de mantenimiento del auto.

El informe seminal sobre el coentrenamiento es Cómo combinar datos etiquetados y sin etiquetar con Capacitación conjunta de Blum y Mitchell.

equidad contrafáctica

#fairness

Una métrica de equidad que verifica si un clasificador produce el mismo resultado para un individuo que para otro que es idéntico al primero, excepto en relación con uno o más atributos sensibles. Evaluar un clasificador para la equidad contrafáctica es un método para encontrar posibles fuentes de el sesgo en un modelo.

Consulta cualquiera de las siguientes opciones para obtener más información:

sesgo de cobertura

#fairness

Consulta sesgo de selección.

floración

#language

Oración o frase con un significado ambiguo. Las flores de choque presentan un problema importante en la naturaleza comprensión del lenguaje. Por ejemplo, el titular La cinta roja que sostiene un rascacielos es una Crash blossom porque un modelo de CLN podría interpretar el titular literalmente o en sentido figurado.

crítico

#rl

Sinónimo de Deep Q-Network.

entropía cruzada

Una generalización de la pérdida de registro a los problemas de clasificación de clases múltiples. Entropía cruzada que cuantifica la diferencia entre dos distribuciones de probabilidad. Consulta también perplejidad.

validación cruzada

Un mecanismo para estimar qué tan bien un modelo generalizaría datos nuevos mediante pruebas al modelo con uno o más subconjuntos de datos no superpuestos retenidos del conjunto de entrenamiento.

función de distribución acumulada (CDF)

Función que define la frecuencia de muestras menor o igual que un objetivo. Por ejemplo, considera una distribución normal de valores continuos. Una CDF te indica que aproximadamente el 50% de las muestras debe ser menor o igual que la media, y que aproximadamente el 84% de las muestras debe ser menor o igual que una desviación estándar por encima de la media.

D

análisis de datos

Comprender los datos a través del análisis de muestras, mediciones, y visualización. El análisis de datos puede ser particularmente útil cuando se recibe por primera vez un conjunto de datos, antes de crear el primer modelo. También es crucial para comprender los experimentos y problemas de depuración con el sistema.

magnificación de datos

#image

Se incrementa de forma artificial el rango y la cantidad de ejemplos de entrenamiento a través de transformaciones sobre los ejemplos existentes para crear ejemplos nuevos. Por ejemplo, supongamos que una de las características es "imágenes", pero el conjunto de datos no tiene suficientes ejemplos de imágenes para que el modelo aprenda asociaciones útiles. Idealmente, agregarás suficientes imágenes etiquetadas en tu conjunto de datos para que tu modelo se entrene de forma adecuada. Si eso no es posible, la magnificación de datos pueden rotar, estirar y reflejar cada imagen para producir muchas variantes de la foto original, y esto puede proporcionar suficientes datos etiquetados para permitir una excelente capacitación.

DataFrame

#fundamentals

Un tipo de datos popular de Pandas para representar conjuntos de datos en la memoria.

Un DataFrame es similar a una tabla o una hoja de cálculo. Cada columna de un DataFrame tiene un nombre (un encabezado) y cada fila se identifica con un número único.

Cada columna de un DataFrame está estructurada como un array 2D, excepto que a cada columna se le puede asignar su propio tipo de datos.

Consulta también la página de referencia de pandas.DataFrame oficial.

paralelismo de datos

Es una forma de escalar la entrenamiento o la inferencia que replica un modelo completo en varios dispositivos y, luego, pasa un subconjunto de los datos de entrada a cada dispositivo. El paralelismo de datos puede habilitar el entrenamiento y la inferencia en tamaños de lotes muy grandes. Sin embargo, el paralelismo de datos requiere que el modelo sea lo suficientemente pequeño para caber en todos los dispositivos.

Por lo general, el paralelismo de datos acelera el entrenamiento y la inferencia.

Consulta también el paralelismo de modelos.

conjunto de datos o conjunto de datos

#fundamentals

Es un conjunto de datos sin procesar, que suelen organizarse (pero no exclusivamente) en uno de los siguientes formatos:

  • una hoja de cálculo
  • un archivo en formato CSV (valores separados por comas)

API de Dataset (tf.data)

#TensorFlow

Una API de TensorFlow de alto nivel para leer datos y transformarlos en un formato que requiere un algoritmo de aprendizaje automático. Un objeto tf.data.Dataset representa una secuencia de elementos, en la que cada elemento contiene uno o más tensores. Un tf.data.Iterator proporciona acceso a los elementos de un Dataset.

límite de decisión

El separador entre las clases que aprende un modelo en un problema de clasificación binaria o de clasificación de varias clases. Por ejemplo: en la siguiente imagen, que representa un problema de clasificación binaria. el límite de decisión es la frontera entre la clase naranja y la clase azul:

Un límite bien definido entre una clase y otra.

bosque de decisión

#df

Un modelo creado a partir de varios árboles de decisión. Un bosque de decisiones hace una predicción mediante la agregación de las predicciones de sus árboles de decisiones. Entre los tipos populares de bosques de decisión, se incluyen los bosques aleatorios y los árboles potenciados con gradientes.

Consulte el artículo Decisión Bosques del curso Decision Forests para obtener más información.

umbral de decisión

Sinónimo de umbral de clasificación.

árbol de decisión

#df

Un modelo de aprendizaje supervisado compuesto por un conjunto de condiciones y hojas organizadas de forma jerárquica. Por ejemplo, a continuación, se muestra un árbol de decisiones:

Árbol de decisión que consta de cuatro condiciones ordenadas
          de forma jerárquica, lo que genera cinco hojas.

decodificador

#language

En general, cualquier sistema de AA que convierte de una representación procesada, densa o interna a una representación más sin procesar, dispersa o externa.

Los decodificadores suelen ser un componente de un modelo más grande y, por lo general, en sincronización con un codificador.

En las tareas de secuencia a secuencia, un decodificador comienza con el estado interno que genera el codificador para predecir la siguiente secuencia.

Consulta Transformador para obtener la definición de un decodificador dentro de la arquitectura de Transformer.

Consulta Modelos grandes de lenguaje en el Curso intensivo de aprendizaje automático para obtener más información.

modelo profundo

#fundamentals

Una red neuronal que contiene más de una capa oculta.

Un modelo profundo también se denomina red neuronal profunda.

Compara esto con el modelo amplio.

diseño de red neuronal profunda

Es un sinónimo de modelo profundo.

Red de Deep Q (DQN)

#rl

En Q-learning, una red neuronal profunda que predice funciones Q.

Crítico es un sinónimo de red de Deep Q.

paridad demográfica

#fairness

Una métrica de equidad que se cumple si los resultados de la clasificación de un modelo no dependen de un dado un atributo sensible.

Por ejemplo, si tanto los lilipinos como los brobdingnagians aplican a Glubbdubdrib University, la paridad demográfica se alcanza si el porcentaje de los residentes de Liliuti. admitido es el mismo que el porcentaje de habitantes de Brobdingnagios admitido, independientemente de si un grupo es, en promedio, más calificado que el otro.

Contrasta con las probabilidades iguales y la igualdad de oportunidades, que permiten que los resultados de la clasificación en conjunto dependan de atributos sensibles, pero no permiten que los resultados de la clasificación de ciertas etiquetas de verdad fundamental especificadas dependan de atributos sensibles. Consulta "Cómo combatir la discriminación con un aprendizaje automático más inteligente" para ver una visualización que explora las compensaciones cuando se realiza la optimización para la paridad demográfica.

Consulta Equidad: paridad demográfica en el Curso intensivo de aprendizaje automático para obtener más información.

reducción de ruido

#language

Un enfoque común del aprendizaje autosupervisado en el que se cumple lo siguiente:

  1. El ruido se agrega de forma artificial al conjunto de datos.
  2. El modelo intenta quitar el ruido.

La reducción de ruido permite aprender de ejemplos sin etiqueta. El dataset original funciona como destino o label y los datos ruidosos como entrada.

Algunos modelos de lenguaje enmascarado usan la reducción de ruido. de la siguiente manera:

  1. Se agrega ruido artificialmente a una oración sin etiqueta enmascarando algunos de los tokens.
  2. El modelo intenta predecir los tokens originales.

atributo denso

#fundamentals

Un atributo en el que la mayoría o todos los valores son distintos de cero, por lo general, un tensor de valores de punto flotante. Por ejemplo, el siguiente tensor de 10 elementos es denso porque 9 de sus valores son distintos de cero:

8 3 7 5 2 4 0 4 9 6

Compara esto con el atributo disperso.

capa densa

Sinónimo de capa completamente conectada.

depth

#fundamentals

La suma de lo siguiente en una red neuronal:

Por ejemplo, una red neuronal con cinco capas ocultas y una capa de salida tiene una profundidad de 6.

Ten en cuenta que la capa de entrada no profundidad de la influencia.

red neuronal convolucional separable en profundidad (sepCNN)

#image

Una red neuronal convolucional arquitectura basada en El origen, pero donde los módulos de Inception se reemplazan convoluciones. También conocido como Xception.

Una convolución separable en profundidad (también abreviada como convolución separable) divide una convolución 3D estándar en dos operaciones de convolución independientes que son más eficientes en términos de procesamiento: primero, una convolución en profundidad, con una profundidad de 1 (n × n × 1) y, luego, una convolución puntual, con una longitud y un ancho de 1 (1 × 1 × n).

Para obtener más información, consulta Xception: Aprendizaje profundo con convoluciones separables en profundidad.

etiqueta derivada

Es un sinónimo de etiqueta de proxy.

dispositivo

#TensorFlow
#GoogleCloud

Un término sobrecargado con las siguientes dos definiciones posibles:

  1. Categoría de hardware que puede ejecutar una sesión de TensorFlow, que incluye CPUs, GPUs y TPU.
  2. Cuando entrenas un modelo de AA en chips aceleradores (GPU o TPU), la parte del sistema que realmente manipula tensores y incorporaciones. El dispositivo se ejecuta en chips aceleradores. Por el contrario, el host normalmente se ejecuta en una CPU.

privacidad diferencial

En el aprendizaje automático, un enfoque de anonimización para proteger los datos sensibles (por ejemplo, información personal de una persona) incluida en la conjunto de entrenamiento. Este enfoque garantiza que el modelo no aprende ni recuerda mucho sobre un persona. Esto se logra muestreando y agregando ruido durante el modelo para ocultar los datos individuales y mitigar el riesgo de exposición sensibles de entrenamiento.

La privacidad diferencial también se usa fuera del aprendizaje automático. Por ejemplo: los científicos de datos a veces usan la privacidad diferencial para proteger a individuos la privacidad cuando se calculan las estadísticas de uso de productos para diferentes segmentos demográficos.

reducción de dimensiones

Disminuir la cantidad de dimensiones que se usan para representar un atributo en particular en un vector de atributos, generalmente y convertirla en un vector de incorporación.

dimensiones

Término sobrecargado con alguna de las siguientes definiciones:

  • Es la cantidad de coordenadas en un tensor. Por ejemplo:

    • Un escalar tiene cero dimensiones; por ejemplo, ["Hello"].
    • Un vector tiene una dimensión; por ejemplo, [3, 5, 7, 11].
    • Una matriz tiene dos dimensiones; por ejemplo, [[2, 4, 18], [5, 7, 14]]. Puedes especificar de manera única una celda en particular en un vector unidimensional con una coordenada; necesitas dos coordenadas para especificar de forma única una de una celda específica en una matriz bidimensional.
  • La cantidad de entradas en un vector de atributos

  • Es la cantidad de elementos en una capa de incorporación.

instrucciones directas

#language
#generativeAI

Sinónimo de instrucción sin ejemplos.

atributo discreto

#fundamentals

Un atributo con un conjunto finito de valores posibles. Por ejemplo, un atributo cuyos valores solo pueden ser animal, vegetal o mineral es un atributo discreto (o categórico).

Compara esto con el atributo continuo.

modelo discriminativo

Un modelo que predice etiquetas a partir de un conjunto de uno o más atributos. Más formalmente, los modelos discriminativos definen la probabilidad condicional de un resultado a partir de los atributos y weights; es decir:

p(output | features, weights)

Por ejemplo, un modelo que predice si un correo electrónico es spam de atributos y ponderaciones es un modelo discriminativo.

La gran mayoría de los modelos de aprendizaje supervisado, incluidos los modelos de clasificación y regresión, son modelos discriminativos.

Compara esto con el modelo generativo.

discriminante

Sistema que determina si los ejemplos son reales o falsos.

Como alternativa, el subsistema dentro de una red generativa adversaria que determina si los ejemplos creados por el generador son reales o falsos.

Consulta El discriminador. en el curso de GAN para obtener más información.

impacto dispar

#fairness

Tomar decisiones sobre las personas que afectan a diferentes poblaciones subgrupos desproporcionadamente. Por lo general, esto se refiere a situaciones en las que un proceso de toma de decisiones algorítmico daña o beneficia algunos subgrupos más que otros.

Por ejemplo, supongamos que un algoritmo que determina la elegibilidad de una persona de Lilliput para un préstamo de casa en miniatura es más probable que la clasifique como "no apta" si su dirección de correo contiene un código postal determinado. Si es más probable que los liliputienses de Big-Endian tengan direcciones de correo con este código postal que los liliputienses de Little-Endian, este algoritmo puede generar un impacto dispar.

Compara esto con el tratamiento disparo, que se centra en las disparidades que se producen cuando las características de los subgrupos son entradas explícitas a un proceso de toma de decisiones algorítmica.

tratamiento dispar

#fairness

Tener en cuenta los atributos sensibles de los sujetos en un proceso de toma de decisiones algorítmico de modo que se trate de manera diferente a los diferentes subgrupos de personas

Por ejemplo, considera un algoritmo que determina la elegibilidad de los liliputienses para un préstamo de casa en miniatura según los datos que proporcionan en su solicitud de préstamo. Si el algoritmo usa la afiliación de un liliputiense como Big-Endian o Little-Endian como entrada, aplica un tratamiento dispar en esa dimensión.

Contrasta con el impacto dispar, que se enfoca en las disparidades en los impactos sociales de las decisiones algorítmicas en los subgrupos, independientemente de si esos subgrupos son entradas del modelo.

destilación

#generativeAI

El proceso de reducir el tamaño de un modelo (conocido como profesor) en un modelo más pequeño (conocido como estudiante) que emula las predicciones del modelo original de la forma más fiel posible. Extracción es útil porque el modelo más pequeño tiene dos beneficios clave sobre el modelo más grande modelo (el profesor):

  • Tiempo de inferencia más rápido
  • Reducción del uso de energía y memoria

Sin embargo, las predicciones del estudiante suelen no ser tan buenas como las del profesor.

La síntesis entrena el modelo del estudiante para minimizar una función de pérdida basada en la diferencia entre los resultados de las predicciones de los modelos de estudiantes y profesores.

Compara y contrasta la destilación con los siguientes términos:

Consulta LLM: Ajuste, síntesis y instrucciones ingeniería de atributos en el Curso intensivo de aprendizaje automático para obtener más información.

distribución

La frecuencia y el rango de diferentes valores para un valor determinado feature o label. Una distribución captura la probabilidad de un valor en particular.

En la siguiente imagen, se muestran histogramas de dos distribuciones diferentes:

  • A la izquierda, una distribución de la riqueza según la ley de potencias en comparación con la cantidad de personas que poseen esa riqueza.
  • A la derecha, una distribución normal de la altura en comparación con la cantidad de personas que poseen esa altura.

Dos histogramas. Un histograma muestra una distribución de ley de potencia con la riqueza en el eje x y la cantidad de personas que tienen esa riqueza en el eje y. La mayoría de las personas tienen muy poca riqueza y algunas tienen

          mucha. El otro histograma muestra una distribución normal con la altura en el eje x y la cantidad de personas que tienen esa altura en el eje y. La mayoría de las personas se agrupan cerca de la media.

Comprender la distribución de cada atributo y etiqueta puede ayudarte a determinar para normalizar los valores y detectar valores atípicos.

La frase fuera de distribución hace referencia a un valor que no aparece en el conjunto de datos o que es muy raro. Por ejemplo, una imagen del planeta Saturno sería considerado fuera de la distribución para un conjunto de datos compuesto de imágenes de gatos.

agrupamiento en clústeres divisivo

#clustering

Consulta agrupamiento en clústeres jerárquico.

reducción de muestreo

#image

Término sobrecargado que puede significar cualquiera de las siguientes opciones:

  • Reducir la cantidad de información de un atributo en para entrenar un modelo de manera más eficiente. Por ejemplo, antes de entrenar a un modelo de reconocimiento de imágenes, se reduce el muestreo llevando las imágenes de alta resolución a un formato de resolución más baja.
  • Entrenar con un porcentaje desproporcionalmente bajo de ejemplos de clase sobrerrepresentada para mejorar el entrenamiento del modelo en clases subrepresentadas. Por ejemplo, en una clase con desequilibrio conjunto de datos, los modelos tienden a aprender mucho sobre el clase mayor y no hay suficiente información clase minoritaria. La reducción de muestreo ayuda a equilibrar la cantidad de entrenamiento en las clases mayoritarias y minoritarias.

Consulta Conjuntos de datos: desequilibrados conjuntos de datos en el Curso intensivo de aprendizaje automático para obtener más información.

DQN

#rl

Abreviatura de red de Deep Q.

regularización de retirados

Es una forma de regularización útil para entrenar redes neuronales. La regularización de retirados quita una selección aleatoria de un número fijo de unidades de una capa de la red para un solo paso de gradiente. Cuantas más unidades se saquen, más fuerte regularización. Esto es análogo a entrenar la red para emular un conjunto exponencialmente grande de redes más pequeñas. Para obtener más información, consulta Dropout: A Simple Way to Prevent Neural Networks from Overfitting.

dinámico

#fundamentals

Algo que se hace con frecuencia o de forma continua. Los términos dinámico y en línea son sinónimos en el aprendizaje automático. Los siguientes son usos comunes de las funciones dinámicas y en línea en máquinas aprendizaje:

  • Un modelo dinámico (o modelo en línea) es un modelo que se vuelve a entrenar con frecuencia o de forma continua.
  • El entrenamiento dinámico (o entrenamiento en línea) es el proceso de entrenamiento frecuente o continuo.
  • La inferencia dinámica (o inferencia en línea) es el proceso de generar predicciones a pedido.

modelo dinámico

#fundamentals

Un modelo que se vuelve a entrenar con frecuencia (incluso de forma continua). Un modelo dinámico es un “estudiante continuo”. que se adapta constantemente a los datos en evolución. Un modelo dinámico también se conoce como modelo en línea.

Compara esto con el modelo estático.

E

ejecución inmediata

#TensorFlow

Un entorno de programación TensorFlow en el que las operaciones se ejecute de inmediato. Por el contrario, las operaciones llamadas en las ejecuciones por grafos no se ejecutan hasta que se y cómo se evalúa. La ejecución inmediata es una interfaz imperativa, al igual que el código en la mayoría de los lenguajes de programación. Los programas de ejecución ágil son suele ser mucho más fácil de depurar que los programas de ejecución por grafos.

interrupción anticipada

#fundamentals

Un método de regularización que implica finalizar el entrenamiento antes de que termine la pérdida del entrenamiento disminuyendo. En la detención anticipada, detienes intencionalmente el entrenamiento del modelo cuando la pérdida en un conjunto de datos de validación comienza a aumentar, es decir, cuando el rendimiento de la generalización empeora.

distancia del movimiento de tierras (EMD)

Una medida de la similitud relativa de dos distribuciones. Cuanto menor sea la distancia del operador de transferencia, más similares serán las distribuciones.

editar distancia

#language

Es una medición de la similitud entre dos cadenas de texto. En el aprendizaje automático, editar la distancia es útil porque es fácil y una forma eficaz de comparar dos cadenas conocidas similares o para encontrar cadenas que sean similares a una cadena determinada.

Existen varias definiciones de distancia de edición, cada una de las cuales usa diferentes operaciones de cadenas. Por ejemplo, el Distancia a Levenshtein considera la menor cantidad de operaciones de eliminación, inserción y sustitución.

Por ejemplo, la distancia Levenshtein entre las palabras "corazón" y "darts" es 3 porque las siguientes 3 ediciones son la menor cantidad de cambios para convertir una palabra en la otra:

  1. corazón → deart (sustituye “h” por “d”)
  2. deart → dart (quita la "e")
  3. dardo → dardos (agregar “s”)

Notación Einsum

Una notación eficiente para describir cómo deben ser dos tensores de varias condiciones. Para combinar los tensores, se multiplican los elementos de un tensor por los elementos del otro y, luego, se suman los productos. La notación Einsum usa símbolos para identificar los ejes de cada tensor, y esos mismos símbolos se reorganizan para especificar la forma del nuevo tensor resultante.

NumPy proporciona una implementación común de Einsum.

capa de incorporación

#language
#fundamentals

Una capa oculta especial que se entrena en una atributo categórico de alta dimensión para aprender un vector de incorporación de menor dimensión. Los capa de incorporación permite que una red neuronal entrene mucho más que entrenar solo con el atributo categórico de alta dimensión.

Por ejemplo, la Tierra actualmente alberga alrededor de 73,000 especies de árboles. Supongamos que la especie de árbol es un atributo en tu modelo, por lo que la capa de entrada de tu modelo incluye un vector de un solo 1 de 73,000 elementos. Por ejemplo, quizás baobab se representaría de la siguiente manera:

Un array de 73,000 elementos. Los primeros 6,232 elementos contienen el valor
     0. El siguiente elemento contiene el valor 1. Los últimos 66,767 elementos contienen
     el valor cero.

Un array de 73,000 elementos es muy largo. Si no agregas una capa de incorporación al modelo, el entrenamiento llevará mucho tiempo debido a que se multiplican 72,999 ceros. Quizás elijas que la capa de incorporación tenga 12 dimensiones. En consecuencia, la capa de incorporación aprenderá gradualmente un nuevo vector de incorporación para cada especie arbórea.

En algunos casos, la generación de hash es una alternativa razonable en una capa de incorporación.

Consulta Incorporaciones en el Curso intensivo de aprendizaje automático para obtener más información.

espacio de incorporaciones

#language

Espacio de vector de d dimensiones al que se mapean atributos de un espacio de vector de más dimensiones. Idealmente, el espacio de incorporaciones posee una estructura que produce resultados matemáticos significativos; por ejemplo, en un espacio de incorporaciones ideal, la adición y sustracción de incorporaciones puede resolver tareas de similitud de palabras.

El producto escalar de dos incorporaciones es la medida de su similitud.

vector de incorporación

#language

En términos generales, es un array de números de punto flotante tomados de cualquier capa oculta que describe las entradas de esa capa oculta. A menudo, un vector de incorporación es el array de números de punto flotante entrenados una capa de incorporación. Por ejemplo, supongamos que una capa de incorporación debe aprender un vector de incorporación para cada una de las 73,000 especies de árboles de la Tierra. Quizás el siguiente array sea el vector de incorporación de un árbol de baobab:

Un array de 12 elementos, cada uno de los cuales contiene un número de punto flotante.
          entre 0.0 y 1.0.

Un vector de incorporación no es un conjunto de números aleatorios. Una capa de incorporación determina estos valores por medio del entrenamiento, similar a como mientras que una red neuronal aprende otros pesos durante el entrenamiento. Cada elemento del array es una calificación de alguna característica de una especie arbórea. Cuál representa qué especies arbóreas característica? Es muy difícil que los humanos pueden determinar.

La parte matemáticamente notable de un vector de incorporación es que los elementos similares tienen conjuntos similares de números de punto flotante. Por ejemplo, las especies de árboles similares tienen un conjunto más similar de números de punto flotante que las especies de árboles disímiles. Los robles rojos y las secuoyas son especies de árboles relacionadas, por lo que tendrán un conjunto más similar de números de punto flotante que los robles rojos y las palmeras de coco. Los números en el vector de incorporación cambiar cada vez que se vuelva a entrenar el modelo, incluso si se vuelve a entrenar con entradas idénticas.

función de distribución empírica acumulada (eCDF o EDF)

Una función de distribución acumulativa basadas en mediciones empíricas de un conjunto de datos real. El valor del en cualquier punto a lo largo del eje X es la fracción de observaciones en conjunto de datos que son inferiores o iguales al valor especificado.

minimización del riesgo empírico (ERM)

Elegir la función que minimiza la pérdida en el conjunto de entrenamiento Contraste con la minimización del riesgo estructural.

codificador

#language

En general, cualquier sistema de AA que convierte una representación sin procesar, dispersa o externa en una representación más procesada, más densa o más interna.

Los codificadores suelen ser un componente de un modelo más grande, en el que a menudo se combinan con un decodificador. Algunos Transformers vincular codificadores con decodificadores, aunque otros transformadores usan solo el o solo el decodificador.

Algunos sistemas usan la salida del codificador como entrada de una red de clasificación o de regresión.

En las tareas de secuencia a secuencia, un codificador toma una secuencia de entrada y muestra un estado interno (un vector). Luego, el decodificador usa ese estado interno para predecir la siguiente secuencia.

Consulta Transformador para obtener la definición de un codificador en la arquitectura de Transformer.

Consulta LLM: ¿Qué es un lenguaje grande? modelo en el Curso intensivo de aprendizaje automático para obtener más información.

ensamble

Una colección de modelos entrenados de forma independiente cuyas predicciones se promedian o agregan. En muchos casos, un ensamble produce mejores predicciones que un solo modelo. Por ejemplo, un bosque aleatorio es un conjunto creado a partir de varios árboles de decisión. Ten en cuenta que no todos los bosques de decisión son conjuntos.

Consulta Bosque aleatorio en el Curso intensivo de aprendizaje automático para obtener más información.

entropía

#df

En la teoría de la información, es una descripción de lo impredecible que es una distribución de probabilidad. Como alternativa, la entropía también se define como la cantidad de información que contiene cada ejemplo. Una distribución tiene la entropía más alta posible cuando todos los valores de una variable aleatoria tienen la misma probabilidad.

La entropía de un conjunto con dos valores posibles "0" y "1" (por ejemplo, las etiquetas en un problema de clasificación binaria) tiene la siguiente fórmula:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Donde:

  • H es la entropía.
  • p es la fracción de "1" ejemplos.
  • q es la fracción de "0" ejemplos. Ten en cuenta que q = (1 - p).
  • Por lo general, log es log2. En este caso, la entropía unidad es un poco.

Por ejemplo, supongamos lo siguiente:

  • 100 ejemplos contienen el valor “1”
  • 300 ejemplos contienen el valor "0".

Por lo tanto, el valor de la entropía es el siguiente:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 bits por ejemplo

Un conjunto que esté perfectamente equilibrado (por ejemplo, 200 "0" y 200 "1") tendría una entropía de 1.0 bit por ejemplo. A medida que un conjunto se vuelve más desequilibrado, su entropía se acerca a 0.0.

En los árboles de decisión, la entropía ayuda a formular la ganancia de información para ayudar al divisor a seleccionar las condiciones durante el crecimiento de un árbol de decisión de clasificación.

Compara la entropía con lo siguiente:

A menudo, la entropía se denomina entropía de Shannon.

Consulta Divisor exacto para la clasificación binaria con atributos numéricos en el curso Bosques de decisión para obtener más información.

de producción

#rl

En el aprendizaje por refuerzo, el mundo que contiene al agente y permite que el agente observe el estado de ese mundo. Por ejemplo: el mundo representado puede ser un juego como el ajedrez o un mundo físico laberinto. Cuando el agente aplica una acción al entorno, este realiza transiciones entre estados.

episodio

#rl

En el aprendizaje por refuerzo, cada uno de los intentos repetidos del agente para aprender un entorno.

época

#fundamentals

Un pase de entrenamiento completo en todo el conjunto de entrenamiento. para que cada ejemplo se procese una vez.

Un ciclo de entrenamiento representa N/tamaño del lote iteraciones, donde N es la cantidad total de ejemplos.

Por ejemplo, supongamos lo siguiente:

  • El conjunto de datos consta de 1,000 ejemplos.
  • El tamaño del lote es de 50 ejemplos.

Por lo tanto, un solo ciclo de entrenamiento requiere 20 iteraciones:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Consulta Regresión lineal: Hiperparámetros en el Curso intensivo de aprendizaje automático para obtener más información.

política de codicia de epsilon

#rl

En el aprendizaje por refuerzo, una política que sigue una política aleatoria con probabilidad de epsilon o una política codiciosa de lo contrario. Por ejemplo, si el parámetro épsilon es 0.9, entonces la política sigue una política aleatoria el 90% de las veces y una política voraz el 10% de las veces.

En episodios sucesivos, el algoritmo reduce el valor de epsilon para pasar de seguir una política aleatoria a seguir una política codiciosa. Cuando se cambia la política, el agente primero explora el entorno de forma aleatoria y, luego, aprovecha con avidez los resultados de la exploración aleatoria.

igualdad de oportunidades

#fairness

Una métrica de equidad para evaluar si un modelo predice el resultado deseado de la misma manera para todos los valores de un atributo sensible. En otras palabras, si el resultado deseable para un modelo es la clase positiva, el objetivo sería que la tasa de verdaderos positivos sea la misma para todos los grupos.

La igualdad de oportunidades se relaciona con probabilidades equitativas lo que requiere que tanto las tasas de verdaderos positivos como Las tasas de falsos positivos son las mismas para todos los grupos.

Supongamos que la Universidad de Glubbdubdrib admite tanto a lilitanos como a Brobdingnagians a un riguroso programa de matemáticas. Las instituciones educativas secundarias de Lilliput ofrecen un plan de estudios sólido de clases de matemáticas, y la gran mayoría de los estudiantes están calificados para el programa universitario. Brobdingnagians las escuelas secundarias no ofrecen clases de matemática y, como resultado, muchos menos estudiantes califican. Se satisface la igualdad de oportunidades para la etiqueta preferida de “admitido” con respecto a la nacionalidad (liliputiense o brobdingnagiense) si los estudiantes calificados tienen la misma probabilidad de ser admitidos, independientemente de si son liliputienses o brobdingnagienses.

Por ejemplo, supongamos que 100 liliputienses y 100 brobdingnagianos se postulan a la Universidad de Glubbdubdrib, y las decisiones de admisión se toman de la siguiente manera:

Tabla 1: Solicitantes liliputienses (el 90% son aptos)

  Calificado No cumple con los requisitos
Admitida 45 3
Rechazado 45 7
Total 90 10
Porcentaje de estudiantes calificados admitidos: 45/90 = 50%
Porcentaje de estudiantes no calificados rechazados: 7/10 = 70%
Porcentaje total de estudiantes de Liliputa admitidos: (45+3)/100 = 48%

 

Tabla 2: Postulantes al programa Brobdingnagian (el 10% de ellos reúnen los requisitos):

  Calificado No cumple con los requisitos
Admitida 5 9
Rechazado 5 81
Total 10 90
Porcentaje de estudiantes calificados admitidos: 5/10 = 50%
Porcentaje de estudiantes no calificados rechazados: 81/90 = 90%
Porcentaje total de estudiantes de Brobdingnagian admitidos: (5+9)/100 = 14%

Los ejemplos anteriores satisfacen la igualdad de oportunidades para la aceptación de estudiantes calificados porque lilipinos y brobdingnagianos calificados tienen un 50% de probabilidades de ser admitidos.

Si bien se cumple la igualdad de oportunidades, no se cumplen las siguientes dos métricas de equidad:

  • Paridad demográfica: Los liliputienses y los brobdingnagianos ingresan a la universidad a diferentes tasas; se admite el 48% de los estudiantes liliputienses, pero solo el 14% de los brobdingnagianos.
  • equalized odds: si bien es lilitiano calificado y los estudiantes de Brobdingnagian tienen la misma probabilidad de ingresar, la restricción adicional de que los lilipinos y las personas no cualificados Los brobdingnagias tienen la misma posibilidad de ser rechazados no es satisfecho. Los liliputienses no calificados tienen un porcentaje de rechazo del 70%, mientras que los brobdingnagianos no calificados tienen un porcentaje de rechazo del 90%.

Consulta Equidad: igualdad de oportunidad en el Curso intensivo de aprendizaje automático para obtener más información.

probabilidades iguales

#fairness

Es una métrica de equidad para evaluar si un modelo predice resultados de la misma manera para todos los valores de un atributo sensible en relación con la clase positiva y la clase negativa, no solo una clase o la otra de forma exclusiva. En otras palabras, tanto la tasa de verdaderos positivos y la tasa de falsos negativos debería ser la misma para para todos los grupos.

Las probabilidades igualadas se relacionan con la igualdad de oportunidades, que solo se enfoca en las tasas de error de una sola clase (positiva o negativa).

Por ejemplo, supongamos que la Universidad de Glubbdubdrib admite a liliputienses y a brobdingnagianos en un programa de matemáticas riguroso. Las instituciones educativas secundarias de Lilliput ofrecen un plan de estudios sólido de clases de matemáticas, y la gran mayoría de los estudiantes están calificados para el programa universitario. Las escuelas secundarias de Brobdingnag no ofrecen clases de matemáticas y, como resultado, muchos menos de sus estudiantes están calificados. Las probabilidades equitativas se cumplen siempre que no haya independientemente de si el solicitante es de Liliputa o Brobdingnag, están calificados, tienen la misma probabilidad de ser admitidos en el programa, y, si no están calificados, tienen las mismas probabilidades de ser rechazados.

Supongamos que se aplican 100 lilitanos y 100 brobdingnagians a Glubbdubdrib Universidad y las decisiones sobre admisión se toman de la siguiente manera:

Tabla 3: Solicitantes liliputienses (el 90% son aptos)

  Calificado No cumple con los requisitos
Admitida 45 2
Rechazado 45 8
Total 90 10
Porcentaje de estudiantes calificados admitidos: 45/90 = 50%
Porcentaje de estudiantes no calificados rechazados: 8/10 = 80%
Porcentaje total de estudiantes de Liliputa admitidos: (45+2)/100 = 47%

 

Tabla 4. Postulantes al programa Brobdingnagian (el 10% de ellos reúnen los requisitos):

  Calificado No cumple con los requisitos
Admitida 5 18
Rechazado 5 72
Total 10 90
Porcentaje de estudiantes calificados admitidos: 5/10 = 50%
Porcentaje de estudiantes no calificados rechazados: 72/90 = 80%
Porcentaje total de estudiantes de Brobdingnag recibidos: (5+18)/100 = 23%

Las probabilidades equitativas están satisfechas porque los estudiantes calificados de Lilliputian y Brobdingnagian hay un 50% de probabilidades de que los estudiantes los admitan y Brobdingnagian tienen un 80% de probabilidades de ser rechazados.

Las probabilidades equitativas se definen formalmente en "Igualdad de Opportunity en el aprendizaje supervisado” de la siguiente manera: "el predictor Ŷ satisface las probabilidades equilibradas con respecto al atributo protegido A y el resultado Y si Ŷ y A son independientes condicional en Y".

Estimador

#TensorFlow

Una API de TensorFlow obsoleta. Usa tf.keras en lugar de estimadores.

evals

#language
#generativeAI

Se usa principalmente como abreviatura de las evaluaciones de LLM. En términos más generales, evals es una abreviatura de cualquier forma de evaluación.

sin conexión

#language
#generativeAI

Es el proceso de medir la calidad de un modelo o comparar diferentes modelos entre sí.

Para evaluar un modelo de aprendizaje automático supervisado, por lo general, se lo compara con un conjunto de validación y un conjunto de prueba. Evalúa un LLM suele implicar evaluaciones de calidad y seguridad más amplias.

ejemplo

#fundamentals

Son los valores de una fila de features y, posiblemente, una etiqueta. Los ejemplos de aprendizaje supervisado se dividen en dos categorías generales:

  • Un ejemplo etiquetado consiste en uno o más atributos y una etiqueta. Los ejemplos etiquetados se usan durante el entrenamiento.
  • Un ejemplo sin etiqueta consta de uno o más atributos, pero no tiene etiqueta. Los ejemplos sin etiqueta se usan durante la inferencia.

Por ejemplo, supongamos que entrenas un modelo para determinar la influencia de las condiciones climáticas en las calificaciones de los estudiantes. Estos son tres ejemplos etiquetados:

Funciones Etiqueta
Temperatura Humedad Presionar Puntuación de la prueba
15 47 998 Bueno
19 34 1020 Excelente
18 92 1012 Deficiente

Aquí hay tres ejemplos sin etiqueta:

Temperatura Humedad Presionar  
12 62 1014  
21 47 1017  
19 41 1021  

Por lo general, la fila de un conjunto de datos es la fuente sin procesar de un ejemplo. Es decir, un ejemplo generalmente consiste en un subconjunto de las columnas en del conjunto de datos. Además, las funciones de un ejemplo también pueden incluir atributos sintéticos, como combinaciones de atributos.

Consulta Aprendizaje supervisado en el curso Introducción al aprendizaje automático para obtener más información.

repetición de la experiencia

#rl

En el aprendizaje por refuerzo, una técnica de DQN que se usa para reducir las correlaciones temporales en los datos de entrenamiento. El agente almacena las transiciones de estado en un búfer de reproducción y, luego, muestras de transiciones del búfer de repetición para crear datos de entrenamiento.

sesgo del investigador

#fairness

Consulta el sesgo de confirmación.

problema de gradiente explosivo

#seq

La tendencia de los gradientes en las redes neuronales profundas (en especial, las redes neuronales recurrentes) a volverse sorprendentemente empinados (altos) Los gradientes empinados suelen provocar actualizaciones muy grandes a los pesos de cada nodo en un de una red neuronal profunda.

Los modelos que sufren del problema del gradiente explosivo se vuelven difíciles o imposibles de entrenar. Recorte de gradiente puede mitigar este problema.

Compara con el problema de gradiente que desaparece.

F

F1

Una "lista de datos integrados" clasificación binaria que se basa tanto en la precisión como en la recuperación. Esta es la fórmula:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Por ejemplo, dada la siguiente información:

  • precisión = 0.6
  • recuperación = 0.4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Cuando la precisión y la recuperación son bastante similares (como en el ejemplo anterior), F1 está cerca de su media. Cuando la precisión y la recuperación difieren significativamente, F1 está más cerca del valor más bajo. Por ejemplo:

  • precisión = 0.9
  • recall = 0.1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

restricción de equidad

#fairness
Aplicar una restricción a un algoritmo para garantizar que se satisfagan una o más definiciones de equidad Estos son algunos ejemplos de restricciones de equidad:

métrica de equidad

#fairness

Una definición matemática de "equidad" que es medible. Estas son algunas de las métricas de equidad de uso general:

Muchas métricas de equidad son excluyentes mutuamente. ver incompatibilidad de métricas de equidad.

falso negativo (FN)

#fundamentals

Ejemplo en el que el modelo predice de manera incorrecta la clase negativa. Por ejemplo, el modelo Predice que un mensaje de correo electrónico en particular no es spam. (la clase negativa), pero ese mensaje de correo electrónico en realidad es spam.

tasa de falsos negativos

Es la proporción de ejemplos positivos reales para los que el modelo predijo de forma incorrecta la clase negativa. La siguiente fórmula calcula la tasa negativa falsa:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Consulta Umbral y matriz de confusión en el Curso intensivo de aprendizaje automático para obtener más información.

falso positivo (FP)

#fundamentals

Ejemplo en el que el modelo predice de manera incorrecta la clase positiva. Por ejemplo, el modelo predice que un mensaje de correo electrónico en particular es spam (la clase positiva), pero ese mensaje de correo electrónico en realidad no es spam.

Consulta Umbral y matriz de confusión en el Curso intensivo de aprendizaje automático para obtener más información.

tasa de falsos positivos (FPR)

#fundamentals

Es la proporción de ejemplos negativos reales para los que el modelo predijo de forma incorrecta la clase positiva. La siguiente fórmula calcula el valor falso tasa de positivos:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

La tasa de falsos positivos es el eje x en una curva ROC.

Consulta Clasificación: ROC y AUC en el Curso intensivo de aprendizaje automático para obtener más información.

función

#fundamentals

Es una variable de entrada para un modelo de aprendizaje automático. Un ejemplo consiste en una o más características. Por ejemplo, supongamos que entrenas un modelo para determinar la influencia de las condiciones climáticas en las calificaciones de los estudiantes. En la siguiente tabla, se muestran tres ejemplos, cada uno de los cuales contiene tres atributos y una etiqueta:

Funciones Etiqueta
Temperatura Humedad Presionar Puntuación de la prueba
15 47 998 92
19 34 1020 84
18 92 1012 87

Compara esto con etiqueta.

Consulta Aprendizaje supervisado. en el curso Introduction to Machine Learning.

combinación de atributos

#fundamentals

Un atributo sintético que se forma cuando se "combinan" atributos categóricos o agrupados en buckets.

Por ejemplo, considera un modelo de "pronóstico del estado de ánimo" que representa la temperatura en uno de los siguientes cuatro buckets:

  • freezing
  • chilly
  • temperate
  • warm

Y representa la velocidad del viento en uno de los siguientes tres buckets:

  • still
  • light
  • windy

Sin combinaciones de atributos, el modelo lineal se entrena de forma independiente en cada uno anterior a siete grupos diferentes. Por lo tanto, el modelo se entrena en, por ejemplo, freezing, independientemente del entrenamiento en, por ejemplo, windy.

De forma alternativa, podrías crear una combinación de atributos de temperatura y velocidad del viento. Esta característica sintética tendría los siguientes 12 valores posibles:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Gracias a la combinación de atributos, el modelo puede aprender las diferencias del estado de ánimo entre un día de freezing-windy y uno de freezing-still.

Si creas un atributo sintético a partir de dos atributos que tienen muchos segmentos diferentes, la combinación de atributos resultante tendrá una gran cantidad de combinaciones posibles. Por ejemplo, si un atributo tiene 1,000 buckets y el otro tiene 2,000 buckets, la intersección de atributos resultante tiene 2,000,000 buckets.

Formalmente, una combinación es un producto cartesiano.

Las combinaciones de atributos se usan principalmente con modelos lineales y rara vez con redes neuronales.

Consulta Datos categóricos: Función cruces en el Curso intensivo de aprendizaje automático para obtener más información.

ingeniería de atributos.

#fundamentals
#TensorFlow

Un proceso que incluye los siguientes pasos:

  1. Determinar qué atributos podrían ser útiles en el entrenamiento de un modelo.
  2. Convertir los datos sin procesar del conjunto de datos en versiones eficientes de con esas funciones.

Por ejemplo, podrías determinar que temperature podría ser una función útil. Luego, puedes experimentar con el agrupamiento para optimizar lo que el modelo puede aprender de diferentes rangos de temperature.

A veces, la ingeniería de atributos se denomina extracción de atributos o Transformación de atributos.

Consulta Datos numéricos: Cómo un modelo transfiere datos con vectores de características en el Curso intensivo de aprendizaje automático para obtener más información.

extracción de atributos

Término sobrecargado con una de las siguientes definiciones:

importancias de atributos

#df

Sinónimo de importancias de variable.

conjunto de atributos

#fundamentals

El grupo de atributos que tu aprendizaje automático modelo entrena. Por ejemplo, el código postal, el tamaño de la propiedad y el estado de la propiedad podrían comprenden un conjunto de atributos sencillo para un modelo que predice los precios de las viviendas.

especificación de atributos

#TensorFlow

Describe la información necesaria para extraer datos de features del búfer de protocolo tf.Example. Debido a que el buffer de protocolo tf.Example es solo un contenedor de datos, debes especificar lo siguiente:

  • Los datos que se extraerán (es decir, las claves de los atributos)
  • El tipo de datos (por ejemplo, número de punto flotante o número entero)
  • La longitud (fija o variable)

vector de atributos

#fundamentals

El array de valores de atributos que consta de un ejemplo. El vector de características se ingresa durante el entrenamiento y la inferencia. Por ejemplo, el vector de atributos de un modelo con dos atributos discretos podría ser el siguiente:

[0.92, 0.56]

Cuatro capas: una de entrada, dos ocultas y una de salida.
          La capa de entrada contiene dos nodos, uno con el valor
          0.92 y la otra que contiene el valor 0.56.

Cada ejemplo proporciona valores diferentes para el vector de atributos, por lo que El vector de atributos para el siguiente ejemplo podría ser algo como lo siguiente:

[0.73, 0.49]

La ingeniería de atributos determina cómo representar en el vector de atributos. Por ejemplo, un atributo categórico binario con cinco valores posibles se pueden representar con codificación one-hot. En este caso, la parte de la un vector de atributos de un ejemplo consiste en cuatro ceros un solo 1.0 en la tercera posición, de la siguiente manera:

[0.0, 0.0, 1.0, 0.0, 0.0]

Como otro ejemplo, supongamos que tu modelo consta de tres atributos:

  • un atributo categórico binario con cinco valores posibles representados con codificación one-hot; por ejemplo: [0.0, 1.0, 0.0, 0.0, 0.0]
  • otro atributo categórico binario con tres valores posibles representados con codificación one-hot; por ejemplo: [0.0, 0.0, 1.0]
  • Un componente de punto flotante, por ejemplo: 8.3.

En este caso, el vector de atributos de cada ejemplo estaría representado por nueve valores. Dados los valores de ejemplo de la lista anterior, el vector de características sería el siguiente:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Consulta Datos numéricos: Cómo un modelo transfiere datos con vectores de características en el Curso intensivo de aprendizaje automático para obtener más información.

transformación de atributos

Es el proceso de extraer atributos de una fuente de entrada, como un documento o un video, y asignarlos a un vector de atributos.

Algunos expertos en AA la usan como sinónimo de ingeniería de atributos o extracción de atributos.

aprendizaje federado

Un enfoque de aprendizaje automático distribuido que entrena modelos de aprendizaje automático con ejemplos descentralizados que residen en dispositivos como smartphones. En el aprendizaje federado, un subconjunto de dispositivos descarga el modelo actual. desde un servidor central de coordinación. Los dispositivos usan los ejemplos almacenados en los dispositivos para mejorar el modelo. Luego, los dispositivos suben las mejoras del modelo (pero no los ejemplos de entrenamiento) al servidor de coordinación, donde se agregan con otras actualizaciones para generar un modelo global mejorado. Después de la agregación, las actualizaciones del modelo que calculan los dispositivos ya no son necesarias y se pueden descartar.

Dado que los ejemplos de entrenamiento nunca se suben, el aprendizaje federado sigue los principios de privacidad de la recopilación de datos enfocada y la minimización de datos.

Para obtener más información sobre el aprendizaje federado, consulta este instructivo.

ciclo de retroalimentación

#fundamentals

En el aprendizaje automático, una situación en la que las predicciones de un modelo influyen datos de entrenamiento para el mismo modelo o para otro modelo. Por ejemplo, un modelo que recomienda películas influirá en las películas que miran las personas, lo que, a su vez, influirá en los modelos de recomendación de películas posteriores.

Consulta Sistemas de AA de producción: Preguntas para pregunta en el Curso intensivo de aprendizaje automático para obtener más información.

red neuronal prealimentada (FFN)

Una red neuronal sin conexiones cíclicas o recurrentes. Por ejemplo: Las redes neuronales profundas tradicionales y prealimentadas. Compara esto con las redes neuronales recurrentes, que son cíclicas.

aprendizaje en pocos intentos

Un enfoque de aprendizaje automático, que a menudo se usa para la clasificación de objetos, diseñado para entrenar clasificadores eficaces a partir de solo una pequeña cantidad de ejemplos de entrenamiento.

Consulta también aprendizaje en un intento y aprendizaje sin ejemplos.

instrucción con ejemplos limitados

#language
#generativeAI

Un prompt que contiene más de un ejemplo (algunos) que demuestra cómo debe responder el modelo de lenguaje extenso. Por ejemplo, la siguiente instrucción extensa contiene dos ejemplos que muestran a un modelo de lenguaje extenso cómo responder una consulta.

Partes de una instrucción Notas
¿Cuál es la moneda oficial del país especificado? La pregunta que quieres que responda el LLM.
Francia: EUR Un ejemplo.
Reino Unido: GBP Otro ejemplo.
India: Es la consulta real.

Las instrucciones con ejemplos limitados suelen producir resultados más deseables que los la instrucción sin ejemplos y las instrucciones con un solo ejemplo. Sin embargo, las instrucciones con ejemplos limitados requiere una instrucción más larga.

La instrucción con ejemplos limitados es una forma de aprendizaje en pocos ejemplos se aplican al aprendizaje basado en instrucciones.

Consulta Instrucción ingeniería de atributos en el Curso intensivo de aprendizaje automático para obtener más información.

Violín tradicional

#language

Una biblioteca de configuración que prioriza Python y establece los valores de las funciones y las clases sin código ni infraestructura invasivos. En el caso de Pax y otras bases de código de AA, estas funciones y Las clases representan modelos y entrenamiento. hiperparámetros.

Fiddle asume que las bases de código de aprendizaje automático suelen dividirse en lo siguiente:

  • Código de biblioteca, que define las capas y los optimizadores.
  • Código de "unión" del conjunto de datos, que llama a las bibliotecas y conecta todo.

Fiddle captura la estructura de llamada del código glue en un formato forma mutable.

ajuste

#language
#image
#generativeAI

Un segundo pase de entrenamiento de tarea específica que se realiza en un modelo previamente entrenado para definir mejor sus parámetros y caso de uso específico. Por ejemplo, la secuencia de entrenamiento completa de algunos modelos grandes de lenguaje es la siguiente:

  1. Entrenamiento previo: Entrena un modelo de lenguaje grande en un vasto conjunto de datos general, como todas las páginas de Wikipedia en inglés.
  2. Ajuste: Entrenar el modelo previamente entrenado para que realice una tarea específica como responder consultas médicas. El perfeccionamiento suele implicar cientos o miles de ejemplos enfocados en la tarea específica.

Como otro ejemplo, la secuencia de entrenamiento completa para un modelo de imagen grande es la siguiente:

  1. Entrenamiento previo: Entrena un modelo de imagen grande en un vasto conjunto de datos de imágenes generales, como todas las imágenes de Wikimedia Commons.
  2. Ajuste: Entrenar el modelo previamente entrenado para que realice una tarea específica como generar imágenes de orcas.

El ajuste puede implicar cualquier combinación de las siguientes estrategias:

  • Modificar todos los modelos existentes del modelo previamente entrenado parámetros. A veces, esto se denomina ajuste completo.
  • Modificar solo algunos de los parámetros existentes del modelo previamente entrenado (por lo general, las capas más cercanas a la capa de salida) y mantener sin cambios otros parámetros existentes (por lo general, las capas más cercanas a la capa de entrada) Consulta ajuste eficiente de parámetros.
  • Agregar más capas, por lo general, sobre las capas existentes más cercanas a la capa de salida

El ajuste es una forma de aprendizaje por transferencia. Por lo tanto, el ajuste fino puede usar una función de pérdida o un tipo de modelo diferente de los que se usan para entrenar el modelo con entrenamiento previo. Por ejemplo, podrías ajustar un modelo de imagen grande previamente entrenado para producir un modelo de regresión que muestra la cantidad de aves en una imagen de entrada.

Compara y contrasta el ajuste con los siguientes términos:

Consulta Ajuste en el Curso intensivo de aprendizaje automático para obtener más información.

Lino

#language

Una biblioteca de código abierto de alto rendimiento para el aprendizaje profundo compilada en JAX. Flax proporciona funciones para entrenar redes neuronales, así como como métodos para evaluar su rendimiento.

Flaxformer

#language

Un Transformer de código abierto biblioteca, Se creó en Flax, y se diseñó principalmente para el procesamiento de lenguaje natural. y la investigación multimodal.

puerta de descarte

#seq

La parte de una memoria a corto plazo de larga duración que regula el flujo de información por medio de la célula. Olvídate de las puertas para mantener el contexto al decidir qué información descartar del estado de la celda.

softmax completo

Sinónimo de softmax.

Compara esto con el muestreo de candidatos.

Consulta Redes neuronales: varias clases y la clasificación, en el Curso intensivo de aprendizaje automático para obtener más información.

capa completamente conectada

Una capa oculta en la que cada nodo está conectado a cada nodo de la capa oculta subsiguiente.

Una capa completamente conectada también se conoce como una capa densa.

transformación de funciones

Función que toma una función como entrada y muestra una función transformada como salida. JAX usa transformaciones de funciones.

G

GAN

Abreviatura de generativo adversario red.

generalización

#fundamentals

Es la capacidad de un modelo para realizar predicciones correctas sobre datos nuevos nunca antes vistos. Un modelo que puede generalizar es lo opuesto de un modelo que está sobreajustado.

Consulta Generalización. en el Curso intensivo de aprendizaje automático para obtener más información.

Gemini

#language
#image
#generativeAI

El ecosistema que comprende la IA más avanzada de Google. Entre los elementos de este ecosistema, se incluyen los siguientes:

Modelos de Gemini

#language
#image
#generativeAI

El moderno Transformer basado en la tecnología de vanguardia de Google modelos multimodales. Los modelos de Gemini están diseñados específicamente para integrarse con agentes.

Los usuarios pueden interactuar con los modelos de Gemini de varias formas, incluso a través de una interfaz de diálogo interactiva y a través de SDKs.

curva de generalización

#fundamentals

Un diagrama de pérdida de entrenamiento y pérdida de validación como una función de la cantidad de iteraciones.

Una curva de generalización puede ayudar a detectar posibles sobreajuste. Por ejemplo, los siguientes la curva de generalización sugiere sobreajuste porque la pérdida de validación y, en última instancia, se vuelve mucho más alto que la pérdida de entrenamiento.

Un gráfico cartesiano en el que el eje y está etiquetado como pérdida y el eje x está etiquetado como iteraciones. Aparecerán dos parcelas. Un diagrama muestra la
          pérdida de entrenamiento,
y en el otro, la pérdida de validación.
          Los dos diagramas comienzan de manera similar, pero la pérdida de entrenamiento eventualmente
          cae por debajo de la pérdida de validación.

Consulta Generalización en el Curso intensivo de aprendizaje automático para obtener más información.

modelo lineal generalizado

Una generalización de los modelos de regresión de mínimos cuadrados, que se basan en el ruido gaussiano, a otros tipos de modelos basados en otros tipos de ruido, como el ruido de Poisson o el ruido categórico. Entre los ejemplos de modelos lineales generalizados, se incluyen los siguientes:

Los parámetros de un modelo lineal generalizado pueden encontrarse a través de la optimización convexa.

Los modelos lineales generalizados tienen las siguientes propiedades:

  • La predicción promedio del modelo óptimo de regresión de mínimos cuadrados es igual a la etiqueta promedio de los datos de entrenamiento.
  • La probabilidad promedio predicha por la regresión logística óptima es igual a la etiqueta promedio de los datos de entrenamiento.

La potencia de un modelo lineal generalizado está limitada por sus atributos. Desmarcar “Me gusta” En un modelo profundo, lineal generalizado no se pueden “aprender atributos nuevos”.

red generativa adversaria (GAN)

Un sistema para crear datos nuevos en el que un generador crea datos y un discriminador determina si los datos creados son válidos o no.

Consulta el curso de redes generativas antagónicas para obtener más información.

IA generativa

#language
#image
#generativeAI

Un campo transformador emergente sin definición formal. Dicho esto, la mayoría de los expertos coinciden en que los modelos de IA generativa pueden crear ("generar") contenido que tenga las siguientes características:

  • emergencia compleja,
  • coherente
  • original

Por ejemplo, un modelo de IA generativa puede crear ensayos o imágenes sofisticados.

Algunas tecnologías anteriores, incluidas las LSTMs y las RNN pueden generar imágenes originales y contenido coherente. Algunos expertos consideran que estas tecnologías anteriores son IA generativa, mientras que otros creen que la verdadera IA generativa requiere resultados más complejos que los que pueden producir esas tecnologías anteriores.

Compara esto con el AA predictivo.

modelo generativo

Dicho en forma simple, un modelo que realiza una de las siguientes tareas:

  • Crea (genera) ejemplos nuevos a partir del conjunto de datos de entrenamiento. Por ejemplo, un modelo generativo podría crear poesía luego de entrenar en un conjunto de datos de poemas. La parte del generador de una red generativa adversaria entra en esta categoría.
  • Determina la probabilidad de que un nuevo ejemplo provenga del conjunto de entrenamiento o se haya creada con el mismo mecanismo que creó al conjunto de entrenamiento. Por ejemplo, después de entrenar sobre en un conjunto de datos compuesto de oraciones en inglés, un modelo generativo podría determinar la probabilidad de que una nueva entrada sea una oración válida en inglés.

Un modelo generativo puede, en teoría, diferenciar la distribución de ejemplos o atributos particulares en un conjunto de datos, Es decir:

p(examples)

Los modelos de aprendizaje no supervisado son generativos.

Compara esto con los modelos discriminativos.

generador

El subsistema dentro de un adversario generativo red que crea nuevos ejemplos.

Compara esto con el modelo discriminativo.

impureza de gini

#df

Una métrica similar a la entropía. Los divisores usan valores derivados de la impureza de Gini o la entropía para componer condiciones para la clasificación de árboles de decisión. El aumento de la información se deriva de la entropía. No existe un término equivalente universalmente aceptado para la métrica derivada de la impureza del gini; Sin embargo, esta métrica sin nombre es tan importante como de información.

La impureza de Gini también se denomina índice de Gini o simplemente Gini.

conjunto de datos de referencia

Un conjunto de datos seleccionados manualmente que capturan la verdad fundamental. Los equipos pueden usar uno o más conjuntos de datos de referencia para evaluar la calidad de un modelo.

Algunos conjuntos de datos de referencia capturan diferentes subdominios de la verdad fundamental. Por ejemplo, un conjunto de datos de referencia para la clasificación de imágenes podría capturar las condiciones de iluminación y la resolución de la imagen.

GPT (transformador generativo previamente entrenado)

#language

Una familia de modelos basados en Transformer modelos grandes de lenguaje desarrollados por OpenAI.

Las variantes de GPT se pueden aplicar a varias modalidades, incluidas las siguientes:

  • generación de imágenes (por ejemplo, ImageGPT)
  • generación de texto a imagen (por ejemplo, DALL-E).

gradient

El vector de las derivadas parciales respecto de todas las variables independientes. En el aprendizaje automático, el gradiente el vector de las derivadas parciales de la función del modelo. El gradiente apunta en la dirección del aumento más empinado.

acumulación de gradientes

Es una técnica de propagación inversa que actualiza la parámetros solo una vez por ciclo de entrenamiento en lugar de una vez por e iteración. Después de procesar cada minilote, el gradiente solo actualiza un total de gradientes. Luego, después de procesar el último minilote de la época, el sistema finalmente actualiza los parámetros según el total de todos los cambios de gradiente.

La acumulación de gradientes es útil cuando el tamaño del lote es muy grande en comparación con la cantidad de memoria disponible para el entrenamiento. Cuando la memoria es un problema, la tendencia natural es reducir el tamaño del lote. Sin embargo, reducir el tamaño del lote en la propagación inversa normal aumenta la cantidad de actualizaciones de parámetros. La acumulación de gradientes permite que el modelo evite problemas de memoria, pero aún así se entrene de manera eficiente.

árboles (de decisión) impulsados por gradientes (GBT)

#df

Es un tipo de bosque de decisión en el que se cumple lo siguiente:

Ver Decisión impulsada por gradientes Árboles en Decision Forests para obtener más información.

potenciación del gradiente

#df

Algoritmo de entrenamiento en el que los modelos débiles se entrenan de forma iterativa mejorar la calidad (reducir la pérdida) de un modelo sólido. Por ejemplo: un modelo débil podría ser uno lineal o un modelo de árbol de decisión pequeño. El modelo sólido se convierte en la suma de todos los modelos débiles entrenados anteriormente.

En la forma más simple del aumento de gradientes, en cada iteración, se entrena un modelo débil para predecir el gradiente de pérdida del modelo fuerte. Luego, la de un modelo sólido se actualiza restando el gradiente predicho, de manera similar al descenso de gradientes.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Donde:

  • $F_{0}$ es el modelo fuerte inicial.
  • $F_{i+1}$ es el siguiente modelo sólido.
  • $F_{i}$ es el modelo fuerte actual.
  • $\xi$ es un valor entre 0.0 y 1.0 llamado reducción. que es similar al tasa de aprendizaje en el descenso de gradientes.
  • $f_{i}$ es el modelo débil entrenado para predecir el gradiente de pérdida de $F_{i}$

Las variaciones modernas del aumento de gradiente también incluyen la segunda derivada (Hessiana) de la pérdida en su cálculo.

Los árboles de decisión suelen usarse como modelos débiles en potenciador de gradiente. Consulta árboles con boosting del gradiente (decisión).

recorte de gradientes

#seq

Un mecanismo de uso frecuente para mitigar el riesgo problema de gradiente con alto crecimiento mediante limitando (recorte) el valor máximo de los gradientes cuando se usa descenso de gradientes para entrenar un modelo.

descenso de gradientes

#fundamentals

Es una técnica matemática para minimizar la pérdida. El descenso de gradientes se ajusta de forma iterativa pesos y sesgos encontrar gradualmente la mejor combinación para minimizar la pérdida.

El descenso de gradientes es mucho más antiguo que el aprendizaje automático.

Consulta Regresión lineal: gradiente descent en el Curso intensivo de aprendizaje automático para obtener más información.

gráfico

#TensorFlow

En TensorFlow, es una especificación de cálculo. Los nodos del grafo representan operaciones. Las aristas están dirigidas y representan el paso del resultado de una operación (un Tensor) como un operando a otra operación. Usa TensorBoard para visualizar un grafo.

ejecución de grafos

#TensorFlow

Un entorno de programación de TensorFlow en el que el programa primero construye un gráfico y, luego, ejecuta todo o parte de él. Gráfico ejecución es el modo de ejecución predeterminado en TensorFlow 1.x.

Compara esto con la ejecución inmediata.

política voraz

#rl

En el aprendizaje por refuerzo, una política que siempre elige la acción con el rendimiento esperado más alto.

Verdad fundamental

#fundamentals

Realidad.

La cosa que realmente sucedió.

Por ejemplo, considera una clasificación binaria que predice si un estudiante en su primer año de universidad se graduarán en seis años. La verdad fundamental de este modelo es si ese estudiante se graduó en seis años o no.

sesgo de correspondencia

#fairness

La tendencia a creer que lo que es verdadero para un individuo, lo es también para todos los miembros de ese grupo Los efectos del sesgo de correspondencia pueden agravarse si un muestreo de conveniencia se usa para la recopilación de datos. En una muestra no representativa, las atribuciones que no reflejan la realidad.

Consulta también el sesgo de homogeneidad de los demás y sesgo endogrupal. Además, consulta Equidad: Tipos de sesgo en el Curso intensivo de aprendizaje automático para obtener más información.

H

alucinación

#language

La producción de resultados que parecen plausibles, pero que son incorrectos, por parte de un modelo de IA generativa que pretende hacer una afirmación sobre el mundo real. Por ejemplo, un modelo de IA generativa que afirme que Barack Obama murió en 1865 está hallucinando.

hash

En el aprendizaje automático, un mecanismo para agrupar datos categóricos, especialmente cuando hay una gran cantidad de categorías, pero la cantidad que realmente aparece en el conjunto de datos es comparativamente menor.

Por ejemplo, la Tierra es el hogar de alrededor de 73,000 especies de árboles. Podrías representar cada una de las 73,000 especies arbóreas en 73,000 categorías buckets. Como alternativa, si solo 200 de esas especies arbóreas realmente aparecen en el conjunto de datos, se podría utilizar el hashing para dividir las especies en quizás 500 agrupaciones.

Un solo bucket podría contener varias especies arbóreas. Por ejemplo, la codificación hash baobab y arce rojo, dos genéticamente diferentes en un mismo bucket. En cualquier caso, el hashing sigue siendo una buena manera asignar grandes conjuntos categóricos a la cantidad de buckets seleccionados. El hash convierte un atributo categórico con una gran cantidad de valores posibles a una cantidad menor de valores agrupándolos de forma determinista.

Consulta Datos categóricos: Vocabulario y codificación one-hot en el Curso intensivo de aprendizaje automático para obtener más información.

heurística

Una solución simple y de rápida implementación para un problema. Por ejemplo: “Con una heurística, conseguimos una exactitud del 86%. Cuando cambiamos a una red neuronal profunda, la exactitud llego al 98%."

capa oculta

#fundamentals

Es una capa en una red neuronal entre la capa de entrada (los atributos) y la capa de salida (la predicción). Cada capa oculta consta de una o más neuronas. Por ejemplo, la siguiente red neuronal contiene dos capas ocultas, la primera con tres neuronas y la segunda con dos:

Cuatro capas La primera capa es una de entrada que contiene dos
          atributos. La segunda capa es una capa oculta que contiene tres
          neuronas. La tercera capa es una capa oculta que contiene dos
          neuronas. La cuarta capa es una capa de salida. Cada característica
          contiene tres bordes, cada uno de los cuales apunta a una neurona
          diferente en la segunda capa. Cada una de las neuronas en la segunda capa
          contiene dos bordes, cada uno de los cuales apunta a una neurona diferente
          en la tercera capa. Cada neurona en la tercera capa contiene
          una arista, cada una apuntando a la capa de salida.

Una red neuronal profunda contiene más de una capa oculta. Por ejemplo, la ilustración anterior es una red neuronal profunda porque el modelo contiene dos capas ocultas.

Consulta Redes neuronales: Nodos y capas ocultas en el Curso intensivo de aprendizaje automático para obtener más información.

agrupamiento en clústeres jerárquico

#clustering

Es una categoría de algoritmos de agrupamiento en clústeres que crean un árbol. de clústeres. El agrupamiento en clústeres jerárquico se adapta bien a los datos jerárquicos, como las taxonomías botánicas. Hay dos tipos de modelos jerárquicos algoritmos de agrupamiento en clústeres:

  • El agrupamiento aglomerado asigna primero cada ejemplo a su propio clúster, luego une los clústeres más cercanos para crear un árbol de jerarquías.
  • El agrupamiento en clústeres divisivo agrupa primero todos los ejemplos en un clúster y divide varias veces el clúster en un árbol jerárquico.

Compara esto con el agrupamiento en clústeres basado en centroides.

Consulta Algoritmos de agrupamiento en el curso de Agrupamiento para obtener más información.

pérdida de bisagra

Es una familia de funciones de pérdida para la clasificación diseñada para encontrar el límite de decisión lo más distante posible de cada ejemplo de entrenamiento, lo que maximiza el margen entre los ejemplos y el límite. Las KSVM usan la pérdida de bisagra (o una función relacionada, como la pérdida de bisagra al cuadrado). Para la clasificación binaria, la función de pérdida de bisagra se define de la siguiente manera:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

donde y es la etiqueta verdadera, ya sea -1 o +1, e y' es el resultado sin procesar. del modelo clasificador:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En consecuencia, un diagrama de pérdida de bisagra versus (y * y') se ve de la siguiente manera:

Una representación cartesiana que consta de dos segmentos de línea unidos. El primer segmento de línea comienza en (-3, 4) y termina en (1, 0). La segunda línea
          segmento comienza en (1, 0) y continúa indefinidamente con una pendiente
          de 0.

sesgo histórico

#fairness

Un tipo de sesgo que ya existe en el mundo y se abrió camino en un conjunto de datos. Estos sesgos tienden a reflejar los sesgos estereotipos culturales, las desigualdades demográficas y los prejuicios contra ciertos grupos sociales.

Por ejemplo, considera un modelo de clasificación que predijo si un solicitante de un préstamo incumplirá o no su préstamo, que se entrenó con datos históricos de incumplimientos de préstamos de la década de 1980 de bancos locales en dos comunidades diferentes. Si los postulantes anteriores de la Comunidad A fueran seis veces más que los solicitantes de la Comunidad B, el modelo podría aprender un sesgo histórico, lo que hace que el modelo sea menos propenso a aprobar préstamos en la Comunidad A, incluso si las condiciones históricas que provocaron las tasas predeterminadas más altas de esa comunidad ya no eran relevantes.

Consulta Equidad: tipos de sesgo en el Curso intensivo de aprendizaje automático para obtener más información.

datos de exclusión

Ejemplos que de manera intencional no se usan (se "excluyen") durante el entrenamiento. El conjunto de datos de validación y el conjunto de datos de prueba son ejemplos de datos de exclusión. Los datos de exclusión ayudan a evaluar la capacidad del modelo para realizar generalizaciones con respecto a datos que no sean los datos con los que se entrenó. La pérdida en el conjunto de exclusión proporciona una mejor estimación de la pérdida en un conjunto de datos nunca antes vistos que de la pérdida en el conjunto de entrenamiento.

host

#TensorFlow
#GoogleCloud

Cuando entrenas un modelo de AA en chips aceleradores (GPU o TPU), la parte del sistema que controla los siguientes aspectos:

  • El flujo general del código.
  • La extracción y transformación de la canalización de entrada.

Por lo general, el host se ejecuta en una CPU, no en un chip de acelerador. El dispositivo manipula tensores en los chips de acelerador.

hiperparámetro

#fundamentals

Las variables que tú o un servicio de ajuste de hiperparámetros ajustan durante ejecuciones sucesivas del entrenamiento de un modelo. Por ejemplo: La tasa de aprendizaje es un hiperparámetro. Puedes configurar la tasa de aprendizaje en 0.01 antes de una sesión de entrenamiento. Si determinas que 0.01 es demasiado alto, tal vez 0.003 para la próxima sesión de capacitación.

En cambio, los parámetros son los diversos pesos y sesgos que el modelo aprende durante el entrenamiento.

Consulta Regresión lineal: Hyperparameters en el Curso intensivo de aprendizaje automático para obtener más información.

hiperplano

Un límite que separa un espacio en dos subespacios. Por ejemplo, una línea es una un hiperplano en dos dimensiones y un plano es un hiperplano en tres dimensiones. En el aprendizaje automático, un hiperplano es el límite que separa un espacio de dimensiones altas. Las máquinas de vectores soporte de Kernel usan hiperplanos para separar las clases positivas de las negativas, frecuentemente en un espacio de dimensiones muy altas.

I

i.i.d.

Abreviatura de independiente e idénticamente distribuido.

reconocimiento de imágenes

#image

Proceso que clasifica objetos, patrones o conceptos en una imagen. El reconocimiento de imágenes también se conoce como clasificación de imágenes.

Para obtener más información, consulta Práctica de AA: Clasificación de imágenes.

Consulta la Práctica de AA: Clasificación de imágenes curso para obtener más información.

conjunto de datos desequilibrado

Sinónimo de conjunto de datos con desequilibrio de clases.

sesgo implícito

#fairness

Hacer automáticamente una asociación o suposición basada en la mente propia modelos y memorias. El sesgo implícito puede afectar los siguientes aspectos:

  • Cómo se recopilan y clasifican los datos
  • Cómo se diseñan y desarrollan los sistemas de aprendizaje automático

Por ejemplo, cuando crees un clasificador para identificar fotos de bodas, un ingeniero puede usar la presencia de un vestido blanco en una foto como característica. Sin embargo, los vestidos blancos han sido habituales durante ciertas épocas y en ciertas culturas.

Consulta también el sesgo de confirmación.

imputation

Forma abreviada de imputación de valores.

Incompatibilidad de métricas de equidad

#fairness

La idea de que algunas nociones de equidad son mutuamente incompatibles y no se pueden satisfacer de manera simultánea. Como resultado, no hay métrica universal para cuantificar la equidad que se pueden aplicar a todos los problemas de AA.

Si bien esto puede parecer desalentador, la incompatibilidad de las métricas de equidad no implica que los esfuerzos por lograr la equidad sean infructuosos. En cambio, sugiere que la equidad debe definirse contextualmente para un problema de AA determinado, cuyo objetivo es prevenir daños específicos de sus casos de uso.

Consulta "En la (im)possibilidad de equidad” para obtener un análisis más detallado de este tema.

aprendizaje en contexto

#language
#generativeAI

Sinónimo de instrucciones con ejemplos limitados.

independiente e idénticamente distribuido (es decir,

#fundamentals

Son datos extraídos de una distribución que no cambia y en la que cada valor extraído no depende de los valores que se extrajeron anteriormente. Una i.i.d. es el gas ideal del aprendizaje automático; es una construcción matemática útil, pero casi nunca se encuentra exactamente en el mundo real. Por ejemplo, la distribución de los visitantes de una página web pueden ser datos i.i.d. en una ventana de tiempo breve, es decir, la distribución no cambia durante esa ventana breve y la visita de una persona por lo general es independiente de la visita de otra. Sin embargo, si amplías ese período, pueden aparecer diferencias de temporada en los visitantes de la página web.

Consulta también no estacionariedad.

equidad individual

#fairness

Es una métrica de equidad que verifica si las personas similares se clasifican de manera similar. Por ejemplo, la Academia Brobdingnagian podría querer satisfacer la equidad individual asegurándose de que dos estudiantes con calificaciones idénticas y puntuaciones estandarizadas en las pruebas tengan la misma probabilidad de ingresar.

Ten en cuenta que la equidad individual depende por completo de cómo definas la "similitud" (en este caso, las calificaciones y las puntuaciones de las pruebas) y que puedes correr el riesgo de introducir nuevos problemas de equidad si tu métrica de similitud omite información importante (como el rigor del plan de estudios de un estudiante).

Consulta "Equidad a través de Reconocimiento" para obtener un análisis más detallado sobre la equidad individual.

inferencia

#fundamentals

En el aprendizaje automático, el proceso de hacer predicciones aplicar un modelo entrenado a ejemplos sin etiqueta.

La inferencia tiene un significado algo diferente en la estadística. Consulta el Artículo de Wikipedia sobre inferencia estadística para obtener más información.

Consulta Aprendizaje supervisado en el curso Introducción al AA para ver el rol de la inferencia en un sistema de aprendizaje supervisado.

ruta de inferencia

#df

En un árbol de decisión, durante la inferencia, la ruta que un ejemplo en particular toma de la raíz a otras condiciones, y termina con una hoja. Por ejemplo, en el siguiente árbol de decisión, las flechas más gruesas muestran la ruta de inferencia de un ejemplo con los siguientes valores de atributos:

  • x = 7
  • y = 12
  • z = -3

La ruta de inferencia en la siguiente ilustración recorre tres condiciones antes de llegar a la hoja (Zeta).

Árbol de decisión que consta de cuatro condiciones y cinco hojas.
          La condición raíz es (x > 0). Dado que la respuesta es sí,
          de inferencia (y > 0) va desde la raíz hasta la siguiente condición.
          Dado que la respuesta es sí, la ruta de inferencia viaja al
          la siguiente condición (z > 0). Dado que la respuesta es no, la ruta de inferencia
          viaja a su nodo terminal, que es la hoja (Zeta).

Las tres flechas gruesas muestran la ruta de inferencia.

Consulta Árboles de decisión. en el curso Decision Forests para obtener más información.

ganancia de información

#df

En los bosques de decisión, la diferencia entre la entropía de un nodo y la suma ponderada (por cantidad de ejemplos) de la entropía de sus nodos secundarios. La entropía de un nodo es la entropía de los ejemplos en ese nodo.

Por ejemplo, considera los siguientes valores de entropía:

  • Entropía del nodo superior = 0.6
  • entropía de un nodo secundario con 16 ejemplos relevantes = 0.2
  • entropía de otro nodo secundario con 24 ejemplos relevantes = 0.1

Por lo tanto, el 40% de los ejemplos se encuentra en un nodo secundario y el 60% en el otro. Por lo tanto:

  • La suma de entropía ponderada de los nodos secundarios = (0.4 × 0.2) + (0.6 × 0.1) = 0.14

Entonces, la ganancia de información es la siguiente:

  • ganancia de información = entropía del nodo superior - suma de entropía ponderada de nodos secundarios
  • ganancia de información = 0.6 - 0.14 = 0.46

La mayoría de los divisores buscan crear condiciones. que maximizan el aumento de la información.

sesgo endogrupal

#fairness

Mostrar parcialidad por el propio grupo o las propias características Si los evaluadores son los amigos del desarrollador de aprendizaje automático la familia o los colegas, el sesgo endogrupal puede invalidar las pruebas de productos o el conjunto de datos.

El sesgo endogrupal es una forma de sesgo de correspondencia. Consulta también el sesgo de homogeneidad de los demás.

Consulta Equidad: tipos de sesgo en Curso intensivo de aprendizaje automático para obtener más información.

generador de entrada

Un mecanismo mediante el cual los datos se cargan una red neuronal.

Un generador de entradas se puede considerar como un componente responsable de procesar datos sin procesar en tensores que se iteran para generar lotes para el entrenamiento, la evaluación y la inferencia.

capa de entrada

#fundamentals

La capa de una red neuronal que contiene el vector de atributos. Es decir, la capa de entrada proporciona ejemplos para el entrenamiento o la inferencia. Por ejemplo, la capa de entrada en la siguiente red neuronal consta de dos atributos:

Cuatro capas: una de entrada, dos ocultas y una de salida.

condición en la configuración

#df

En un árbol de decisión, es una condición que prueba la presencia de un elemento en un conjunto de elementos. Por ejemplo, la siguiente es una condición del conjunto:

  house-style in [tudor, colonial, cape]

Durante la inferencia, si el valor del atributo de estilo de casa es tudor, colonial o cape, entonces, esta condición se evalúa como Sí. Si el valor del atributo estilo de casa es otro (por ejemplo, ranch), esta condición se evalúa como No.

Las condiciones establecidas suelen generar árboles de decisión más eficientes que condiciones que prueban funciones de codificación one-hot.

instancia

Sinónimo de ejemplo.

ajuste de instrucciones

#generativeAI

Es una forma de ajuste fino que mejora la capacidad de un modelo de IA generativa para seguir instrucciones. El ajuste de instrucciones implica entrenar un modelo en una serie de instrucciones de instrucción, que generalmente abarcan un amplio y una variedad de tareas. El modelo resultante ajustado por instrucciones tiende a generar respuestas útiles a instrucciones sin muestras en una variedad de tareas.

Compara y contrasta con lo siguiente:

interpretabilidad

#fundamentals

La capacidad de explicar o presentar el razonamiento de un modelo de AA en términos comprensibles para los humanos.

Por ejemplo, la mayoría de los modelos de regresión lineal son muy interpretables. (Solo tienes que mirar los pesos entrenados de cada feature.) Los bosques de decisión también son altamente interpretables. Sin embargo, algunos modelos requieren visualizaciones sofisticadas para convertirse en interpretables.

Puedes usar la Herramienta de interpretabilidad del aprendizaje (LIT) para interpretar modelos de AA.

acuerdo entre evaluadores

Es una medición de la frecuencia con la que los evaluadores humanos están de acuerdo al realizar una tarea. Si los evaluadores no están de acuerdo, es posible que se deban mejorar las instrucciones de la tarea. En algunas ocasiones, también se denomina acuerdo entre anotadores o confiabilidad entre evaluadores. Consulta también Cohen's kappa, que es una de las mediciones más populares del acuerdo entre evaluadores.

Consulta Datos categóricos: comunes problemas en el Curso intensivo de aprendizaje automático para obtener más información.

intersección sobre la unión (IoU)

#image

La intersección de dos conjuntos dividida por su unión. En el aprendizaje automático de detección de imágenes, IoU se usa para medir la exactitud de la latencia cuadro de límite predicho con respecto al de verdad fundamental. En este caso, la IoU del dos cuadros es la proporción entre el área superpuesta y el área total, y su rango de valores va desde 0 (sin superposición del cuadro de límite previsto y de la verdad fundamental). (cuadro delimitador) a 1 (el cuadro de límite previsto y el cuadro de límite de verdad fundamental tienen exactamente las mismas coordenadas).

Por ejemplo, en la siguiente imagen:

  • El cuadro de límite previsto (las coordenadas que delimitan dónde se encuentra que predice que está la mesa de noche en la pintura) está delineada en púrpura.
  • El cuadro de límite de la verdad fundamental (las coordenadas que delimitan dónde se encuentra la mesa de noche en el cuadro) está delineado en verde.

La pintura de Van Gogh en &quot;La habitación de Vincent&quot; en Arlés, con dos obras
          cuadros delimitadores alrededor de la mesa de noche junto a la cama. La verdad fundamental
          cuadro delimitador (en verde) circunscribe a la perfección la mesa nocturna. El cuadro de límite previsto (en púrpura) se desplaza un 50% hacia abajo y hacia la derecha del cuadro de límite de la verdad del suelo. Encierra el cuarto inferior derecho de la mesa de noche, pero no incluye el resto de la mesa.

Aquí, la intersección de los cuadros delimitadores para la predicción y la verdad fundamental (debajo de la izquierda) es 1, y la unión de los cuadros delimitadores para la predicción y la verdad fundamental (debajo a la derecha) es 7, por lo que la IoU es \(\frac{1}{7}\).

La misma imagen anterior, pero con cada cuadro de límite dividido en cuatro
          cuadrantes. Hay siete cuadrantes en total, ya que la parte inferior derecha
          cuadrante del cuadro delimitador de la verdad fundamental y la esquina superior izquierda
          cuadrante del cuadro de límite previsto se superponen entre sí. Esta sección superpuesta (destacada en verde) representa la intersección y tiene un área de 1. Es la misma imagen que la anterior, pero con cada cuadro de límite dividido en cuatro cuadrantes. Hay siete cuadrantes en total, ya que el cuadrante inferior derecho del cuadro de límite de la verdad fundamental y el cuadrante superior izquierdo del cuadro de límite previsto se superponen.
          Todo el interior delimitado por ambos cuadros delimitadores
          (resaltado en verde) representa la unión, y tiene
          un área de 7.

IoU

Abreviatura de intersección sobre la unión.

matriz de elementos

#recsystems

En los sistemas de recomendación, es una matriz de vectores de incorporación generados por la factorización de matrices que contiene indicadores latentes sobre cada elemento. Cada fila de la matriz de elementos contiene el valor de un solo atributo latente para todos los elementos. Por ejemplo, considera un sistema de recomendación de películas. Cada columna en la matriz de elementos representa una película. Los indicadores latentes pueden representar géneros o podrían ser más difíciles de interpretar. señales que implican interacciones complejas entre el género, las estrellas, la antigüedad de la película y otros factores.

La matriz de elementos tiene la misma cantidad de columnas que el objetivo. matriz que se factoriza. Por ejemplo, en un modelo de recomendación de películas que evalúa 10,000 nombres de películas, la matriz de elementos tendrá 10,000 columnas.

elementos

#recsystems

En un sistema de recomendaciones, las entidades que que recomienda un sistema. Por ejemplo, los videos son los elementos que una tienda de videos recomienda, mientras que los libros son los artículos que recomienda una librería.

iteración

#fundamentals

Una sola actualización de los parámetros de un modelo, los pesos y sesgos durante capacitación. El tamaño del lote determina cuántos ejemplos procesa el modelo en una sola iteración. Por ejemplo, si el tamaño del lote es 20, el modelo procesa 20 ejemplos antes de ajustar los parámetros.

Cuando se entrena una red neuronal, una única iteración implica los dos pases siguientes:

  1. Es un pase hacia delante para evaluar la pérdida en un solo lote.
  2. Una propagación inversa (propagación inversa) para ajustar la los parámetros del modelo según la pérdida y la tasa de aprendizaje.

J

JAX

Una biblioteca de procesamiento de arrays que reúne Álgebra lineal acelerada (XLA) y diferenciación automática para computación numérica de alto rendimiento. JAX proporciona una API simple y potente para escribir código numérico acelerado con transformaciones componibles. JAX ofrece las siguientes funciones:

  • grad (diferenciación automática)
  • jit (compilación justo a tiempo)
  • vmap (vectorización o procesamiento por lotes automáticos)
  • pmap (paralelización)

JAX es un lenguaje para expresar y componer transformaciones de números código análogo, pero mucho mayor en alcance, a NumPy de Python biblioteca. (De hecho, la biblioteca .numpy en JAX es una versión funcionalmente equivalente, pero completamente reescrita de la biblioteca NumPy de Python).

JAX es particularmente adecuado para acelerar muchas tareas de aprendizaje automático, ya que transforma los modelos y los datos en una forma adecuada para el paralelismo entre GPU y TPU chips de acelerador.

Flax, Optax, Pax y muchos otros se basan en la infraestructura de JAX.

K

Keras

Una API de aprendizaje automático popular de Python. Keras se ejecuta en varios frameworks de aprendizaje profundo, incluido TensorFlow, donde está disponible como tf.keras.

Máquinas de vectores soporte de Kernel (KSVM)

Un algoritmo de clasificación que busca maximizar el margen entre las clases positivas y las clases negativas asignando vectores de datos de entrada a un espacio de dimensiones más altas. Por ejemplo, considera una clasificación problema en el que el conjunto de datos de entrada tiene cien atributos. Para maximizar el margen entre positivas y negativas, una KSVM puede asignar internamente esas funciones un espacio de un millón de dimensiones. Las KSVM usan una función de pérdida llamada pérdida de bisagra.

puntos clave

#image

Son las coordenadas de componentes específicos en una imagen. Por ejemplo, para un de reconocimiento de imágenes que distingue de una especie de flor, los puntos clave podrían ser el centro de cada pétalo, el tallo, el estambre, etcétera.

Validación cruzada por k-pliegues

Un algoritmo para predecir la capacidad de un modelo de generalizar a datos nuevos. El k en k-fold hace referencia a la cantidad de grupos iguales en los que divides los ejemplos de un conjunto de datos; es decir, entrenas y pruebas tu modelo k veces. Para cada ronda de capacitación y prueba, grupo diferente es el conjunto de prueba y todos los grupos restantes se convierten en el grupo automático. Después de k rondas de entrenamiento y pruebas, calculas la media y la desviación estándar de las métricas de prueba elegidas.

Por ejemplo, supongamos que tu conjunto de datos consta de 120 ejemplos. Supongamos además que decides establecer k en 4. Por lo tanto, después de mezclar los ejemplos, divides el conjunto de datos en cuatro grupos iguales de 30 ejemplos y realizas cuatro rondas de capacitación y prueba:

Un conjunto de datos dividido en cuatro grupos de ejemplos iguales. En la Ronda 1,

          los primeros tres grupos se usan para el entrenamiento y el último

          se usa para las pruebas. En la Ronda 2, los dos primeros grupos y el último se usan para el entrenamiento, mientras que el tercer grupo se usa para las pruebas. En la ronda 3, el primer grupo y los dos últimos
          se usa para el entrenamiento, mientras que el segundo grupo se usa para las pruebas.
          En la Ronda 4, el primer grupo se usa para las pruebas, mientras que los tres grupos finales se usan para el entrenamiento.

Por ejemplo, el error cuadrático medio (ECM) podría ser la métrica más significativa para un modelo de regresión lineal. Por lo tanto, encontraría la media y la desviación estándar del ECM en las cuatro rondas.

k-means

#clustering

Algoritmo de agrupamiento en clústeres popular que agrupa ejemplos en el aprendizaje no supervisado. El algoritmo k-means hace básicamente lo siguiente:

  • Determina de forma iterativa los mejores puntos centrales k (conocidos como centroids).
  • Asigna cada ejemplo al centroide más cercano. Los ejemplos más cercanos mismo centroide pertenecen al mismo grupo.

El algoritmo k-means selecciona las ubicaciones del centroide para minimizar la acumulación cuadrado de las distancias desde cada ejemplo hasta su centroide más cercano.

Por ejemplo, considera la siguiente representación de altura y anchura de perro:

Representación cartesiana con varias docenas de puntos de datos.

Si k = 3, el algoritmo k-means determinará tres centroides. Cada ejemplo se asigna a su centroide más cercano, lo que genera tres grupos:

La misma representación cartesiana que en la ilustración anterior, excepto que
          con tres centroides agregados.
          Los datos anteriores se agrupan en tres grupos distintos,
          y cada grupo representa los datos más cercanos a un
          centroide.

Imagina que un fabricante quiere determinar los tamaños ideales para los tamaños suéteres medianos y grandes para perros. Los tres centroides identifican la media la altura y el ancho medio de cada perro en ese grupo. Por lo tanto, el fabricante debería basarse en esos tres centroides para determinar los tamaños de los suéteres. Ten en cuenta que el centroide de un clúster no suele ser un ejemplo del clúster.

En las ilustraciones anteriores, se muestra el método k-means para ejemplos con solo dos atributos (altura y ancho). Observa que k-means puede agrupar ejemplos en muchos atributos.

k-median

#clustering

Un algoritmo de agrupamiento en clústeres estrechamente relacionado con k-means. La diferencia práctica entre los dos es la siguiente:

  • En k-means, los centroides se determinan minimizando la suma de los cuadrados de la distancia entre un centroide candidato y cada uno de sus ejemplos.
  • En k-median, los centroides se determinan minimizando la suma de la distancia entre un centroide candidato y cada uno de sus ejemplos.

Ten en cuenta que las definiciones de distancia también son diferentes:

  • k-means se basa en la Distancia euclidiana desde centroide a un ejemplo. (En dos dimensiones, el modelo euclidiano distancia significa usar el teorema de Pitágoras para calcular la hipotenusa). Por ejemplo, la distancia de k-means entre (2,2) y (5,-2) sería:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median se basa en la distancia Manhattan del centroide a un ejemplo. Esta distancia es la suma de la deltas absolutos en cada dimensión. Por ejemplo, la distancia k-mediana entre (2,2) y (5,-2) sería:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

regularización L0

#fundamentals

Un tipo de regularización que penaliza el número total de pesos distintos de cero en un modelo. Por ejemplo, un modelo que tenga 11 pesos distintos de cero se penalizará más que un modelo similar que tenga 10 pesos distintos de cero.

A veces, la regularización L0 se denomina regularización de norma L0.

pérdida L1

#fundamentals

Una función de pérdida que calcula el valor absoluto de la diferencia entre los valores reales de la etiqueta y los valores que predice un modelo. Por ejemplo, este es el cálculo de la pérdida de L1 para un lote de cinco ejemplos:

Valor real del ejemplo Valor previsto del modelo Valor absoluto de delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = pérdida L1

La pérdida L1 es menos sensible a los valores atípicos que la pérdida L2.

El error absoluto medio es el promedio pérdida L1 por ejemplo.

Regularización L1

#fundamentals

Tipo de regularización que penaliza los pesos en proporción a la suma del valor absoluto de los pesos. La regularización L1 ayuda a impulsar los pesos de objetos irrelevantes o los atributos poco relevantes a exactamente 0. Una función con se quita efectivamente un peso de 0 del modelo.

Compara esto con la regularización L2.

Pérdida L2

#fundamentals

Una función de pérdida que calcula el cuadrado de la diferencia entre los valores reales de las etiquetas y son los valores que predice un modelo. Por ejemplo, este es el cálculo de la pérdida L2 para un lote de cinco ejemplos:

Valor real del ejemplo Valor predicho del modelo Cuadrado de delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = pérdida L2

Debido al componente cuadrático, la pérdida L2 amplifica la influencia de los valores atípicos. Es decir, la pérdida L2 reacciona con mayor intensidad ante las predicciones erróneas que pérdida L1. Por ejemplo, la pérdida L1 para el lote anterior serían 8 en vez de 16. Observa que un solo los valores atípicos representan 9 de las 16.

Los modelos de regresión suelen usar la pérdida L2 como función de pérdida.

El error cuadrático medio es la pérdida promedio de L2 por ejemplo. Pérdida al cuadrado es otro nombre para la pérdida L2.

Regularización L2

#fundamentals

Es un tipo de regularización que penaliza los pesos en proporción a la suma de los cuadrados de los pesos. La regularización L2 ayuda a generar pesos de valores atípicos (los con valores positivos altos o negativos) más cercanos a 0, pero no exactamente a 0. Los atributos con valores muy cercanos a 0 permanecen en el modelo pero no influyen mucho en la predicción del modelo.

La regularización L2 siempre mejora la generalización en los modelos lineales.

Compara esto con la regularización L1.

etiqueta

#fundamentals

En el aprendizaje automático supervisado, la parte de "respuesta" o "resultado" de un ejemplo.

Cada ejemplo etiquetado consta de uno o más atributos y una etiqueta. Por ejemplo, en un conjunto de datos de detección de spam, la etiqueta probablemente sería "es spam" o "no es spam". En un conjunto de datos de lluvia, la etiqueta puede ser la cantidad de lluvia que cayó durante cierto período.

ejemplo etiquetado

#fundamentals

Un ejemplo que contiene uno o más atributos y una etiqueta. Por ejemplo, la siguiente tabla muestra tres ejemplos etiquetados de un modelo de valoración de viviendas, cada uno con tres atributos y una etiqueta:

Cantidad de dormitorios Cantidad de baños Antigüedad de la casa Precio de la casa (etiqueta)
3 2 15 USD 345,000
2 1 72 USD 179,000
4 2 34 USD 392,000

En el aprendizaje automático supervisado, los modelos se entrenan con ejemplos etiquetados y realizan predicciones sobre ejemplos sin etiqueta.

Contrasta el ejemplo etiquetado con los ejemplos sin etiqueta.

filtración de etiquetas

Es un defecto de diseño del modelo en el que un atributo es un proxy para la etiqueta. Por ejemplo, considera un modelo de clasificación binaria que predice si un cliente potencial comprará o no un producto en particular. Supongamos que una de las características del modelo es un valor booleano llamado SpokeToCustomerAgent. Supongamos también que un agente del cliente solo Se asigna después de que el cliente potencial compra el producto. producto. Durante el entrenamiento, el modelo aprende rápido la asociación entre SpokeToCustomerAgent y la etiqueta.

Lambda

#fundamentals

Sinónimo de tasa de regularización.

Lambda es un término sobrecargado. Aquí nos centramos en los atributos definición dentro de la regularización.

LaMDA (modelo de lenguaje para aplicaciones de diálogo)

#language

Un modelo de lenguaje extenso basado en Transformer desarrollado por Google y entrenado en un gran conjunto de datos de diálogo que puede generar respuestas de conversación realistas.

LaMDA: nuestra innovadora tecnología conversacional proporciona una descripción general.

puntos de referencia

#image

Sinónimo de puntos clave.

modelo de lenguaje

#language

Un modelo que estima la probabilidad de que un token o una secuencia de tokens ocurra en una secuencia más larga de tokens.

modelo de lenguaje extenso

#language

Como mínimo, un modelo de lenguaje con un número muy alto de parámetros. De manera más informal, cualquier modelo de lenguaje basado en Transformer, como Gemini o GPT.

espacio latente

#language

Sinónimo de espacio de incorporación.

oculta

#fundamentals

Un conjunto de neuronas en un red neuronal. Tres tipos comunes de capas son los siguientes:

Por ejemplo, en la siguiente ilustración, se muestra una red neuronal con una capa de entrada, dos capas ocultas y una capa de salida:

Una red neuronal con una capa de entrada, dos capas ocultas y una
          capa de salida. La capa de entrada consta de dos componentes. La primera capa oculta consta de tres neuronas y la segunda capa oculta consta de dos neuronas. La capa de salida consta de un solo nodo.

En TensorFlow, las capas también son funciones de Python que toman Tensors y opciones de configuración como entrada y producir otros tensores como salida.

API de Layers (tf.layers)

#TensorFlow

Una API de TensorFlow para construir una red neuronal profunda como una composición de capas. Permite desarrollar diferentes tipos de capas, como las siguientes:

La API de Layers sigue las convenciones de la API de capas de Keras. Es decir, a excepción de un prefijo diferente, todas las funciones de la API de Layers tener los mismos nombres y firmas que sus contrapartes en el archivo de capas.

hoja

#df

Cualquier extremo en un árbol de decisión. No te gusta un condition, una hoja no realiza ninguna prueba. Más bien, una hoja es una predicción posible. Una hoja también es el nodo terminal de una ruta de inferencia.

Por ejemplo, el siguiente árbol de decisión contiene tres hojas:

Árbol de decisión con dos condiciones que conducen a tres hojas.

Herramienta de interpretabilidad de aprendizaje (LIT)

Una herramienta visual e interactiva de comprensión de modelos y visualización de datos.

Puedes usar LIT de código abierto para interpretar modelos o visualizar datos tabulares, de imagen y de texto.

tasa de aprendizaje

#fundamentals

Es un número de punto flotante que le indica al algoritmo de descenso de gradientes con qué intensidad ajustar las ponderaciones y los sesgos en cada iteración. Por ejemplo, una tasa de aprendizaje de 0.3 ajustaría los pesos y sesgos tres veces más potente que una tasa de aprendizaje de 0.1.

La tasa de aprendizaje es un hiperparámetro clave. Si estableces demasiado baja la tasa de aprendizaje, el entrenamiento demorará demasiado. Si si estableces una tasa de aprendizaje muy alta, el descenso de gradientes suele tener problemas para llegar a la convergencia.

regresión de mínimos cuadrados

Un modelo de regresión lineal entrenado mediante la minimización Pérdida L2.

linear

#fundamentals

Es una relación entre dos o más variables que se puede representar únicamente a través de la adición y la multiplicación.

El gráfico de una relación lineal es una línea.

Compara esto con lo nonlinear.

modelo lineal

#fundamentals

Un modelo que asigna un peso por atributo para realizar predicciones. (Los modelos lineales también incorporan un sesgo). En cambio, la relación de los atributos con las predicciones en los modelos profundos suele ser nonlinear.

Por lo general, los modelos lineales son más fáciles de entrenar y más interpretables que los modelos profundos. Sin embargo, los modelos profundos pueden aprender relaciones complejas entre atributos.

Regresión lineal y La regresión logística son dos tipos de modelos lineales.

regresión lineal

#fundamentals

Un tipo de modelo de aprendizaje automático en el que se cumplen las siguientes condiciones:

  • El modelo es un modelo lineal.
  • La predicción es un valor de punto flotante. (esta es la parte de regresión de la regresión lineal).

Compara la regresión lineal con la regresión logística. Además, compara la regresión con la clasificación.

LIT

Abreviatura de Herramienta de interpretabilidad del aprendizaje (LIT), que antes se conocía como la Herramienta de interpretabilidad del lenguaje.

LLM

#language
#generativeAI

Abreviatura de modelo de lenguaje grande.

Evaluaciones de LLM (evals)

#language
#generativeAI

Un conjunto de métricas y comparativas para evaluar el rendimiento de los modelos de lenguaje extenso (LLM). A grandes rasgos, Evaluaciones de LLM:

  • Ayuda a los investigadores a identificar áreas en las que los LLM deben mejorarse.
  • Son útiles para comparar diferentes LLM y para identificar el mejor LLM para una tarea en particular.
  • Ayudar a garantizar que los LLM sean seguros y éticos de usar

regresión logística

#fundamentals

Es un tipo de modelo de regresión que predice una probabilidad. Los modelos de regresión logística tienen las siguientes características:

  • La etiqueta es categórica. El término regresión logística suele referirse a la regresión logística binaria, es decir, a un modelo que calcula probabilidades para etiquetas con dos valores posibles. Una variante menos común, la regresión logística multinomial, calcula probabilidades para etiquetas con más de dos valores posibles.
  • La función de pérdida durante el entrenamiento es la Pérdida logística. (Se pueden colocar varias unidades de pérdida de registro en paralelo para etiquetas con más de dos valores posibles).
  • El modelo tiene una arquitectura lineal, no una red neuronal profunda. Sin embargo, el resto de esta definición también se aplica a los modelos profundos que predicen probabilidades para etiquetas categóricas.

Por ejemplo, considera un modelo de regresión logística que calcula la probabilidad de que un correo electrónico de entrada sea spam o no spam. Durante la inferencia, supongamos que el modelo predice 0.72. Por lo tanto, el modelo estima lo siguiente:

  • Un 72% de probabilidades de que el correo electrónico sea spam.
  • Una probabilidad del 28% de que el correo electrónico no sea spam.

Un modelo de regresión logística usa la siguiente arquitectura de dos pasos:

  1. El modelo genera una predicción sin procesar (y') aplicando una función lineal de atributos de entrada.
  2. El modelo usa esa predicción sin procesar como entrada para un función sigmoidea, que convierte la expresión a un valor entre 0 y 1, exclusivo.

Al igual que cualquier modelo de regresión, un modelo de regresión logística predice un número. Sin embargo, este número suele formar parte de un modelo de clasificación binaria de la siguiente manera:

  • Si el número predicho es mayor que el el umbral de clasificación, el de clasificación binaria predice la clase positiva.
  • Si el número predicho es inferior al umbral de clasificación, el modelo de clasificación binaria predice la clase negativa.

logit

Vector de predicciones sin procesar (no normalizadas) que una clasificación genera el modelo, que luego se pasa comúnmente a una función de normalización. Si el modelo resuelve una clasificación de clases múltiples, problema, los logits suelen convertirse en una entrada función softmax. La función softmax luego genera un vector de (normalizado) probabilidades con un valor para cada clase posible.

Pérdida logística

#fundamentals

La función de pérdida que se usa en un objeto binario regresión logística.

logaritmo de probabilidad

#fundamentals

Logaritmo de las probabilidades de que ocurra algún evento.

Memoria a corto plazo de larga duración (LSTM)

#seq

Un tipo de celda en un red neuronal recurrente que se usa para procesar secuencias de datos en aplicaciones como el reconocimiento de escritura a mano, la traducción y la generación de leyendas de imágenes. Las LSTM abordan el problema de gradiente de fuga que ocurre cuando entrenar RNN debido a largas secuencias de datos manteniendo el historial en un estado de la memoria interna basada en la nueva entrada y contexto de celdas anteriores en la RNN.

Laura

#language
#generativeAI

Abreviatura de adaptabilidad de bajo rango.

pérdida

#fundamentals

Durante el entrenamiento de un modelo supervisado, una medida de hasta qué punto la predicción del modelo proviene de su etiqueta.

Una función de pérdida calcula la pérdida.

agregador de pérdidas

Un tipo de algoritmo de aprendizaje automático que Mejora el rendimiento de un modelo combinando las predicciones de múltiples modelos y usar esas predicciones para hacer una sola predicción. Como resultado, un agregador de pérdidas puede reducir la variación de las predicciones y mejorar su precisión.

curva de pérdida

#fundamentals

Un gráfico de pérdida como función de la cantidad de iteraciones de entrenamiento. El siguiente gráfico muestra una pérdida típica curva:

Un gráfico cartesiano de pérdida en comparación con las iteraciones de entrenamiento, que muestra una caída rápida de la pérdida en las iteraciones iniciales, seguida de una disminución gradual y, luego, una pendiente plana durante las iteraciones finales.

Las curvas de pérdida pueden ayudarte a determinar cuándo tu modelo está convergendo o sobreajustándose.

Las curvas de pérdidas pueden graficar todos los siguientes tipos de pérdidas:

Consulta también la curva de generalización.

función de pérdida

#fundamentals

Durante el entrenamiento o las pruebas, es una función matemática que calcula la pérdida en un lote de ejemplos. Una función de pérdida devuelve una pérdida más baja para los modelos que hacen buenas predicciones que para los que hacen predicciones erróneas.

Por lo general, el objetivo del entrenamiento es minimizar la pérdida de retorno.

Existen muchos tipos diferentes de funciones de pérdida. Elige la pérdida adecuada para el tipo de modelo que estás creando. Por ejemplo:

superficie de pérdida

Un gráfico de pesos en comparación con la pérdida. Objetivos del descenso de gradientes a fin de encontrar los pesos para los cuales la superficie de pérdida es un mínimo local.

Adaptabilidad de clasificación baja (LoRA)

#language
#generativeAI

Una técnica eficiente en parámetros para el ajuste fino que “congela” los pesos previamente entrenados del modelo (de modo que ya no se puedan modificar) y, luego, inserta un pequeño conjunto de pesos entrenables en el modelo. Este conjunto de pesos entrenables (también conocido como “matrices de actualización”) es considerablemente más pequeña que el modelo base y es por lo que el entrenamiento es mucho más rápido.

LoRA proporciona los siguientes beneficios:

  • Mejora la calidad de las predicciones de un modelo para el dominio en el que se aplica el ajuste fino.
  • Realiza ajustes más rápido que las técnicas que requieren ajustar todos los parámetros de un modelo.
  • Reduce el costo de procesamiento de la inferencia habilitando entrega simultánea de varios modelos especializados que comparten la misma base un modelo de responsabilidad compartida.

LSTM

#seq

Abreviatura de memoria a corto plazo de larga duración.

M

aprendizaje automático

#fundamentals

Es un programa o sistema que entrena un modelo a partir de datos de entrada. El modelo entrenado puede hacer predicciones útiles a partir de datos nuevos (nunca vistos) extraídos de la misma distribución que la utilizada para entrenar el modelo.

El aprendizaje automático también hace referencia al campo de estudio involucrado con estos programas o sistemas.

clase mayoritaria

#fundamentals

Es la etiqueta más común en un conjunto de datos con desequilibrio de clases. Por ejemplo, dado un conjunto de datos con 99% de etiquetas negativas y 1% de etiquetas positivas, la clase mayoritaria son las etiquetas negativas.

Compara esto con la clase minoritaria.

Proceso de decisión de Markov (MDP)

#rl

Gráfico que representa el modelo de toma de decisiones en el que las decisiones (o acciones) se usan para navegar por una secuencia de state bajo la suposición de que Se mantiene la propiedad de Markov. En aprendizaje por refuerzo, estas transiciones entre estados muestran una recompensa numérica.

Propiedad de Markov

#rl

Es una propiedad de determinados entornos, en la que el estado que las transiciones estén determinadas completamente por la información implícita en el el estado actual y la acción del agente.

modelo de lenguaje enmascarado

#language

Un modelo de lenguaje que predice la probabilidad de tokens candidatos para completar espacios en blanco en una secuencia. Por ejemplo, un modelo de lenguaje con enmascaramiento puede calcular las probabilidades de las palabras candidatas para reemplazar el subrayado en la siguiente oración:

Volvió el ____ en el sombrero.

Por lo general, se usa la cadena "MASK" en lugar de un subrayado. Por ejemplo:

La MASK regresó.

La mayoría de los modelos modernos de lenguaje enmascarado son bidireccionales.

matplotlib

Una biblioteca de código abierto de Python 2D para generar gráficos. matplotlib te ayuda a visualizar diferentes aspectos del aprendizaje automático.

factorización de matrices

#recsystems

En matemática, un mecanismo para encontrar las matrices cuyo producto escalar se aproxima a un matriz objetivo.

En los sistemas de recomendaciones, la matriz objetivo suele retener los datos de los usuarios calificaciones de los elementos. Por ejemplo, el objetivo para un sistema de recomendación de películas podría verse así después, donde los números enteros positivos son calificaciones de los usuarios y 0 significa que el usuario no calificó la película:

  Casablanca The Philadelphia Story Pantera Negra Mujer Maravilla Tiempos violentos
Usuario 1 5.0 3.0 0.0 2.0 0.0
Usuario 2 4.0 0.0 0.0 1.0 5.0
Usuario 3 3.0 1.0 4.0 5.0 0.0

El sistema de recomendación de películas apunta a predecir las calificaciones de los usuarios para las películas que no se calificaron. Por ejemplo, ¿le gustará al Usuario 1 Pantera Negra?

Un enfoque para sistemas de recomendación es utilizar la factorización de matrices para generar las siguientes dos matrices:

  • Una matriz de usuarios, formada por la cantidad de usuarios X la cantidad de dimensiones de incorporación
  • Una matriz de elementos, formada por la cantidad de incorporaciones dimensiones X la cantidad de artículos.

Por ejemplo, el uso de la factorización de matrices en estos tres usuarios y cinco elementos podría generar la siguiente matriz de usuarios y matriz de elementos:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

El producto escalar de la matriz de usuarios y la matriz de elementos genera una recomendación que contiene no solo las calificaciones originales de los usuarios, sino también predicciones para las películas que ningún usuario ha visto. Por ejemplo, considera la calificación del Usuario 1 de Casablanca que fue de 5.0. El punto producto correspondiente a esa celda en la matriz de recomendaciones debe con suerte, será de alrededor de 5.0, y es:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Más importante aún, ¿al Usuario 1 le gustará Pantera Negra? Toma el producto escalar correspondiente a la primera fila y a la tercera columna produce un calificación de 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

La factorización de matrices suele producir una matriz de usuarios y una matriz de elementos que, son mucho más compactos que la matriz objetivo.

Error absoluto medio (MAE)

La pérdida promedio por ejemplo cuando la pérdida L1 es que se usan. Calcula el error absoluto medio de la siguiente manera:

  1. Calcula la pérdida L1 de un lote.
  2. Divide la pérdida L1 por la cantidad de ejemplos en el lote.

Por ejemplo, considera el cálculo de la pérdida de L1 en el siguiente lote de cinco ejemplos:

Valor real del ejemplo Valor previsto del modelo Pérdida (diferencia entre el valor real y el previsto)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = Pérdida de L1

Por lo tanto, la pérdida L1 es 8 y la cantidad de ejemplos es 5. Por lo tanto, el error absoluto medio es:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Comparar el error absoluto medio con el error cuadrático medio y Raíz cuadrada del error cuadrático medio.

Error cuadrático medio (ECM)

La pérdida promedio por ejemplo cuando la pérdida L2 es que se usan. Calcula el error cuadrático medio de la siguiente manera:

  1. Calcula la pérdida L2 de un lote.
  2. Divide la pérdida L2 por la cantidad de ejemplos en el lote.

Por ejemplo, considera la pérdida en el siguiente lote de cinco ejemplos:

Valor real Predicción del modelo Pérdida Pérdida al cuadrado
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = pérdida L2

Por lo tanto, el error cuadrático medio es:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

El error cuadrático medio es un optimizador de entrenamiento popular, en particular, para la regresión lineal.

Comparar el error cuadrático medio con Error absoluto medio y Raíz cuadrada del error cuadrático medio.

TensorFlow Playground usa el error cuadrático medio para calcular los valores de pérdida.

malla

#TensorFlow
#GoogleCloud

En la programación en paralelo de AA, es un término asociado con la asignación de los datos y el modelo a los chips de TPU, y la definición de cómo se fragmentarán o replicarán estos valores.

Malla es un término sobrecargado que puede significar cualquiera de las siguientes opciones:

  • Un diseño físico de los chips TPU.
  • Es una construcción lógica abstracta para asignar los datos y el modelo a los chips de TPU.

En cualquier caso, una malla se especifica como una forma.

metaaprendizaje

#language

Un subconjunto del aprendizaje automático que descubre o mejora un algoritmo de aprendizaje. Un sistema de metaaprendizaje también busca entrenar un modelo para aprender rápido un nuevo a partir de una pequeña cantidad de datos o de la experiencia adquirida en tareas anteriores. Por lo general, los algoritmos de metaaprendizaje intentan lograr lo siguiente:

  • Mejorar o aprender funciones diseñadas a mano (como un inicializador o un optimizador).
  • Son más eficientes en el uso de datos y procesamiento.
  • Mejora la generalización.

El metaaprendizaje está relacionado con el aprendizaje en pocos intentos.

métrica

#TensorFlow

Una estadística importante para ti.

Un objetivo es una métrica que un sistema de aprendizaje automático de optimización.

API de Metrics (tf.metrics)

Una API de TensorFlow para evaluar modelos. Por ejemplo, tf.metrics.accuracy. determina la frecuencia con la que las predicciones de un modelo coinciden con las etiquetas.

minilote

#fundamentals

Un pequeño subconjunto seleccionado al azar de un lote procesado en una iteración. El tamaño del lote de un minilote suele ser de entre 10 y 1,000 ejemplos.

Por ejemplo, supongamos que todo el conjunto de entrenamiento (el lote completo) consta de 1,000 ejemplos. Supongamos más también que estableces tamaño del lote de cada minilote hasta 20. Por lo tanto, cada iteración determina la pérdida en 20 de los 1,000 ejemplos aleatorios y, luego, ajusta los pesos y los sesgos según corresponda.

Es mucho más eficiente calcular la pérdida en un minilote que en todos los ejemplos del lote completo.

descenso de gradientes estocástico (SGD) de minilotes

Un algoritmo de descenso de gradientes que usa minilotes. En otras palabras, estocástico de minilotes el descenso de gradientes estima el gradiente a partir de un pequeño subconjunto de los datos de entrenamiento. El descenso de gradientes estocástico normal usa un minilote de tamaño 1.

pérdida de minimax

Una función de pérdida para las redes generativas adversas, basada en la entropía cruzada entre la distribución de datos generados y los datos reales.

La pérdida minimax se usa en el primer artículo para describir las redes generativas adversas.

clase minoritaria

#fundamentals

La etiqueta menos común en una Conjunto de datos con desequilibrio de clases. Por ejemplo, dado un conjunto de datos con 99% de etiquetas negativas y 1% de etiquetas positivas, la clase minoritaria son las etiquetas positivas.

Compara esto con la clase mayor.

combinación de expertos

#language
#generativeAI

Un esquema para aumentar la eficiencia de las redes neuronales en un usando solo un subconjunto de sus parámetros (conocido como experto) para procesar un token o un ejemplo de entrada determinados. R gating network enruta cada token o ejemplo de entrada a los expertos correspondientes.

Para obtener más información, consulta cualquiera de los siguientes documentos:

AA

Abreviatura de aprendizaje automático.

MMIT

#language
#image
#generativeAI

Abreviatura de ajuste de instrucciones multimodal.

MNIST

#image

Conjunto de datos de dominio público compilado por LeCun, Cortes y Burges 60,000 imágenes, cada una de las cuales muestra cómo un ser humano escribió manualmente un tipo de dígito del 0 al 9. Cada imagen se almacena como una matriz de enteros de 28 × 28, donde cada número entero es un valor de una escala de grises entre 0 y 255, ambos incluidos.

MNIST es un conjunto de datos canónico para el aprendizaje automático que a menudo se utiliza para probar nuevos enfoques de AA. Para obtener más información, consulta The MNIST Database of Handwritten Digits.

modality

#language

Es una categoría de datos de alto nivel. Por ejemplo, números, texto, imágenes, video y el audio son cinco modalidades diferentes.

modelo

#fundamentals

En general, cualquier construcción matemática que procesa datos de entrada y devuelve salida. Dicho de otra manera, un modelo es el conjunto de parámetros y estructura necesarios para que un sistema realice predicciones. En el aprendizaje automático supervisado, un modelo toma un ejemplo como entrada y deduce una predicción como resultado. En el aprendizaje automático supervisado, varíe un poco. Por ejemplo:

  • Un modelo de regresión lineal consta de un conjunto de pesos y un sesgo.
  • Un modelo de red neuronal consta de lo siguiente:
    • Un conjunto de capas ocultas, cada una de las cuales contiene una o más neuronas.
    • Los pesos y el sesgo asociados con cada neurona.
  • Un modelo de árbol de decisión consta de lo siguiente:
    • La forma del árbol, es decir, el patrón en el que se conectan las condiciones y las hojas.
    • Las condiciones y las hojas.

Puedes guardar, restablecer o hacer copias de un modelo.

El aprendizaje automático no supervisado también genera modelos, generalmente una función que puede asignar un ejemplo de entrada a el clúster más adecuado.

capacidad del modelo

La complejidad de los problemas que un modelo puede aprender Cuanto más complejo sea problemas que un modelo puede aprender, mayor será su capacidad. La propiedad de un modelo por lo general, la capacidad aumenta con la cantidad de parámetros del modelo. Para un definición formal de capacidad del clasificador, consulta Dimensión VC.

modelo en cascada

#generativeAI

Un sistema que elige el modelo ideal para una consulta de inferencia específica.

Imagina un grupo de modelos, que van desde muy grandes (muchos parámetros) hasta mucho más pequeños (muchos menos parámetros). Los modelos muy grandes consumen más recursos de procesamiento al de inferencia que en los modelos más pequeños. Sin embargo, los modelos muy grandes suelen inferir solicitudes más complejas que los modelos más pequeños. La cascada del modelo determina la complejidad de la consulta de inferencia y, luego, selecciona el modelo adecuado para realizar la inferencia. La motivación principal para la cascada del modelo es reducir los costos de inferencia generalmente seleccionando modelos más pequeños y solo un modelo más grande para más para realizar consultas complejas.

Imagina que un modelo pequeño se ejecuta en un teléfono y una versión más grande de ese modelo se ejecuta en un servidor remoto. Un buen modelo en cascada reduce el costo y la latencia en lo que permite que el modelo más pequeño maneje solicitudes simples y solo llame al para manejar solicitudes complejas.

Consulta también model router.

paralelismo de modelos

#language

Forma de escalar el entrenamiento o la inferencia que coloca diferentes partes de uno model en diferentes dispositivos. Paralelismo de modelos permite modelos que son demasiado grandes para caber en un solo dispositivo.

Para implementar el paralelismo de modelos, por lo general, un sistema hace lo siguiente:

  1. Fragmenta (divide) el modelo en partes más pequeñas.
  2. Distribuye el entrenamiento de esas partes más pequeñas en varios procesadores. Cada procesador entrena su propia parte del modelo.
  3. Combina los resultados para crear un solo modelo.

El paralelismo de modelos ralentiza el entrenamiento.

Consulta también paralelismo de datos.

router de modelo

#generativeAI

Es el algoritmo que determina el modelo ideal para la inferencia en la cascada de modelos. Por lo general, un router de modelos es un modelo de aprendizaje automático que aprende gradualmente a elegir el mejor modelo para una entrada determinada. Sin embargo, un modelo de router a veces puede ser un modelo que no es de aprendizaje automático.

entrenamiento de modelos

Es el proceso mediante el cual se determina el mejor modelo.

Momentum

Algoritmo de descenso de gradientes sofisticado en el que un paso de aprendizaje depende no solo en la derivada en el paso actual, sino también en las derivadas de los pasos que lo preceden inmediatamente. El impulso implica calcular el promedio móvil ponderado exponencialmente de los gradientes a lo largo del tiempo, análogo a un impulso en la física. En ocasiones, el momento impide que el aprendizaje se bloquee en mínimos locales.

MOE

#language
#image
#generativeAI

Abreviatura de combinación de expertos.

clasificación de clases múltiples

#fundamentals

En el aprendizaje supervisado, un problema de clasificación en el que el conjunto de datos contiene más de dos clases de etiquetas. Por ejemplo, las etiquetas del conjunto de datos de Iris deben ser una de las siguientes tres clases:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Modelo entrenado con el conjunto de datos Iris que predice el tipo de iris en ejemplos nuevos realiza una clasificación de clases múltiples.

En cambio, los problemas de clasificación que distinguen entre exactamente dos son modelos de clasificación binaria. Por ejemplo, un modelo de correo electrónico que predice spam o no spam es un modelo de clasificación binaria.

En los problemas de agrupamiento, la clasificación de clases múltiples hace referencia a más de dos clústeres.

regresión logística multiclase

Usar regresión logística en problemas de clasificación multiclase

autoatención de múltiples cabezas

#language

Es una extensión de la autoatención que aplica la mecanismo de autoatención varias veces para cada posición en la secuencia de entrada.

Transformers introdujo la autoatención multidireccional.

modelo multimodal

#language

Un modelo cuyas entradas o salidas incluyen más de una modalidad. Por ejemplo, considera un modelo que toma una imagen y una leyenda de texto (dos modalidades) como características y genera una puntuación que indica qué tan adecuada es la leyenda de texto para la imagen. Por lo tanto, las entradas de este modelo son multimodales y la salida es unimodal.

instrucción multimodal ajustada

#language

Un modelo ajustado a las instrucciones que puede procesar entradas más allá del texto, como las imágenes, los videos y el audio.

clasificación multinomial

Sinónimo de clasificación de clases múltiples.

regresión multinomial

Sinónimo de regresión logística multiclase.

realizar varias tareas a la vez

Es una técnica de aprendizaje automático en la que se usa un solo modelo. para realizar múltiples tareas.

Los modelos multitarea se crean entrenando con datos que son apropiados cada una de las diferentes tareas. Esto permite que el modelo aprenda a compartir información entre las tareas, lo que lo ayuda a aprender de forma más eficaz.

Un modelo entrenado para varias tareas a menudo ha mejorado las capacidades de generalización y pueden ser más sólidos en el manejo de diferentes tipos de datos.

N

trampa de NaN

Cuando un número del modelo se vuelve un NaN durante el entrenamiento, lo que causa que muchos otros números del modelo eventualmente se vuelvan un NaN.

NaN es una abreviatura de Not un Number.

comprensión del lenguaje natural

#language

Determinar las intenciones de un usuario en función de lo que el usuario escribió o dijo. Por ejemplo, un motor de búsqueda utiliza la comprensión del lenguaje natural para determinar qué busca el usuario en función de lo que escribió o dijo.

clase negativa

#fundamentals

En la clasificación binaria, una clase es se considera positiva y la otra se denomina negativa. La clase positiva es el objeto o evento que el modelo está probando, y la clase negativa es otra posibilidad. Por ejemplo:

  • La clase negativa en una prueba médica puede ser "no es un tumor".
  • La clase negativa en un clasificador de correo electrónico puede ser "no es spam".

Compara esto con la clase positiva.

muestreo negativo

Sinónimo de muestreo de candidatos.

Búsqueda de arquitectura neuronal (NAS)

Es una técnica para diseñar automáticamente la arquitectura de un red neuronal. Los algoritmos NAS pueden reducir la cantidad tiempo y recursos necesarios para entrenar una red neuronal.

Por lo general, los NAS usan lo siguiente:

  • Un espacio de búsqueda, que es un conjunto de arquitecturas posibles.
  • Una función de aptitud, que es una medida de qué tan bien funciona una arquitectura particular en una tarea determinada.

Los algoritmos de NAS suelen comenzar con un pequeño conjunto de arquitecturas posibles y expandir gradualmente el espacio de búsqueda a medida que el algoritmo aprende más sobre qué arquitecturas son eficaces. Por lo general, la función de aptitud se basa en el rendimiento de la arquitectura en un conjunto de entrenamiento, y el algoritmo se entrena con una técnica de aprendizaje por refuerzo.

Los algoritmos de NAS han demostrado ser eficaces para encontrar arquitecturas para una variedad de tareas, incluidas clasificación, clasificación de texto y la traducción automática.

neuronal prealimentada

#fundamentals

Un modelo que contenga al menos un capa oculta. Una red neuronal profunda es un tipo de red neuronal con más de una capa oculta. Por ejemplo, en el siguiente diagrama muestra una red neuronal profunda que contiene dos capas ocultas.

Una red neuronal con una capa de entrada, dos capas ocultas y un
          capa de salida.

Cada neurona en una red neuronal se conecta con todos los nodos de la siguiente capa. Por ejemplo, en el diagrama anterior, observa que cada una de las tres neuronas En la primera capa oculta, se conectan por separado a las dos neuronas segunda capa oculta.

Las redes neuronales implementadas en computadoras a veces se denominan redes neuronales artificiales para diferenciarlas de que se encuentran en el cerebro y otros sistemas nerviosos.

Algunas redes neuronales pueden imitar relaciones no lineales extremadamente complejas entre diferentes atributos y la etiqueta.

Consulta también red neuronal convolucional y red neuronal recurrente.

neurona

#fundamentals

En el aprendizaje automático, es una unidad distinta dentro de una capa oculta de una red neuronal. Cada neurona realiza la siguiente acción de dos pasos:

  1. Calcula la suma ponderada de los valores de entrada multiplicados por sus pesos correspondientes.
  2. Pasa la suma ponderada como entrada a una función de activación.

Una neurona en la primera capa oculta acepta entradas de los valores de atributos en la capa de entrada. Una neurona en cualquier capa oculta después de la primera acepta entradas de las neuronas de la capa oculta anterior. Por ejemplo, una neurona en la segunda capa oculta acepta entradas de las neuronas de la primera capa oculta.

En la siguiente ilustración, se destacan dos neuronas y sus de datos.

Una red neuronal con una capa de entrada, dos capas ocultas y una de salida Se destacan dos neuronas: una en la primera
          capa oculta y otra en la segunda. La neurona destacada en la primera capa oculta recibe entradas de ambas características en la capa de entrada. La neurona destacada en la segunda capa oculta recibe entradas de cada una de las tres neuronas de la primera capa oculta.

Una neurona en una red neuronal imita el comportamiento de las neuronas en el cerebro y otras partes del sistema nervioso.

N-grama

#seq
#language

Secuencia ordenada de n palabras. Por ejemplo, realmente loco es un 2-grama. Porque orden es relevante, loco realmente es un 2-grama diferente a realmente loco.

N Nombres para este tipo de n-grama Ejemplos
2 bigrama o 2-grama ir por, por ir, asar carne, asar verduras
3 trigrama o 3-grama ate too much, three blind mice, the bell tolls
4 4-grama el chico comía lentejas...

Muchos comprender el lenguaje natural los modelos se basan en n-gramas para predecir la siguiente palabra que el usuario escribirá ni decir. Por ejemplo, supongamos que un usuario escribió tres tristes. Un modelo de CLN basado en trigramas probablemente predeciría que el usuario escribirá a continuación tigres.

Compara los n-gramas con la bolsa de palabras, que son conjuntos desordenados de palabras.

CLN

#language

Abreviatura de lenguaje natural comprensión.

nodo (árbol de decisión)

#df

En un árbol de decisión, cualquier condición o hoja

Árbol de decisión con dos condiciones y tres hojas.

nodo (red neuronal)

#fundamentals

Una neurona en una capa oculta.

nodo (grafo de TensorFlow)

#TensorFlow

Una operación en un gráfico de TensorFlow

ruido

En términos generales, cualquier cosa que oculte la señal en un conjunto de datos. Ruido pueden introducirse en los datos de diversas maneras. Por ejemplo:

  • Los evaluadores humanos cometen errores durante el etiquetado.
  • Los instrumentos o personas omiten o registran incorrectamente los valores de atributos.

condición no binaria

#df

Es una condición que contiene más de dos resultados posibles. Por ejemplo, la siguiente condición no binaria contiene tres resultados posibles:

Una condición (number_of_legs = ?) que genera tres resultados posibles. Un resultado (number_of_legs = 8) conduce a una hoja
          llamada araña. Un segundo resultado (number_of_legs = 4) conduce a
          una hoja llamada &quot;perro&quot;. Un tercer resultado (number_of_legs = 2) genera una hoja llamada pingüino.

no lineal

#fundamentals

Es una relación entre dos o más variables que no se pueden representar solo. a través de la suma y la multiplicación. Una relación lineal se puede representar como una línea; una relación no lineal no se puede representar como una línea. Por ejemplo, considera dos modelos que relacionan un solo atributo con una sola etiqueta. El modelo de la izquierda es lineal y el de la derecha es no lineal:

Dos diagramas. Un diagrama es una línea, por lo que esta es una relación lineal.
          El otro diagrama es una curva, por lo que esta es una relación no lineal.

sesgo de no respuesta

#fairness

Consulta sesgo de selección.

no estacionariedad

#fundamentals

Es un atributo cuyos valores cambian en una o más dimensiones, por lo general, el tiempo. Por ejemplo, considera los siguientes ejemplos de no estacionariedad:

  • La cantidad de trajes de baño que se venden en una tienda varía según la temporada.
  • La cantidad de una fruta específica que se cosechó en una región determinada es cero durante gran parte del año, pero grande durante un período breve.
  • Debido al cambio climático, las temperaturas medias anuales están cambiando.

Compara esto con la estabilidad.

normalización

#fundamentals

En términos generales, es el proceso de convertir el rango real de valores de una variable en un rango estándar de valores, como los siguientes:

  • -1 a +1
  • De 0 a 1
  • Puntuaciones Z (aproximadamente, -3 a +3)

Por ejemplo, supongamos que el rango real de valores de un atributo determinado es De 800 a 2,400. Como parte de la ingeniería de atributos, podrías normalizar los valores reales a un rango estándar, como de -1 a +1.

La normalización es una tarea común en la ingeniería de atributos. Los modelos suelen entrenarse más rápido (y generar mejores predicciones) cuando cada atributo numérico del El vector de atributos tiene más o menos el mismo rango.

Consulta el módulo Trabajar con datos numéricos del Curso intensivo de aprendizaje automático para obtener más detalles. Consulta también Normalización de la puntuación Z.

detección de novedades

Es el proceso de determinar si un ejemplo nuevo (original) proviene de la misma distribución que el conjunto de entrenamiento. En otras palabras, después de entrenar en el conjunto de entrenamiento, la detección de novedad determina si un ejemplo nuevo (durante la inferencia o durante el entrenamiento adicional) es un valor atípico.

Compara esto con la detección de valores atípicos.

datos numéricos

#fundamentals

Atributos representados como números enteros o de valores reales. Por ejemplo, un modelo de valoración de casas probablemente representaría el tamaño de una casa (en pies cuadrados o metros cuadrados) como datos numéricos. Representando un atributo, ya que los datos numéricos indican que los valores del atributo tienen una relación matemática con la etiqueta. Es decir, el número de metros cuadrados de una casa probablemente tenga matemática y el valor de la vivienda.

No todos los datos de números enteros deben representarse como datos numéricos. Por ejemplo: los códigos postales en algunas partes del mundo son números enteros; sin embargo, el código postal con número entero los códigos no deben representarse como datos numéricos en los modelos. Eso se debe a que un código postal de 20000 no es el doble (o la mitad) más potente que un código postal de 10,000. Además, aunque los distintos códigos postales se correlacionan con diferentes de bienes raíces, no podemos suponer que los valores de bienes raíces en el código postal 20000 son el doble de valiosos que los valores de bienes raíces en el código postal 10000. Por lo tanto, los códigos postales deben representarse como datos categóricos.

A veces, los atributos numéricos se denominan funciones continuas.

NumPy

Biblioteca matemática de código abierto que proporciona operaciones de matrices eficaces en Python. Pandas se basa en NumPy.

O

objetivo

Es una métrica que tu algoritmo intenta optimizar.

función objetivo

Es la fórmula matemática o métrica que un modelo quiere optimizar. Por ejemplo, la función objetivo para la regresión lineal suele ser la pérdida cuadrática media. Por lo tanto, cuando se entrena un modelo de regresión lineal, el objetivo es minimizar la pérdida cuadrática media.

En algunos casos, el objetivo es maximizar la función objetivo. Por ejemplo, si la función objetiva es exactitud, la meta es para maximizar la exactitud.

Consulta también pérdida.

condición oblicua

#df

En un árbol de decisión, se condición que involucra a más de un feature. Por ejemplo, si la altura y el ancho son atributos, la siguiente es una condición oblicua:

  height > width

Compara esto con la condición alineada con el eje.

sin conexión

#fundamentals

Sinónimo de estático.

inferencia sin conexión

#fundamentals

El proceso de un modelo que genera un lote de predicciones y, luego, almacenar en caché (guardar) esas predicciones. Luego, las apps pueden acceder al modelo desde la caché, en lugar de volver a ejecutar el modelo.

Por ejemplo, considera un modelo que genere pronósticos meteorológicos locales. (predicciones) una vez cada cuatro horas. Después de cada ejecución del modelo, el sistema almacena en caché todos los pronósticos del clima local. Las apps del clima recuperan los pronósticos de la caché.

La inferencia sin conexión también se denomina inferencia estática.

Compara esto con la inferencia en línea.

codificación one-hot

#fundamentals

La representación de datos categóricos como un vector en el que:

  • Un elemento se establece en 1.
  • Todos los demás elementos se establecen en 0.

La codificación one-hot se usa comúnmente para representar cadenas o identificadores que tienen un conjunto finito de valores posibles. Por ejemplo, supongamos que un atributo categórico determinado llamado Scandinavia tiene cinco valores posibles:

  • "Dinamarca"
  • “Suecia”
  • “Noruega”
  • “Finlandia”
  • “Islandia”

La codificación one-hot podría representar cada uno de los cinco valores de la siguiente manera:

country Vector
“Dinamarca” 1 0 0 0 0
"Suecia" 0 1 0 0 0
"Noruega" 0 0 1 0 0
“Finlandia” 0 0 0 1 0
“Islandia” 0 0 0 0 1

Gracias a la codificación one-hot, un modelo puede aprender diferentes conexiones según cada uno de los cinco países.

Representar un atributo como datos numéricos es un como alternativa a la codificación one-hot. Desafortunadamente, representar el Los países escandinavos, numéricamente, no son una buena opción. Por ejemplo, considera la siguiente representación numérica:

  • “Dinamarca” es 0
  • "Suecia" es 1.
  • “Noruega” es 2
  • "Finlandia" es 3.
  • “Islandia” es 4

Con la codificación numérica, un modelo interpretaría los números sin procesar de forma matemática y trataría de entrenar con esos números. Sin embargo, Islandia no tiene el doble (o la mitad) de algo como Noruega, por lo que el modelo llegaría a algunas conclusiones extrañas.

aprendizaje en un intento

Un enfoque de aprendizaje automático, que se usa a menudo para la clasificación de objetos, diseñado para aprender clasificadores eficaces a partir de un solo ejemplo de entrenamiento.

Consulta también aprendizaje en pocos ejemplos y aprendizaje sin ejemplos.

instrucción con un solo ejemplo

#language
#generativeAI

Una instrucción que contiene un ejemplo que demuestra cómo se Debería responder el modelo grande de lenguaje. Por ejemplo, la siguiente instrucción contiene un ejemplo que muestra a un modelo de lenguaje extenso cómo debe responder una consulta.

Partes de una instrucción Notas
¿Cuál es la moneda oficial del país especificado? La pregunta que quieres que responda el LLM.
Francia: EUR Un ejemplo.
India: Es la consulta real.

Compara y contrasta las instrucciones únicas con los siguientes términos:

uno frente a todos

#fundamentals

Dado un problema de clasificación con clases N, un que consta de N unidades clasificadores binarios: un clasificador binario para cada resultado posible. Por ejemplo, dado un modelo que clasifica ejemplos como animal, vegetal o mineral, una solución de uno frente a todos brindaría la usando tres clasificadores binarios separados:

  • animal frente a no animal
  • vegetal frente a no vegetal
  • mineral frente a no mineral

en línea

#fundamentals

Sinónimo de dinámico.

inferencia en línea

#fundamentals

Generación de predicciones a pedido. Por ejemplo, imagina que una app pasa una entrada a un modelo y emite una solicitud para una predicción. Un sistema que usa inferencia en línea responde a la solicitud ejecutando el modelo (y devuelve la predicción a la app).

Compara esto con la inferencia sin conexión.

operación (op)

#TensorFlow

En TensorFlow, cualquier procedimiento que cree, manipula o destruye un Tensor. Por ejemplo, una multiplicación de matrices es una operación que toma dos tensores como entrada y genera un tensor como resultado.

Optax

Una biblioteca de procesamiento y optimización de gradientes para JAX. Optax facilita la investigación al proporcionar componentes básicos que se pueden recombinados de formas personalizadas para optimizar modelos paramétricos, como las redes neuronales profundas. Entre otros objetivos, se incluyen los siguientes:

  • Proporcionar implementaciones legibles, comprobadas y eficientes de componentes principales.
  • Mejora de la productividad, ya que permite combinar ingredientes de bajo nivel en optimizadores personalizados (o en otros componentes de procesamiento de gradientes).
  • Acelera la adopción de ideas nuevas, ya que permite que cualquier persona contribuya con facilidad.

optimizer

Implementación específica del algoritmo de descenso de gradientes. Entre los optimizadores populares, se incluyen los siguientes:

  • AdaGrad, que significa descenso de gradientes ADAptivo.
  • Adam, que significa ADAptable con Momentum.

sesgo de homogeneidad de los demás

#fairness

Tendencia de ver a los miembros externos al grupo como más parecidos que los miembros del grupo al comparar actitudes, valores, rasgos de personalidad y otros del usuario. Endogrupal refiere a las personas con las que interactúas regularmente; los demás refiere a las personas con las que no interactúas regularmente. Si se crea un conjunto de datos pidiéndoles atributos a las personas sobre los demás, esos atributos tendrán menos matices y serán más estereotípicos que los atributos que las personas pueden indicar sobre quienes pertenecen a su mismo grupo.

Por ejemplo, la gente de Liliputa podría describir las casas de otras personas de esta ciudad. con gran detalle y citando pequeñas diferencias en los estilos arquitectónicos, puertas y tamaños. Sin embargo, la misma persona de Buenos Aires podría simplemente decir que los ciudadanos de Berlín viven todos en casas idénticas.

El sesgo de homogeneidad de los demás es una forma de sesgo de correspondencia.

Consulta también el sesgo endogrupal.

detección de valores atípicos

Es el proceso de identificar valores atípicos en un conjunto de entrenamiento.

Compara esto con la detección de novedades.

los valores atípicos

Valores alejados de la mayoría de los demás valores. En el aprendizaje automático, cualquiera de siguientes son valores atípicos:

  • Datos de entrada cuyos valores son aproximadamente 3 desviaciones estándar de la media
  • Pesos con valores absolutos altos
  • Valores predichos relativamente alejados de los valores reales

Por ejemplo, supongamos que widget-price es una característica de un modelo determinado. Supongamos que la widget-price media es de 7 euros con una desviación estándar de 1 euro. Ejemplos que contienen un widget-price de 12 euros o 2 euros por lo tanto, se considerarían valores atípicos porque cada uno de esos precios cinco desviaciones estándar de la media.

Los valores atípicos suelen deberse a errores tipográficos o de entrada. En otros casos, los valores atípicos no son errores. Después de todo, los valores a cinco desviaciones estándar de la media son poco comunes, pero no imposibles.

Los valores atípicos suelen causar problemas en el entrenamiento del modelo. El recorte es una manera de manejar los valores atípicos.

evaluación fuera de bolsa (evaluación OOB)

#df

Un mecanismo para evaluar la calidad de un bosque de decisión probando cada árbol de decisión con respecto al ejemplos que no se usaron durante el entrenamiento de ese árbol de decisión. Por ejemplo, en la del siguiente diagrama, observa que el sistema entrena cada árbol de decisión en aproximadamente dos tercios de los ejemplos y luego compara restante en un tercio de los ejemplos.

Un bosque de decisión que consta de tres árboles de decisión.
          Un árbol de decisiones se entrena en dos tercios de los ejemplos y, luego, usa el tercio restante para la evaluación fuera del conjunto de entrenamiento.
          Un segundo árbol de decisión se entrena en dos tercios diferentes

          de los ejemplos que el árbol de decisión anterior y, luego,

          usa un tercio diferente para la evaluación fuera del conjunto de entrenamiento que el

          árbol de decisión anterior.

La evaluación fuera de lo común es una solución eficiente y conservadora desde el punto de vista informático una aproximación del mecanismo de validación cruzada. En la validación cruzada, se entrena un modelo para cada ronda de validación cruzada (por ejemplo, se entrenan 10 modelos en una validación cruzada por 10). Con la evaluación OOB, se entrena un solo modelo. Debido a que el bagged retiene algunos datos de cada árbol durante el entrenamiento, la evaluación fuera del conjunto puede usar esos datos para aproximar la validación cruzada.

capa de salida

#fundamentals

La "final" de una red neuronal. La capa de salida contiene la predicción.

En la siguiente ilustración, se muestra una pequeña red neuronal profunda con una entrada de salida, dos capas ocultas y una de salida:

Una red neuronal con una capa de entrada, dos capas ocultas y una

          capa de salida. La capa de entrada consta de dos componentes. La primera
          Consta de tres neuronas, y la segunda capa oculta
          consta de dos neuronas. La capa de salida consta de un solo nodo.

sobreajuste

#fundamentals

Crear un modelo que coincida con datos de entrenamiento con tanta precisión que el modelo no puede hacer predicciones correctas con los datos nuevos.

La regularización puede reducir el sobreajuste. Entrenar con un conjunto de entrenamiento grande y diverso también puede reducir el sobreajuste.

sobremuestreo

Reutilizar los ejemplos de una clase minoritaria en un conjunto de datos con desequilibrio de clases para crear un conjunto de entrenamiento más equilibrado

Por ejemplo, considera una clasificación binaria problema en el que la proporción de la clase mayor clase minoritaria es 5,000:1. Si el conjunto de datos contiene un millón de ejemplos, solo contiene alrededor de 200 ejemplos de la clase minoritaria, lo que podría ser demasiado poco para un entrenamiento eficaz. Para superar esta deficiencia, podría sobremuestrear (reutilizar) esos 200 ejemplos varias veces, lo que posiblemente daría ejemplos suficientes para un entrenamiento útil.

Debe tener cuidado con el sobreajuste cuando sobremuestreo.

Compara esto con el muestreo insuficiente.

P

datos empaquetados

Un enfoque para almacenar datos de forma más eficiente.

Los datos empaquetados almacenan datos mediante un formato comprimido o en de alguna otra manera que permita acceder a ella de manera más eficiente. Los datos empaquetados minimizan la cantidad de memoria y procesamiento necesarios para acceder a ellos, lo que genera un entrenamiento más rápido y una inferencia de modelos más eficiente.

Los datos empaquetados suelen usarse con otras técnicas, como la amplificación de datos y la regularización, lo que mejora aún más el rendimiento de los modelos.

pandas

#fundamentals

Una API de análisis de datos orientada a columnas compilada en numpy. Muchos frameworks de aprendizaje automático incluido TensorFlow, admiten estructuras de datos de Pandas como entradas. Para obtener más información, consulta la documentación de Pandas.

parámetro

#fundamentals

Los pesos y los sesgos que un modelo aprende durante el entrenamiento. Por ejemplo, en un modelo de regresión lineal, los parámetros consisten en la ordenada al origen (b) y todos los pesos (w1, w2, etcétera) en la siguiente fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En cambio, los hiperparámetros son los valores que (o un servicio de ajuste de hiperparámetros) suministran al modelo. Por ejemplo, learning rate es un hiperparámetro.

ajuste eficiente de parámetros

#language
#generativeAI

Un conjunto de técnicas para fine-tune una gran modelo de lenguaje previamente entrenado (PLM) de forma más eficiente que el ajuste completo. Eficaz en parámetros pero el ajuste suele ajustar muchos menos parámetros que los pero, por lo general, produce un un modelo grande de lenguaje que realice (o casi igual) como un modelo grande de lenguaje construido a partir de ajustes.

Compara y contrasta el ajuste eficiente de parámetros con lo siguiente:

El ajuste eficiente de parámetros también se conoce como ajuste fino eficiente de parámetros.

Servidor de parámetros (PS)

#TensorFlow

Tarea que mantiene un registro de los parámetros de un modelo en una configuración distribuida.

actualización de parámetros

La operación de ajustar los parámetros de un modelo durante el entrenamiento, por lo general, dentro de una sola iteración del descenso del gradiente.

derivada parcial

Es una derivada en la que todas las variables, excepto una, se consideran constantes. Por ejemplo, la derivada parcial de f(x, y) con respecto a x es la derivada de f considerada como una función de x sola (es decir, manteniendo y constante). La derivada parcial de f con respecto a x se centra solamente en cómo cambia x e ignora todas las otras variables de la ecuación.

sesgo de participación

#fairness

Sinónimo de sesgo de no respuesta. Consulta sesgo de selección.

estrategia de partición

Algoritmo por el cual se dividen las variables en servidores de parámetros.

Pax

Un framework de programación diseñado para entrenar redes neuronales modelos a gran escala tan grandes que abarcan varias TPU porciones o pods.

Pax se compila en Flax, que se compila en JAX.

Diagrama que indica la posición de Pax en la pila de software.
          Pax se compila sobre JAX. Pax consta de tres
          capas. La capa inferior contiene TensorStore y Flax.
          La capa del medio contiene Optax y Flaxformer. Los mejores
          contiene la biblioteca de modelos de Praxis. Fiddle está diseñado
          por encima de Pax.

perceptrón

Sistema (de hardware o software) que toma uno o más valores de entrada, ejecuta una función sobre la suma ponderada de las entradas y calcula un valor de salida. En el aprendizaje automático, la función suele ser no lineal, como ReLU, sigmoidea o tanh. Por ejemplo, el siguiente perceptrón utiliza la función sigmoidea para procesar tres valores de entrada:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

En la siguiente ilustración, el perceptrón toma tres entradas, cada una de las cuales se modifica por un peso antes de ingresar al perceptrón:

Un perceptrón que toma 3 entradas, cada una multiplicada por pesos separados. El perceptrón da como resultado un solo valor.

Los perceptrones son las neuronas de redes neuronales.

rendimiento

Término sobrecargado con los siguientes significados:

  • El significado estándar dentro de la ingeniería de software. Es decir, ¿qué tan rápidamente (o eficazmente) se ejecuta este software?
  • El significado dentro del aprendizaje automático. Aquí, el rendimiento responde a la siguiente pregunta: ¿qué tan correcto es este modelo? Es decir, ¿qué tan buenas son las predicciones del modelo?

importancias de las variables de permutación

#df

Es un tipo de importancia de las variables que evalúa el aumento en el error de predicción de un modelo después de permutar los valores del atributo. La importancia de las variables de permutación es un modelo métrica

perplejidad

Es una medida de qué tan bien está logrando su tarea un modelo. Por ejemplo, supongamos que tu tarea es leer las primeras letras de una palabra un usuario está escribiendo en el teclado de un teléfono y ofrecer una lista de posibles palabras de finalización. La perplejidad, P, para esta tarea es aproximadamente el número de conjeturas que debes ofrecer para que tu lista contenga el palabra que el usuario intenta escribir.

La perplejidad está relacionada con la entropía cruzada de la siguiente manera:

$$P= 2^{-\text{cross entropy}}$$

pipeline

Es la infraestructura que rodea al algoritmo de aprendizaje automático. Una canalización incluye recopilar los datos, colocarlos en archivos de datos de entrenamiento, entrenar uno o más modelos y exportarlos para producción.

canalización

#language

Una forma de paralelismo de modelos en la que la latencia el procesamiento se divide en etapas consecutivas y cada una se ejecuta en otro dispositivo. Mientras una etapa procesa un lote, la anterior puede funcionar en el siguiente lote.

Consulta también el entrenamiento en etapas.

pjit

Una función JAX que divide el código para que se ejecute en múltiples chips aceleradores. El usuario pasa una función a pjit, que muestra una función que tiene la semántica equivalente, pero se compila en un cálculo de XLA que se ejecuta en varios dispositivos (como GPUs o núcleos de TPU).

pjit permite a los usuarios fragmentar cálculos sin reescribirlos mediante el particionador SPMD.

A partir de marzo de 2023, pjit se fusionó con jit. Consulta Los arrays distribuidos y los atributos paralelización para obtener más información.

PLM

#language
#generativeAI

Abreviatura de modelo de lenguaje previamente entrenado.

pmap

Es una función JAX que ejecuta copias de una función de entrada en varios dispositivos de hardware subyacentes (CPU, GPU o TPU), con diferentes valores de entrada. pmap se basa en SPMD.

política

#rl

En el aprendizaje por refuerzo, el mapeo probabilístico de un agente de estados a acciones.

agrupación

#image

Reducir una matriz (o matrices) creada por un modelo anterior capa convolucional a una matriz más pequeña. Por lo general, la agrupación implica tomar el valor máximo o promedio en el área agrupada. Por ejemplo, supongamos que tenemos la siguiente matriz de 3 × 3:

La matriz de 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Una operación de reducción, al igual que una convolucional, divide esa matriz en porciones y luego desliza esa operación convolucional en pasos. Por ejemplo, supongamos que la operación de reducción divide la matriz convolucional en porciones de 2 × 2 con un zancada de 1 × 1. Como se ilustra en el siguiente diagrama, se producen cuatro operaciones de reducción. Imagina que cada operación de agrupación elige el valor máximo de los cuatro en esa porción:

La matriz de entrada es 3 × 3 con los valores: [[5,3,1], [8,2,5], [9,4,3]].
          La submatriz 2 × 2 superior izquierda de la matriz de entrada es [[5,3], [8,2]], por lo que la operación de agrupación superior izquierda genera el valor 8 (que es el máximo de 5, 3, 8 y 2). La submatriz 2 × 2 superior derecha de la matriz de entrada es [[3,1], [2,5]], por lo que la operación de reducción superior derecha genera el valor 5. La submatriz 2x2 inferior izquierda de la matriz de entrada es
          [[8,2], [9,4]], por lo que la operación de reducción inferior izquierda produce el valor
          9. La submatriz 2 × 2 inferior derecha de la matriz de entrada es [[2,5], [4,3]], por lo que la operación de reducción inferior derecha genera el valor 5. En resumen, la operación de agrupación genera la matriz 2 × 2 [[8,5], [9,5]].

La reducción permite aplicar invariancia traslacional en la matriz de entrada.

El agrupamiento para aplicaciones de visión se conoce más formalmente como agrupamiento espacial. Por lo general, las aplicaciones de series temporales se refieren a la reducción como reducción temporal. De manera menos formal, la reducción a menudo se denomina submuestreo o reducción de muestreo.

codificación posicional

#language

Es una técnica para agregar información sobre la posición de un token en una secuencia a la incorporación del token. Los modelos de Transformer usan codificación posicional para comprender mejor la relación entre las diferentes partes de la secuencia.

Una implementación común de la codificación posicional usa una función sinusoidal. (Específicamente, la frecuencia y la amplitud de la función sinusoidal se determinadas por la posición del token en la secuencia). Esta técnica permite que un modelo Transformer aprenda a atender las diferentes partes del ordenada en función de su posición.

clase positiva

#fundamentals

La clase que estás probando.

Por ejemplo, la clase positiva en un modelo de cáncer podría ser "tumor". La clase positiva en un clasificador de correo electrónico puede ser "es spam".

Compara esto con la clase negativa.

posprocesamiento

#fairness
#fundamentals

Ajustar la salida de un modelo después de que este se haya ejecutado El procesamiento posterior se puede usar para aplicar restricciones de equidad sin modificar los modelos.

Por ejemplo, se puede aplicar el procesamiento posterior a un clasificador binario si se establece un umbral de clasificación de modo que se mantenga la igualdad de oportunidades para algún atributo. Para ello, se debe verificar que la tasa de verdaderos positivos sea la misma para todos los valores de ese atributo.

AUC de PR (área bajo la curva PR)

Es el área bajo la curva de precisión-recuperación interpolada, que se obtiene trazando puntos (recuperación, precisión) para diferentes valores del umbral de clasificación. Según cómo el AUC de PR puede ser equivalente al precisión promedio del modelo.

Praxis

Una biblioteca principal de AA de alto rendimiento de Pax. La praxia suele ser llamada "Biblioteca de capas".

La praxis no solo contiene las definiciones para la clase Layer, sino también la mayoría de sus componentes de respaldo, como los siguientes:

Praxis proporciona las definiciones de la clase Model.

precision

Una métrica para los modelos de clasificación que responde la siguiente pregunta:

Cuando el modelo predijo la clase positiva, ¿Qué porcentaje de las predicciones fueron correctas?

Esta es la fórmula:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

Donde:

  • verdadero positivo significa que el modelo predijo correctamente la clase positiva.
  • falso positivo significa que el modelo erróneamente predijo la clase positiva.

Por ejemplo, supongamos que un modelo realizó 200 predicciones positivas. De estas 200 predicciones positivas:

  • 150 fueron verdaderos positivos.
  • 50 fueron falsos positivos.

En este caso, ocurre lo siguiente:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Compara esto con la exactitud y la recuperación.

Consulta Clasificación: exactitud, recuperación, precisión y métricas relacionadas para obtener más información.

curva de precisión-recuperación

Una curva de precisión frente a recuperación a diferentes valores umbrales de clasificación.

Predicción

#fundamentals

Es el resultado de un modelo. Por ejemplo:

  • La predicción de un modelo de clasificación binaria la clase negativa o la clase negativa.
  • La predicción de un modelo de clasificación de varias clases es una clase.
  • La predicción de un modelo de regresión lineal es un número.

sesgo de predicción

Es un valor que indica qué tan alejado está el promedio de las predicciones del promedio de las etiquetas en el conjunto de datos.

No se debe confundir con el término sesgo en los modelos de aprendizaje automático. o con sesgo en ética y equidad.

AA predictivo

Cualquier sistema estándar ("clásico") de aprendizaje automático

El término AA predictivo no tiene una definición formal. Más bien, el término distingue una categoría de sistemas de AA que no se basan en IA generativa.

paridad predictiva

#fairness

Es una métrica de equidad que verifica si, para un clasificador determinado, las tasas de precisión son equivalentes para los subgrupos en consideración.

Por ejemplo, un modelo que predice la aceptación en la universidad satisfaría la paridad predictiva para la nacionalidad si su tasa de precisión fuera la misma para los liliputienses y los brobdingnagianos.

A veces, la paridad predictiva también se denomina paridad de tarifas predictiva.

Consulta "Explicación de las definiciones de equidad" (sección 3.2.1) para obtener una explicación más detallada de la paridad predictiva.

paridad de tarifas predictiva

#fairness

Es otro nombre para la paridad predictiva.

procesamiento previo

#fairness
Procesar los datos antes de usarlos para entrenar un modelo El procesamiento previo puede ser tan simple como quitar palabras de un corpus de texto en inglés que no aparecen en el diccionario en inglés, o puede ser tan complejo como volver a expresar los datos de una manera que elimine tantos atributos como sea posible que estén correlacionados con atributos sensibles. El procesamiento previo puede ayudar a satisfacer las restricciones de equidad.

modelo previamente entrenado

#language
#image
#generativeAI

Los modelos o componentes de modelos (como un vector de incorporación) que ya se entrenaron. En algunas ocasiones, incluirás vectores de incorporación previamente entrenados en una red neuronal. Otras veces, el modelo entrenará el vectores de incorporación en lugar de depender de las incorporaciones previamente entrenadas.

El término modelo de lenguaje previamente entrenado hace referencia a un modelo de lenguaje grande que pasó por un entrenamiento previo.

entrenamiento previo

#language
#image
#generativeAI

Entrenamiento inicial de un modelo en un conjunto de datos grande. Algunos modelos previamente entrenados son gigantes y torpes y, por lo general, deben perfeccionarse mediante capacitación adicional. Por ejemplo, los expertos en AA podrían entrenar previamente un modelo de lenguaje grande en un conjunto de datos de texto extenso, como todas las páginas en inglés de Wikipedia. Después del entrenamiento previo, modelo resultante podría refinarse aún más a través de cualquiera de los siguientes técnicas:

creencia previa

Tu conocimiento acerca de los datos antes de que empieces a entrenarlos. Por ejemplo, la regularización L2 se basa en una creencia previa de que los pesos deben ser pequeños y, normalmente, estar distribuidos alrededor de cero.

modelo de regresión probabilístico

Un modelo de regresión que usa no solo el ponderaciones para cada atributo, pero también para la incertidumbre de esas ponderaciones. Un modelo de regresión probabilística genera una predicción y la incertidumbre de esa predicción. Por ejemplo, un modelo de regresión probabilística podría generar una predicción de 325 con una desviación estándar de 12. Para obtener más información sobre la regresión probabilística consulta este vínculo de Colab tensorflow.org.

función de densidad de probabilidad

Es una función que identifica la frecuencia de muestras de datos que tienen exactamente un valor determinado. Cuando los valores de un conjunto de datos son de punto flotante continuo números, rara vez se producen concordancias exactas. Sin embargo, integrar una función de densidad de probabilidad del valor x al valor y genera la frecuencia esperada de muestras de datos entre x y y.

Por ejemplo, considera una distribución normal con una media de 200 y una desviación estándar de 30. Para determinar la frecuencia esperada de las muestras de datos dentro del rango de 211.4 a 218.7, puedes integrar la columna “densidad” para una distribución normal de 211.4 a 218.7.

instrucción

#language
#generativeAI

Cualquier texto que se ingresa como entrada a un modelo de lenguaje extenso para condicionar el modelo para que se comporte de cierta manera. Las indicaciones pueden ser tan breves como una frase o arbitrariamente largas (por ejemplo, el texto completo de una novela). Las instrucciones se dividen en varias categorías, incluidas las que se muestran en la siguiente tabla:

Categoría de instrucciones Ejemplo Notas
Pregunta ¿Qué tan rápido puede volar una paloma?
Instrucción Escribe un poema divertido sobre el arbitraje. Una instrucción que le pide al modelo de lenguaje grande que haga algo.
Ejemplo Traduce el código Markdown a HTML. Por ejemplo:
Markdown: * elemento de lista
HTML: <ul> <li>elemento de lista</li> </ul>
La primera oración de esta instrucción de ejemplo es una instrucción. El resto de la instrucción es el ejemplo.
Rol Explicar por qué se usa el descenso de gradientes en el entrenamiento del aprendizaje automático para un doctorado en Física. La primera parte de la oración es una instrucción; la frase “a un doctorado en física” es la parte del puesto.
Entrada parcial para que el modelo la complete El primer ministro del Reino Unido vive en Una instrucción de entrada parcial puede terminar de manera abrupta (como sucede en este ejemplo). o terminar con un guion bajo.

Un modelo de IA generativa puede responder a una instrucción con texto, código, imágenes, incorporaciones, videos… casi cualquier cosa.

aprendizaje basado en instrucciones

#language
#generativeAI

Es una función de ciertos modelos que les permite adaptar su comportamiento en respuesta a entradas de texto arbitrarias (indicaciones). En un paradigma de aprendizaje típico basado en instrucciones, un modelo de lenguaje grande responde a una instrucción generando texto. Por ejemplo, supongamos que un usuario ingresa la siguiente instrucción:

Resumir la tercera ley del movimiento de Newton

Un modelo capaz de aprender basado en instrucciones no está entrenado específicamente para responder la instrucción anterior. En cambio, el modelo “sabe” muchos datos sobre física, mucho sobre las reglas del lenguaje generales y mucho sobre lo que constituye respuestas útiles. Ese conocimiento es suficiente para proporcionar (con suerte) un recurso útil una respuesta en particular. Los comentarios humanos adicionales ("Esa respuesta fue demasiado complicada" o "¿Qué es una reacción?") permiten que algunos sistemas de aprendizaje basados en indicaciones mejoren gradualmente la utilidad de sus respuestas.

diseño de mensajes

#language
#generativeAI

Sinónimo de ingeniería de instrucciones.

ingeniería de instrucciones

#language
#generativeAI

El arte de crear instrucciones que provoquen las respuestas deseadas de un modelo de lenguaje grande. Una persona realiza una instrucción con ingeniería de atributos. Escribir instrucciones bien estructuradas es una parte esencial de garantizar respuestas útiles de un modelo de lenguaje extenso. La ingeniería oportuna depende de muchos factores, incluidos los siguientes:

  • Es el conjunto de datos que se usó para el entrenamiento previo y, posiblemente, fine-tune el modelo grande de lenguaje.
  • La temperature y otros parámetros de decodificación que la que el modelo usa para generar respuestas.

Consulta la sección Introducción al diseño de instrucciones para obtener más detalles sobre cómo escribir instrucciones útiles.

Diseño de instrucciones es un sinónimo de ingeniería de instrucciones.

ajuste de instrucciones

#language
#generativeAI

Un mecanismo de ajuste eficiente de parámetros que aprende un “prefijo” que el sistema agrega al prompt real.

Una variación del ajuste de instrucciones, que a veces se denomina ajuste de prefijos, es anteponer el prefijo en cada capa. En cambio, la mayoría del ajuste de instrucciones solo Agrega un prefijo a la capa de entrada.

etiquetas de proxy

#fundamentals

Datos utilizados para aproximar etiquetas que no están disponibles en el conjunto de datos de forma directa.

Por ejemplo, supongamos que debes entrenar un modelo para predecir el nivel de estrés de los empleados. Tu conjunto de datos contiene muchas características predictivas, pero no contiene una etiqueta llamada nivel de estrés. Sin desanimarte, eliges "accidentes de trabajo" como etiqueta de proxy para nivel de estrés. Después de todo, los empleados con mucho estrés se involucran en más accidentes que los empleados tranquilos. ¿O no? Quizás los accidentes laborales aumentan y disminuyen por varios motivos.

Como segundo ejemplo, supongamos que quieres que ¿está lloviendo? como una etiqueta booleana. para tu conjunto de datos, pero este no contiene datos de lluvia. Si hay fotografías disponibles, puedes establecer imágenes de personas con paraguas como etiqueta de proxy de ¿está lloviendo? ¿Es una buena etiqueta de proxy? Posiblemente, pero las personas de algunas culturas pueden estar es más probable que lleves paraguas para protegerte del sol en lugar de la lluvia.

Las etiquetas de proxy a menudo son imperfectas. Cuando sea posible, elige las etiquetas reales en lugar de las etiquetas de proxy. Dicho esto, cuando una etiqueta real esté ausente, elige el proxy con mucho cuidado, elegimos la etiqueta de proxy menos horrible.

proxy (atributos sensibles)

#fairness
Es un atributo que se usa como sustituto de un atributo sensible. Por ejemplo, el código postal de una persona puede usarse como proxy de su ingreso, origen étnico o raza.

función pura

Una función cuyas salidas se basan solo en sus entradas y que no tiene lado efectos. Específicamente, una función pura no usa ni cambia ningún estado global, como el contenido de un archivo o el valor de una variable fuera de la función.

Las funciones puras se pueden usar para crear código seguro para subprocesos, lo que es beneficioso cuando se fragmenta el código del modelo en varios chips de acelerador.

Los métodos de transformación de funciones de JAX requieren que las funciones de entrada son funciones puras.

P

Función Q

#rl

En el aprendizaje por refuerzo, la función que predice el rendimiento esperado de realizar una acción en un estado y, luego, seguir una política determinada.

La función Q también se conoce como función de valor de estado-acción.

Q-Learning

#rl

En el aprendizaje por refuerzo, un algoritmo que permite que un agente aprenda la función Q óptima de un proceso de decisión de Markov aplicando la ecuación de Bellman. Los modelos del proceso de decisión de Markov un entorno.

cuantil

Cada bucket en el agrupamiento en cuantiles.

agrupamiento en cuantiles

Distribución de los valores de un atributo en agrupamientos de forma tal que cada agrupamiento contenga la misma (o casi la misma) cantidad de ejemplos. Por ejemplo: la siguiente figura divide 44 puntos en 4 categorías, cada una de las cuales contiene 11 puntos. Para que cada bucket en la figura contenga la misma cantidad de puntos, algunos buckets abarcan un ancho diferente de valores x.

44 puntos de datos divididos en 4 agrupaciones de 11 puntos cada una.
          Aunque cada bucket contiene el mismo número de datos,
          algunos buckets contienen un rango más amplio de valores de atributos que otros
          buckets.

cuantización

Término sobrecargado que podría usarse de cualquiera de las siguientes maneras:

  • Implementación del agrupamiento en cuantiles en una función en particular.
  • Transforma los datos en ceros y unos para almacenar, entrenar y concluir más rápido. Como los datos booleanos son más resistentes al ruido y a los errores que con otros formatos, la cuantización puede mejorar la precisión del modelo. Las técnicas de cuantización incluyen el redondeo, la truncación y el agrupamiento.
  • Reducir la cantidad de bits que se usan para almacenar los parámetros de un modelo Por ejemplo, supongamos que los parámetros de un modelo se almacenan como números de punto flotante de 32 bits. La cuantificación convierte esos parámetros de 32 bits a 4, 8 o 16 bits. La cuantización reduce el lo siguiente:

    • Uso de procesamiento, memoria, disco y red
    • Momento de inferir una predicción
    • Consumo de energía

    Sin embargo, la cuantización a veces disminuye la precisión de la predicciones.

cola

#TensorFlow

Operación de TensorFlow que implementa una cola de datos en la nube. Se suele usar en E/S.

R

RAG

#fundamentals

Abreviatura de generación mejorada por recuperación.

bosque aleatorio

#df

Un ensamble de árboles de decisión en que se entrena con un ruido aleatorio específico, como bolso.

Los bosques aleatorios son un tipo de bosque de decisión.

política aleatoria

#rl

En el aprendizaje por refuerzo, un política que elige una action de forma aleatoria.

clasificación

Es un tipo de aprendizaje supervisado cuyo objetivo es ordenar una lista de elementos.

rango (ordinalidad) (rank, ordinality)

La posición ordinal de una clase en un problema de aprendizaje automático que categoriza las clases de la más alta a la más baja. Por ejemplo, un sistema de clasificación de conducta podría ordenar las recompensas para un perro de la más alta (un filete) a la más baja (un repollo marchitado).

rango (tensor)

#TensorFlow

Es la cantidad de dimensiones de un tensor. Por ejemplo: un escalar tiene rango 0, un vector tiene rango 1 y una matriz tiene rango 2.

No debe confundirse con rango (ordinalidad).

evaluador

#fundamentals

Es una persona que proporciona etiquetas para los ejemplos. “Anotador” es otro nombre para evaluador.

recall

Métrica para los modelos de clasificación que responde a la siguiente pregunta:

Cuando la verdad fundamental fue la clase positiva, qué porcentaje de predicciones hicieron identificar de forma correcta el modelo como la clase positiva?

Esta es la fórmula:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

Donde:

  • verdadero positivo significa que el modelo predijo correctamente la clase positiva.
  • falso negativo significa que el modelo predijo por error clase negativa.

Por ejemplo, supongamos que tu modelo hizo 200 predicciones con ejemplos para los que la verdad fundamental fue la clase positiva. De estas 200 predicciones, se cumple lo siguiente:

  • 180 fueron verdaderos positivos.
  • 20 fueron falsos negativos.

En este caso, ocurre lo siguiente:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Consulta Clasificación: exactitud, recuperación, precisión y métricas relacionadas para obtener más información.

sistema de recomendación

#recsystems

Sistema que selecciona para cada usuario un conjunto relativamente pequeño de items de un gran corpus. Por ejemplo, un sistema de recomendación de videos podría recomendar dos videos de un corpus de 100,000 videos, seleccionando Casablanca y The Philadelphia Story para un usuario, y Wonder Woman y Black Panther para otro. Un sistema de recomendación de video puede basar sus recomendaciones en factores tales como:

  • Películas que usuarios similares han calificado o visto
  • Género, directores, actores, segmento demográfico...

Unidad lineal rectificada (ReLU)

#fundamentals

Una función de activación con el siguiente comportamiento:

  • Si la entrada es negativa o cero, el resultado es 0.
  • Si la entrada es positiva, entonces el resultado es igual a la entrada.

Por ejemplo:

  • Si la entrada es -3, entonces el resultado es 0.
  • Si la entrada es +3, entonces el resultado es 3.0.

Esta es una gráfica de ReLU:

Representación cartesiana de dos líneas. La primera línea tiene una constante
          y de 0, que se extiende a lo largo del eje x de -infinity,0 a 0,-0.
          La segunda línea comienza en 0,0. Esta línea tiene una pendiente de +1, por lo que va de 0,0 a +infinito,+infinito.

ReLU es una función de activación muy popular. A pesar de su comportamiento simple, ReLU aún permite que una red neuronal aprenda relaciones no lineales entre los atributos y la etiqueta.

red neuronal recurrente

#seq

Una red neuronal que se ejecuta intencionalmente varias veces, donde partes de cada ejecución se incorporan a la siguiente ejecución. Específicamente, las capas ocultas de la ejecución anterior proporcionan parte del entrada a la misma capa oculta en la próxima ejecución. Las redes neuronales recurrentes son particularmente útiles para evaluar secuencias, de modo que las capas ocultas puedan aprender de las ejecuciones anteriores de la red neuronal sobre partes anteriores de la secuencia.

Por ejemplo, en la siguiente figura se muestra una red neuronal recurrente que se ejecuta cuatro veces. Observa que los valores aprendidos en las capas ocultas del la primera ejecución formarán parte de la entrada a las mismas capas ocultas en la segunda ejecución. De manera similar, los valores aprendidos en la capa oculta en la segunda ejecución se convierten en parte de la entrada para la misma capa oculta en la tercera ejecución. De esta manera, la red neuronal recurrente entrena y predice gradualmente el significado de toda la secuencia en lugar de solo el significado de palabras individuales.

Una RNN que se ejecuta cuatro veces para procesar cuatro palabras de entrada.

modelo de regresión

#fundamentals

Informalmente, un modelo que genera una predicción numérica. (En cambio, un modelo de clasificación genera una clase prediction.) Por ejemplo, los siguientes son todos modelos de regresión:

  • Modelo que predice el valor de una casa determinada, como 423,000 euros.
  • Un modelo que predice la esperanza de vida de un árbol determinado, como 23.2 años.
  • Un modelo que predice la cantidad de lluvia que caerá en una ciudad determinada en las próximas seis horas, como 0.48 pulgadas.

Estos son dos tipos comunes de modelos de regresión:

  • Regresión lineal, que encuentra la línea que mejor ajusta los valores de las etiquetas a los atributos.
  • Regresión logística, que genera una probabilidad entre 0.0 y 1.0 que, por lo general, un sistema asigna a una predicción de clase.

No todos los modelos que generan predicciones numéricas son modelos de regresión. En algunos casos, una predicción numérica es solo un modelo de clasificación que casualmente tiene nombres de clases numéricos. Por ejemplo, un modelo que predice un código postal numérico es un modelo de clasificación, no un modelo de regresión.

regularización

#fundamentals

Cualquier mecanismo que reduzca el sobreajuste Entre los tipos de regularización populares, se incluyen los siguientes:

La regularización también puede definirse como la penalización por la complejidad de un modelo.

tasa de regularización

#fundamentals

Número que especifica la importancia relativa de regularización durante el entrenamiento. Elevando la la tasa de regularización reduce el sobreajuste, pero puede reducir el poder predictivo del modelo. Por el contrario, omitir o reducir la tasa de regularización aumenta el sobreajuste.

aprendizaje por refuerzo (RL)

#rl

Es una familia de algoritmos que aprenden una política óptima, cuyo objetivo es maximizar el rendimiento cuando interactúa con un entorno. Por ejemplo, la máxima recompensa para la mayoría de los juegos es la victoria. Los sistemas de aprendizaje por refuerzo pueden convertirse en expertos en juegos complejos mediante la evaluación de secuencias de movimientos anteriores que finalmente generó victorias y secuencias que finalmente llevaron a derrotas.

Aprendizaje por refuerzo con retroalimentación humana (RLHF)

#generativeAI
#rl

Usar los comentarios de los calificadores humanos para mejorar la calidad de las respuestas de un modelo Por ejemplo, un mecanismo de RLHF puede pedirles a los usuarios que califiquen la calidad de la con un emoji 👍 o 👎. Luego, el sistema puede ajustar sus respuestas futuras en función de esos comentarios.

ReLU

#fundamentals

Abreviatura de unidad lineal rectificada.

búfer de reproducción

#rl

En los algoritmos similares a DQN, la memoria que usa el agente para almacenar transiciones de estado para usar en la repetición de experiencias.

de Cloud SQL

Una copia del conjunto de entrenamiento o del modelo, por lo general, en otra máquina. Por ejemplo, un sistema podría usar los siguientes Estrategia para implementar el paralelismo de datos:

  1. Colocar réplicas de un modelo existente en varias máquinas
  2. Envía diferentes subconjuntos del conjunto de entrenamiento a cada réplica.
  3. Agrega las actualizaciones de parámetros.

sesgo de reporte

#fairness

El hecho de que la frecuencia con la que las personas escriben sobre acciones, resultados o propiedades no es un reflejo fiel de las frecuencias reales o del grado en que una propiedad es típica de una clase de individuos. El sesgo de reporte puede influir en la composición de datos de los que aprenden los sistemas de aprendizaje automático.

Por ejemplo, en los libros, la palabra reír es más frecuente que la que se respirar . Un modelo de aprendizaje automático que estime la frecuencia relativa de reír y respirar a partir de un corpus de libros probablemente determine que reír es más frecuente que respirar.

representación de vectores

Es el proceso de asignar datos a atributos útiles.

reclasificación

#recsystems

La etapa final en un sistema de recomendación, durante la cual los elementos calificados se pueden volver a calificar de acuerdo con algún otro algoritmo (por lo general, no de AA). La reclasificación evalúa la lista de elementos generados por la fase de puntuación, realizando acciones tales como:

  • Eliminar los elementos que el usuario ya compró
  • Aumentar la puntuación de elementos más recientes

generación de recuperación aumentada (RAG)

#fundamentals

Es una técnica para mejorar la calidad de la salida del modelo de lenguaje grande (LLM) basándolo en fuentes de conocimiento recuperadas después de que se entrenó el modelo. La RAG mejora la precisión de las respuestas del LLM, ya que le proporciona al LLM entrenado acceso a la información recuperada de bases de conocimiento o documentos de confianza.

Entre las motivaciones comunes para usar la generación mejorada por recuperación, se incluyen las siguientes:

  • Aumentar la exactitud fáctica de las respuestas generadas de un modelo.
  • Darle al modelo acceso a conocimientos con los que no se entrenó
  • Cambiar el conocimiento que usa el modelo
  • Habilita el modelo para que cite fuentes.

Por ejemplo, supongamos que una app de química usa el PaLM API para generar resúmenes relacionadas con las consultas de los usuarios. Cuando el backend de la app recibe una consulta, el backend hace lo siguiente:

  1. Busca ("recupera") datos relevantes para la búsqueda del usuario.
  2. Adjunta ("aumenta") los datos de química relevantes a la consulta del usuario.
  3. Le indica al LLM que cree un resumen basado en los datos agregados.

retorno

#rl

En el aprendizaje por refuerzo, dada una política y un estado determinados, el rendimiento es la suma de todas las recompensas que el agente espera recibir cuando sigue la política desde el estado hasta el final del episodio. El agente tiene en cuenta la naturaleza demorada de las recompensas esperadas al descontar las recompensas de acuerdo con las transiciones de estado requeridas para obtener la recompensa.

Por lo tanto, si el factor de descuento es \(\gamma\)y \(r_0, \ldots, r_{N}\)representa las recompensas hasta el final del episodio, el cálculo del rendimiento es el siguiente:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

una recompensa

#rl

En el aprendizaje por refuerzo, el resultado numérico de tomar un action en un estado, según lo definido por el entorno.

regularización de cresta

Sinónimo de regularización L2. El término regularización de cresta se usa con más frecuencia en estadísticas puras. contextos, mientras que la regularización L2 se usa con más frecuencia en el aprendizaje automático.

RNN

#seq

Abreviatura de redes neuronales recurrentes.

Curva ROC (característica operativa del receptor)

#fundamentals

Gráfico de la tasa de verdaderos positivos en comparación con tasa de falsos positivos de diferentes umbrales de clasificación en objeto binario clasificación.

La forma de una curva ROC sugiere la capacidad de un modelo de clasificación binaria para separar las clases positivas de las negativas. Supongamos, por ejemplo, que un modelo de clasificación binaria separe perfectamente de todas las clases positivas:

Una línea numérica con 8 ejemplos positivos a la derecha y
          7 ejemplos negativos a la izquierda.

La curva ROC del modelo anterior se ve de la siguiente manera:

Una curva ROC. El eje X es la tasa de falsos positivos y el eje Y.
          es la tasa de verdaderos positivos. La curva tiene forma de L invertida. La curva
          comienza en (0.0,0.0) y va directamente a (0.0,1.0). Luego, la curva va de (0.0,1.0) a (1.0,1.0).

En cambio, en la siguiente ilustración, se muestra la representación de la regresión logística sin procesar valores para un modelo terrible que no puede separar las clases negativas de positivas en absoluto:

Una recta numérica con ejemplos positivos y clases negativas
          están completamente mezclados.

La curva ROC de este modelo se ve de la siguiente manera:

Una curva ROC, que en realidad es una línea recta de (0.0,0.0) a (1.0,1.0).

En el mundo real, la mayoría de los modelos de clasificación binaria positivas y negativas en cierta medida, pero no por lo general a la perfección. Entonces: una curva ROC típica se encuentra en algún lugar entre los dos extremos:

Una curva ROC. El eje X es la tasa de falsos positivos y el eje Y es la tasa de verdaderos positivos. La curva ROC se aproxima a un arco tembloroso
          que atraviesa los puntos de la brújula de oeste a norte.

El punto en una curva ROC más cercana a (0.0,1.0) identifica teóricamente el umbral de clasificación ideal. Sin embargo, otros problemas del mundo real influyen en la selección del umbral de clasificación ideal. Por ejemplo, quizás los falsos negativos causen mucho más problemas que los falsos positivos.

Una métrica numérica llamada AUC resume la curva ROC en un solo valor de punto flotante.

indicaciones de roles

#language
#generativeAI

Es una parte opcional de una instrucción que identifica un público objetivo para la respuesta de un modelo de IA generativa. Sin un rol un mensaje de texto, un modelo grande de lenguaje brinda una respuesta que puede ser útil o no para la persona que hace las preguntas. Con una instrucción de rol, se puede usar modelo puede responder de una manera que sea más apropiada y útil para un un público objetivo específico. Por ejemplo, la parte de la instrucción de rol de las siguientes instrucciones está en negrita:

  • Resume este artículo para un doctorado en economía.
  • Describir cómo funcionan las mareas para un niño de diez años.
  • Explica la crisis financiera de 2008. Habla como lo harías con un niño pequeño: o un golden retriever.

raíz

#df

El nodo inicial (el primer condition) en un árbol de decisión. Por convención, los diagramas colocan la raíz en la parte superior del árbol de decisiones. Por ejemplo:

Árbol de decisión con dos condiciones y tres hojas. La condición inicial (x > 2) es la raíz.

directorio raíz

#TensorFlow

Es el directorio que especificas para alojar subdirectorios del punto de control de TensorFlow y archivos de eventos de varios modelos.

Raíz cuadrada del error cuadrático medio (RMSE)

#fundamentals

Raíz cuadrada del error cuadrático medio.

invariancia rotacional

#image

En un problema de clasificación de imágenes, la capacidad de un algoritmo para clasificar imágenes correctamente incluso cuando cambia la orientación de la imagen. Por ejemplo, el algoritmo aún puede identificar una raqueta de tenis, ya sea que esté apuntando hacia arriba, hacia un lado o hacia abajo. Ten en cuenta que la invariancia rotacional no siempre es deseable; por ejemplo, un 9 al revés no debe clasificarse como un 9.

Consulta también Invariancia traslacional y invariancia de tamaño.

R al cuadrado

Es una métrica de regresión que indica cuánta variación en una La etiqueta se debe a un atributo individual o a un conjunto de atributos. El valor R cuadrado es un valor entre 0 y 1, que puedes interpretar de la siguiente manera:

  • Un R al cuadrado de 0 significa que ninguna de las variaciones de una etiqueta se debe al conjunto de atributos.
  • Un valor de R cuadrado de 1 significa que toda la variación de una etiqueta se debe al conjunto de atributos.
  • Un valor de R cuadrado entre 0 y 1 indica el grado en el que se puede predecir la variación de la etiqueta a partir de un atributo en particular o del conjunto de atributos. Por ejemplo, un R cuadrado de 0.10 significa que el 10 por ciento de la varianza en la etiqueta se debe al conjunto de atributos, un R cuadrado de 0.20 significa que el 20% se debe al conjunto de atributos, y así sucesivamente.

R cuadrado es el cuadrado de la Correlación de Pearson coeficiente entre los valores que un modelo predijo y la verdad fundamental.

S

sesgo del muestreo

#fairness

Consulta sesgo de selección.

muestreo con reemplazo

#df

Es un método para elegir elementos de un conjunto de elementos candidatos en el que se puede elegir el mismo elemento varias veces. La frase "con reemplazo" significa que, después de cada selección, el elemento seleccionado se devuelve al grupo de elementos candidatos. El método inverso, el muestreo sin reemplazo, significa que un elemento candidato solo se puede elegir una vez.

Por ejemplo, considera el siguiente conjunto de frutas:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supongamos que el sistema elige fig de forma aleatoria como primer elemento. Si usas el muestreo con reemplazo, el sistema elige el segundo elemento del siguiente conjunto:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sí, es el mismo conjunto que antes, por lo que el sistema podría volver a elegir fig.

Si usas el muestreo sin reemplazo, una vez que se elige una muestra, no se puede volver a elegir. Por ejemplo, si el sistema elige al azar fig como primera muestra, no se podrá volver a elegir fig. Por lo tanto, el sistema selecciona la segunda muestra del siguiente conjunto (reducido):

fruit = {kiwi, apple, pear, cherry, lime, mango}

modelo guardado

#TensorFlow

El formato recomendado para guardar y recuperar modelos de TensorFlow. SavedModel es un formato de serialización recuperable y neutral con respecto al lenguaje que permite que las herramientas y los sistemas de nivel superior produzcan, consuman y transformen modelos de TensorFlow.

Consulta el capítulo Cómo guardar y restablecer en la Guía para programadores de TensorFlow para conocer todos los detalles.

Económico

#TensorFlow

Un objeto de TensorFlow responsable de guardar controles del modelo.

escalar

Un solo número o una sola cadena que se puede representar como un tensor de rango 0. Por ejemplo, cada una de las siguientes líneas de código crea un escalar en TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

escalamiento

Cualquier transformación o técnica matemática que cambie el rango de una etiqueta o el valor del atributo. Algunas formas de escalamiento son muy útiles para transformaciones como la normalización.

Estas son algunas formas comunes de escalamiento útiles en el aprendizaje automático:

  • el escalamiento lineal, que generalmente usa una combinación de resta y división para reemplazar el valor original por un número entre -1 y +1, o entre 0 y 1.
  • escalamiento logarítmico, que reemplaza el valor original por su logaríti￳mo.
  • Normalización de puntuación Z, que reemplaza el valor original por un valor de punto flotante que representa la cantidad de desviaciones estándar de la media de esa característica.

scikit-learn

Plataforma popular de aprendizaje automático de código abierto. Consulta scikit-learn.org.

puntuación

#recsystems

La parte de un sistema de recomendaciones que proporciona un valor o clasificación para cada elemento producido por el de generación de candidatos.

sesgo de selección

#fairness

Errores en las conclusiones que se extraen de los datos muestreados debido a un proceso de selección que genera diferencias sistemáticas entre las muestras observadas en los datos y las no observadas. Existen las siguientes formas de sesgo de selección:

  • sesgo de cobertura: La población representada en el conjunto de datos no coincidir con la población que representa el modelo de aprendizaje automático. predicciones.
  • sesgo muestral: Los datos no se recolectan de forma aleatoria del grupo objetivo.
  • sesgo de no respuesta (también llamado sesgo de participación): Los usuarios de ciertos grupos rechazan realizar encuestas con frecuencias diferentes que los usuarios de otros grupos.

Por ejemplo, supongamos que estás creando un modelo de aprendizaje automático que predice el disfrute de las personas de una película. Para recopilar datos de entrenamiento, repartes una encuesta a todos los que están en primera fila en el que se muestra la película. A primera vista, esta puede parecer una forma razonable para recopilar un conjunto de datos; pero esta forma de recopilación de datos introduce las siguientes formas de sesgo de selección:

  • sesgo de cobertura: Mediante el muestreo de una población que eligió ver de la película, es posible que las predicciones del modelo no que no expresó ese nivel de interés en la película.
  • sesgo muestral: En lugar de muestrear aleatoriamente desde la población prevista (todas las personas en la película), solo se muestrearon las personas en la primera fila. Es posible que las personas sentadas en la primera fila estén más interesadas en la película que aquellas en otras filas.
  • sesgo de no respuesta: En general, las personas con opiniones fuertes tienden a responder a las encuestas opcionales con mayor frecuencia que las personas con opiniones moderadas. Como la encuesta sobre la película es opcional, las respuestas tienen más probabilidades de formar un distribución bimodal que una distribución normal (en forma de campana).

autoatención (también llamada capa de autoatención)

#language

Es una capa de red neuronal que transforma una secuencia de embeddings (por ejemplo, tokens) en otra secuencia de embeddings. Cada incorporación en la secuencia de salida se construye mediante la integración de información de los elementos de la secuencia de entrada a través de un mecanismo de atención.

La parte self de autoatención se refiere a la secuencia que asiste a en lugar de a algún otro contexto. La autoatención es una de las principales componentes básicos para Transformers y usa la búsqueda en el diccionario y la terminología, como “consulta”, “clave” y “valor”.

Una capa de autoatención comienza con una secuencia de representaciones de entrada, una para cada palabra. La representación de entrada para una palabra puede ser una simple a través de la incorporación de texto. Para cada palabra en una secuencia de entrada, la red califica la relevancia de la palabra para cada elemento de toda la secuencia de palabras. Las puntuaciones de relevancia determinan en qué medida la representación final de la palabra incorpora las representaciones de otras palabras.

Por ejemplo, considera la siguiente oración:

El animal no cruzó la calle porque estaba demasiado cansado.

En la siguiente ilustración (de Transformer: A Novel Neural Network Architecture for Language Understanding), se muestra el patrón de atención de una capa de autoatención para el pronombre it, en el que la oscuridad de cada línea indica cuánto contribuye cada palabra a la representación:

La siguiente oración aparece dos veces: El animal no cruzó el
          calle porque estaba demasiado cansada. Las líneas conectan el pronombre it en una oración a cinco tokens (The, animal, street, it y el punto) en la otra oración.  La línea entre el pronombre que
          y la palabra animal es la más fuerte.

La capa de autoatención destaca las palabras que son relevantes para "ella". En este En este caso, la capa de atención aprendió a destacar palabras que podría referirnos a esto asignando el peso más alto a animal.

Para una secuencia de n tokens, la autoatención transforma una secuencia de incorporaciones n veces por separado, una vez en cada posición de la secuencia.

Consulta también atención y atención automática multidireccional.

aprendizaje autosupervisado

Es una familia de técnicas para convertir un problema de aprendizaje automático no supervisado en un problema de aprendizaje automático supervisado mediante la creación de etiquetas sustitutivas a partir de ejemplos sin etiquetar.

Algunos modelos basados en Transformer, como BERT, usan el aprendizaje autosupervisado.

El entrenamiento autosupervisado es una aprendizaje semisupervisado.

autoentrenamiento

Es una variante del aprendizaje autosupervisado que es particularmente útil cuando se cumplen todas las siguientes condiciones:

El autoentrenamiento funciona iterando los siguientes dos pasos hasta que el modelo deja de mejorar:

  1. Usa el aprendizaje automático supervisado para entrenar un modelo con los ejemplos etiquetados.
  2. Usa el modelo creado en el paso 1 para generar predicciones (etiquetas) en los ejemplos sin etiquetar y mover aquellos en los que hay una alta confianza a los ejemplos etiquetados con la etiqueta predicha.

Observa que cada iteración del paso 2 agrega más ejemplos etiquetados para que el paso 1 entrene.

aprendizaje semisupervisado

Entrenar un modelo con datos en los que algunos de los ejemplos de entrenamiento tienen etiquetas, pero otros no. Una técnica para el aprendizaje semisupervisado es inferir etiquetas para los ejemplos no etiquetados y, luego, entrenar con las etiquetas inferidas para crear un modelo nuevo. El aprendizaje semisupervisado puede ser útil si es costoso obtener las etiquetas, aun cuando los ejemplos no etiquetados son abundantes.

El autoentrenamiento es una técnica para la evaluación automático.

atributo sensible

#fairness
Atributo humano que puede ser objeto de consideración especial por cuestiones legales por motivos éticos, sociales o personales.

análisis de opiniones

#language

Usar algoritmos estadísticos o de aprendizaje automático para determinar la actitud general, positiva o negativa, hacia un servicio, producto, organización o tema. Por ejemplo, con la comprensión del lenguaje natural, un algoritmo podría realizar un análisis de opiniones en los comentarios textuales de un curso universitario para determinar en qué grado les gustó o disgustó el curso a los estudiantes en general.

modelo de secuencia

#seq

Un modelo cuyas entradas tienen una dependencia secuencial. Por ejemplo, predecir el siguiente video de una secuencia de videos vistos anteriormente.

tarea de secuencia por secuencia

#language

Es una tarea que convierte una secuencia de entrada de tokens en una secuencia de salida de tokens. Por ejemplo, hay dos tipos populares de modelos tareas son:

  • Traductores:
    • Secuencia de entrada de muestra: "Te amo".
    • Secuencia de salida de muestra: "Je t'aime".
  • Búsqueda de respuestas:
    • Ejemplo de secuencia de entrada: "¿Necesito mi auto en la ciudad de Nueva York?"
    • Secuencia de salida de muestra: "No. Mantén el auto en casa".

modelos

El proceso de hacer que un modelo entrenado esté disponible para proporcionar predicciones a través de inferencia en línea o Inferencia sin conexión.

forma (tensor)

Es la cantidad de elementos en cada dimensión de un tensor. La forma se representa como una lista de números enteros. Por ejemplo: el siguiente tensor bidimensional tiene una forma de [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow usa el formato de fila mayor (estilo C) para representar el orden de dimensiones y por eso la forma en TensorFlow es [3,4] en lugar de [4,3] En otras palabras, en un Tensor de TensorFlow bidimensional, la forma es [número de filas, número de columnas].

Una forma estática es una forma de tensor que se conoce en el tiempo de compilación.

Una forma dinámica es desconocido en el tiempo de compilación y, por lo tanto, depende de los datos del entorno de ejecución. Este tensor podría representarse con una dimensión de marcador de posición en TensorFlow, como en [3, ?].

fragmento

#TensorFlow
#GoogleCloud

Es una división lógica del conjunto de entrenamiento o del modelo. Por lo general, algún proceso crea fragmentos al dividir los ejemplos o los parámetros en (por lo general) en fragmentos de igual tamaño. Luego, cada fragmento se asigna a una máquina diferente.

La fragmentación de un modelo se denomina paralelismo de modelos; la fragmentación de datos se denomina paralelismo de datos.

reducción

#df

Un hiperparámetro en potenciación de gradiente que controla sobreajuste. Contracción en el boosting del gradiente es análogo a la tasa de aprendizaje en descenso de gradientes. La reducción es un decimal entre 0.0 y 1.0. Un valor de contracción más bajo reduce el sobreajuste más que un valor de contracción más alto.

función sigmoidea

#fundamentals

Es una función matemática que “aplasta” un valor de entrada en un rango limitado, por lo general, de 0 a 1 o de -1 a +1. Es decir, puedes pasar cualquier número (dos, un millón, mil millones negativo, lo que sea) a una sigmoidea, y la salida seguirá estando en rango restringido. Un diagrama de la función de activación sigmoidea se ve de la siguiente manera:

Un gráfico curvo de dos dimensiones con valores de x que abarcan el dominio de menos infinito a positivo, mientras que los valores de y abarcan el rango de casi 0 a casi 1. Cuando x es 0, y es 0.5. La pendiente de la curva es siempre
          positivo, con la pendiente más alta en 0,0.5 y disminuyendo gradualmente
          pendientes a medida que aumenta el valor absoluto de x.

La función sigmoidea tiene varios usos en el aprendizaje automático, entre los que se incluyen los siguientes:

medida de similitud

#clustering

En los algoritmos de agrupamiento en clústeres, es la métrica que se usa para determinar qué tan parecidos (cuán similares) son dos ejemplos cualquiera.

un solo programa y varios datos (SPMD)

Es una técnica de paralelismo en la que se ejecuta el mismo procesamiento en diferentes datos de entrada en paralelo en diferentes dispositivos. El objetivo de SPMD es obtener resultados más rápido. Es el estilo más común de programación paralela.

invariancia de tamaño

#image

En un problema de clasificación de imágenes, la capacidad de un algoritmo para clasificar correctamente las imágenes, incluso cuando cambia el tamaño de la imagen. Por ejemplo: el algoritmo puede identificar una cat ya sea que consume 2 M o 200 000 píxeles. Ten en cuenta que incluso los mejores los algoritmos de clasificación de imágenes aún tienen límites prácticos sobre la invariancia de tamaño. Por ejemplo, es poco probable que un algoritmo (o persona) clasifique correctamente una imagen de gato que consuma solo 20 píxeles.

Consulta también Invariancia traslacional y invariancia rotacional.

esbozo

#clustering

En el aprendizaje automático no supervisado, una categoría de algoritmos que ejecutan un análisis preliminar de similitud de los ejemplos. Los algoritmos de esbozo usan una función de hash sensible a la localidad para identificar puntos que probablemente sean similares y luego juntarlos en agrupamientos.

El esbozo reduce el cómputo requerido para los cálculos de similitud en conjuntos de datos extensos. En lugar de calcular la similitud para cada par de ejemplos del conjunto de datos, se calcula la similitud solo para cada par de puntos dentro de cada bucket.

omitir-grama

#language

Un n-grama que puede omitir (o “omitir”) palabras del contexto original, lo que significa que las N palabras podrían no haber estado adyacentes originalmente. Más precisamente, un "n-gram con omisión de k" es un n-gram para el que se pueden haber omitido hasta k palabras.

Por ejemplo, "El Rápido Zorro" tiene los siguientes 2-gramas posibles:

  • "rápido"
  • “marrón rápido”
  • "brown fox"

Un "1-omitir-2-grama" es un par de palabras que tienen 1 palabra como máximo entre ellas. Por lo tanto, "el rápido zorro marrón" tiene los siguientes 1-omiten 2-gramas:

  • "el marrón"
  • "quick fox"

Además, todos los 2-gramas también son 1-omiten-2-gramas, ya que menos se podrá omitir más de una palabra.

Los Omitir gramas son útiles para entender mejor el contexto circundante de una palabra. En el ejemplo, "fox" se asoció directamente con la palabra "rápido" en el conjunto de 1-skip-2-gramas, pero no en el conjunto de 2-gramos.

Los saltos gramaticales ayudan a entrenar modelos de word embedding.

softmax

#fundamentals

Es una función que determina las probabilidades para cada clase posible en un modelo de clasificación de varias clases. Las probabilidades suman a exactamente 1.0. Por ejemplo, la siguiente tabla muestra cómo softmax distribuye varias probabilidades:

La imagen es... Probabilidad
perro 0,85
gato .13
caballo .02

Softmax también se denomina softmax completo.

Compara esto con el muestreo de candidatos.

Ajuste de indicaciones suaves

#language
#generativeAI

Es una técnica para ajustar un modelo de lenguaje extenso para una tarea en particular, sin un ajuste fino intensivo en recursos. En lugar de volver a entrenar todos los pesos del modelo, el ajuste de instrucciones suaves ajusta automáticamente una instrucción para lograr el mismo objetivo.

Dada una instrucción textual, el ajuste de instrucciones suaves suele adjuntar incorporaciones de tokens adicionales a la instrucción y usa la retropropagación para optimizar la entrada.

La fase "difícil" contiene tokens reales en lugar de incorporaciones de token.

atributo disperso

#language
#fundamentals

Un atributo cuyos valores son predominantemente cero o están vacíos. Por ejemplo, un atributo que contiene un solo valor de 1 y un millón de valores de 0 es escaso. En cambio, un atributo denso tiene valores que, en su mayoría, no son cero ni están vacíos.

En el aprendizaje automático, una cantidad sorprendente de atributos son atributos dispersos. Los atributos categóricos suelen ser atributos dispersos. Por ejemplo, de las 300 posibles especies de árboles en un bosque, un único ejemplo podrían identificar solo un árbol de arce. O bien, de los millones de videos posibles en una biblioteca de video, un solo ejemplo podría identificar solo "Casablanca".

En un modelo, normalmente representas atributos dispersos con codificación one-hot. Si la codificación one-hot es grande, puedes colocar una capa de incorporación sobre la codificación one-hot para obtener una mayor eficiencia.

representación dispersa

#language
#fundamentals

Almacenar solo las posiciones de elementos distintos de cero en un atributo disperso

Por ejemplo, supongamos que un atributo categórico llamado species identifica las 36 especies de árboles en un bosque en particular. Supón además que cada example identifica solo una especie.

Puedes usar un vector de un solo valor para representar las especies de árboles en cada ejemplo. Un vector one-hot contendría un único 1 (para representar la especie de árbol particular en ese ejemplo) y 35 0 (para representar la 35 especies de árboles no en ese ejemplo). La representación one-hot de maple podría verse de la siguiente manera:

Un vector en el que las posiciones 0 a 23 contienen el valor 0, posición
          24 contiene el valor 1, y las posiciones 25 a 35 tienen el valor 0.

Por otro lado, la representación dispersa simplemente identificaría la posición de la a una especie particular. Si maple está en la posición 24, entonces la representación dispersa de maple sería la siguiente:

24

Ten en cuenta que la representación dispersa es mucho más compacta que la one-hot la representación de un solo rol.

vector disperso

#fundamentals

Un vector cuyos valores son predominantemente cero. Consulta también dispersas atributo y dispersión.

dispersión

El número de elementos establecidos en cero (o nulo) en un vector o una matriz dividido por el número total de entradas en ese vector o matriz. Por ejemplo, considera una matriz de 100 elementos en la que 98 celdas contienen cero. El cálculo de la dispersión es el siguiente:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

La esparsidad de atributos se refiere a la esparsidad de un vector de atributos. La esparsidad del modelo se refiere a la esparsidad de los pesos del modelo.

reducción espacial

#image

Consulta reducción.

split

#df

En un árbol de decisión, otro nombre para una condition [estado].

divisor

#df

Mientras se entrena un árbol de decisión, la rutina (y algoritmo) responsables de encontrar la mejor condition en cada nodo.

SPMD

Abreviatura de programa único/varios datos.

pérdida de bisagra al cuadrado

Es el cuadrado de la pérdida de bisagra. La pérdida de bisagra al cuadrado penaliza a los valores atípicos de manera más severa que la pérdida de bisagra normal.

pérdida al cuadrado

#fundamentals

Es un sinónimo de pérdida de L2.

entrenamiento por etapas

#language

Una táctica para entrenar un modelo en una secuencia de etapas discretas. El objetivo puede ser acelerar el proceso de entrenamiento o lograr una mejor calidad del modelo.

A continuación, se muestra una ilustración del enfoque de apilamiento progresivo:

  • La etapa 1 contiene 3 capas ocultas, la etapa 2 contiene 6 capas ocultas y la etapa 3 contiene 12 capas ocultas.
  • La etapa 2 comienza el entrenamiento con los pesos aprendidos en las 3 capas ocultas. de la Etapa 1. En la etapa 3, se comienza el entrenamiento con los pesos que se aprendieron en los 6. capas ocultas de la etapa 2.

Tres etapas, etiquetadas como Etapa 1, Etapa 2 y Etapa 3.
          Cada etapa contiene un número diferente de capas: la etapa 1 contiene
          3 capas, la etapa 2 contiene 6 capas y la etapa 3 contiene 12 capas.
          Las 3 capas de la Etapa 1 se convierten en las primeras 3 capas de la Etapa 2.
          Del mismo modo, las 6 capas de la Etapa 2 se convierten en las primeras 6 capas de
          Etapa 3.

Consulta también encadenar.

state

#rl

En el aprendizaje por refuerzo, los valores de los parámetros que describen la configuración actual del entorno, que el agente usa para elegir una acción.

función de valor de estado-acción

#rl

Sinónimo de función Q.

static

#fundamentals

Algo hecho una vez en lugar de hacerlo continuamente. Los términos estático y sin conexión son sinónimos. Los siguientes son usos comunes de estático y sin conexión en máquinas aprendizaje:

  • El modelo estático (o modelo sin conexión) es un modelo entrenado una vez y, luego, se usó durante un tiempo.
  • El entrenamiento estático (o entrenamiento sin conexión) es el proceso de entrenar un para un modelo estático.
  • La inferencia estática (o inferencia sin conexión) es un proceso en el que un modelo genera un lote de predicciones a la vez.

Compara esto con los atributos dinámicos.

Inferencia estática

#fundamentals

Es un sinónimo de inferencia sin conexión.

estacionariedad

#fundamentals

Es un atributo cuyos valores no cambian en una o más dimensiones, por lo general, en el tiempo. Por ejemplo, un atributo cuyos valores parecen casi los mismos en 2021 y El 2023 exhibe estacionariedad.

En el mundo real, muy pocas características presentan estacionariedad. Incluso los atributos que son sinónimos de estabilidad (como el nivel del mar) cambian con el tiempo.

Compara esto con la no estacionariedad.

paso

Un paso hacia adelante y un paso hacia atrás de un lote.

Consulta retropropagación para obtener más información sobre el pase hacia adelante y el pase hacia atrás.

tamaño del paso

Sinónimo de tasa de aprendizaje.

descenso de gradientes estocástico (SGD)

#fundamentals

Un algoritmo de descenso de gradientes en el que el tamaño del lote es uno. En otras palabras, el SGD se entrena en un solo ejemplo elegido de forma uniforme al azar de un conjunto de entrenamiento.

stride

#image

En una operación convolucional o de reducción, el delta en cada dimensión de la siguiente serie de porciones de entrada. Por ejemplo, la siguiente animación muestra un paso (1,1) durante una operación de convolución. Por lo tanto, la siguiente porción de entrada comienza una posición a la derecha de la porción de entrada anterior. Cuando la operación llega al borde derecho, la siguiente porción está completamente a la izquierda, pero una posición hacia abajo.

Una matriz de entrada de 5 × 5 y un filtro convolucional de 3 × 3. Debido a que el
     stride es (1,1); se aplicará un filtro convolucional 9 veces. La primera porción convolucional evalúa la submatriz de 3 × 3 en la parte superior izquierda de la matriz de entrada. El segundo corte evalúa la submatriz 3 × 3 de la parte superior central. La tercera porción convolucional evalúa la 3x3 superior derecha
     submatriz.  El cuarto corte evalúa la submatriz 3 × 3 del medio izquierdo.
     La quinta porción evalúa la submatriz 3x3 del medio. La sexta porción
     evalúa la submatriz 3x3 del medio derecho. El séptimo corte evalúa la submatriz 3 × 3 de la parte inferior izquierda.  La octava porción evalúa la
     submatriz de 3x3 en la parte inferior central. La novena porción evalúa 3x3, la esquina inferior derecha
     submatriz.

En el ejemplo anterior, se muestra un stride bidimensional. Si la matriz de entrada es tridimensional, el paso también lo será.

minimización del riesgo estructural (SRM)

Un algoritmo que equilibra dos objetivos:

  • La necesidad de desarrollar el modelo más predictivo (por ejemplo, la pérdida más baja)
  • La necesidad de mantener el modelo lo más simple posible (por ejemplo, una regularización).

Por ejemplo, una función que minimice la pérdida+regularización en la es un algoritmo de minimización del riesgo estructural.

Compara esto con la minimización del riesgo empírico.

submuestreo

#image

Consulta reducción.

token de subpalabra

#language

En los modelos de lenguaje, un token que es un o la subcadena de una palabra, que puede ser la palabra completa.

Por ejemplo, una palabra como "detallar" podría dividirse en las partes "detallar" (una palabra raíz) y "izar" (un sufijo), cada una de las cuales está representada por su propio token. Dividir palabras poco comunes en esas partes, llamadas subpalabras, permite de lenguaje extensos para operar en las partes constituyentes más comunes de la palabra, como prefijos y sufijos.

Por el contrario, es posible que las palabras comunes, como "ir", no se dividan y se representen con un solo token.

resumen

#TensorFlow

En TensorFlow, un valor o conjunto de valores calculados a un nivel step, generalmente se usa para hacer un seguimiento de las métricas del modelo durante el entrenamiento.

aprendizaje automático supervisado

#fundamentals

Entrenar un modelo a partir de características y sus etiquetas correspondientes. El aprendizaje automático supervisado es análogo hasta aprender un tema mediante el estudio de un conjunto de preguntas y sus respuestas correspondientes. Después de dominar el mapeo entre preguntas y respuestas, el estudiante puede dar respuestas a preguntas nuevas (nunca antes vistas) preguntas sobre el mismo tema.

Compara esto con el aprendizaje automático no supervisado.

atributo sintético

#fundamentals

Es un atributo que no está presente entre los atributos de entrada, pero ensamblado a partir de uno o más de ellos. Métodos para crear atributos sintéticos incluyen lo siguiente:

  • Agrupamiento de un atributo continuo en discretizaciones de rango
  • Creación de una combinación de atributos
  • Multiplicación (o división) de un atributo por otros atributos o por sí mismo Por ejemplo, si a y b son atributos de entrada, el Estos son ejemplos de atributos sintéticos:
    • ab
    • a2
  • Aplicar una función trascendental al valor de un atributo Por ejemplo, si c es un atributo de entrada, los siguientes son ejemplos de atributos sintéticos:
    • sin(c)
    • ln(c)

Funciones creadas mediante la normalización o el escalamiento por sí solos no se consideran atributos sintéticos.

T

T5

#language

Un modelo de aprendizaje por transferencia de texto a texto introducido por La IA de Google en 2020. T5 es un modelo de codificador-decodificador que se basa en el una arquitectura de transformador, entrenada con un modelo de tu conjunto de datos. Es eficaz en una variedad de tareas de procesamiento de lenguaje natural, como generar texto, traducir idiomas y responder preguntas en de una manera coloquial.

El T5 recibe su nombre de las cinco T de “Transformador de transferencia de texto a texto”.

T5X

#language

Un framework de aprendizaje automático de código abierto diseñado para compilar y entrenar procesamiento de lenguaje natural a gran escala (PLN). T5 se implementa en la base de código T5X (que es compilada en JAX y Flax).

Q-learning tabular

#rl

En el aprendizaje por refuerzo, se implementa el aprendizaje Q con una tabla para almacenar las funciones Q para cada combinación de estado y acción.

objetivo

Sinónimo de etiqueta.

red de destino

#rl

En Deep Q-learning, una red neuronal que es un aproximación de la red neuronal principal, donde esta implementa una función Q o una política. Luego, puedes entrenar la red principal con los valores Q que predijo el objetivo en cada red. Así, evita el ciclo de retroalimentación que ocurre cuando la instancia principal la red se entrena con los valores Q que predijo por sí misma. Cuando se evita este tipo de comentarios, mejora la estabilidad del entrenamiento.

tarea

Un problema que se puede resolver con técnicas de aprendizaje automático, como las siguientes:

temperatura

#language
#image
#generativeAI

Un hiperparámetro que controla el grado de aleatoriedad del resultado de un modelo. Las temperaturas más altas generan resultados más aleatorios, mientras que las temperaturas más bajas generan resultados menos aleatorios.

La elección de la mejor temperatura depende de la aplicación específica y de las propiedades preferidas del resultado del modelo. Por ejemplo, probablemente aumente la temperatura cuando crees una aplicación que genera resultados creativos. Por el contrario, probablemente bajarías la temperatura cuando compilas un modelo que clasifica imágenes o texto para mejorar el la exactitud y coherencia del modelo.

La temperatura se suele usar con softmax.

datos temporales

Datos registrados en diferentes momentos. Por ejemplo, las ventas de abrigos de invierno registradas para cada día del año serían datos temporales.

Tensor

#TensorFlow

Es la estructura de datos principal en los programas de TensorFlow. Los tensores son de dimensión n (donde N podría ser muy grande) estructuras de datos, comúnmente escalares, vectores, o matrices. Los elementos de un tensor pueden tener valores enteros, de punto flotante o de una cadena de caracteres.

TensorBoard

#TensorFlow

Panel que muestra los resúmenes generados durante la ejecución de uno o más programas de TensorFlow.

TensorFlow

#TensorFlow

Una plataforma de aprendizaje automático distribuida a gran escala. El término también se refiere a la capa de API base en la pila de TensorFlow, que admite el procesamiento general en gráficos de flujo de datos.

Aunque TensorFlow se usa principalmente para el aprendizaje automático, también puedes usarlo para tareas que no sean de AA que requieran cálculos numéricos con grafos de flujo de datos.

TensorFlow Playground

#TensorFlow

Programa que visualiza cómo los diferentes hiperparámetros influyen en el entrenamiento del modelo (principalmente en las redes neuronales). Para probar TensorFlow Playground, visita http://playground.tensorflow.org.

TensorFlow Serving

#TensorFlow

Una plataforma para implementar modelos entrenados en producción.

Unidad de procesamiento tensorial (TPU)

#TensorFlow
#GoogleCloud

Un circuito integrado específico de la aplicación (ASIC) que optimiza el rendimiento de las cargas de trabajo de aprendizaje automático. Estos ASIC se implementan como Varios chips de TPU en un dispositivo de TPU.

Rango de tensor

#TensorFlow

Consulta rango (tensor).

Forma del tensor

#TensorFlow

Número de elementos que contiene un Tensor en distintas dimensiones. Por ejemplo, un tensor [5, 10] tiene una forma de 5 en una dimensión y de 10 en la otra.

tamaño de tensor

#TensorFlow

Cantidad total de escalares que contiene un Tensor. Por ejemplo, un [5, 10] El tensor tiene un tamaño de 50.

TensorStore

Una biblioteca para leer y escribir arrays multidimensionales grandes.

condición de rescisión

#rl

En el aprendizaje por refuerzo, las condiciones que determinan cuándo finaliza un episodio, como cuando el agente alcanza un estado determinado o supera una cantidad umbral de transiciones de estado. Por ejemplo, en tic-tac-toe (también conocidos como ceros y cruces), un episodio termina ya sea cuando un jugador tres espacios consecutivos o cuando todos los espacios están marcados.

prueba

#df

En un árbol de decisión, otro nombre para una condition [estado].

pérdida de prueba

#fundamentals

Una métrica que representa la pérdida de un modelo en comparación con el conjunto de prueba. Cuando creas un modelo, suele intentar minimizar la pérdida de prueba. Esto se debe a que una pérdida de prueba baja es un indicador de calidad más sólido que una pérdida de entrenamiento o una pérdida de validación baja.

En ocasiones, hay una gran brecha entre la pérdida de prueba y la pérdida de entrenamiento o validación. sugiere que debes aumentar la probabilidad tasa de regularización.

conjunto de prueba

Un subconjunto del dataset reservado para pruebas un modelo entrenado.

Tradicionalmente, se dividen los ejemplos en el conjunto de datos en los siguientes tres subconjuntos distintos:

Cada ejemplo de un conjunto de datos debe pertenecer a solo uno de los subconjuntos anteriores. Por ejemplo, un solo ejemplo no debe pertenecer al conjunto de entrenamiento ni al conjunto de prueba.

El conjunto de entrenamiento y el conjunto de validación están estrechamente vinculados al entrenamiento de un modelo. Debido a que el conjunto de prueba solo está asociado indirectamente con el entrenamiento, la pérdida de prueba es una métrica menos sesgada y de mayor calidad que la pérdida de entrenamiento o la pérdida de validación.

intervalo de texto

#language

El intervalo del índice del array asociado con una subsección específica de una cadena de texto. Por ejemplo, la palabra good en la cadena de Python s="Be good now" ocupa el intervalo de texto del 3 al 6.

tf.Example

#TensorFlow

Un estándar búfer de protocolo Sirve para describir los datos de entrada para el entrenamiento o la inferencia de modelos de aprendizaje automático.

tf.keras

#TensorFlow

Una implementación de Keras integrada en TensorFlow.

umbral (para árboles de decisión)

#df

En una condición alineada con el eje, es el valor con el que se compara una función. Por ejemplo, 75 es el valor del umbral en la siguiente condición:

grade >= 75

análisis de series temporales

#clustering

Subcampo del aprendizaje automático y la estadística que analiza datos temporales. Muchos tipos de aprendizaje automático problemas requieren un análisis de series temporales, que incluya clasificación, agrupamiento la previsión y la detección de anomalías. Por ejemplo, podrías usar Análisis de series temporales para prever las ventas futuras de abrigos de invierno por mes según los datos históricos de ventas.

paso de tiempo

#seq

Una celda “desenrollada” dentro de una red neuronal recurrente. Por ejemplo, en la siguiente figura, se muestran tres pasos de tiempo (etiquetados con los subíndices t-1, t y t+1):

Tres pasos de tiempo en una red neuronal recurrente. El resultado del primer paso de tiempo se convierte en la entrada del segundo paso de tiempo. El resultado
          del segundo paso en el tiempo se convierte en una entrada del tercer paso.

token

#language

En un modelo de lenguaje, es la unidad atómica con la que el modelo entrena y realiza predicciones. Por lo general, un token es uno de los siguientes:

  • una palabra, por ejemplo, la frase "perros como gatos" consta de tres palabras tokens: “dogs”, “like” y “cats”.
  • un carácter; por ejemplo, la frase "bike fish" consta de nueve tokens de carácter. (Ten en cuenta que el espacio en blanco cuenta como uno de los tokens).
  • subpalabras, en las que una sola palabra puede ser uno o varios tokens. Una subpalabra consta de una palabra raíz, un prefijo o un sufijo. Por ejemplo: un modelo de lenguaje que usa subpalabras como tokens podría ver la palabra “dogs” como dos tokens (la palabra raíz "dog" y el sufijo plural "s"). Lo mismo de lenguaje natural podrían ver la sola palabra “más alta” en dos subpalabras (el palabra raíz “tall” y el sufijo “er”).

En dominios fuera de los modelos de lenguaje, los tokens pueden representar otros tipos de unidades atómicas. Por ejemplo, en la visión artificial, un token puede ser un subconjunto de una imagen.

torre

Es un componente de una red neuronal profunda que es una red neuronal profunda. En algunos casos, cada torre lee de una fuente de datos independiente y esas torres permanecen independientes hasta que su salida se combina en una capa final. En otros casos (por ejemplo, en la torre de codificadores y decodificadores de muchos transformadores), las torres tienen conexiones cruzadas entre sí.

TPU

#TensorFlow
#GoogleCloud

Abreviatura de unidad de procesamiento tensorial.

chip TPU

#TensorFlow
#GoogleCloud

Un acelerador de álgebra lineal programable con memoria de alto ancho de banda en chip que está optimizado para las cargas de trabajo de aprendizaje automático. Varios chips de TPU se implementan en un dispositivo de TPU.

Dispositivo de TPU

#TensorFlow
#GoogleCloud

Una placa de circuito impreso (PCB) con varios chips TPU interfaces de red con alto ancho de banda y hardware de enfriamiento del sistema.

TPU principal

#TensorFlow
#GoogleCloud

Es el proceso de coordinación central que se ejecuta en una máquina anfitrión que envía y recibe datos, resultados, programas, información sobre el rendimiento y el estado del sistema a los trabajadores de TPU. El TPU principal también administra la configuración y el apagado de los dispositivos TPU.

Nodo TPU

#TensorFlow
#GoogleCloud

Un recurso de TPU en Google Cloud con un Tipo de TPU. El nodo TPU se conecta a tu Red de VPC de un red de VPC de intercambio de tráfico. Los nodos TPU son un recurso definido en la API de Cloud TPU.

pod de TPU

#TensorFlow
#GoogleCloud

Es una configuración específica de dispositivos de TPU en un centro de datos de Google. Todos los dispositivos de un pod de TPU se conectan entre sí a través de una red dedicada de alta velocidad. Un pod de TPU es la mayor configuración de Dispositivos de TPU disponibles para una versión específica de TPU.

recurso TPU

#TensorFlow
#GoogleCloud

Es una entidad de TPU en Google Cloud que creas, administras o consumes. Para Por ejemplo, los nodos TPU y los tipos de TPU son recursos de TPU.

Porción de TPU

#TensorFlow
#GoogleCloud

Una porción de TPU es una porción fraccionaria de los dispositivos de TPU en un Pod de TPU. Todos los dispositivos de una porción de TPU están conectados a través de una red dedicada de alta velocidad.

Tipo de TPU

#TensorFlow
#GoogleCloud

Es una configuración de uno o más dispositivos de TPU con una versión específica de hardware de TPU. Seleccionas un tipo de TPU cuando creas un nodo TPU en Google Cloud. Por ejemplo, un objeto v2-8 El tipo de TPU es un dispositivo único de TPU v2 con 8 núcleos. Un tipo de TPU v3-2048 tiene 256 con dispositivos TPU v3 conectados en red y un total de 2,048 núcleos. Los tipos de TPU son un recurso definidos en las API de Cloud TPU.

trabajador TPU

#TensorFlow
#GoogleCloud

Es un proceso que se ejecuta en una máquina anfitrión y en programas de aprendizaje automático. en dispositivos de TPU.

modelos

#fundamentals

Proceso de determinar los parámetros ideales (pesos y sesgos) que comprende un modelo. Durante el entrenamiento, un sistema lee ejemplos y ajusta los parámetros de forma gradual. El entrenamiento usa cada de unas cuantas veces a miles de millones de veces.

pérdida de entrenamiento

#fundamentals

Es una métrica que representa la pérdida de un modelo durante una iteración de entrenamiento en particular. Por ejemplo, supongamos que la función de pérdida es el error cuadrático medio. Quizás la pérdida de entrenamiento (la media (error cuadrático) para la 10.a iteración es 2.2, y la pérdida de entrenamiento para la iteración número 100 es 1.9.

Una curva de pérdida representa la pérdida de entrenamiento frente a la cantidad de iteraciones. Una curva de pérdida proporciona las siguientes sugerencias sobre el entrenamiento:

  • Una pendiente descendente implica que el modelo está mejorando.
  • Una pendiente ascendente indica que el modelo está empeorando.
  • Una pendiente plana implica que el modelo alcanzó la convergencia.

Por ejemplo, la siguiente curva de pérdidas algo idealizada muestra lo siguiente:

  • Una pendiente descendente pronunciada durante las iteraciones iniciales, lo que implica una mejora rápida del modelo.
  • Una pendiente que se aplana gradualmente (pero sigue hacia abajo) hasta cerca del final del entrenamiento, lo que implica una mejora continua del modelo a un ritmo un poco más lento que durante las iteraciones iniciales.
  • Una pendiente plana hacia el final del entrenamiento, lo que sugiere convergencia.

El gráfico de la pérdida de entrenamiento en comparación con las iteraciones. Esta curva de pérdidas comienza con una pendiente descendente pronunciada. La pendiente se aplana gradualmente hasta que
     la pendiente se vuelve cero.

Aunque la pérdida de entrenamiento es importante, consulta también la generalización.

desviación entre el entrenamiento y la entrega

#fundamentals

La diferencia entre el rendimiento de un modelo durante entrenamiento y el rendimiento del mismo modelo durante de publicación.

conjunto de entrenamiento

#fundamentals

Es el subconjunto del conjunto de datos que se usa para entrenar un modelo.

Tradicionalmente, los ejemplos del conjunto de datos se dividen en los siguientes tres subconjuntos distintos:

Idealmente, cada ejemplo del conjunto de datos debería pertenecer solo a uno de los subconjuntos anteriores. Por ejemplo, un solo ejemplo no debe pertenecer a el conjunto de entrenamiento y el de validación.

trayectoria

#rl

En el aprendizaje por refuerzo, es una secuencia de tuplas que representan una secuencia de transiciones de estado del agente, en la que cada tupla corresponde al estado, la acción, la recompensa y el estado siguiente de una transición de estado determinada.

aprendizaje por transferencia

Transferencia de información de una tarea de aprendizaje automático a otra Por ejemplo, en el aprendizaje multitarea, un solo modelo resuelve múltiples tareas, como un modelo profundo que tiene diferentes nodos de salida para diferentes tareas. El aprendizaje por transferencia puede implicar la transferencia de conocimientos desde la solución de una tarea más simple a una más compleja, o involucran transferir el conocimiento de una tarea en la que hay más datos a otra en la que hay menos datos.

La mayoría de los sistemas de aprendizaje automático resuelven una sola tarea. El aprendizaje por transferencia es un pequeño paso hacia la inteligencia artificial, en la que un solo programa puede resolver múltiples tareas.

Transformador

#language

Es una arquitectura de red neuronal desarrollada en Google que se basa en mecanismos de autoatención para transformar una secuencia de incorporaciones de entrada en una secuencia de incorporaciones de salida sin depender de convoluciones ni redes neuronales recurrentes. Un transformador puede ser como una pila de capas de autoatención.

Un transformador puede incluir cualquiera de los siguientes elementos:

Un codificador transforma una secuencia de incorporaciones en una secuencia nueva del la misma duración. Un codificador incluye N capas idénticas, cada una de las cuales contiene dos subcapas. Estas dos subcapas se aplican en cada posición de la entrada secuencia de incorporación, transformando cada elemento de la secuencia en un nuevo a través de la incorporación de texto. La primera subcapa del codificador agrega información de toda la secuencia de entrada. La segunda subcapa del codificador transforma la información agregada en una incorporación de salida.

Un decodificador transforma una secuencia de incorporaciones de entrada en una secuencia de incorporaciones de salida, posiblemente con una longitud diferente. Un decodificador también incluye N capas idénticas con tres subcapas, dos de las cuales son similares a la subcapas del codificador. La tercera subcapa del decodificador toma la salida de la y aplica el mecanismo de autoatención para recopilar información a partir de ellos.

La entrada de blog Transformer: A Novel Neural Network Architecture for Language Comprensión proporciona una buena introducción a Transformers.

invariancia traslacional

#image

En un problema de clasificación de imágenes, la capacidad de un algoritmo para clasificar imágenes de forma correcta incluso cuando cambia la posición de los objetos dentro de la imagen. Por ejemplo, el algoritmo aún puede identificar un perro, ya sea en el centro del marco o en el extremo izquierdo de este.

Consulta también la invariancia de tamaño y invariancia rotacional.

trigrama

#seq
#language

Un n-grama en el que n = 3.

verdadero negativo (VN)

#fundamentals

Ejemplo en el que el modelo predice correctamente la clase negativa. Por ejemplo, el modelo infiere que un mensaje de correo electrónico en particular no es spam y que realmente no es spam.

verdadero positivo (VP)

#fundamentals

Ejemplo en el que el modelo predice correctamente la clase positiva. Por ejemplo, el modelo infiere que un mensaje de correo electrónico en particular es spam, y ese mensaje en realidad es spam.

tasa de verdaderos positivos (TPR)

#fundamentals

Sinónimo de recuperación. Es decir:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

La tasa de verdaderos positivos es el eje Y en una curva ROC.

U

falta de conocimiento (sobre un atributo sensible)

#fairness

Situación en la que los atributos sensibles pero no en los datos de entrenamiento. Debido a que los atributos sensibles a menudo se correlacionan con otros atributos de los datos, un modelo entrenado sin conocimiento de un atributo sensible podría tener un impacto dispar con respecto a ese atributo o infringir otras restricciones de equidad.

subajuste

#fundamentals

Producir un modelo con una capacidad predictiva deficiente porque el modelo no haya capturado por completo la complejidad de los datos de entrenamiento. Muchos problemas pueden provocar subajuste, como

submuestreo

Quitar ejemplos de la clase mayoritaria en un conjunto de datos con desequilibrio de clases para crear un conjunto de entrenamiento más equilibrado

Por ejemplo, considera un conjunto de datos en el que la proporción de la clase mayoritaria a la clase minoritaria es de 20:1. Para superar este desequilibrio de clases, puedes crear un conjunto de entrenamiento que conste de todos los ejemplos de la clase minoritaria, pero solo una décima parte de los ejemplos de la clase mayoritaria, lo que crearía una proporción de clases del conjunto de entrenamiento de 2:1. Gracias al submuestreo, esto es más de entrenamiento equilibrado puede producir un modelo mejor. Como alternativa, este conjunto de entrenamiento más equilibrado podría contener ejemplos insuficientes para entrenar un modelo eficaz.

Compara esto con el muestreo excesivo.

unidireccional

#language

Es un sistema que solo evalúa el texto que antecede a una sección objetivo del texto. En cambio, un sistema bidireccional evalúa el texto que precede y sigue a una sección de texto objetivo. Consulta bidireccional para obtener más detalles.

modelo unidireccional de lenguaje

#language

Es un modelo de lenguaje que basa sus probabilidades solo en la Los tokens que aparecen antes, no después de los tokens de destino. Compara esto con el modelo bidireccional de lenguaje.

ejemplo sin etiqueta

#fundamentals

Un ejemplo que contiene atributos, pero no etiqueta. Por ejemplo, en la siguiente tabla se muestran tres ejemplos sin etiqueta de una casa de valoración, cada uno con tres atributos, pero sin valor de la casa:

Cantidad de dormitorios Cantidad de baños Antigüedad de la casa
3 2 15
2 1 72
4 2 34

En el aprendizaje automático supervisado, los modelos se entrenan con ejemplos etiquetados y hacen predicciones sobre ejemplos sin etiqueta.

En las estrategias semisupervisadas y el aprendizaje no supervisado, ejemplos sin etiqueta durante el entrenamiento.

Compara el ejemplo sin etiqueta con el ejemplo etiquetado.

aprendizaje automático no supervisado

#clustering
#fundamentals

Entrenar un modelo para encontrar patrones en un conjunto de datos, generalmente un sin etiquetar.

El uso más común del aprendizaje automático no supervisado Datos del clúster en grupos de ejemplos similares. Por ejemplo, una máquina no supervisada El algoritmo de aprendizaje puede agrupar canciones en función de distintas propiedades de la música. Los clústeres resultantes pueden convertirse en una entrada para otros algoritmos de aprendizaje automático (por ejemplo, para un servicio de recomendación de música). El agrupamiento puede ser útil cuando las etiquetas útiles son escasas o no existen. Por ejemplo, en dominios como la prevención del abuso y el fraude, los clústeres a los seres humanos a comprender mejor los datos.

Compara esto con el aprendizaje automático supervisado.

modelado del aumento

Una técnica de modelado, de uso general en marketing, que modela el "efecto causal" (también conocido como "impacto incremental") de un “tratamiento” en una "persona". A continuación, presentamos dos ejemplos:

  • Los médicos pueden usar el modelado de aumento para predecir la disminución de la mortalidad (efecto causal) de un procedimiento médico (tratamiento) según la edad y los antecedentes médicos de un paciente (individuo).
  • Los especialistas en marketing pueden usar el modelado de aumento para predecir el aumento en la probabilidad de una compra (efecto causal) debido a un anuncio (tratamiento) en una persona (individuo).

El modelado de aumento difiere de la clasificación o regresión en el sentido de que algunas etiquetas (por ejemplo, mitad de las etiquetas en tratamientos binarios) siempre faltan en el modelado de aumento. Por ejemplo, un paciente puede recibir o no un tratamiento. por lo tanto, solo podemos observar si el paciente va a sanar o no sanar solo en una de estas dos situaciones (pero nunca en ambas). La ventaja principal de un modelo de aumento es que puede generar predicciones de la situación no observada (lo contrafáctico) y utilizarlo para calcular el efecto causal.

subiendo la ponderación

Aplicación de un peso a una clase con reducción de muestreo igual al factor por el que se realizó la reducción de muestreo.

matriz de usuarios

#recsystems

En los sistemas de recomendación, un vector de incorporación generado por la factorización de matrices que contiene indicadores latentes sobre las preferencias de los usuarios. Cada fila de la matriz de usuario contiene información sobre la relación la intensidad de varias señales latentes para un solo usuario. Por ejemplo, considera un sistema de recomendación de películas. En este sistema, las señales latentes de la matriz de usuarios pueden representar el interés de cada usuario en géneros particulares o pueden ser señales más complicadas de interpretar que impliquen interacciones complejas entre múltiples factores.

La matriz de usuarios tiene una columna para cada atributo latente y una fila para cada usuario. Es decir, la matriz de usuarios tiene la misma cantidad de filas de la matriz objetivo que se factoriza. Por ejemplo, en un modelo de recomendación de películas para 1,000,000 de usuarios, la matriz de usuarios tendrá 1,000,000 de filas.

V

validación

#fundamentals

Es la evaluación inicial de la calidad de un modelo. La validación verifica la calidad de las predicciones de un modelo en función del conjunto de validación.

Debido a que el conjunto de validación difiere del conjunto de entrenamiento, ayuda a protegerte contra el sobreajuste.

Puedes pensar en evaluar el modelo con el conjunto de validación como la primera ronda de pruebas y evaluar el modelo con el conjunto de prueba como la segunda ronda de pruebas.

pérdida de validación

#fundamentals

Es una métrica que representa la pérdida de un modelo en el conjunto de validación durante una iteración de entrenamiento en particular.

Consulta también la curva de generalización.

conjunto de validación

#fundamentals

El subconjunto del dataset que realiza evaluación de un modelo entrenado. Por lo general, se evalúa el modelo entrenado con el conjunto de validación veces antes de evaluar el modelo con el conjunto de prueba.

Tradicionalmente, se dividen los ejemplos del conjunto de datos en las siguientes tres subconjuntos distintos:

Idealmente, cada ejemplo del conjunto de datos debería pertenecer solo a uno de los subconjuntos anteriores. Por ejemplo, un solo ejemplo no debe pertenecer al conjunto de entrenamiento ni al conjunto de validación.

Asignación de valores

El proceso de reemplazar un valor faltante por un sustituto aceptable. Cuando falta un valor, puedes descartar el ejemplo completo o podemos usar la asignación de valores para salvar el ejemplo.

Por ejemplo, considera un conjunto de datos que contiene un atributo temperature que es se debería grabar cada hora. Sin embargo, la lectura de la temperatura fue no disponible a una hora en particular. Esta es una sección del conjunto de datos:

Marca de tiempo Temperatura
1680561000 10
1680564600 12
1680568200 faltante
1680571800 20
1680575400 21
1680579000 21

Un sistema podría borrar el ejemplo faltante o imputar la temperatura faltante como 12, 16, 18 o 20, según el algoritmo de imputación.

problema de desvanecimiento del gradiente

#seq

La tendencia de los gradientes de las primeras capas ocultas de algunas redes neuronales profundas a volverse sorprendentemente planos (bajos). Los gradientes cada vez más bajos generan cambios cada vez más pequeños en los pesos de los nodos de una red neuronal profunda, lo que genera poco o ningún aprendizaje. Modelos que sufren el problema del gradiente desaparecido se vuelven difíciles o imposibles de entrenar. Las celdas de memoria a corto plazo de larga duración abordan este problema.

Compara con el problema de gradiente explosivo.

importancias de las variables

#df

Un conjunto de puntuaciones que indica la importancia relativa de cada una atributo al modelo.

Por ejemplo, considera un árbol de decisión que estime los precios de las casas. Supongamos que este árbol de decisión usa tres características: tamaño, edad y estilo. Si un conjunto de importancias variables de las tres funciones están calculadas para {size=5.8, age=2.5, style=4.7}, entonces el tamaño es más importante para árbol de decisión que la edad o el estilo.

Existen diferentes métricas de importancia de las variables, que pueden informar a los expertos en AA sobre diferentes aspectos de los modelos.

codificador automático variacional (VAE)

#language

Un tipo de autocodificador que aprovecha la discrepancia entre las entradas y las salidas para generar versiones modificadas de las entradas. Los codificadores automáticos variacionales son útiles para la IA generativa.

Los VAE se basan en la inferencia variacional: una técnica para estimar los parámetros de un modelo de probabilidad.

vector

Es un término muy sobrecargado cuyo significado varía según los diferentes campos matemáticos y científicos. Dentro del aprendizaje automático, un vector tiene dos propiedades:

  • Tipo de datos: los vectores en el aprendizaje automático suelen contener números de punto flotante.
  • Cantidad de elementos: Es la longitud o su dimensión del vector.

Por ejemplo, considera un vector de características que contiene ocho números de punto flotante. Este vector de atributos tiene una longitud o dimensión de ocho. Ten en cuenta que los vectores de aprendizaje automático suelen tener una gran cantidad de dimensiones.

Puedes representar muchos tipos diferentes de información como un vector. Por ejemplo:

  • Cualquier posición en la superficie de la Tierra se puede representar como una imagen vector, en el que una dimensión es la latitud y la otra es la longitud.
  • Los precios actuales de cada una de las 500 acciones se pueden representar como un vector de 500 dimensiones.
  • Una distribución de probabilidad sobre una cantidad finita de clases se puede representar como un vector. Por ejemplo, un de clasificación de clases múltiples que predice que uno de los tres colores de salida (rojo, verde o amarillo) podría generar el resultado vector (0.3, 0.2, 0.5) para que signifique P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Los vectores se pueden concatenar, por lo que se puede representar una variedad de medios diferentes como un solo vector. Algunos modelos operan directamente en la concatenación de muchas codificaciones one-hot.

Los procesadores especializados, como las TPU, están optimizados para realizar operaciones matemáticas en vectores.

Un vector es un tensor de rango 1.

W

Pérdida de Wasserstein

Una de las funciones de pérdida de uso general redes generativas adversarias, en función de la distancia que se moverá entre la distribución de datos generados y datos reales.

peso

#fundamentals

Es un valor que un modelo multiplica por otro. El entrenamiento es el proceso de determinar los pesos ideales de un modelo. La inferencia es el proceso de usar esas ponderaciones aprendidas para hacer predicciones.

mínimos cuadrados ponderados alternos (WALS, Weighted Alternating Least Squares)

#recsystems

Un algoritmo para minimizar la función objetivo durante la factorización de matrices en sistemas de recomendación, lo que permite una reducción de los pesos de los ejemplos faltantes. WALS minimiza el error cuadrático ponderado entre la matriz original y la reconstrucción al alternan entre fijar la factorización de filas y la de columnas. Cada una de estas optimizaciones puede resolverse con mínimos cuadrados optimización convexa. Para obtener más información, consulta el curso de Sistemas de recomendación.

suma ponderada

#fundamentals

La suma de todos los valores de entrada relevantes multiplicados por sus pesos correspondientes. Por ejemplo, supongamos que las entradas relevantes son las siguientes:

valor de entrada peso de entrada
2 −1.3
-1 0.6
3 0.4

Por lo tanto, la suma ponderada es la siguiente:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Una suma ponderada es el argumento de entrada de una función de activación.

modelo amplio

Un modelo lineal que generalmente tiene muchos atributos de entrada dispersos. Se hace referencia a este modelo como "amplio" porque se trata de un tipo especial de red neuronal con un alto número de entradas que se conectan directamente con el nodo de resultado. Los modelos amplios suelen ser más fáciles de depurar y de inspeccionar que los modelos profundos. Aunque los modelos amplios no puede expresar no linealidades a través de capas ocultas, los modelos amplios pueden usar transformaciones como combinación de atributos y agrupamiento en buckets para modelar no linealidades de diferentes maneras.

Compara esto con el modelo profundo.

ancho

Es la cantidad de neuronas en una capa particular de una red neuronal.

la sabiduría de la multitud

#df

La idea de que el promedio de las opiniones o estimaciones de un gran grupo de personas ("la multitud") suele producir resultados sorprendentemente buenos. Por ejemplo, considera un juego en el que las personas adivinan la cantidad de gomitas de gelatina que hay en un frasco grande. Aunque la mayoría de las conjeturas individuales serán imprecisas, se demostró empíricamente que el promedio de todas las conjeturas es sorprendentemente cercano a la cantidad real de gomitas de gelatina en el frasco.

Los Ensembles son un software análogo de la sabiduría de la multitud. Incluso si los modelos individuales realizan predicciones extremadamente inexactas, promediar las predicciones de muchos modelos suele generar predicciones correctas. Por ejemplo, aunque un individuo árbol de decisión puede hacer predicciones deficientes, un El bosque de decisiones a menudo realiza muy buenas predicciones.

incorporación de palabras

#language

Representar cada palabra en un conjunto de palabras dentro de un vector de incorporación es decir, representar cada palabra como un vector de valores de punto flotante entre 0.0 y 1.0. Palabras con similares significan representaciones más similares que las palabras con significados diferentes. Por ejemplo, las zanahorias, el apio y los pepinos tendrían representaciones relativamente similares, que serían muy diferentes de las representaciones de avión, lentes de sol y pasta dental.

X

XLA (álgebra lineal acelerada)

Compilador de aprendizaje automático de código abierto para GPU, CPU y aceleradores de AA.

El compilador XLA toma modelos de frameworks de AA populares, como PyTorch, TensorFlow y JAX, y los optimiza para la ejecución de alto rendimiento en diferentes plataformas de hardware, incluidas GPUs, CPUs y aceleradores de AA.

Z

aprendizaje sin ejemplos

Es un tipo de entrenamiento de aprendizaje automático en el que el modelo infiere una predicción para una tarea para la que no se entrenó específicamente. En otras palabras, al modelo no se le proporcionan ejemplos de entrenamiento específicos para la tarea, pero se le pide que realice una inferencia para esa tarea.

instrucción sin ejemplos

#language
#generativeAI

Una instrucción que no proporcione un ejemplo de cómo quieres el modelo grande de lenguaje para que responda. Por ejemplo:

Partes de una instrucción Notas
¿Cuál es la moneda oficial del país especificado? La pregunta que quieres que el LLM responda.
India: Es la consulta real.

El modelo de lenguaje extenso puede responder con cualquiera de las siguientes opciones:

  • Rupia
  • INR
  • Rupia hindú
  • La rupia
  • La rupia india

Todas las respuestas son correctas, aunque puede que prefieras un formato en particular.

Compara y contrasta la instrucción sin ejemplos con los siguientes términos:

Normalización de puntuación Z

#fundamentals

Es una técnica de ajuste que reemplaza un valor de atributo sin procesar por un valor de punto flotante que representa la cantidad de desviaciones estándar de la media de ese atributo. Por ejemplo, considera un atributo cuya media es 800 y cuya desviación estándar es 100. En la siguiente tabla, se muestra cómo la normalización de la puntuación Z asignaría el valor sin procesar a su puntuación Z:

Valor sin procesar Puntaje Z
800 0
950 +1.5
575 −2.25

Luego, el modelo de aprendizaje automático se entrena en las puntuaciones Z de esa característica en lugar de los valores sin procesar.