Glosario sobre aprendizaje automático

En este glosario se definen términos generales de aprendizaje automático, además términos específicos de TensorFlow.

A

ablación

Una técnica para evaluar la importancia de un atributo o componente mediante la eliminación temporal de un modelo. Luego, volver a entrenar el modelo sin ese atributo o componente, y si el modelo que se volvió a entrenar funciona mucho peor, entonces la función o el componente que se quitó no probablemente sea importante.

Por ejemplo, supongamos que entrenas un modelo de clasificación en 10 funciones y alcanza un 88% de precisión en la conjunto de prueba. Para verificar la importancia del primer atributo, puede volver a entrenarlo con solo los nueve atributos atributos. Si el modelo que se volvió a entrenar tiene un rendimiento mucho peor (por ejemplo, un 55% de precisión), entonces el atributo que se quitó probablemente era importante. Por el contrario, Si el modelo que se volvió a entrenar tiene el mismo rendimiento, es probable que ese atributo no es tan importante.

La ablación también puede ayudar a determinar la importancia de los siguientes elementos:

  • Componentes más grandes, como un subsistema completo de un sistema de AA más grande
  • Procesos o técnicas, como un paso de procesamiento previo de datos

En ambos casos, observarías cómo cambia el rendimiento del sistema (o no cambia) después de haber quitado el componente.

Pruebas A/B

Forma estadística de comparar dos (o más) técnicas: la A y la B. Por lo general, la A es una técnica existente, y B es una técnica nueva. Las pruebas A/B no solo determinan qué técnica tiene un mejor rendimiento sino también si la diferencia es estadísticamente significativa.

Por lo general, las pruebas A/B comparan una sola métrica con dos técnicas: Por ejemplo, ¿cómo se compara la exactitud del modelo para dos técnicas? Sin embargo, las pruebas A/B también pueden comparar cualquier cantidad finita de métricas.

chip acelerador

#GoogleCloud

Es una categoría de componentes de hardware especializados diseñados para realizar tareas para los algoritmos de aprendizaje profundo.

Los chips de acelerador (o simplemente aceleradores) pueden ser muy útiles Aumentar la velocidad y eficiencia de las tareas de inferencia y entrenamiento en comparación con una CPU de uso general. Son ideales para entrenar redes neuronales y tareas similares intensivas en términos de procesamiento.

Estos son algunos ejemplos de chips aceleradores:

  • Unidades de procesamiento tensorial (TPU) de Google con hardware dedicado para el aprendizaje profundo.
  • las GPU de NVIDIA que, aunque inicialmente se diseñaron para el procesamiento están diseñadas para habilitar el procesamiento paralelo, que puede y aumentar la velocidad de procesamiento.

exactitud

#fundamentals

La cantidad de predicciones de clasificación correctas divididas por la cantidad total de predicciones. Es decir:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Por ejemplo, un modelo que realizó 40 predicciones correctas y 10 incorrectas predicciones tendrían la siguiente exactitud:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La clasificación binaria proporciona nombres específicos para las diferentes categorías de predicciones correctas y predicciones incorrectas Entonces, la fórmula de exactitud de la clasificación binaria es la siguiente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Donde:

Compara y contrasta la exactitud con precisión y recuperación.

acción

#rl

En el aprendizaje por refuerzo el mecanismo mediante el cual el agente las transiciones entre estados de la entorno. El agente elige la acción mediante un política.

función de activación

#fundamentals

Es una función que permite que las redes neuronales aprendan Relaciones no lineales (complejas) entre atributos y la etiqueta.

Estas son algunas de las funciones de activación más populares:

Los diagramas de funciones de activación nunca tienen líneas rectas simples. Por ejemplo, el diagrama de la función de activación ReLU consta de dos líneas rectas:

Representación cartesiana de dos líneas. La primera línea tiene una constante
          y de 0, que se extiende a lo largo del eje x de -infinity,0 a 0,-0.
          La segunda línea comienza en 0,0. Esta línea tiene una pendiente de +1, de modo que
          va de 0,0 a +infinito,+infinito.

Un diagrama de la función de activación sigmoidea se ve de la siguiente manera:

Un diagrama curvo bidimensional con valores x que abarcan el dominio
          -infinity a +positivo, mientras que los valores y abarcan el rango casi 0 a
          casi 1. Cuando x es 0, y es 0.5. La pendiente de la curva es siempre
          positivo, con la pendiente más alta en 0,0.5 y disminuyendo gradualmente
          pendientes a medida que aumenta el valor absoluto de x.

aprendizaje activo

Un enfoque de capacitación en el que el algoritmo elige algunos de los datos de los que aprende. Aprendizaje activo es particularmente valiosa cuando los ejemplos etiquetados son escasos o costosos de obtener. En lugar de buscar a ciegas a una diversidad rango de ejemplos etiquetados, un algoritmo de aprendizaje activo busca al rango particular de ejemplos que necesita para el aprendizaje.

AdaGrad

Es un algoritmo de descenso de gradientes sofisticado que reajusta la gradientes de cada parámetro y le otorgan a cada uno una tasa de aprendizaje independiente Para obtener una explicación completa, consulta este informe de AdaGrad.

agente

#rl

En el aprendizaje por refuerzo la entidad que usa un política para maximizar el retorno esperado obtenido de transición entre estados de la entorno.

En términos más generales, un agente es un software que planifica y ejecuta de forma autónoma una una serie de acciones en pos de un objetivo, con la capacidad de adaptarse a los cambios en su entorno. Por ejemplo, un agente basado en LLM podría usar un LLM para generar un plan, en lugar de aplicar una política de aprendizaje por refuerzo.

agrupamiento aglomerado

#clustering

Consulta agrupamiento en clústeres jerárquico.

detección de anomalías

Es el proceso de identificación de valores atípicos. Por ejemplo, si la media para un atributo determinado es 100 con una desviación estándar de 10, la detección de anomalías debe marcar el valor 200 como sospechoso.

AR

Abreviatura de realidad aumentada.

área bajo la curva PR

Consulta el AUC (área bajo la curva PR).

área bajo la curva ROC

Consulta AUC (área bajo la curva ROC).

inteligencia artificial general

Es un mecanismo no humano que demuestra una amplia variedad de resolución de problemas. la creatividad y la adaptabilidad. Por ejemplo, un programa que demuestra imágenes inteligencia general podía traducir texto, componer sinfonías y destacarse en juegos que aún no se inventaron.

inteligencia artificial

#fundamentals

Un programa o modelo no humano que puede resolver tareas sofisticadas. Por ejemplo, un programa o modelo que traduce texto o un programa o modelo que identifica enfermedades a partir de imágenes radiológicas en las que se usa inteligencia artificial.

De manera formal, el aprendizaje automático es un subcampo de la inteligencia artificial. Sin embargo, en los últimos años, algunas organizaciones han comenzado a utilizar el inteligencia artificial y aprendizaje automático.

Attention,

#language

Es un mecanismo utilizado en una red neuronal que indica la importancia de una palabra o parte de una palabra en particular. La atención comprime la cantidad de información que un modelo necesita para predecir el siguiente token o palabra. Un mecanismo de atención típico puede consistir en un suma ponderada sobre un conjunto de entradas, en las que peso para cada entrada se calcula mediante otra parte de la de una red neuronal prealimentada.

Consulta también la autoatención y la autoatención de varios cabezales, que son las componentes básicos de Transformers.

atributo

#fairness

Sinónimo de atributo.

En la equidad del aprendizaje automático, los atributos se refieren a de los individuos.

muestreo de atributos

#df

Una táctica para entrenar un bosque de decisiones en el que cada El árbol de decisión considera solo un subconjunto aleatorio de posibles features cuando aprendes la condición. En general, se muestrea un subconjunto diferente de atributos para cada nodo. En cambio, cuando se entrena un árbol de decisiones sin el muestreo de atributos, se consideran todos los atributos posibles para cada nodo.

AUC (área bajo la curva ROC)

#fundamentals

Un número entre 0.0 y 1.0 que representa un modelo de clasificación binaria capacidad para separar las clases positivas de clases negativas. Cuanto más cerca esté el AUC a 1.0, mejor será la capacidad del modelo para separarse clases entre sí.

Por ejemplo, en la siguiente ilustración se muestra un modelo clasificador que separa las clases positivas (óvalos verdes) de las negativas (rectángulos violetas) perfectamente. Este modelo irrealmente perfecto tiene un AUC de 1.0:

Una recta numérica con 8 ejemplos positivos en un lado y
          9 ejemplos negativos del otro lado.

Por el contrario, la siguiente ilustración muestra los resultados para un clasificador que generó resultados aleatorios. Este modelo tiene un AUC de 0.5:

Una recta numérica con 6 ejemplos positivos y 6 ejemplos negativos.
          La secuencia de ejemplos es positiva, negativa
          positivo, negativo, positivo, negativo, positivo, negativo, positivo
          como positivas, negativas, positivas y negativas.

Sí, el modelo anterior tiene un AUC de 0.5, no de 0.0.

La mayoría de los modelos están en algún punto entre los dos extremos. Por ejemplo, el siguiente modelo separa de algún modo positivos de negativos y, por lo tanto, tiene un AUC entre 0.5 y 1.0:

Una recta numérica con 6 ejemplos positivos y 6 ejemplos negativos.
          La secuencia de ejemplos es negativa, negativa, negativa, negativa,
          positivo, negativo, positivo, positivo, negativo, positivo,
          positivo.

El AUC ignora cualquier valor que establezcas umbral de clasificación. En cambio, el AUC considera todos los umbrales de clasificación posibles.

realidad aumentada

#image

Tecnología que superpone una imagen generada por computadora en la vista de un usuario de el mundo real y así proporcionar una vista compuesta.

codificador automático

#language
#image

Un sistema que aprende a extraer la información más importante del entrada. Los codificadores automáticos son una combinación de un codificador y decodificador. Los codificadores automáticos se basan en el siguiente proceso de dos pasos:

  1. El codificador asigna la entrada a una imagen de baja dimensión (intermedio).
  2. El decodificador compila una versión con pérdida de la entrada original asignando el formato de menor dimensión al formato de mayor dimensión original formato de entrada de texto.

Los codificadores automáticos se entrenan de extremo a extremo haciendo que el decodificador intente reconstruir la entrada original del formato intermedio del codificador de la mejor manera posible. Debido a que el formato intermedio es más pequeño (menor dimensión) que el formato original, el codificador automático se fuerza saber qué información de la entrada es esencial y la salida sean perfectamente idénticos a la entrada.

Por ejemplo:

  • Si los datos de entrada son un gráfico, la copia no exacta sería similar a el gráfico original, pero un poco modificado. Quizás el la copia no exacta elimina el ruido del gráfico original o rellena faltan algunos píxeles.
  • Si los datos de entrada son texto, un codificador automático generaría texto nuevo que imita (pero no es igual) al texto original

Consulta también los codificadores automáticos variacionales.

sesgo de automatización

#fairness

Cuando una persona encargada de tomar decisiones favorece las recomendaciones de una solución de toma de decisiones basada en información tomada sin automatización, incluso cuando el sistema automatizado de toma de decisiones comete errores.

AutoML

Cualquier proceso automatizado para desarrollar el aprendizaje automático modelos. AutoML puede realizar automáticamente tareas como las siguientes:

AutoML es útil para los científicos de datos porque puede ahorrarles tiempo y esfuerzo en desarrollar canalizaciones de aprendizaje automático y mejorar la predicción exactitud. También es útil para los inexpertos, ya que dificulta que las tareas de aprendizaje automático sean más accesibles para ellos.

modelo de regresión automático

#language
#image
#generativeAI

Un modelo que infiere una predicción en función de sus propias predicciones anteriores predicciones. Por ejemplo, los modelos de lenguaje autorregresivos predicen la siguiente token basado en los tokens predichos anteriormente. Todos los modelos basados en Transformer Los modelos grandes de lenguaje son autorregresivos.

En cambio, los modelos de imagen basados en GAN no suelen ser autoregresivos. ya que generan una imagen en una sola pasada y no iterativamente pasos. Sin embargo, ciertos modelos de generación de imágenes son autorregresivos porque generan una imagen en pasos.

pérdida auxiliar

Una función de pérdida, que se usa junto con un Principal del modelo de la red neuronal función de pérdida de datos, que ayuda a acelerar el entrenamiento durante el iteraciones iniciales, cuando los pesos se inicializan de forma aleatoria.

Las funciones de pérdida auxiliares envían gradientes eficaces a las capas anteriores. Esto facilita convergencia durante el entrenamiento para combatir el problema de gradiente de fuga.

precisión promedio

Es una métrica para resumir el rendimiento de una secuencia clasificada de resultados. La precisión promedio se calcula tomando el promedio de la precisión para cada resultado relevante (cada resultado en (la lista clasificada en la que la recuperación aumenta en relación con el resultado anterior)

Consulta también el área bajo la curva PR.

condición de alineación al eje

#df

En un árbol de decisión, una condición que incluye un solo atributo. Por ejemplo, si el área es un atributo, la siguiente es una condición alineada con los ejes:

area > 200

Compara esto con la condición oblicua.

B

propagación inversa

#fundamentals

El algoritmo que implementa descenso de gradientes en redes neuronales.

Entrenar una red neuronal implica muchas iteraciones del siguiente ciclo de dos pasos:

  1. Durante el movimiento de avance, el sistema procesa un lote de ejemplos para generar predicciones. El sistema compara cada predicción a cada valor de label. La diferencia entre la predicción y el valor de la etiqueta es la pérdida de ese ejemplo. El sistema agrega las pérdidas de todos los ejemplos para calcular el total para el lote actual.
  2. Durante el retroceso (propagación inversa), el sistema reduce la pérdida en ajustar los pesos de todas las neuronas de todos los capas ocultas.

Las redes neuronales a menudo contienen muchas neuronas en muchas capas ocultas. Cada una de esas neuronas contribuye a la pérdida general de diferentes maneras. La propagación inversa determina si se deben aumentar o disminuir los pesos. aplicarse a neuronas particulares.

La tasa de aprendizaje es un multiplicador que controla el grado en el que cada salto hacia atrás aumenta o disminuye cada peso. Una tasa de aprendizaje alta aumentará o disminuirá cada peso más de un baja tasa de aprendizaje.

En términos de cálculo, la propagación inversa implementa la regla de la cadena. del cálculo. Es decir, la propagación inversa calcula el derivada parcial del error con con respecto a cada parámetro.

Hace años, los profesionales del AA tuvieron que escribir código para implementar la propagación inversa. Las APIs de AA modernas, como TensorFlow, ahora implementan la propagación inversa por ti. ¡Vaya!

embolsado

#df

Un método para entrenar un ensamble, en el que cada el modelo constituyente se entrena en un subconjunto aleatorio de entrenamiento ejemplos muestreados con reemplazo. Por ejemplo, un bosque aleatorio es una colección árboles de decisión entrenados con el empaquetado.

El término bagging es la forma abreviada en inglés de sootstrap aggreinging.

bolsa de palabras

#language

Una representación de las palabras de una frase o pasaje independientemente del orden. Por ejemplo, una bolsa de palabras representa la después de tres frases de manera idéntica:

  • el perro salta
  • salta el perro
  • perro salta el

Cada palabra se asigna a un índice en un vector disperso, donde tiene un índice para cada palabra del vocabulario. Por ejemplo: la frase el perro salta se asigna a un vector de atributos con un valor distinto de cero en los tres índices correspondientes a las palabras the, dog y saltos. El valor distinto de cero puede ser cualquiera de los siguientes:

  • Un 1 para indicar la presencia de una palabra.
  • Un recuento de la cantidad de veces que una palabra aparece en la bolsa. Por ejemplo: si la frase fuera el perro granate es un perro con pelaje granate, ambas maroon y perro se representarían con un 2, mientras que las otras palabras se represente con 1.
  • Algún otro valor, como el logaritmo de la cantidad de veces que una palabra aparece en la bolsa.

modelo de referencia

modelo que se usa como punto de referencia para comparar qué tan bien otro (por lo general, uno más complejo). Por ejemplo, un un modelo de regresión logística un buen modelo de referencia para un modelo profundo.

Para un problema en particular, el modelo de referencia ayuda a los desarrolladores de modelos a cuantificar El rendimiento mínimo esperado que el modelo nuevo debe lograr para el modelo nuevo. para que el modelo sea útil.

lote

#fundamentals

Es el conjunto de ejemplos usado en una capacitación. iteración. El tamaño del lote determina la cantidad de ejemplos en una por lotes.

Consulta época para obtener una explicación de cómo se relaciona un lote con un ciclo de entrenamiento.

inferencia por lotes

#TensorFlow
#GoogleCloud

El proceso de inferir predicciones en varios los ejemplos sin etiqueta divididos en categorías o subconjuntos (“lotes”).

La inferencia por lotes puede aprovechar los atributos de paralelización de chips aceleradores. Es decir, varios aceleradores pueden inferir de forma simultánea predicciones en diferentes lotes de datos de ejemplo, lo que aumenta drásticamente la cantidad de inferencias por segundo.

normalización por lotes

Normaliza la entrada o salida de la funciones de activación capa oculta. La normalización por lotes puede proporcionan los siguientes beneficios:

tamaño del lote

#fundamentals

La cantidad de ejemplos en un lote. Por ejemplo, si el tamaño del lote es 100, el modelo procesa 100 ejemplos por iteración.

Las siguientes son estrategias populares de tamaño de lote:

  • Descenso de gradientes estocástico (SGD), en el que el tamaño del lote es 1.
  • Lote completo, donde el tamaño del lote es la cantidad de ejemplos en todo el conjunto de entrenamiento. Por ejemplo, si el conjunto de entrenamiento contiene un millón de ejemplos, el tamaño del lote sería de un millón ejemplos. Por lo general, el lote completo es una estrategia ineficaz.
  • minilote en el que el tamaño del lote suele estar entre 10 y 1,000. Por lo general, la estrategia más eficiente es el minilote.

red neuronal bayesiana

Una red neuronal probabilística que representa incertidumbre en pesos y resultados. Una red neuronal estándar el modelo de regresión generalmente predice un valor escalar. Por ejemplo, un modelo estándar predice el precio de una casa de 853,000. Por el contrario, una red neuronal bayesiana predice una distribución de valores; Por ejemplo, un modelo bayesiano predice el precio de una casa en 853,000 con una desviación estándar de 67,200.

Una red neuronal bayesiana se basa en Bayes Teorema para calcular incertidumbres en pesos y predicciones. Una neurona bayesiana red puede ser útil cuando es importante cuantificar la incertidumbre, como en relacionados con la industria farmacéutica. Las redes neuronales Bayesianas también pueden ayudar evitar el sobreajuste.

Optimización bayesiana

Un modelo de regresión probabilística técnica para optimizar costos en términos de procesamiento funciones objetivo si, en cambio, se optimiza un subrogado que cuantifica la incertidumbre con una técnica de aprendizaje bayesiano. Desde La optimización bayesiana es muy costosa y, por lo general, se usa tareas costosas de evaluar que tienen un número pequeño de parámetros, como seleccionar hiperparámetros.

Ecuación de Bellman

#rl

En el aprendizaje por refuerzo, la siguiente identidad satisfecha con la Función Q:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Esto se aplica a los algoritmos de aprendizaje por refuerzo. identidad para crear Q-learning a través de la siguiente regla de actualización:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Más allá del aprendizaje por refuerzo, la ecuación de Bellman tiene aplicaciones para la programación dinámica. Consulta la Entrada de Wikipedia sobre la ecuación de Bellman.

BERT (codificador bidireccional Representaciones de transformadores)

#language

Una arquitectura de modelo para la representación de texto. Un profesional El modelo BERT puede actuar como parte de un modelo más grande para la clasificación de texto o otras tareas de AA.

BERT tiene las siguientes características:

Entre las variantes de BERT, se incluyen las siguientes:

Consulta Código abierto de BERT: Entrenamiento previo de vanguardia para Natural Language Procesando para obtener una descripción general de BERT.

sesgo (ética/equidad)

#fairness
#fundamentals

1. Los estereotipos, los prejuicios o el favoritismo hacia cosas, personas o grupos por sobre otros. Estos sesgos pueden afectar la recopilación y interpretación de datos, el diseño de un sistema y la forma en que los usuarios interactúan con un sistema. Estas son algunas formas de este sesgo:

2. Error sistemático debido a un procedimiento de muestreo o de elaboración de informes. Estas son algunas formas de este sesgo:

No se debe confundir con el término sesgo en los modelos de aprendizaje automático. o sesgo de predicción.

sesgo (matemático) o término de sesgo

#fundamentals

Una intersección o desplazamiento desde un origen. El sesgo es un parámetro en de aprendizaje automático, que se simboliza con lo siguiente:

  • a
  • w0

Por ejemplo, el sesgo es la b en la siguiente fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En una línea bidimensional simple, sesgo solo significa "intercepción y". Por ejemplo, la compensación de la línea en la siguiente ilustración es 2.

La representación de una línea con una pendiente de 0.5 y un sesgo (intersección y) de 2.

El sesgo existe porque no todos los modelos comienzan desde el origen (0,0). Por ejemplo: supongamos que la entrada a un parque de diversiones cuesta 2 euros y una EUR 0.5 por cada hora de estadía de un cliente. Por lo tanto, un modelo que asigne los el costo total tiene un sesgo de 2 porque el costo más bajo es de 2 euros.

El sesgo no debe confundirse con el sesgo en ética y equidad. o sesgo de predicción.

bidireccional

#language

Término usado para describir un sistema que evalúa el texto que antecede y sigue una sección objetivo del texto. Por el contrario, un Solo para el sistema unidireccional Evalúa el texto que antecede a una sección objetivo del texto.

Por ejemplo, considera un modelo de lenguaje enmascarado que debes determinar las probabilidades de la palabra o las palabras que representan el subrayado en la siguiente pregunta:

¿Qué es _____ con usted?

Un modelo unidireccional de lenguaje tendría que basar solo sus probabilidades. según el contexto proporcionado por las palabras “qué”, “es” y “el”. En cambio, un modelo bidireccional de lenguaje también podría adquirir contexto a partir de "with" y "ustedes", lo que podría ayudar al modelo a generar mejores predicciones.

modelo bidireccional de lenguaje

#language

Un modelo de lenguaje que determina la probabilidad de que un token determinado está presente en una ubicación determinada en un extracto de texto basado en al texto anterior y siguiente.

bigrama

#seq
#language

n-grama en el cual n=2.

clasificación binaria

#fundamentals

Un tipo de tarea de clasificación que que predice una de dos clases mutuamente excluyentes:

Por ejemplo, cada uno de los siguientes dos modelos de aprendizaje automático realiza Clasificación binaria:

  • Un modelo que determina si los mensajes de correo electrónico spam (la clase positiva) o no es spam (la clase negativa).
  • Un modelo que evalúa síntomas médicos para determinar si una persona tiene una enfermedad específica (la clase positiva) o no tiene esa enfermedad (clase negativa).

Compara esto con la clasificación de clases múltiples.

Consulta también regresión logística y umbral de clasificación.

condición binaria

#df

En un árbol de decisión, una condición que solo tiene dos resultados posibles, que suele ser o no. Por ejemplo, la siguiente es una condición binaria:

temperature >= 100

Compara esto con la condición no binaria.

discretización

Sinónimo de agrupamiento.

BLEU (Bilingual Evaluation Understudy)

#language

Una puntuación entre 0.0 y 1.0 inclusive, que indica la calidad de una traducción entre dos idiomas humanos (por ejemplo, entre inglés y ruso). Un BLEU una puntuación de 1.0 indica una traducción perfecta; una puntuación BLEU de 0.0 indica una Pésima traducción.

potencia

Es una técnica de aprendizaje automático que combina iterativamente un conjunto de clasificadores poco precisos (denominados clasificadores “débiles”) en una clasificador con alta precisión (un clasificador “fuerte”), al aumenta la ponderación de los ejemplos en los que el modelo se encuentra actualmente. la clasificación errónea.

cuadro de límite

#image

En una imagen, las coordenadas (x, y) de un rectángulo alrededor de un área de interés, como el perro de la imagen de abajo.

Fotografía de un perro sentado en un sofá Un cuadro delimitador verde
          con coordenadas superior izquierda de (275, 1271) y esquina inferior derecha
          coordenadas de (2954, 2761) circunscribe el cuerpo del perro

emisión

Expansión de la forma de un operando en una operación matemática de matrices a dimensions compatibles para esa operación. Por ejemplo: el álgebra lineal requiere que los dos operandos en una operación de suma matriz deben tener las mismas dimensiones. Por lo tanto, no puedes agregar una matriz de forma (m, n) a un vector de longitud n. La transmisión permite esta operación mediante expandiendo virtualmente el vector de longitud n a una matriz de forma (m, n) que replican los mismos valores en cada columna.

Por ejemplo, dadas las siguientes definiciones, el álgebra lineal prohíbe A+B porque A y B tienen dimensiones diferentes:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Sin embargo, la transmisión permite la operación A+B expandiendo virtualmente B a:

 [[2, 2, 2],
  [2, 2, 2]]

Por lo tanto, A+B ahora es una operación válida:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Consulta la siguiente descripción de transmitir en NumPy para obtener más detalles.

Agrupamiento

#fundamentals

Conversión de un solo atributo en varios atributos binarios llamados buckets o bins normalmente se basa en un rango de valores. La característica cortada suele ser atributo continuo.

Por ejemplo, en lugar de representar la temperatura como una sola punto flotante continuo, puedes cortar rangos de temperatura en buckets discretos, como los siguientes:

  • <= 10 grados Celsius sería la temperatura "frío" bucket.
  • De 11 a 24 grados Celsius sería la temperatura “templada” bucket.
  • >= 25 grados Celsius sería la temperatura "templado" bucket.

El modelo tratará todos los valores en el mismo bucket de la misma manera. Para ejemplo, los valores 13 y 22 están en el bucket templado, por lo que modelo trata los dos valores de la misma manera.

C

capa de calibración

Un ajuste posterior a la predicción, generalmente para dar cuenta de sesgo de predicción. Las predicciones ajustadas y probabilidades deben coincidir con la distribución de un conjunto observado de etiquetas.

generación de candidatos

#recsystems

Es el conjunto inicial de recomendaciones elegidas por una sistema de recomendación. Por ejemplo, considera un librería que ofrece 100,000 títulos. La fase de generación de candidatos crea una lista mucho más pequeña de libros adecuados para un usuario en particular, digamos 500. Pero incluso 500 libros son demasiados para recomendar a un usuario. Las entradas posteriores, son más costosas fases de un sistema de recomendación (como la puntuación y reclasificación) reducen esos 500 a un valor mucho menor conjunto de recomendaciones más útil.

muestreo de candidatos

Optimización del entrenamiento que calcula la probabilidad de todos los positivos usando, por ejemplo, softmax, pero solo para un muestra de etiquetas negativas. Por ejemplo, dado un ejemplo etiquetado beagle y dog, el muestreo de candidatos calcula las probabilidades previstas. y los términos de pérdida correspondientes para:

  • beagle
  • perro
  • un subconjunto aleatorio de las clases negativas restantes (por ejemplo, cat, lollipop, valla).

La idea es que el clases negativas pueden aprender con menos frecuencia refuerzo negativo siempre que clases positivas siempre obtienen resultados positivos con refuerzo y, de hecho, esto se observa de forma empírica.

El muestreo de candidatos es más eficiente desde el punto de vista informático que los algoritmos de entrenamiento. que procesan predicciones para todas las clases negativas, en especial, cuando la cantidad de clases negativas es muy grande.

datos categóricos

#fundamentals

Son atributos que tienen un conjunto específico de valores posibles. Por ejemplo: considera un atributo categórico llamado traffic-light-state, que solo puede tener uno de estos tres valores posibles:

  • red
  • yellow
  • green

Con la representación de traffic-light-state como un atributo categórico, un modelo puede aprender impactos diferentes de red, green y yellow en el comportamiento del conductor

A veces, los atributos categóricos se denominan atributos discretos.

Compara esto con los datos numéricos.

modelo de lenguaje causal

#language

Sinónimo de modelo de lenguaje unidireccional.

Consulta el modelo de lenguaje bidireccional para contrastar diferentes enfoques direccionales en el modelado de lenguaje.

centroid

#clustering

El centro de un clúster determinado por una k-means o k-median. Por ejemplo, si k es 3, entonces el algoritmo k-means o k-median encuentra 3 centroides.

agrupamiento en clústeres basado en centroides

#clustering

Es una categoría de algoritmos de agrupamiento en clústeres que organiza los datos. en clústeres no jerárquicos. k-means es el método usamos el algoritmo de agrupamiento en clústeres basado en centroides.

Compara esto con el agrupamiento en clústeres jerárquico. con algoritmos criptográficos eficaces.

cadena de pensamientos

#language
#generativeAI

Una técnica de ingeniería de instrucciones que fomenta un modelo de lenguaje grande (LLM) para explicar su el razonamiento, paso a paso. Por ejemplo, considera el siguiente mensaje, pagar atención especial a la segunda oración:

¿Cuántas fuerzas g experimentaría un conductor en un automóvil que va de 0 a 60? millas por hora en 7 segundos? En la respuesta, muestra todos los cálculos relevantes.

La respuesta del LLM probablemente:

  • Muestra una secuencia de fórmulas físicas, ingresando los valores 0, 60 y 7 en los lugares apropiados.
  • Explica por qué eligió esas fórmulas y qué significan las distintas variables.

La instrucción de cadena de pensamiento obliga al LLM a realizar todos los cálculos, lo que podría llevar a una respuesta más correcta. Además, la cadena de pensamiento de instrucciones permite al usuario examinar los pasos del LLM para determinar si o no, la respuesta tiene sentido.

chatear

#language
#generativeAI

El contenido de un diálogo de ida y vuelta con un sistema de AA, por lo general, un modelo grande de lenguaje. La interacción anterior en un chat (lo que escribiste y cómo respondió el modelo de lenguaje extenso) se convierte en contextual para las siguientes partes del chat.

Un chatbot es una aplicación de un modelo grande de lenguaje.

punto de control

Datos que capturan el estado de los parámetros de un modelo en un en una iteración de entrenamiento específica. Los puntos de control permiten exportar el modelo pesos o realizar entrenamiento en varias sesiones. Puntos de control y permitir que el entrenamiento continúe después de los errores (por ejemplo, la interrupción del trabajo).

Al ajuste, el punto de partida para entrenar el nuevo modelo será un punto de control del modelo previamente entrenado.

clase

#fundamentals

Categoría a la que puede pertenecer una etiqueta. Por ejemplo:

Un modelo de clasificación predice una clase. En cambio, un modelo de regresión predice un número en lugar de una clase.

modelo de clasificación

#fundamentals

Un modelo cuya predicción es una clase. Por ejemplo, estos son todos los modelos de clasificación:

  • Un modelo que predice el idioma de una oración de entrada (¿francés?, ¿Español? italiano?).
  • Un modelo que predice las especies arbóreas (¿Maple? ¿Roble? ¿baobab?).
  • Un modelo que predice la clase positiva o negativa para un determinado condición médica.

En cambio, los modelos de regresión predicen números en lugar de clases.

Los siguientes son dos tipos comunes de modelos de clasificación:

umbral de clasificación

#fundamentals

En una clasificación binaria, se un número entre 0 y 1 que convierta la salida sin procesar de un modelo de regresión logística en una predicción de la clase positiva o la clase negativa. Ten en cuenta que el umbral de clasificación es un valor que elige una persona, no es un valor elegido por el entrenamiento de modelos.

Un modelo de regresión logística da como resultado un valor sin procesar entre 0 y 1. Luego:

  • Si este valor sin procesar es mayor que el umbral de clasificación, entonces se predice la clase positiva.
  • Si este valor sin procesar es inferior al umbral de clasificación, se predice la clase negativa.

Por ejemplo, supongamos que el umbral de clasificación es 0.8. Si el valor sin procesar es 0.9, el modelo predice la clase positiva. Si el valor sin procesar es 0.7, el modelo predice la clase negativa.

La elección del umbral de clasificación influye fuertemente en la cantidad de los falsos positivos y falsos negativos.

conjunto de datos con desequilibrio de clases

#fundamentals

Conjunto de datos para un problema de clasificación en el que la cantidad total de las etiquetas de cada clase difiere significativamente. Por ejemplo, considera un conjunto de datos de clasificación binaria cuyas dos etiquetas se dividen de la siguiente manera:

  • 1,000,000 de etiquetas negativas
  • 10 etiquetas positivas

La proporción entre las etiquetas negativas y positivas es de 100,000 a 1, así que es un conjunto de datos con desequilibrio de clase.

En cambio, el siguiente conjunto de datos no está desequilibrado porque la la proporción entre las etiquetas negativas y las positivas se acerca relativamente a 1:

  • 517 etiquetas negativas
  • 483 etiquetas positivas

Los conjuntos de datos de clases múltiples también pueden tener clases desequilibradas. Por ejemplo, los siguientes conjunto de datos de clasificación de clases múltiples también presenta un desequilibrio de clases tiene muchos más ejemplos que los otros dos:

  • 1,000,000 de etiquetas con la clase “green”
  • 200 etiquetas con la clase "morado"
  • 350 etiquetas con la clase "orange"

Consulta también entropía, clase de mayoría, y la clase minoritaria.

recorte

#fundamentals

Una técnica para manejar los valores atípicos mediante una o ambas de las siguientes opciones:

  • Reducir los valores de feature que sean superiores al máximo límite hasta alcanzar ese umbral.
  • Aumentar los valores de atributos que sean inferiores a un umbral mínimo hasta ese umbral mínimo.

Por ejemplo, supongamos que <0.5% de los valores de un atributo en particular cae fuera del rango de 40-60. En ese caso, podrías hacer lo siguiente:

  • Recorta todos los valores superiores a 60 (umbral máximo) para que sean exactamente 60.
  • Recorta todos los valores por debajo de 40 (el umbral mínimo) para que sean exactamente 40.

Los valores atípicos pueden dañar los modelos y, en ocasiones, causar pesos. se desborde durante el entrenamiento. Algunos valores atípicos también pueden arruinar drásticamente métricas como exactitud. El recorte es una técnica común para limitar el daño.

Fuerzas de recorte de gradiente Valores de gradiente dentro de un rango designado durante el entrenamiento.

Cloud TPU

#TensorFlow
#GoogleCloud

un acelerador de hardware especializado diseñado para acelerar cargas de trabajo de aprendizaje automático en Google Cloud.

agrupamiento en clústeres

#clustering

Agrupar ejemplos relacionados, particularmente durante aprendizaje no supervisado. Una vez que y los ejemplos están agrupados, y una persona puede, de forma opcional, proporcionar un significado a cada clúster.

Existen muchos algoritmos de agrupamiento en clústeres. Por ejemplo, el método k-means de clústeres de algoritmos basados en su proximidad centroide, como en el siguiente diagrama:

Un gráfico bidimensional en el que el eje X está etiquetado como ancho del árbol.
          y el eje Y está etiquetado como “altura del árbol”. El gráfico contiene dos
          centroides y varias docenas de datos. Los puntos de datos son
          categorizados según su proximidad. Es decir, los puntos de datos
          más cerca a un centroide se categorizan como grupo 1, mientras que esos
          que están más cerca del otro centroide se categorizan como clúster 2.

Un investigador humano podría revisar los grupos y, por ejemplo, etiquetar clúster 1 como “árboles enanos” y el clúster 2 como “árboles de tamaño completo”.

Otro ejemplo es considerar un algoritmo de agrupamiento en clústeres basado en una ejemplo a distancia desde un punto central, como se ilustra de la siguiente manera:

Decenas de puntos de datos están dispuestos en círculos concéntricos, casi
          como agujeros en el centro de un tablero de dardos. El anillo más interno
          de datos se categoriza como grupo 1, el anillo del medio
          se categoriza como clúster 2, y el anillo más externo como
          clúster 3.

coadaptación

Cuando las neuronas predicen patrones en los datos de entrenamiento basándose en casi exclusivamente en salidas de otras neuronas específicas en lugar de depender de el comportamiento de la red en su conjunto. Cuando los patrones que causan coadaptación no están presentes en los datos de validación, entonces la coadaptación causa el sobreajuste. La regularización de retirados reduce la coadaptación ya que asegura que las neuronas no puedan depender únicamente de otras neuronas específicas.

filtrado colaborativo

#recsystems

Hacer predicciones sobre los intereses de un usuario en función de los intereses de muchos otros usuarios. Filtrado colaborativo se usa con frecuencia en los sistemas de recomendación.

desviación de conceptos

Un cambio en la relación entre los atributos y la etiqueta Con el tiempo, la desviación de conceptos reduce la calidad de un modelo.

Durante el entrenamiento, el modelo aprende la relación entre los atributos sus etiquetas en el conjunto de entrenamiento. Si las etiquetas en el conjunto de entrenamiento están si son buenos proxies para el mundo real, el modelo debe ser predicciones del mundo real. Sin embargo, debido a la desviación de conceptos, las predicciones tienden a degradarse con el tiempo.

Por ejemplo, considera una clasificación binaria modelo que predice si un determinado modelo de automóvil es o no "consume combustible". Es decir, los atributos podrían ser los siguientes:

  • peso del auto
  • compresión de motor
  • tipo de transmisión

mientras que la etiqueta es:

  • ahorro de combustible
  • no ahorra combustible

Sin embargo, el concepto de "automóvil con ahorro de combustible" conserva cambian. Un modelo de auto etiquetado como consumo de combustible en 1994 seguramente tener la etiqueta con ahorro de combustible en 2024. Un modelo que sufre de desviación de conceptos tiende a hacer predicciones cada vez menos útiles con el tiempo.

Compara y contrasta con no estacionariedad.

de transición

#df

En un árbol de decisión, cualquier nodo que evalúa una expresión. Por ejemplo, la siguiente parte de una el árbol de decisión contiene dos condiciones:

Árbol de decisión que consta de dos condiciones: (x > 0)
          (y > 0).

Una condición también se denomina división o prueba.

Contrasta la condición con la hoja.

Consulta lo siguiente:

confabulación

#language

Sinónimo de alucinación.

Confabulación es probablemente un término más preciso desde el punto de vista técnico que alucinación. Sin embargo, la alucinación se volvió popular primero.

configuración

Es el proceso de asignación de los valores de propiedad iniciales que se usan para entrenar un modelo. como:

En los proyectos de aprendizaje automático, la configuración puede realizarse a través de un de configuración de Terraform o usar bibliotecas de configuración como las siguientes:

sesgo de confirmación

#fairness

Tendencia a buscar, interpretar, favorecer y recordar información de un que confirma las creencias o hipótesis preexistentes. Es posible que los desarrolladores de aprendizaje automático recopilen o etiqueten de forma involuntaria datos de manera que influyan en un resultado que respalde sus de la IA generativa. El sesgo de confirmación es una forma de sesgo implícito.

El sesgo del investigador es una forma de sesgo de confirmación en el que un investigador continúa entrenando modelos hasta que se confirma la hipótesis.

matriz de confusión

#fundamentals

Tabla de NxN que resume el número de predicciones correctas e incorrectas que creó un modelo de clasificación. Por ejemplo, considera la siguiente matriz de confusión para un Modelo de clasificación binaria:

Tumor (predicho) No es tumor (predicho)
Tumor (verdad fundamental) 18 (VP) 1 (FN)
No es tumor (verdad fundamental) 6 (FP) 452 (VN)

La matriz de confusión anterior muestra lo siguiente:

  • De las 19 predicciones en las que la verdad fundamental fue tumor, el modelo clasificó correctamente 18 y clasificó incorrectamente 1.
  • De las 458 predicciones en las que la verdad fundamental no era tumor, el modelo clasificaron correctamente 452 y erróneamente 6.

La matriz de confusión para una clasificación de clases múltiples problema puede ayudarte a identificar patrones de errores. Por ejemplo, considera la siguiente matriz de confusión para una clase modelo de clasificación de clases múltiples que clasifica tres tipos diferentes de iris (Vírgenes, Versicolor y Setosa). Cuando la verdad fundamental era Vírgenes, la de confusión muestra que era mucho más probable que el modelo predecir versicolor que setosa:

  Setosa (predicho) Versicolor (predicho) Vírgenes (predichos)
Setosa (verdad fundamental) 88 12 0
Versicolor (verdad fundamental) 6 141 7
virginica (verdad fundamental) 2 27 109

Como otro ejemplo, una matriz de confusión podría revelar que un modelo entrenado para reconocer dígitos escritos a mano tiende a predecir erróneamente 9 en lugar de 4, o predice erróneamente 1 en vez de 7.

Las matrices de confusión contienen suficiente información para calcular diversas métricas de rendimiento, incluida la precisión y recuperación.

análisis de distrito electoral

#language

Dividir una oración en estructuras gramaticales más pequeñas ("componentes"). Una parte posterior del sistema de AA, como de comprensión del lenguaje natural puede analizar a los constituyentes con mayor facilidad que la oración original. Por ejemplo: considera la siguiente oración:

Mi amigo adoptó dos gatos.

Un analizador de distrito puede dividir esta oración en los siguientes elementos: dos integrantes:

  • Mi amigo es una frase nominal.
  • adopted two cats es una frase verbal.

Estos componentes se pueden subdividir aún más en componentes más pequeños. Por ejemplo, la frase verbal

adoptó dos gatos

podría subdividirse aún más en:

  • adopted es un verbo.
  • two cats es otra frase nominal.

incorporación de lenguaje contextualizada

#language
#generativeAI

Una incorporación que está cerca de “comprender” palabras y frases de una manera que los hablantes humanos nativos pueden hacerlo. Lenguaje contextualizado pueden comprender sintaxis, semántica y contexto complejos.

Por ejemplo, considera las incorporaciones de la palabra inglesa cow. Incorporaciones más antiguas como word2vec puede representar el inglés palabras para que la distancia en el espacio de incorporación de vaca a toro es similar a la distancia de oveja (oveja hembra) a ram (oveja macho) o hembra a macho. Lenguaje contextualizado las incorporaciones pueden ir un paso más allá reconociendo que los hablantes de inglés a veces usa informalmente la palabra cow para referirse a "cow" o "toro".

ventana de contexto

#language
#generativeAI

La cantidad de tokens que un modelo puede procesar en un instrucción. Mientras más grande es la ventana de contexto, más información que el modelo puede usar para brindar respuestas coherentes al mensaje.

atributo continuo

#fundamentals

Atributo de punto flotante con un rango infinito de valores posibles como la temperatura o el peso.

Compara esto con el atributo discreto.

muestreo de conveniencia

Utilizar un conjunto de datos no recopilado científicamente para ejecutarse rápidamente experimentos. Más adelante, es fundamental cambiar a un estudio recopilado científicamente de tu conjunto de datos.

convergencia

#fundamentals

Un estado que se alcanza cuando los valores de loss cambian muy poco o en absoluto con cada iteración. Por ejemplo, los siguientes La curva de pérdida sugiere una convergencia en alrededor de 700 iteraciones:

Representación cartesiana. el eje X es la pérdida. El eje Y es la cantidad de cargas
          iteraciones. La pérdida es muy alta
durante las primeras iteraciones,
          disminuye considerablemente. Después de unas 100 iteraciones, la pérdida sigue siendo
          descendente, pero mucho más gradual. Después de unas 700 iteraciones,
          pérdida de seguridad se mantiene sin cambios.

Un modelo converge cuando el entrenamiento adicional no mejorar el modelo.

En el aprendizaje profundo, los valores de pérdida a veces se mantienen constantes o casi así durante muchas iteraciones antes de descender finalmente. Durante un período prolongado de valores de pérdida constante, podrías tener una falsa sensación de convergencia temporal.

Consulta también interrupción anticipada.

función convexa

Función en la que la región por encima del gráfico de la función es una conjunto convexo. La función convexa prototípica es tiene una forma como la letra U. Por ejemplo, los siguientes son todas funciones convexas:

Curvas en forma de U, cada una con un solo punto mínimo.

Por el contrario, la siguiente función no es convexa. Observa cómo la región por encima del gráfico no es un conjunto convexo:

Una curva con forma de W con dos puntos mínimos locales diferentes.

Una función estrictamente convexa tiene exactamente un punto mínimo local, que también es el punto mínimo global. Las funciones clásicas con forma de U son funciones estrictamente convexas. Sin embargo, algunas funciones convexas (por ejemplo, las líneas rectas) no tienen forma de U.

optimización convexa

El proceso de usar técnicas matemáticas como descenso de gradientes para encontrar el mínimo de una función convexa. Gran parte de la investigación en aprendizaje automático se ha centrado en formular diversos como problemas de optimización convexos y resolverlos más por resolver de forma eficiente.

Para obtener detalles completos, consulta Boyd y Vandenberghe, Convexos Optimización.

conjunto convexo

Subconjunto del espacio euclidiano de modo que una línea dibujada entre dos puntos cualesquiera subconjunto permanece completamente dentro del subconjunto. Por ejemplo, las dos siguientes las formas son conjuntos convexos:

Una ilustración de un rectángulo. Otra ilustración de un óvalo.

Por el contrario, las dos formas siguientes no son conjuntos convexos:

Una ilustración de un gráfico circular con una porción faltante.
          Otra ilustración de un polígono altamente irregular.

convolución

#image

En matemáticas, informalmente hablando, una mezcla de dos funciones. En máquina aprendizaje, una convolución combina la convolución filter y matriz de entrada para entrenar pesos.

El término “convolución” en el aprendizaje automático suele ser una forma abreviada de se refieren a las operaciones convolucionales o la capa convolucional.

Sin convoluciones, un algoritmo de aprendizaje automático tendría que aprender un peso separado para cada celda en un tensor grande. Por ejemplo: un entrenamiento de algoritmo de aprendizaje automático en imágenes de 2K × 2K encontrar 4 millones de pesos separados. Gracias a las convoluciones, un sistema de el algoritmo solo tiene que encontrar los pesos de cada celda del filtro convolucional para reducir drásticamente la memoria necesaria para entrenar el modelo. Cuando el filtro convolucional se aplica, simplemente se replica a través de celdas para que cada una se multiplique el filtro.

filtro convolucional

#image

Uno de los dos actores de una operación convolucional. (El otro actor es una porción de una matriz de entrada). Un filtro convolucional es una matriz que tiene el mismo rango que la matriz de entrada, pero con una forma más pequeña. Por ejemplo, en una matriz de entrada de 28 x 28, el filtro podría ser cualquier matriz 2D. inferior a 28 x 28.

En la manipulación fotográfica, todas las células de un filtro convolucional se suelen tener un patrón constante de unos y ceros. En el aprendizaje automático, los filtros convolucionales generalmente se inicializan con números aleatorios y, luego, red entrena los valores ideales.

capa convolucional

#image

Es una capa de una red neuronal profunda en la que filtro convolucional pasa por una entrada de salida. Por ejemplo, considera la siguiente fórmula: filtro convolucional:

Una matriz de 3x3 con los siguientes valores: [[0,1,0], [1,0,1], [0,1,0]]

En la siguiente animación, se muestra una capa convolucional que consta de 9 operaciones convolucionales con la matriz de entrada de 5x5. Ten en cuenta que cada La operación convolucional funciona en una porción diferente de 3x3 de la matriz de entrada. La matriz 3x3 resultante (a la derecha) consiste en los resultados de los 9 Operaciones convolucionales:

Una animación que muestra dos matrices. La primera es la matriz de 5 × 5
          matriz: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          La segunda es la de 3 x 3:
          [[181,303,618], [115,338,605], [169,351,560]].
          La segunda matriz se calcula aplicando la fórmula convolucional
          filtrar [[0, 1, 0], [1, 0, 1], [0, 1, 0]] entre
          diferentes subconjuntos 3x3 de la matriz 5x5.

red neuronal convolucional

#image

Una red neuronal en la que al menos una capa es una capa convolucional. Una típica pregunta convolucional consiste en una combinación de las siguientes capas:

Las redes neuronales convolucionales tuvieron un gran éxito en ciertos tipos de problemas, como el reconocimiento de imágenes.

operación convolucional

#image

La siguiente operación matemática de dos pasos:

  1. Multiplicación por elementos de la filtro convolucional y una porción de una de entrada estándar. (La porción de la matriz de entrada tiene el mismo rango y el tamaño como el filtro convolucional).
  2. Suma de todos los valores en la matriz de producto resultante.

Por ejemplo, considera la siguiente matriz de entrada de 5 × 5:

La matriz 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Ahora imagina el siguiente filtro convolucional de 2 × 2:

La matriz 2x2: [[1, 0], [0, 1]]

Cada operación convolucional implica una sola porción de 2x2 de la de entrada estándar. Por ejemplo, supongamos que usamos la porción 2x2 en el en la parte superior izquierda de la matriz de entrada. Entonces, la operación de convolución en esta porción se ve de la siguiente manera:

Aplicando el filtro convolucional [[1, 0], [0, 1]] a la parte superior izquierda
          Sección de 2 x 2 de la matriz de entrada, que es [[128,97], [35,22]].
          El filtro convolucional deja los números 128 y 22 intactos, pero los ceros
          las 97 y 35. En consecuencia, la operación convolución produce
          el valor 150 (128+22).

Una capa convolucional consta de una serie de operaciones convolucionales, cada una actúa sobre una porción diferente de la matriz de entrada.

costo

Sinónimo de pérdida.

capacitación conjunta

Un enfoque de aprendizaje semisupervisado es particularmente útil cuando se cumplen todas estas condiciones:

En esencia, el entrenamiento conjunto amplifica indicadores independientes en un indicador más fuerte. Por ejemplo, considera un modelo de clasificación que categoriza los automóviles usados individuales como Bueno o Malos. Un conjunto de los atributos predictivos podrían enfocarse en características agregadas, como el año, la marca y el modelo del automóvil; otro conjunto de funciones predictivas podría enfocarse el historial de conducción del propietario anterior y el historial de mantenimiento del auto.

El informe seminal sobre el coentrenamiento es Cómo combinar datos etiquetados y sin etiquetar con Capacitación conjunta de Blum y Mitchell.

equidad contrafáctica

#fairness

Una métrica de equidad que verifica si un clasificador produce el mismo resultado para un individuo que para otro que es idéntico al primero, excepto en relación con uno o más atributos sensibles. Evaluar un clasificador para la equidad contrafáctica es un método para encontrar posibles fuentes de el sesgo en un modelo.

Consulta "Cuando colisionan los mundos: integrar diferentes aspectos contrafácticos Suposiciones en equidad" para obtener un análisis más detallado del tema contrafáctico. equidad.

sesgo de cobertura

#fairness

Consulta sesgo de selección.

floración

#language

Oración o frase con un significado ambiguo. Las flores de choque presentan un problema importante en la naturaleza comprensión del lenguaje. Por ejemplo, el titular La cinta roja que sostiene un rascacielos es una Crash blossom porque un modelo de CLN podría interpretar el titular literalmente o en sentido figurado.

crítico

#rl

Sinónimo de Deep Q-Network.

entropía cruzada

Una generalización de la pérdida logística problemas de clasificación de clases múltiples. Entropía cruzada que cuantifica la diferencia entre dos distribuciones de probabilidad. Consulta también perplejidad.

validación cruzada

Un mecanismo para estimar qué tan bien un modelo se generalizaría a datos nuevos probando el modelo con uno o más subconjuntos de datos que no se superponen. del conjunto de entrenamiento.

función de distribución acumulativa (CDF)

Función que define la frecuencia de muestras menor o igual que un objetivo. Por ejemplo, considera una distribución normal de valores continuos. Un CDF indica que aproximadamente el 50% de las muestras deben ser menores o iguales a la media y que aproximadamente el 84% de las muestras deben ser menores o iguales a una desviación estándar por encima de la media.

D

análisis de datos

Comprender los datos a través de la consideración de muestras, mediciones, y visualización. El análisis de datos puede ser particularmente útil cuando se recibe por primera vez el conjunto de datos, antes de crear el primer modelo. También es crucial para comprender los experimentos y problemas de depuración con el sistema.

magnificación de datos

#image

Potenciando artificialmente el rango y la cantidad de Ejemplos de entrenamiento transformando los recursos existentes ejemplos para crear ejemplos adicionales. Por ejemplo: imagina que las imágenes son una de tus atributos, pero tu conjunto de datos no contener suficientes ejemplos de imágenes para que el modelo aprenda asociaciones útiles. Idealmente, agregarás suficientes imágenes etiquetadas en tu conjunto de datos para que tu modelo se entrene de forma adecuada. Si eso no es posible, la magnificación de datos pueden rotar, estirar y reflejar cada imagen para producir muchas variantes de la foto original, y esto puede proporcionar suficientes datos etiquetados para permitir una excelente capacitación.

DataFrame

#fundamentals

Un tipo de datos popular de Pandas para representar conjuntos de datos en la memoria.

Un DataFrame es similar a una tabla u hoja de cálculo. Cada columna de un DataFrame tiene un nombre (un encabezado) y cada fila se identifica con un un número único.

Cada columna en un DataFrame se estructura como un array 2D, con la excepción de que a cada columna se le puede asignar su propio tipo de datos.

Consulta también la Referencia de pandas.DataFrame .

paralelismo de datos

Es una forma de escalar el entrenamiento o la inferencia. que replica un modelo completo en varios dispositivos y luego pasa un subconjunto de los datos de entrada a cada dispositivo. El paralelismo de datos puede permitir el entrenamiento y la inferencia en conjuntos tamaños de lotes; Sin embargo, el paralelismo de datos requiere que la sea lo suficientemente pequeño como para caber en todos los dispositivos.

El paralelismo de datos suele acelerar el entrenamiento y la inferencia.

Consulta también el paralelismo de modelos.

conjunto de datos o conjunto de datos

#fundamentals

Conjunto de datos sin procesar, comúnmente (pero no exclusivamente) organizados en una de los siguientes formatos:

  • una hoja de cálculo
  • un archivo en formato CSV (valores separados por coma)

API de Dataset (tf.data)

#TensorFlow

Una API de TensorFlow de alto nivel para leer datos y y transformarlos a la forma que requiere un algoritmo de aprendizaje automático. Un objeto tf.data.Dataset representa una secuencia de elementos, en la que cada elemento contiene uno o más tensores. Un tf.data.Iterator proporciona acceso a los elementos de un Dataset.

Para obtener detalles sobre la API de Dataset, consulta tf.data: Compila canalizaciones de entrada de TensorFlow en la Guía para programadores de TensorFlow.

límite de decisión

El separador entre clases aprendidas por un model en una clase binaria o problemas de clasificación de clases múltiples. Por ejemplo: en la siguiente imagen, que representa un problema de clasificación binaria. el límite de decisión es la frontera entre la clase naranja y la clase azul:

Es un límite bien definido entre una clase y otra.

bosque de decisión

#df

Un modelo creado a partir de varios árboles de decisión. Un bosque de decisiones hace una predicción mediante la agregación de las predicciones de sus árboles de decisiones. Los tipos populares de bosques de decisión incluyen bosques aleatorios y árboles con boosting del gradiente.

umbral de decisión

Sinónimo de umbral de clasificación.

árbol de decisión

#df

Es un modelo de aprendizaje supervisado compuesto por un conjunto de conditions y leafs organizados de forma jerárquica. Por ejemplo, a continuación, se muestra un árbol de decisiones:

Árbol de decisión que consta de cuatro condiciones ordenadas
          de forma jerárquica, lo que nos lleva a cinco hojas.

decodificador

#language

En general, cualquier sistema de AA que convierta una representación interna a una más sin procesar, dispersa o externa.

Los decodificadores suelen ser un componente de un modelo más grande y, por lo general, en sincronización con un codificador.

En las tareas de secuencia a secuencia, el decodificador comienza con el estado interno que genera el codificador para predecir la siguiente secuencia.

Consulta Transformador para conocer la definición de un decodificador. la arquitectura de transformadores.

modelo profundo

#fundamentals

Una red neuronal que contiene más de una capa oculta.

Un modelo profundo también se denomina red neuronal profunda.

Compara esto con el modelo amplio.

diseño de red neuronal profunda

Sinónimo de modelo profundo.

Deep Q-Network (DQN)

#rl

En Q-learning, una red neuronal profunda que predice funciones Q.

Critic es un sinónimo de Deep Q-Network.

paridad demográfica

#fairness

Una métrica de equidad que se cumple si los resultados de la clasificación de un modelo no dependen de un dado un atributo sensible.

Por ejemplo, si tanto los lilipinos como los brobdingnagianos se aplican a Glubbdubdrib University, la paridad demográfica se alcanza si el porcentaje de los residentes de Liliputa admitidos es el mismo que el porcentaje de habitantes de Brobdingnagios admitido, independientemente de si un grupo es, en promedio, más calificado que el otro.

Compara esto con las probabilidades equitativas la igualdad de oportunidades, que permiten los resultados de la clasificación dependen de atributos sensibles, pero no permiten resultados de clasificación para ciertos que las etiquetas de verdad fundamental dependan de atributos sensibles. Consulta “Ataques la discriminación con un aprendizaje automático más inteligente” para una visualización sobre las ventajas y desventajas de aplicar optimizaciones en función de la paridad demográfica.

reducir el ruido

#language

Un enfoque común para el aprendizaje autosupervisado en la que:

  1. Ruido se agrega de forma artificial al conjunto de datos.
  2. El modelo intenta quitar el ruido.

La anulación de ruido permite aprender a partir de ejemplos sin etiqueta. El conjunto de datos original funciona como destino o label y los datos ruidosos como entrada.

Algunos modelos de lenguaje enmascarado usan la reducción de ruido. de la siguiente manera:

  1. El ruido se agrega artificialmente a una oración sin etiqueta mediante el enmascaramiento de algunos de los tokens.
  2. El modelo intenta predecir los tokens originales.

atributo denso

#fundamentals

atributo en el que la mayoría o todos los valores no son cero, por lo general, un tensor de valores de punto flotante. Por ejemplo, los siguientes El tensor de 10 elementos es denso porque 9 de sus valores no son cero:

8 3 7 5 2 4 0 4 9 6

Compara esto con el atributo disperso.

capa densa

Sinónimo de capa completamente conectada.

depth

#fundamentals

Es la suma de lo siguiente en una red neuronal:

Por ejemplo, una red neuronal con cinco capas ocultas y una capa de salida tiene una profundidad de 6.

Ten en cuenta que la capa de entrada no profundidad de la influencia.

red neuronal convolucional separable en profundidad (sepCNN)

#image

Una red neuronal convolucional arquitectura basada en El origen, pero donde los módulos de Inception se reemplazan convoluciones. También conocido como Xception.

Una convolución separable en profundidad (también abreviada como convolución separable) considera una convolución 3D estándar en dos operaciones de convolución distintas eficientes desde el punto de vista computacional: primero, una convolución en profundidad, con una profundidad de 1 (n ✕ n ✕ 1) y, luego, una convolución puntual, con una longitud y un ancho de 1 (1 ✕ 1 ✕ n).

Para obtener más información, consulta Xception: Aprendizaje profundo con separable en profundidad Convoluciones.

etiqueta derivada

Sinónimo de etiqueta de proxy.

dispositivo

#TensorFlow
#GoogleCloud

Un término sobrecargado con las siguientes dos definiciones posibles:

  1. Es una categoría de hardware que puede ejecutar una sesión de TensorFlow y que se incluye lo siguiente: CPU, GPU y TPU.
  2. Cuando entrenas un modelo de AA en chips aceleradores (GPU o TPU), la parte del sistema que realmente manipula tensores y incorporaciones. El dispositivo se ejecuta en chips aceleradores. Por el contrario, el host normalmente se ejecuta en una CPU.

privacidad diferencial

En el aprendizaje automático, un enfoque de anonimización para proteger los datos sensibles (por ejemplo, información personal de una persona) incluida en la conjunto de entrenamiento. Este enfoque garantiza que el modelo no aprende ni recuerda mucho sobre un persona. Esto se logra muestreando y agregando ruido durante el modelo para ocultar los datos individuales y mitigar el riesgo de exposición sensibles de entrenamiento.

La privacidad diferencial también se usa fuera del aprendizaje automático. Por ejemplo: los científicos de datos a veces usan la privacidad diferencial para proteger a individuos la privacidad cuando se calculan las estadísticas de uso de productos para diferentes segmentos demográficos.

reducción de dimensiones

Disminuir la cantidad de dimensiones que se usan para representar un atributo en particular en un vector de atributos, generalmente y convertirla en un vector de incorporación.

dimensiones

Término sobrecargado con alguna de las siguientes definiciones:

  • La cantidad de coordenadas en un tensor. Por ejemplo:

    • Un escalar tiene cero dimensiones; por ejemplo, ["Hello"].
    • Un vector tiene una dimensión; por ejemplo, [3, 5, 7, 11].
    • Una matriz tiene dos dimensiones: por ejemplo, [[2, 4, 18], [5, 7, 14]].

    Puedes especificar de manera única una celda en particular en un vector unidimensional con una coordenada; necesitas dos coordenadas para especificar de forma única una de una celda específica en una matriz bidimensional.

  • La cantidad de entradas en un vector de atributos

  • La cantidad de elementos en una capa de incorporación.

instrucción directa

#language
#generativeAI

Sinónimo de instrucción sin ejemplos.

atributo discreto

#fundamentals

Atributo con un conjunto finito de valores posibles. Por ejemplo: un atributo cuyos valores solo pueden ser animal, vegetal o mineral es un atributo discreto (o categórico).

Compara esto con el atributo continuo.

modelo discriminativo

Un modelo que predice etiquetas a partir de un conjunto de uno o más funciones. Más formalmente, los modelos discriminativos definen la probabilidad condicional de un resultado a partir de los atributos y weights; es decir:

p(output | features, weights)

Por ejemplo, un modelo que predice si un correo electrónico es spam de atributos y ponderaciones es un modelo discriminativo.

La gran mayoría de los modelos de aprendizaje supervisado, incluida la clasificación y de regresión, son modelos discriminativos.

Compara esto con el modelo generativo.

discriminante

Sistema que determina si los ejemplos son reales o falsos.

Por otro lado, el subsistema dentro de un adversario generativo red que determina si los ejemplos que crea el generador son reales o falsos.

impacto dispar

#fairness

Tomar decisiones sobre las personas que afectan a diferentes poblaciones subgrupos desproporcionadamente. Por lo general, esto se refiere a situaciones en las que un proceso de toma de decisiones algorítmico daña o beneficia algunos subgrupos más que otros.

Por ejemplo, imaginemos un algoritmo que determina la tasa de litigios la elegibilidad para un préstamo de vivienda en miniatura tiene más probabilidades de clasificar con el estado "no apto" si su dirección de correo postal contiene un cierto código postal. Si es más probable que las personas de lilitán big-endian direcciones postales con este código postal que los de Little-Endian Lilliputian, este algoritmo puede tener un impacto dispar.

Compara esto con el tratamiento disparo, que se centra en las disparidades que se producen cuando las características de los subgrupos son entradas explícitas a un proceso de toma de decisiones algorítmica.

tratamiento dispar

#fairness

Factorizar los sujetos atributos sensibles en un proceso de toma de decisiones algorítmico, para que los diferentes subgrupos de las personas reciben un trato diferente.

Por ejemplo, considera un algoritmo que determina las vías de comunicación de los elegibilidad para un préstamo de vivienda en miniatura en función de la los datos que proporciona en su solicitud de préstamo. Si el algoritmo usa un la afiliación de Lilliputian como Big-Endian o Little-Endian como entrada, está aplicando un tratamiento dispar en esa dimensión.

Compara esto con el impacto dispar, que se centra en las disparidades en los impactos sociales de las decisiones algorítmicas en los subgrupos, sin importar si esos subgrupos son entradas para el modelo.

síntesis

#generativeAI

El proceso de reducir el tamaño de un modelo (conocido como profesor) en un modelo más pequeño (conocido como estudiante) que emula las predicciones del modelo original de la forma más fiel posible. Extracción es útil porque el modelo más pequeño tiene dos beneficios clave sobre el modelo más grande modelo (el profesor):

  • Tiempo de inferencia más rápido
  • Reducción del uso de energía y memoria

Sin embargo, las predicciones del estudiante no suelen ser tan buenas como las predicciones del profesor.

La síntesis entrena el modelo del estudiante para minimizar una función de pérdida basada en la diferencia entre los resultados de las predicciones de los modelos de estudiantes y profesores.

Compara y contrasta la destilación con los siguientes términos:

distribución

La frecuencia y el rango de diferentes valores para un valor determinado feature o label. Una distribución captura qué tan probable es que sea un valor particular.

En la siguiente imagen, se muestran histogramas de dos distribuciones diferentes:

  • A la izquierda, una ley de distribución del poder de la riqueza frente al número de personas poseer esa riqueza.
  • A la derecha, una distribución normal de estatura frente a la cantidad de personas con esa altura.

Dos histogramas. Un histograma muestra una distribución de una ley de poder con
          la riqueza en el eje X y la cantidad de personas que tienen esa riqueza en el
          Y. La mayoría de las personas tiene muy poca riqueza, y pocas personas tienen
          mucha riqueza. El otro histograma muestra una distribución normal
          con la altura en el eje X
y la cantidad de personas que tienen esa altura
          en el eje Y. La mayoría de las personas están agrupadas en algún lugar cercano a la media.

Comprender la distribución de cada atributo y etiqueta puede ayudarte a determinar para normalizar los valores y detectar valores atípicos.

La frase fuera de distribución se refiere a un valor que no aparece en la conjunto de datos o es muy poco frecuente. Por ejemplo, una imagen del planeta Saturno sería considerado fuera de la distribución para un conjunto de datos compuesto de imágenes de gatos.

agrupamiento en clústeres divisivo

#clustering

Consulta agrupamiento en clústeres jerárquico.

downsampling

#image

Término sobrecargado que puede significar cualquiera de las siguientes opciones:

  • Reducir la cantidad de información de un atributo en para entrenar un modelo de manera más eficiente. Por ejemplo: antes de entrenar un modelo de reconocimiento de imágenes, reducir el muestreo de alta resolución a un formato de menor resolución.
  • Entrenar con un porcentaje desproporcionadamente bajo de personas sobrerrepresentadas class ejemplos para mejorar el entrenamiento de modelos en clases poco representadas. Por ejemplo, en una clase con desequilibrio conjunto de datos, los modelos tienden a aprender mucho sobre el clase mayor y no hay suficiente información clase minoritaria. La reducción de muestreo ayuda para equilibrar la cantidad de capacitación de las clases mayoritarias y minoritarias.

DQN

#rl

Abreviatura de Deep Q-Network.

regularización de retirados

Una forma de regularización útil en el entrenamiento redes neuronales. Regularización de retirados Quita una selección aleatoria de un número fijo de unidades en una red. para un solo paso del gradiente. Cuantas más unidades se saquen, más fuerte regularización. Esto es similar a entrenar la red para emular un ensamble exponencial de redes más pequeñas. Para obtener más información, consulta Dropout: Una forma sencilla de evitar que las redes neuronales Sobreajuste.

dinámico

#fundamentals

Algo que se hace de manera frecuente o continua. Los términos dinámico y en línea son sinónimos en el aprendizaje automático. Los siguientes son usos comunes de las funciones dinámicas y en línea en máquinas aprendizaje:

  • Un modelo dinámico (o modelo en línea) es un modelo. que se vuelve a entrenar con frecuencia o de forma continua.
  • El entrenamiento dinámico (o entrenamiento en línea) es el proceso de entrenamiento frecuente o continuamente.
  • La inferencia dinámica (o inferencia en línea) es el proceso de generar predicciones a pedido.

modelo dinámico

#fundamentals

Es un modelo que se ve con frecuencia (quizás incluso continuamente) que se debe volver a entrenar. Un modelo dinámico es un “estudiante continuo”. que se adapta constantemente a los datos en evolución. Un modelo dinámico también se conoce como modelo en línea.

Compara esto con el modelo estático.

E

ejecución inmediata

#TensorFlow

Un entorno de programación TensorFlow en el que las operaciones se ejecute de inmediato. Por el contrario, las operaciones llamadas en las ejecuciones por grafos no se ejecutan hasta que se y cómo se evalúa. La ejecución inmediata es un imperativa, mucho como el código en la mayoría de los lenguajes de programación. Los programas de ejecución ágil son suele ser mucho más fácil de depurar que los programas de ejecución por grafos.

interrupción anticipada

#fundamentals

Un método de regularización que implica finalizar el entrenamiento antes de que termine la pérdida del entrenamiento disminuyendo. En la interrupción anticipada, dejas intencionalmente entrenar el modelo cuando la pérdida en un conjunto de datos de validación comienza a increase; es decir, cuando empeora el rendimiento de la generalización.

distancia del móvil (EMD)

Una medida de la similitud relativa de dos distribuciones. Cuanto menor sea la distancia del traslado de la tierra, más similares serán las distribuciones.

editar distancia

#language

Es una medida de lo semejantes que son dos cadenas de texto entre sí. En el aprendizaje automático, editar la distancia es útil porque es fácil y una forma eficaz de comparar dos cadenas conocidas similares o para encontrar cadenas que sean similares a una cadena determinada.

Hay varias definiciones de distancia de edición, cada una con una cadena diferente las operaciones. Por ejemplo, el Distancia a Levenshtein considera la menor cantidad de operaciones de eliminación, inserción y sustitución.

Por ejemplo, la distancia Levenshtein entre las palabras "corazón" y "darts" es 3 porque las siguientes 3 ediciones son la menor cantidad de cambios para convertir una palabra en la otra:

  1. corazón → deart (sustituye “h” por “d”)
  2. deart → dart (borrar "e")
  3. dart → dardos (insert “s”)

Notación einsum

Una notación eficiente para describir cómo deben ser dos tensores de varias condiciones. Los tensores se combinan multiplicando los elementos de un tensor por los elementos del otro tensor y, luego, se suman los productos. La notación Einsum usa símbolos para identificar los ejes de cada tensor y aquellos mismos símbolos se reorganizan para especificar la forma del nuevo tensor resultante.

NumPy proporciona una implementación de Einsum común.

capa de incorporación

#language
#fundamentals

Una capa oculta especial que se entrena en una atributo categórico de alta dimensión para aprender un vector de incorporación de menor dimensión. Los capa de incorporación permite que una red neuronal entrene mucho más de forma eficiente que entrenar solo con el atributo categórico de alta dimensión.

Por ejemplo, en la actualidad, la Tierra es compatible con unas 73,000 especies arbóreas. Supongamos especie de árbol es un atributo en tu modelo, por lo tanto, la capa de entrada incluye un vector one-hot 73,000 elementos largos. Por ejemplo, es posible que baobab se represente de la siguiente manera:

Un array de 73,000 elementos. Los primeros 6,232 elementos contienen el valor
     0. El siguiente elemento contiene el valor 1. Los últimos 66,767 elementos contienen
     el valor cero.

Un array de 73,000 elementos es muy largo. Si no agregas una capa de incorporación el entrenamiento le llevará mucho tiempo, ya que multiplicando 72,999 ceros. Quizás eliges la capa de incorporación para que consiste de 12 dimensiones. En consecuencia, la capa de incorporación aprenderá gradualmente un nuevo vector de incorporación para cada especie arbórea.

En algunos casos, la generación de hash es una alternativa razonable en una capa de incorporación.

espacio de incorporaciones

#language

El espacio vectorial de d-dimensional que se muestra desde una superficie de espacio de vector están asignados. Lo ideal es que el espacio de incorporaciones contenga una una estructura que produzca resultados matemáticos significativos por ejemplo, en un espacio de incorporaciones ideal, agregar y quitar incorporaciones resolver tareas de analogía de palabras.

El producto escalar de dos incorporaciones es la medida de su similitud.

vector de incorporación

#language

En términos generales, un array de números de punto flotante tomado de cualquier capa oculta que describe las entradas a esa capa oculta. A menudo, un vector de incorporación es el array de números de punto flotante entrenados una capa de incorporación. Por ejemplo, imagina que una capa de incorporación debe aprender un vector de incorporación para cada una de las 73,000 especies arbóreas de la Tierra. Quizás el El siguiente array es el vector de incorporación de un árbol baobab:

Un array de 12 elementos, cada uno de los cuales contiene un número de punto flotante.
          entre 0.0 y 1.0.

Un vector de incorporación no es un montón de números aleatorios. Una capa de incorporación determina estos valores por medio del entrenamiento, similar a como mientras que una red neuronal aprende otros pesos durante el entrenamiento. Cada elemento del array es una calificación de alguna característica de una especie arbórea. Cuál representa qué especies de árboles característica? Es muy difícil que los humanos determinarán.

La parte matemáticamente destacada de un vector de incorporación es que una representación similar los elementos tienen conjuntos similares de números de punto flotante. Por ejemplo, algo similar las especies arbóreas tienen un conjunto de números de punto flotante más parecido que especies arbóreas diferentes. Las secuoyas y las secuoyas son especies arbóreas relacionadas, por lo que tendrán un conjunto más similar de números de punto flotante secuoyas y cocoteros. Los números en el vector de incorporación cambiar cada vez que se vuelva a entrenar el modelo, incluso si se vuelve a entrenar con entradas idénticas.

función de distribución empírica acumulada (eCDF o EDF)

Una función de distribución acumulativa basadas en mediciones empíricas de un conjunto de datos real. El valor del en cualquier punto a lo largo del eje X es la fracción de observaciones en conjunto de datos que son inferiores o iguales al valor especificado.

minimización del riesgo empírico (ERM)

Elección de la función que minimiza la pérdida en el conjunto de entrenamiento. Contraste con la minimización del riesgo estructural.

codificador

#language

En general, cualquier sistema de AA que realice conversiones desde un sistema sin procesar, disperso o externo en una representación más procesada, densa o interna.

Los codificadores suelen ser un componente de un modelo más grande y, por lo general, sincronizada con un decodificador. Algunos Transformers vincular codificadores con decodificadores, aunque otros transformadores usan solo el o solo el decodificador.

Algunos sistemas usan la salida del codificador como la entrada para un modelo de regresión global.

En las tareas de secuencia a secuencia, un codificador toma una secuencia de entrada y devuelve un estado interno (un vector). Luego, la decoder utiliza ese estado interno para predecir la siguiente secuencia.

Consulta Transformador para conocer la definición de un codificador en la arquitectura de transformadores.

ensamble

Una colección de modelos entrenados de forma independiente cuyas predicciones se promedian o agregan. En muchos casos, un ensamble produce mejores predicciones que un solo modelo. Por ejemplo, un El bosque aleatorio es un ensamble creado a partir de múltiples árboles de decisión. Ten en cuenta que no todos Los bosques de decisión son un ensamblaje.

entropía

#df

En teoría de la información, es una descripción de qué tan impredecible que puede ser una probabilidad distribución. Por otro lado, la entropía también se define como información que contiene cada ejemplo. Una distribución tiene la entropía más alta posible cuando todos los valores de una variable aleatoria igualmente probable.

Entropía de un conjunto con dos valores posibles: “0” y "1" (por ejemplo, las etiquetas en un problema de clasificación binaria) tiene la siguiente fórmula:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Donde:

  • H es la entropía.
  • p es la fracción de "1" ejemplos.
  • q es la fracción de "0" ejemplos. Observa que q = (1 - p)
  • log generalmente es log2. En este caso, la entropía unidad es un poco.

Por ejemplo, supongamos lo siguiente:

  • 100 ejemplos contienen el valor “1”
  • 300 ejemplos contienen el valor “0”

Por lo tanto, el valor de la entropía es el siguiente:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 bits por ejemplo

Un conjunto perfectamente equilibrado (por ejemplo, 200 “0” y 200 “1”) tendría una entropía de 1.0 bits por ejemplo. A medida que un conjunto se vuelve más desequilibrado, su entropía se acerca a 0.0.

En los árboles de decisión, la entropía ayuda a formular la obtención de información para ayudar al splitter selecciona las condiciones. durante el crecimiento de un árbol de decisiones de clasificación.

Compara la entropía con lo siguiente:

La entropía suele llamarse entropía de Shannon.

de producción

#rl

En el aprendizaje por refuerzo, el mundo que contiene al agente y permite que el agente observe el estado de ese mundo. Por ejemplo: el mundo representado puede ser un juego como el ajedrez o un mundo físico laberinto. Cuando el agente aplica una acción al entorno, y, luego, el entorno pasa de un estado a otro.

episodio

#rl

En el aprendizaje por refuerzo, cada uno de los intentos repetidos del agente para aprender sobre un entorno.

época

#fundamentals

Un pase de entrenamiento completo en todo el conjunto de entrenamiento. para que cada ejemplo se procese una vez.

Un ciclo de entrenamiento representa el N/tamaño del lote iteraciones de entrenamiento, en las que N es el la cantidad total de ejemplos.

Por ejemplo, supongamos lo siguiente:

  • El conjunto de datos consta de 1,000 ejemplos.
  • El tamaño del lote es de 50 ejemplos.

Por lo tanto, un solo ciclo de entrenamiento requiere 20 iteraciones:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

política voraz de épsilon

#rl

En el aprendizaje por refuerzo, una política que sigue política aleatoria con probabilidad de épsilon o una política codiciosa. Por ejemplo, si el parámetro épsilon es 0.9, entonces la política sigue una política aleatoria el 90% de las veces y una política voraz el 10% de las veces.

En episodios sucesivos, el algoritmo reduce el valor del épsilon en orden pasar de seguir una política aleatoria a seguir una codiciosa. De cambia la política, el agente primero explora el entorno de forma aleatoria y y, luego, aprovecha con avidez los resultados de la exploración aleatoria.

igualdad de oportunidades

#fairness

Una métrica de equidad para evaluar si un modelo es predecir el resultado deseable igual de bien para todos los valores de una atributo sensible. En otras palabras, si el el resultado deseable de un modelo es la clase positiva, el objetivo sería que la tasa de verdaderos positivos sea para todos los grupos.

La igualdad de oportunidades se relaciona con probabilidades equitativas lo que requiere que tanto las tasas de verdaderos positivos como Las tasas de falsos positivos son las mismas para todos los grupos.

Supongamos que la Universidad de Glubbdubdrib admite tanto a lilitanos como a Brobdingnagians a un riguroso programa de matemáticas. Liliputianos las escuelas secundarias ofrecen un plan de estudios completo de clases de matemáticas, y la gran mayoría de los alumnos que cumplía con los requisitos para el programa universitario. Brobdingnagians las escuelas secundarias no ofrecen clases de matemática y, como resultado, muchos menos estudiantes califican. La igualdad de oportunidades se cumple con la etiqueta preferida de “admitido” con respecto a la nacionalidad (limpitiano o brobdingnagiano) si tienen la misma probabilidad de ingresar a estudiantes calificados, independientemente de si es un lilipú o un brobdingnag.

Por ejemplo, supongamos que 100 lilitanos y 100 brobdingnagians aplican a Glubbdubdrib University, y las decisiones de admisión se toman de la siguiente manera:

Tabla 1: Postulantes de Liliputa (el 90% de ellos están calificados)

  Calificado No cumple con los requisitos
Admitida 45 3
Rechazado 45 7
Total 90 10
Porcentaje de estudiantes calificados admitidos: 45/90 = 50%
Porcentaje de estudiantes no calificados rechazados: 7/10 = 70%
Porcentaje total de estudiantes de Liliputa admitidos: (45+3)/100 = 48%

 

Tabla 2: Postulantes al programa Brobdingnagian (el 10% de ellos reúnen los requisitos):

  Calificado No cumple con los requisitos
Admitida 5 9
Rechazado 5 81
Total 10 90
Porcentaje de estudiantes calificados admitidos: 5/10 = 50%
Porcentaje de estudiantes no calificados rechazados: 81/90 = 90%
Porcentaje total de estudiantes de Brobdingnag recibidos: (5+9)/100 = 14%

Los ejemplos anteriores satisfacen la igualdad de oportunidades para la aceptación de estudiantes calificados porque lilipinos y brobdingnagianos calificados tienen un 50% de probabilidades de ser admitidos.

Si bien la igualdad de oportunidades está satisfecha, las siguientes dos métricas de equidad no se satisfacen:

  • Paridad demográfica: lilipúes y Los brobdingnagios son admitidos en la universidad en diferentes tarifas. el 48% de los estudiantes de Lillipcio ingresan, pero solo el 14% de Apto para estudiantes de Brobdingnagian.
  • equalized odds: si bien es lilitiano calificado y los estudiantes de Brobdingnagian tienen la misma probabilidad de ingresar, la restricción adicional de que los lilipinos y las personas no cualificados Los brobdingnagias tienen la misma posibilidad de ser rechazados no es satisfecho. Los estudiantes de Libia con descalificación tienen una tasa de rechazo del 70%, mientras que de brobdingnagias no calificados tienen una tasa de rechazo del 90%.

Consulta "Igualdad de Opportunity in Supervised Learning” para obtener un análisis más detallado. de igualdad de oportunidades. Consulta también “Ataques la discriminación con un aprendizaje automático más inteligente” para una visualización a explorar las desventajas en la optimización para la igualdad de oportunidades.

probabilidades igualadas

#fairness

Una métrica de equidad para evaluar si un modelo está prediciendo resultados por igual para todos los valores de un atributo sensible con respecto de la clase positiva y clase negativa, no solo una clase u otra exclusivamente. En otras palabras, tanto la tasa de verdaderos positivos y la tasa de falsos negativos debería ser la misma para para todos los grupos.

Las probabilidades equitativas se relacionan con igualdad de oportunidades, que solo se enfoca según las tasas de error de una sola clase (positiva o negativa).

Por ejemplo, imagina que la Universidad Glubbdubdrib admite tanto a lilitanos como a de Brobdingnagia a un riguroso programa de matemáticas. Liliputianos secundaria ofrecen un plan de estudios sólido de clases de matemáticas, y la gran mayoría de que los estudiantes estén calificados para el programa universitario. Brobdingnagians secundaria las escuelas no ofrecen clases de matemática y, como resultado, muchas menos que sus estudiantes estén calificados. Las probabilidades equitativas se cumplen siempre que no haya independientemente de si el solicitante es de Liliputa o Brobdingnag, están calificados, tienen la misma probabilidad de ser admitidos en el programa, y, si no están calificados, tienen las mismas probabilidades de ser rechazados.

Supongamos que se aplican 100 lilitanos y 100 brobdingnagians a Glubbdubdrib Universidad y las decisiones sobre admisión se toman de la siguiente manera:

Tabla 3: Postulantes de Liliputa (el 90% de ellos están calificados)

  Calificado No cumple con los requisitos
Admitida 45 2
Rechazado 45 8
Total 90 10
Porcentaje de estudiantes calificados admitidos: 45/90 = 50%
Porcentaje de estudiantes no calificados rechazados: 8/10 = 80%
Porcentaje total de estudiantes de Liliputa admitidos: (45+2)/100 = 47%

 

Tabla 4. Postulantes al programa Brobdingnagian (el 10% de ellos reúnen los requisitos):

  Calificado No cumple con los requisitos
Admitida 5 18
Rechazado 5 72
Total 10 90
Porcentaje de estudiantes calificados admitidos: 5/10 = 50%
Porcentaje de estudiantes no calificados rechazados: 72/90 = 80%
Porcentaje total de estudiantes de Brobdingnag recibidos: (5+18)/100 = 23%

Las probabilidades equitativas están satisfechas porque los estudiantes calificados de Lilliputian y Brobdingnagian hay un 50% de probabilidades de que los estudiantes los admitan y Brobdingnagian tienen un 80% de probabilidades de ser rechazados.

Las probabilidades equitativas se definen formalmente en "Igualdad de Opportunity en el aprendizaje supervisado” de la siguiente manera: "el predictor Ŷ satisface las probabilidades equilibradas con respecto al atributo protegido A y al resultado Y si Ŷ y A son independientes condicional en Y".

Estimador

#TensorFlow

API de TensorFlow obsoleta. En su lugar, usa tf.keras. de estimadores.

sin conexión

El proceso de medir la calidad de la superficie de un modelo de aprendizaje automático predicciones. Cuando desarrollas un modelo, normalmente Aplica métricas de evaluación no solo en el conjunto de entrenamiento sino también en un conjunto de validación y un conjunto de prueba. También puedes usar métricas de evaluación para comparar modelos diferentes entre sí.

ejemplo

#fundamentals

Son los valores de una fila de features y, posiblemente, una etiqueta. Ejemplos en el aprendizaje supervisado categorías generales:

  • Un ejemplo etiquetado consta de uno o más atributos y una etiqueta. Los ejemplos etiquetados se usan durante el entrenamiento.
  • Un ejemplo sin etiqueta consta de uno o tiene más atributos, pero no etiqueta. Los ejemplos sin etiqueta se usan durante la inferencia.

Por ejemplo, supongamos que entrenas un modelo para determinar la influencia de las condiciones climáticas en las calificaciones de los estudiantes. Aquí hay tres ejemplos etiquetados:

Funciones Etiqueta
Temperatura Humedad Presionar Puntuación de la prueba
15 47 998 Bueno
19 34 1020 Excelente
18 92 1012 Deficiente

Aquí hay tres ejemplos sin etiqueta:

Temperatura Humedad Presionar  
12 62 1014  
21 47 1017  
19 41 1021  

Por lo general, la fila de un conjunto de datos es la fuente sin procesar para un ejemplo. Es decir, un ejemplo generalmente consiste en un subconjunto de las columnas en del conjunto de datos. Además, las funciones de un ejemplo también pueden incluir atributos sintéticos, como combinaciones de atributos.

experiencia de reproducción

#rl

En el aprendizaje por refuerzo, una técnica de DQN que se usa para para reducir las correlaciones temporales en los datos de entrenamiento. El agente almacena las transiciones de estado en un búfer de reproducción y, luego, muestras de transiciones del búfer de repetición para crear datos de entrenamiento.

sesgo del investigador

#fairness

Consulta el sesgo de confirmación.

problema de gradiente con alto crecimiento

#seq

La tendencia de los gradientes en las redes neuronales profundas (especialmente las redes neuronales recurrentes) sorprendentemente empinado (alto). Los gradientes empinados suelen provocar actualizaciones muy grandes a las pesos de cada nodo en un de una red neuronal profunda.

Los modelos que sufren el problema de gradiente con alto crecimiento se vuelven difíciles o imposibles de entrenar. Recorte de gradiente puede mitigar este problema.

Compara con el problema de gradiente de fuga.

F

F1

Una "lista de datos integrados" clasificación binaria que se basa tanto en la precisión como en la recuperación. Esta es la fórmula:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Por ejemplo, dada la siguiente información:

  • precisión = 0.6
  • recuperación = 0.4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Cuando la precisión y la recuperación son bastante similares (como en el ejemplo anterior), F1 está cerca de su media. Cuando la precisión y la recuperación difieren significativamente, F1 está más cerca del valor más bajo. Por ejemplo:

  • precisión = 0.9
  • recuperación = 0.1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

restricción de equidad

#fairness
Aplicar una restricción a un algoritmo para garantizar una o más definiciones de equidad. Estos son algunos ejemplos de restricciones de equidad:

métrica de equidad

#fairness

Una definición matemática de "equidad" que es medible. Algunas de las métricas de equidad de uso general incluyen las siguientes:

Muchas métricas de equidad son excluyentes mutuamente. ver incompatibilidad de métricas de equidad.

falso negativo (FN)

#fundamentals

Ejemplo en el que el modelo predice erróneamente la clase negativa. Por ejemplo, el modelo Predice que un mensaje de correo electrónico en particular no es spam. (la clase negativa), pero ese mensaje de correo electrónico en realidad es spam.

tasa de falsos negativos

La proporción de ejemplos positivos reales para los que el modelo predijo la clase negativa. La siguiente fórmula calcula el valor falso tasa negativa:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

falso positivo (FP)

#fundamentals

Ejemplo en el que el modelo predice erróneamente la clase positiva. Por ejemplo, el modelo predice que un correo electrónico en particular es spam (la clase positiva), pero mensaje de correo electrónico en realidad no es spam.

tasa de falsos positivos (FPR)

#fundamentals

La proporción de ejemplos negativos reales para los que el modelo predijo la clase positiva. La siguiente fórmula calcula el valor falso tasa de positivos:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

La tasa de falsos positivos es el eje x en una curva ROC.

función

#fundamentals

Una variable de entrada para un modelo de aprendizaje automático. Ejemplo consta de uno o más atributos. Por ejemplo, supongamos que estás entrenando un para determinar la influencia de las condiciones climáticas en las calificaciones de los estudiantes. En la siguiente tabla, se muestran tres ejemplos, cada uno de los cuales contiene tres atributos y una etiqueta:

Funciones Etiqueta
Temperatura Humedad Presionar Puntuación de la prueba
15 47 998 92
19 34 1020 84
18 92 1012 87

Compara esto con label.

combinación de atributos

#fundamentals

Un atributo sintético formado por “combinación” atributos categóricos o en buckets.

Por ejemplo, considera un "previsión del estado de ánimo" que representa la temperatura en uno de los siguientes cuatro intervalos:

  • freezing
  • chilly
  • temperate
  • warm

Y representa la velocidad del viento en uno de los siguientes tres segmentos:

  • still
  • light
  • windy

Sin combinaciones de atributos, el modelo lineal se entrena de forma independiente en cada uno anterior a siete grupos diferentes. El modelo se entrena, por ejemplo, freezing, independientemente del entrenamiento, por ejemplo, windy

De forma alternativa, podrías crear una combinación de atributos de temperatura y velocidad del viento. Este atributo sintético tendría las siguientes 12 opciones valores:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Gracias a la combinación de atributos, el modelo puede aprender las diferencias del estado de ánimo entre un día de freezing-windy y uno de freezing-still.

Si crea un atributo sintético a partir de dos atributos que tienen muchas buckets distintos, la combinación de atributos resultante tendrá una gran cantidad de combinaciones posibles. Por ejemplo, si un atributo tiene 1,000 buckets y el otro tiene 2,000 buckets, y la combinación de atributos resultante tiene 2,000,000 buckets.

Formalmente, una cruz es una Producto cartesiano.

Las combinaciones de atributos se usan mayormente con modelos lineales y rara vez se usan con las redes neuronales.

ingeniería de atributos.

#fundamentals
#TensorFlow

Un proceso que implica los siguientes pasos:

  1. Determinar qué atributos podrían ser útiles en el entrenamiento de un modelo.
  2. Convertir los datos sin procesar del conjunto de datos en versiones eficientes de con esas funciones.

Por ejemplo, podrías determinar que temperature podría ser un elemento útil . Luego, puedes experimentar con el agrupamiento. para optimizar lo que el modelo puede aprender de diferentes rangos temperature.

A veces, la ingeniería de atributos se denomina extracción de atributos o Transformación de atributos.

extracción de atributos

Término sobrecargado con una de las siguientes definiciones:

importancias de atributos

#df

Sinónimo de importancias de variable.

conjunto de atributos

#fundamentals

El grupo de atributos que tu aprendizaje automático modelo entrena. Por ejemplo, el código postal, el tamaño de la propiedad y el estado de la propiedad podrían comprenden un conjunto de atributos sencillo para un modelo que predice los precios de las viviendas.

especificación de atributos

#TensorFlow

Describe la información necesaria para extraer datos de atributos del búfer de protocolo tf.Example. Debido a que el El búfer de protocolo tf.Example es solo un contenedor de datos, debes especificar lo siguiente:

  • Los datos que se extraerán (es decir, las claves de los atributos)
  • El tipo de datos (por ejemplo, número de punto flotante o entero)
  • La longitud (fija o variable)

vector de atributos

#fundamentals

El array de valores de atributos que consta de un ejemplo. El vector de atributos se ingresa durante el entrenamiento y durante la inferencia. Por ejemplo, el vector de atributos para un modelo con dos atributos discretos podría ser la siguiente:

[0.92, 0.56]

Cuatro capas: una de entrada, dos ocultas y una de salida.
          La capa de entrada contiene dos nodos, uno con el valor
          0.92 y la otra que contiene el valor 0.56.

Cada ejemplo proporciona valores diferentes para el vector de atributos, por lo que El vector de atributos para el siguiente ejemplo podría ser algo como lo siguiente:

[0.73, 0.49]

La ingeniería de atributos determina cómo representar en el vector de atributos. Por ejemplo, un atributo categórico binario con cinco valores posibles se pueden representar con codificación one-hot. En este caso, la parte de la un vector de atributos de un ejemplo consiste en cuatro ceros un solo 1.0 en la tercera posición, de la siguiente manera:

[0.0, 0.0, 1.0, 0.0, 0.0]

Como otro ejemplo, supongamos que tu modelo consta de tres atributos:

  • un atributo categórico binario con cinco valores posibles representados con codificación one-hot; por ejemplo: [0.0, 1.0, 0.0, 0.0, 0.0]
  • otro atributo categórico binario con tres valores posibles representados con codificación one-hot; por ejemplo: [0.0, 0.0, 1.0]
  • un atributo de punto flotante; por ejemplo: 8.3.

En este caso, el vector de atributos para cada ejemplo se representaría por nueve valores. Dados los valores de ejemplo de la lista anterior, el El vector de atributos sería el siguiente:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

representación de atributos

Es el proceso de extraer atributos de una fuente de entrada. como un documento o video, y asignar esas funciones a una vector de atributos

Algunos expertos en AA la usan como sinónimo de ingeniería de atributos o extracción de atributos.

aprendizaje federado

Un enfoque de aprendizaje automático distribuido que entrena modelos de aprendizaje automático ejemplos de dispositivos como smartphones En el aprendizaje federado, un subconjunto de dispositivos descarga el modelo actual. desde un servidor central de coordinación. Los dispositivos usan los ejemplos almacenados en los dispositivos para mejorar el modelo. Luego, los dispositivos se suben las mejoras del modelo (pero no los ejemplos de entrenamiento) a la coordinación de estado, donde se agregan con otras actualizaciones para obtener un un modelo global. Después de la agregación, las actualizaciones del modelo calculadas por dispositivos ya no son necesarios y pueden descartarse.

Como nunca se suben los ejemplos de entrenamiento, el aprendizaje federado sigue principios de privacidad de la recopilación y la minimización de datos enfocadas.

Para obtener más información sobre aprendizaje federado, consulta este instructivo.

ciclo de retroalimentación

#fundamentals

En el aprendizaje automático, una situación en la que las predicciones de un modelo influyen datos de entrenamiento para el mismo modelo o para otro modelo. Por ejemplo, un modelo que recomendaciones de películas influirá en las que las personas verán y, luego, influir en los modelos posteriores de recomendación de películas.

red neuronal prealimentada (FFN)

Red neuronal sin conexiones cíclicas o recurrentes. Por ejemplo: Las redes neuronales profundas tradicionales y prealimentadas. Compara esto con la función neuronal recurrente redes, que son cíclicas.

aprendizaje en pocos intentos

Un enfoque de aprendizaje automático, que suele usarse para la clasificación de objetos diseñados para entrenar clasificadores eficaces con solo un pequeño número ejemplos de entrenamiento.

Consulta también aprendizaje en un intento y aprendizaje sin ejemplos.

instrucciones con ejemplos limitados

#language
#generativeAI

Una instrucción que contiene más de un ejemplo (un "poco") Demostrar cómo el modelo de lenguaje grande debería responder. Por ejemplo, la siguiente instrucción larga contiene dos ejemplos en los que se muestra cómo responder una consulta a un modelo grande de lenguaje.

Partes de una instrucción Notas
¿Cuál es la moneda oficial del país especificado? La pregunta que quieres que el LLM responda.
Francia: EUR Un ejemplo.
Reino Unido: GBP Otro ejemplo.
India: Es la consulta real.

Las instrucciones con ejemplos limitados suelen producir resultados más deseables que los la instrucción sin ejemplos y las instrucciones con un solo ejemplo. Sin embargo, las instrucciones con ejemplos limitados requiere una instrucción más larga.

La instrucción con ejemplos limitados es una forma de aprendizaje en pocos ejemplos se aplican al aprendizaje basado en instrucciones.

Violín tradicional

#language

Una biblioteca de configuration centrada en Python que establece de funciones y clases sin infraestructura ni código invasivos. En el caso de Pax y otras bases de código de AA, estas funciones y Las clases representan modelos y entrenamiento. hiperparámetros.

Violín Se supone que las bases de código de aprendizaje automático suelen dividirse en los siguientes aspectos:

  • Código de biblioteca, que define las capas y los optimizadores.
  • Conjunto de datos “glue” código, que llama a las bibliotecas y conecta todo.

Fiddle captura la estructura de llamada del código glue en un formato forma mutable.

ajuste

#language
#image
#generativeAI

Es un segundo pase de entrenamiento específico para una tarea que se realiza en un modelo previamente entrenado para definir mejor sus parámetros y caso de uso específico. Por ejemplo, la secuencia de entrenamiento completa de algunos modelos grandes de lenguaje funciona de la siguiente manera:

  1. Entrenamiento previo: Entrena un modelo grande de lenguaje en un conjunto de datos general amplio. como todas las páginas de Wikipedia en inglés.
  2. Ajuste: Entrenar el modelo previamente entrenado para que realice una tarea específica como responder consultas médicas. Por lo general, el ajuste implica cientos o miles de ejemplos enfocados en la tarea específica.

Otro ejemplo es la secuencia de entrenamiento completa de un modelo de imagen grande sigue:

  1. Entrenamiento previo: Entrena un modelo de imagen grande en una imagen general amplia. como todas las imágenes de Wikimedia Commons.
  2. Ajuste: Entrenar el modelo previamente entrenado para que realice una tarea específica como generar imágenes de orcas.

El ajuste puede implicar cualquier combinación de las siguientes estrategias:

  • Modificar todos los modelos existentes del modelo previamente entrenado parámetros. A veces, esto se denomina ajuste completo.
  • Modificar solo algunos de los parámetros existentes del modelo previamente entrenado (por lo general, las capas más cercanas a la capa de salida) sin modificar los demás parámetros existentes (por lo general, las capas más cercana a la capa de entrada). Consulta ajuste eficiente de parámetros.
  • Agregar más capas, generalmente sobre las capas existentes más cercanas a la capa de salida.

El ajuste es una forma de aprendizaje por transferencia. Por lo tanto, el ajuste podría usar una función de pérdida diferente o un modelo diferente. que los que se usan para entrenar el modelo previamente entrenado. Por ejemplo, podrías ajustar un modelo de imagen grande previamente entrenado para producir un modelo de regresión que muestra la cantidad de aves en una imagen de entrada.

Compara y contrasta el ajuste con los siguientes términos:

Lino

#language

Una plataforma de código abierto biblioteca para aprendizaje profundo basado en JAX. Flax proporciona funciones para entrenar redes neuronales, así como como métodos para evaluar su rendimiento.

Lino

#language

Un Transformer de código abierto biblioteca, Creado en Flax, diseñado principalmente para procesamiento de lenguaje natural y la investigación multimodal.

puerta de descarte

#seq

La parte de una memoria a corto plazo de larga duración que regula el flujo de información por medio de la célula. Olvídate de las puertas para mantener el contexto al decidir qué información descartar del estado de la celda.

softmax completo

Sinónimo de softmax.

Compara esto con el muestreo de candidatos.

capa completamente conectada

Una capa oculta en la que cada nodo está se conectará con cada nodo de la capa oculta posterior.

Una capa completamente conectada también se conoce como una capa densa.

transformación de funciones

Función que toma una función como entrada y muestra una función transformada como salida. JAX usa transformaciones de funciones.

G

GAN

Abreviatura de generativo adversario red.

generalización

#fundamentals

La capacidad del modelo de realizar predicciones correctas sobre modelos datos nunca antes vistos. Un modelo que puede generalizar es lo opuesto de un modelo que está sobreajustado.

la API de Gemini)

#language
#image
#generativeAI

El ecosistema que comprende la IA más avanzada de Google. Elementos de este ecosistema incluyen:

Modelos de Gemini

#language
#image
#generativeAI

La tecnología de vanguardia de Google en Transformer modelos multimodales. Los modelos de Gemini son específicamente diseñados para integrarse con agentes.

Los usuarios pueden interactuar con los modelos de Gemini de varias formas, incluso a través de una interfaz de diálogo interactiva y a través de SDKs.

curva de generalización

#fundamentals

Un diagrama de pérdida de entrenamiento y pérdida de validación como una función de la cantidad de iteraciones.

Una curva de generalización puede ayudar a detectar posibles sobreajuste. Por ejemplo, los siguientes la curva de generalización sugiere sobreajuste porque la pérdida de validación y, en última instancia, se vuelve mucho más alto que la pérdida de entrenamiento.

Gráfico cartesiano en el que el eje Y está etiquetado como pérdida y el eje X
          son iteraciones etiquetadas. Aparecerán dos diagramas. Un diagrama muestra la
          pérdida de entrenamiento,
y en el otro, la pérdida de validación.
          Los dos diagramas comienzan de manera similar, pero la pérdida de entrenamiento eventualmente
          cae por debajo de la pérdida de validación.

modelo lineal generalizado

Una generalización de la regresión de mínimos cuadrados de base, que se basan en Gaussiano ruido, a otro tipos de modelos basados en otros tipos de ruido, como Ruido Poisson o el ruido categórico. Estos son algunos ejemplos de modelos lineales generalizados:

Los parámetros de un modelo lineal generalizado pueden encontrarse a través de optimización convexa.

Los modelos lineales generalizados exhiben las siguientes propiedades:

  • La predicción promedio del modelo óptimo de regresión de mínimos cuadrados es igual a la etiqueta promedio de los datos de entrenamiento.
  • La probabilidad promedio predicha por la regresión logística óptima es igual a la etiqueta promedio de los datos de entrenamiento.

La potencia de un modelo lineal generalizado está limitada por sus atributos. Desmarcar “Me gusta” En un modelo profundo, lineal generalizado no se pueden “aprender atributos nuevos”.

red generativa adversaria (GAN)

Un sistema para crear datos nuevos en el que un generador crea datos y un discriminador determina si los datos creados son válidos o no válidos.

IA generativa

#language
#image
#generativeAI

Un campo transformador emergente sin definición formal. Dicho esto, la mayoría de los expertos están de acuerdo en que los modelos de IA generativa crear (generar) contenido que tenga las siguientes características:

  • complejo
  • coherente
  • original

Por ejemplo, un modelo de IA generativa puede crear modelos ensayos o imágenes.

Algunas tecnologías anteriores, incluidas las LSTMs y las RNN pueden generar imágenes originales y contenido coherente. Algunos expertos consideran estas tecnologías anteriores como la IA generativa, mientras que otros creen que la verdadera IA generativa requiere que esas tecnologías anteriores pueden producir.

Compara esto con el AA predictivo.

modelo generativo

En términos prácticos, un modelo que realiza cualquiera de las siguientes acciones:

  • Crea (genera) nuevos ejemplos a partir del conjunto de datos de entrenamiento. Por ejemplo, un modelo generativo podría crear poesía luego de entrenar en un conjunto de datos de poemas. La parte generator de un red generativa adversaria entra en esta categoría.
  • Determina la probabilidad de que un nuevo ejemplo provenga de la conjunto de entrenamiento, o que se haya creado a partir del mismo mecanismo que creó el conjunto de entrenamiento. Por ejemplo, después de entrenar sobre en un conjunto de datos compuesto de oraciones en inglés, un modelo generativo podría determinar la probabilidad de que una nueva entrada sea una oración válida en inglés.

Un modelo generativo puede, en teoría, discernir la distribución de ejemplos o atributos particulares de un conjunto de datos. Es decir:

p(examples)

Los modelos de aprendizaje no supervisado son generativos.

Compara esto con los modelos discriminativos.

generador

El subsistema dentro de un adversario generativo red que crea nuevos ejemplos.

Compara esto con los modelos discriminativos.

impureza de gini

#df

Una métrica similar a la entropía. Divisores usan valores derivados de impureza de gini o entropía para componer conditions para la clasificación árboles de decisión. El aumento de la información se deriva de la entropía. No existe un término equivalente universalmente aceptado para la métrica derivada de la impureza del gini; Sin embargo, esta métrica sin nombre es tan importante como de información.

La impureza de Gini también se denomina índice de gini o simplemente gini.

conjunto de datos dorado

Un conjunto de datos seleccionados manualmente que capturan la verdad fundamental. Los equipos pueden usar uno o más conjuntos de datos dorados para evaluar la calidad de un modelo.

Algunos conjuntos de datos dorados capturan diferentes subdominios de verdad fundamental. Por ejemplo: un conjunto de datos dorado para la clasificación de imágenes podría capturar las condiciones de iluminación y la resolución de la imagen.

GPT (transformador generativo previamente entrenado)

#language

Una familia de modelos basados en Transformer modelos grandes de lenguaje desarrollados por OpenAI.

Las variantes de GPT pueden aplicarse a varias modalidades, incluidas las siguientes:

  • generación de imágenes (por ejemplo, ImageGPT)
  • generación de texto a imagen (por ejemplo, DALL-E)

gradient

El vector de las derivadas parciales respecto de todas las variables independientes. En el aprendizaje automático, el gradiente el vector de las derivadas parciales de la función del modelo. Los puntos de gradiente en la dirección del aumento más empinado.

acumulación de gradientes

Es una técnica de propagación inversa que actualiza la parámetros solo una vez por ciclo de entrenamiento en lugar de una vez por e iteración. Después de procesar cada minilote, el gradiente solo actualiza un total de gradientes. Luego, después de cuando procesas el último minilote en el ciclo de entrenamiento, el sistema finalmente los parámetros según el total de todos los cambios de gradiente.

La acumulación de gradientes es útil cuando el tamaño del lote es es muy grande en comparación con la cantidad de memoria disponible para el entrenamiento. Cuando la memoria es un problema, la tendencia natural es reducir el tamaño del lote. Sin embargo, reducir el tamaño del lote en la propagación inversa normal aumenta la cantidad de actualizaciones de parámetros. La acumulación de gradientes permite al modelo para evitar problemas de memoria, pero aun así realizar el entrenamiento eficiente.

Árboles de gradiente (decisión) potenciados (GBT)

#df

Un tipo de bosque de decisión en el que:

potenciación de gradiente

#df

Algoritmo de entrenamiento en el que los modelos débiles se entrenan de forma iterativa mejorar la calidad (reducir la pérdida) de un modelo sólido. Por ejemplo: un modelo débil podría ser uno lineal o un modelo de árbol de decisión pequeño. El modelo sólido se convierte en la suma de todos los modelos débiles previamente entrenados.

En la forma más simple de boosting de gradiente, en cada iteración, un modelo débil se entrena para predecir la pérdida del modelo sólido. Luego, la de un modelo sólido se actualiza restando el gradiente predicho, de manera similar al descenso de gradientes.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Donde:

  • $F_{0}$ es el modelo fuerte inicial.
  • $F_{i+1}$ es el próximo modelo fuerte.
  • $F_{i}$ es el modelo fuerte actual.
  • $\xi$ es un valor entre 0.0 y 1.0 llamado reducción. que es similar al tasa de aprendizaje en el descenso de gradientes.
  • $f_{i}$ es el modelo débil entrenado para predecir el gradiente de pérdida de $F_{i}$.

Las variaciones modernas del boosting de gradiente también incluyen la segunda derivada (hessiano) de la pérdida en su cálculo.

Los árboles de decisión suelen usarse como modelos débiles en potenciador de gradiente. Consulta árboles con boosting del gradiente (decisión).

recorte de gradientes

#seq

Un mecanismo de uso general para mitigar el problema de gradiente con alto crecimiento debido a limitar (recorte) el valor máximo de los gradientes cuando se usa descenso de gradientes para entrenar un modelo.

descenso de gradientes

#fundamentals

Es una técnica matemática para minimizar la pérdida. El descenso de gradientes se ajusta de forma iterativa pesos y sesgos encontrar gradualmente la mejor combinación para minimizar la pérdida.

El descenso de gradientes es mucho más antiguo que el aprendizaje automático.

gráfico

#TensorFlow

En TensorFlow, especificación de procesamiento. Nodos del gráfico representan operaciones. Las aristas están dirigidas y representan el paso del resultado de una operación (un tensor) como un operando a otra operación. Usa TensorBoard para visualizar un gráfico.

ejecución por grafos

#TensorFlow

Un entorno de programación de TensorFlow en el que el programa primero construye un grafo y, luego, ejecuta todo o parte de él. Gráfico ejecución es el modo de ejecución predeterminado en TensorFlow 1.x.

Compara esto con la ejecución inmediata.

política voraz

#rl

En el aprendizaje por refuerzo, una política que siempre elige acción con el retorno esperado más alto.

Verdad fundamental

#fundamentals

Realidad.

La cosa que realmente sucedió.

Por ejemplo, considera una clasificación binaria que predice si un estudiante en su primer año de universidad se graduarán en seis años. La verdad fundamental para este modelo es si El estudiante no se graduó en seis años.

sesgo de correspondencia

#fairness

Suponer que lo que es verdadero para un individuo, también lo es para todos de ese grupo. Los efectos del sesgo de correspondencia pueden agravarse si un muestreo de conveniencia se usa para la recopilación de datos. En una muestra no representativa, las atribuciones que no reflejan la realidad.

Consulta también el sesgo de homogeneidad de los demás y sesgo endogrupal.

H

alucinación

#language

La producción de un resultado aparentemente creíble, pero incorrecto, según un de IA generativa que pretende realizar una afirmación sobre el mundo real. Por ejemplo, un modelo de IA generativa que afirma que Barack Obama murió en 1865. es alucinante.

hash

En el aprendizaje automático, un mecanismo para el agrupamiento datos categóricos, en especial cuando la cantidad de categorías es grande, pero la cantidad de categorías que realmente aparecen del conjunto de datos es comparativamente pequeño.

Por ejemplo, la Tierra es el hogar de unas 73,000 especies arbóreas. Podrías representar cada una de las 73,000 especies arbóreas en 73,000 categorías buckets. O bien, si solo aparecen 200 de esas especies arbóreas de un conjunto de datos, podrías usar el hashing para dividir las especies quizá 500 buckets.

Un solo agrupamiento puede contener varias especies de árbol. Por ejemplo, la codificación hash baobab y arce rojo, dos genéticamente diferentes en un mismo bucket. En cualquier caso, el hashing sigue siendo una buena manera asignar grandes conjuntos categóricos a la cantidad de buckets seleccionados. Generar un hash atributo categórico con un gran número de valores posibles en una cantidad una cantidad menor de valores agrupando los valores de una de manera determinista.

heurística

Es una solución sencilla y implementada con rapidez para un problema. Por ejemplo: “Con una heurística, conseguimos una exactitud del 86%. Cuando cambiamos a un red neuronal profunda, la exactitud subió hasta un 98%".

capa oculta

#fundamentals

Una capa en una red neuronal entre las capa de entrada (los atributos) y el capa de salida (la predicción). Cada capa oculta consta de una o más neuronas. Por ejemplo, la siguiente red neuronal contiene dos capas ocultas, la primera con tres neuronas y la segunda con dos neuronas:

Cuatro capas. La primera capa es una de entrada que contiene dos
          atributos. La segunda capa es una capa oculta que contiene tres
          neuronas. La tercera capa es una capa oculta que contiene dos
          neuronas. La cuarta capa es una capa de salida. Cada función
          contiene tres bordes, cada uno de los cuales apunta a una neurona diferente
          en la segunda capa. Cada una de las neuronas en la segunda capa
          contiene dos bordes, cada uno de los cuales apunta a una neurona diferente
          en la tercera capa. Cada neurona en la tercera capa contiene
          una arista, cada una apuntando a la capa de salida.

Una red neuronal profunda contiene más de una. capa oculta. Por ejemplo, la ilustración anterior es un modelo porque el modelo contiene dos capas ocultas.

agrupamiento en clústeres jerárquico

#clustering

Es una categoría de algoritmos de agrupamiento en clústeres que crean un árbol. de clústeres. El agrupamiento en clústeres jerárquico se adapta bien a los datos jerárquicos, como las taxonomías botánicas. Hay dos tipos de modelos jerárquicos algoritmos de agrupamiento en clústeres:

  • El agrupamiento aglomerado asigna primero cada ejemplo a su propio clúster, y combina de forma iterativa los clústeres más cercanos para crear un de imágenes.
  • El agrupamiento en clústeres divisivo agrupa primero todos los ejemplos en un clúster y, luego, divide de manera iterativa el clúster en un árbol jerárquico.

Compara esto con el agrupamiento en clústeres basado en centroides.

pérdida de bisagra

Una familia de funciones de pérdida clasificación diseñada para encontrar la límite de decisión lo más distante posible de cada ejemplo de entrenamiento, lo que maximiza el margen entre los ejemplos y el límite. Las KSVM usan pérdida de bisagra (o una función relacionada, como pérdida de bisagra al cuadrado). Para la clasificación binaria, la función de pérdida de bisagra se define de la siguiente manera:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

donde y es la etiqueta verdadera, ya sea -1 o +1, e y' es el resultado sin procesar. del modelo clasificador:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En consecuencia, un trazado de pérdida de bisagra versus (y * y') se ve de la siguiente manera:

Representación cartesiana que consta de dos segmentos de líneas unidos. La primera
          segmento de línea comienza en (-3, 4) y termina en (1, 0). La segunda línea
          segmento comienza en (1, 0) y continúa indefinidamente con una pendiente
          de 0.

sesgo histórico

#fairness

Un tipo de sesgo que ya existe en el mundo y tiene en un conjunto de datos. Estos sesgos tienden a reflejar los sesgos estereotipos culturales, las desigualdades demográficas y los prejuicios contra ciertos grupos sociales.

Por ejemplo, considera un modelo de clasificación que prediga si el solicitante de un préstamo suspenderá su préstamo, lo que fue se entrenó con datos históricos de impagos de préstamos de la década de 1980 de bancos locales a diferentes comunidades. Si los postulantes anteriores de la Comunidad A fueran seis veces más que los solicitantes de la Comunidad B, el modelo podría aprender un sesgo histórico, lo que hace que el modelo sea menos propenso a aprobar préstamos en la Comunidad A, incluso si las condiciones históricas que provocaron las tasas predeterminadas más altas de esa comunidad ya no eran relevantes.

datos de exclusión

Ejemplos que no se usan intencionalmente (se "excluyen") durante el entrenamiento. El conjunto de datos de validación y Los conjuntos de datos de prueba son ejemplos de datos de exclusión. Datos de exclusión ayuda a evaluar la capacidad del modelo para generalizar datos que no sean el con los que se entrenó. La pérdida en el conjunto de exclusión proporciona un mejor estimada de la pérdida en un conjunto de datos no visto que la pérdida en el conjunto de entrenamiento.

host

#TensorFlow
#GoogleCloud

Cuando entrenas un modelo de AA en chips aceleradores (GPU o TPU), la parte del sistema que controla los siguientes aspectos:

  • El flujo general del código.
  • La extracción y transformación de la canalización de entrada.

Por lo general, el host se ejecuta en una CPU, no en un chip acelerador. el device manipula tensores en la chips de aceleración.

hiperparámetro

#fundamentals

Las variables que tú o un servicio de ajuste de hiperparámetros ajustar durante ejecuciones sucesivas de entrenamiento de un modelo. Por ejemplo: La tasa de aprendizaje es un hiperparámetro. Podrías establece la tasa de aprendizaje en 0.01 antes de una sesión de capacitación. Si determinas que 0.01 es demasiado alto, tal vez 0.003 para la próxima sesión de capacitación.

En cambio, los parámetros son los diversos pesos y sesgos que el modelo aprende durante el entrenamiento.

hiperplano

Límite que separa un espacio en dos subespacios. Por ejemplo, una línea es una un hiperplano en dos dimensiones y un plano es un hiperplano en tres dimensiones. En el aprendizaje automático, un hiperplano es el límite que separa una espacio de alta dimensión. Uso de máquinas de vectores compatibles con kernel los hiperplanos para separar las clases positivas de las negativas, a menudo de espacio de alta dimensión.

I

i.i.d.

Abreviatura de independiente e idénticamente distribuido.

reconocimiento de imágenes

#image

Es un proceso que clasifica objetos, patrones o conceptos en una imagen. El reconocimiento de imágenes también se conoce como clasificación de imágenes.

Para obtener más información, consulta Práctica de AA: Clasificación de imágenes.

conjunto de datos desequilibrados

Sinónimo de conjunto de datos desequilibrados.

sesgo implícito

#fairness

Hacer automáticamente una asociación o suposición basada en la mente propia modelos y memorias. El sesgo implícito puede afectar lo siguiente:

  • Cómo se recopilan y clasifican los datos
  • Cómo se diseñan y desarrollan los sistemas de aprendizaje automático

Por ejemplo, cuando crees un clasificador para identificar fotos de bodas, un ingeniero puede usar la presencia de un vestido blanco en una foto como característica. Sin embargo, los vestidos blancos han sido habituales solamente durante ciertas épocas y en ciertas culturas.

Consulta también el sesgo de confirmación.

imputación

Forma abreviada de asignación de valor.

incompatibilidad de métricas de equidad

#fairness

La idea de que algunas nociones de equidad son incompatibles entre sí y no se pueden satisfacer simultáneamente. Como resultado, no hay métrica universal para cuantificar la equidad que se pueden aplicar a todos los problemas de AA.

Aunque esto pueda parecer desalentador, la incompatibilidad de las métricas de equidad no implica que los esfuerzos de equidad sean inútiles. En cambio, sugiere que la equidad debe definirse contextualmente para un problema de AA determinado, cuyo objetivo es evitar daños específicos de sus casos de uso.

Consulta "En la (im)possibilidad de equidad” para obtener un análisis más detallado de este tema.

aprendizaje en contexto

#language
#generativeAI

Sinónimo de instrucción con ejemplos limitados.

independiente e idénticamente distribuido (es decir,

#fundamentals

Datos extraídos de una distribución que no cambia y en la que cada valor dibujada no depende de los valores que se han obtenido previamente. Los datos i.i.d. es el gas ideal de máquina aprendizaje: un constructo matemático útil, pero que casi nunca encontró exactamente en el mundo real. Por ejemplo, la distribución de visitantes a una página web pueden ser i.i.d. durante un período breve; es decir, la distribución durante ese período breve y la visita de una persona, por lo general, independiente de la visita de otra persona. Sin embargo, si amplías ese período, pueden aparecer diferencias de temporada en los visitantes de la página web.

Consulta también no estacionariedad.

equidad individual

#fairness

Una métrica de equidad que comprueba si se clasifican personas similares de manera similar. Por ejemplo, Brobdingnagian Academy podría querer satisfacer la equidad individual al garantizar que dos estudiantes con calificaciones idénticas y puntuaciones estandarizadas tienen la misma probabilidad de obtener admisión.

Ten en cuenta que la equidad individual se basa completamente en cómo defines la “similitud” (en este caso, calificaciones y calificaciones de exámenes), y puedes correr el riesgo de Presenta nuevos problemas de equidad si tu métrica de similitud omite importantes información (como el rigor del plan de estudios de un estudiante).

Consulta "Equidad a través de Reconocimiento" para obtener un análisis más detallado sobre la equidad individual.

inferencia

#fundamentals

En el aprendizaje automático, el proceso de hacer predicciones aplicar un modelo entrenado a ejemplos sin etiqueta.

La inferencia tiene un significado algo diferente en la estadística. Consulta la Artículo de Wikipedia sobre inferencia estadística para obtener más detalles.

ruta de inferencia

#df

En un árbol de decisión, durante la inferencia, la ruta que toma un ejemplo en particular desde la root para otras condiciones, que termina con una hoja. Por ejemplo, en el siguiente árbol de decisiones, el las flechas gruesas muestran la ruta de inferencia de un ejemplo con el siguiente atributos con los valores de atributos:

  • x = 7
  • y = 12
  • z = -3

La ruta de inferencia en la siguiente ilustración recorre tres condiciones antes de llegar a la hoja (Zeta).

Árbol de decisión que consta de cuatro condiciones y cinco hojas.
          La condición raíz es (x > 0). Dado que la respuesta es sí,
          de inferencia (y > 0) va desde la raíz hasta la siguiente condición.
          Dado que la respuesta es sí, la ruta de inferencia viaja al
          la siguiente condición (z > 0). Dado que la respuesta es no, la ruta de inferencia
          viaja a su nodo terminal, que es la hoja (Zeta).

Las tres flechas gruesas muestran la ruta de inferencia.

aumento de información

#df

En los bosques de decisión, la diferencia entre la entropía de un nodo y la ponderada (por número de ejemplos) de la entropía de sus nodos secundarios. La entropía de un nodo es la entropía de los ejemplos en ese nodo.

Por ejemplo, considera los siguientes valores de entropía:

  • entropía del nodo superior = 0.6
  • entropía de un nodo secundario con 16 ejemplos relevantes = 0.2
  • entropía de otro nodo secundario con 24 ejemplos relevantes = 0.1

Así que el 40% de los ejemplos están en un nodo secundario y el 60% otro nodo secundario. Por lo tanto:

  • Suma de entropía ponderada de nodos secundarios = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

Entonces, la ganancia de información es la siguiente:

  • ganancia de información = entropía del nodo superior - suma de entropía ponderada de nodos secundarios
  • ganancia de información = 0.6 - 0.14 = 0.46

La mayoría de los divisores buscan crear condiciones. que maximizan el aumento de la información.

sesgo endogrupal

#fairness

Mostrar parcialidad por el propio grupo o las propias características Si los evaluadores son los amigos del desarrollador de aprendizaje automático la familia o los colegas, el sesgo endogrupal puede invalidar las pruebas de productos o el conjunto de datos.

El sesgo endogrupal es una forma de sesgo de correspondencia. Consulta también el sesgo de homogeneidad de los demás.

generador de entrada

Un mecanismo mediante el cual los datos se cargan una red neuronal.

Un generador de entrada puede considerarse un componente responsable del procesamiento datos sin procesar en tensores que se iteran para generar lotes para el entrenamiento, la evaluación y la inferencia.

capa de entrada

#fundamentals

La capa de una red neuronal que contiene el vector de atributos. Es decir, la capa de entrada proporciona ejemplos de capacitación o inferencia. Por ejemplo, la capa de entrada de la siguiente consta de dos atributos:

Cuatro capas: una de entrada, dos ocultas y una de salida.

condición en la configuración

#df

En un árbol de decisión, una condición que comprueba la presencia de un elemento en un conjunto de elementos. Por ejemplo, la siguiente es una condición establecida:

  house-style in [tudor, colonial, cape]

Durante la inferencia, si el valor del atributo de estilo de casa es tudor, colonial o cape, entonces, esta condición se evalúa como Sí. Si el valor del atributo de estilo de la casa es otra cosa (por ejemplo, ranch). esta condición se evalúa como No.

Las condiciones establecidas suelen generar árboles de decisión más eficientes que condiciones que prueban funciones de codificación one-hot.

instancia

Sinónimo de ejemplo.

ajuste de instrucciones

#generativeAI

Una forma de ajuste que mejora un la capacidad del modelo de IA generativa para seguir instrucciones. El ajuste de instrucciones implica entrenar un modelo en una serie de instrucciones de instrucción, que generalmente abarcan un amplio y una variedad de tareas. El modelo ajustado para la instrucción resultante luego tiende a Generar respuestas útiles a instrucciones sin ejemplos en una variedad de tareas.

Comparar y contrastar con lo siguiente:

interpretabilidad

#fundamentals

Es la capacidad de explicar o presentar el razonamiento de un modelo de AA de comprensibles para los humanos.

La mayoría de los modelos de regresión lineal, por ejemplo, son muy interpretable. (Solo tienes que mirar los pesos entrenados de cada feature.) Los bosques de decisiones también son altamente interpretables. Sin embargo, algunos modelos requieren visualizaciones sofisticadas para convertirse en interpretables.

Puedes usar la Herramienta de interpretabilidad del aprendizaje (LIT) para interpretar modelos de AA.

acuerdo entre evaluadores

Es una medición de la frecuencia con la que los evaluadores humanos están de acuerdo al realizar una tarea. Si los evaluadores no están de acuerdo, es posible que se deban mejorar las instrucciones de la tarea. En algunas ocasiones, también se denomina acuerdo entre anotadores o confiabilidad entre evaluadores. Consulta también Cohen's kappa, que es una de las mediciones más populares del acuerdo entre evaluadores.

intersección sobre unión (IoU)

#image

Es la intersección de dos conjuntos dividido por su unión. En el aprendizaje automático de detección de imágenes, IoU se usa para medir la exactitud de la latencia cuadro de límite predicho con respecto al de verdad fundamental. En este caso, la IoU del dos cuadros es la proporción entre el área superpuesta y el área total, y su rango de valores va de 0 (sin superposición del cuadro de límite previsto y de la verdad fundamental). (cuadro delimitador) a 1 (el cuadro de límite previsto y el cuadro de límite de verdad fundamental tienen exactamente las mismas coordenadas).

Por ejemplo, en la siguiente imagen:

  • El cuadro de límite previsto (las coordenadas que delimitan dónde se encuentra que predice que está la mesa de noche en la pintura) está delineada en púrpura.
  • El cuadro delimitador de la verdad fundamental (las coordenadas que delimitan dónde está la noche tabla de la pintura) está delineada en verde.

La pintura de Van Gogh en &quot;La habitación de Vincent&quot; en Arlés, con dos obras
          cuadros delimitadores alrededor de la mesa de noche junto a la cama. La verdad fundamental
          cuadro delimitador (en verde) circunscribe a la perfección la mesa nocturna. El
          el cuadro de límite predicho (en violeta) está desplazado un 50% hacia abajo y hacia la derecha
          del cuadro delimitador de la verdad fundamental; encierra el cuarto inferior derecho
          de la mesa de la noche, pero extraña el resto de la mesa.

Aquí, la intersección de los cuadros delimitadores para la predicción y la verdad fundamental (debajo de la izquierda) es 1, y la unión de los cuadros delimitadores para la predicción y la verdad fundamental (debajo a la derecha) es 7, por lo que la IoU es \(\frac{1}{7}\).

La misma imagen anterior, pero con cada cuadro de límite dividido en cuatro
          cuadrantes. Hay siete cuadrantes en total, ya que la parte inferior derecha
          cuadrante del cuadro delimitador de la verdad fundamental y la esquina superior izquierda
          cuadrante del cuadro de límite previsto se superponen entre sí. Esta
          la sección superpuesta (resaltada en verde) representa el
          intersección y tiene un área de 1. La misma imagen anterior, pero con cada cuadro de límite dividido en cuatro
          cuadrantes. Hay siete cuadrantes en total, ya que la parte inferior derecha
          cuadrante del cuadro delimitador de la verdad fundamental y la esquina superior izquierda
          cuadrante del cuadro de límite previsto se superponen entre sí.
          Todo el interior delimitado por ambos cuadros delimitadores
          (resaltado en verde) representa la unión, y tiene
          un área de 7.

IoU

Abreviatura de intersección sobre la unión.

matriz de elementos

#recsystems

En los sistemas de recomendación, se incluye una matriz de vectores de incorporación generados por factorización de matrices que contenga indicadores latentes sobre cada elemento. Cada fila de la matriz del elemento contiene el valor de un único elemento latente para todos los elementos. Por ejemplo, piensa en un sistema de recomendación de películas. Cada columna en la matriz de elementos representa una sola película. Los indicadores latentes pueden representar géneros o podrían ser más difíciles de interpretar. señales que implican interacciones complejas entre géneros, estrellas, la antigüedad de la película y otros factores.

La matriz de elementos tiene la misma cantidad de columnas que el objetivo. matriz que se factoriza. Por ejemplo, en el caso de una película de recomendación que evalúa 10,000 títulos de películas, el de elementos tendrán 10,000 columnas.

elementos

#recsystems

En un sistema de recomendaciones, las entidades que que recomienda un sistema. Por ejemplo, los videos son los elementos que una tienda de videos recomienda, mientras que los libros son los artículos que recomienda una librería.

iteración

#fundamentals

Una sola actualización de los parámetros de un modelo, los pesos y sesgos durante capacitación. El tamaño del lote determina cuántos ejemplos procesa el modelo en una sola iteración. Por ejemplo: Si el tamaño del lote es 20, entonces el modelo procesa 20 ejemplos antes ajustando los parámetros.

Cuando se entrena una red neuronal, una única iteración implica los dos pases siguientes:

  1. Es un pase hacia delante para evaluar la pérdida en un solo lote.
  2. Una propagación inversa (propagación inversa) para ajustar la los parámetros del modelo según la pérdida y la tasa de aprendizaje.

J

JAX

Una biblioteca de procesamiento de arrays que reúne Álgebra lineal acelerada (XLA) y diferenciación automática para computación numérica de alto rendimiento. JAX proporciona una solución simple y potente API para escribir código numérico acelerado con transformaciones componibles JAX ofrece las siguientes funciones:

  • grad (diferenciación automática)
  • jit (compilación justo a tiempo)
  • vmap (vectorización automática o lotes)
  • pmap (paralelización)

JAX es un lenguaje para expresar y componer transformaciones de números código análogo, pero mucho mayor en alcance, a NumPy de Python biblioteca. (De hecho, la biblioteca .numpy de JAX es un equivalente funcionalmente, pero completamente reescrita de la biblioteca Python NumPy).

JAX es particularmente adecuado para acelerar muchas tareas de aprendizaje automático mediante la transformación de los modelos y los datos en un formato adecuado para el paralelismo en la GPU y los chips aceleradores de TPU.

Flax, Optax, Pax y muchos otros se basan en la infraestructura de JAX.

K

Keras

Una API de aprendizaje automático popular de Python. Keras se ejecuta el de aprendizaje profundo, incluido TensorFlow, donde se realiza disponible como tf.keras.

máquinas de vectores soporte de Kernel (KSVM)

Un algoritmo de clasificación que busca maximizar el margen entre positivo y clases negativas mediante la asignación de vectores de datos de entrada a un espacio de dimensiones más altas. Por ejemplo, considera una clasificación problema en el que el conjunto de datos de entrada tiene cien atributos. Para maximizar el margen entre positivas y negativas, una KSVM puede asignar internamente esas funciones un espacio de un millón de dimensiones. Las KSVM usan una función de pérdida llamada pérdida de bisagra.

puntos clave

#image

Las coordenadas de características particulares en una imagen. Por ejemplo, para un de reconocimiento de imágenes que distingue de una especie de flor, los puntos clave podrían ser el centro de cada pétalo, el tallo, el estambre, etcétera.

validación cruzada de k-fold

Un algoritmo para predecir la capacidad de un modelo para generalizar datos nuevos. La k en k-fold se refiere a la la cantidad de grupos iguales en los que divides los ejemplos de un conjunto de datos; es decir, se entrena y pruebes tu modelo k veces. Para cada ronda de capacitación y prueba, grupo diferente es el conjunto de prueba y todos los grupos restantes se convierten en el grupo automático. Luego de k rondas de entrenamiento y prueba, calculas la media y el desvío estándar de las métricas de prueba elegidas.

Por ejemplo, supongamos que tu conjunto de datos consta de 120 ejemplos. Supongamos además decides establecer k en 4. Por lo tanto, después de mezclar los ejemplos, divides el conjunto de datos en cuatro grupos iguales de 30 ejemplos y realizas cuatro rondas de capacitación/prueba:

Un conjunto de datos dividido en cuatro grupos iguales de ejemplos. En la primera ronda,
          Los tres primeros grupos se usan para el entrenamiento. El último,
          se usa para realizar pruebas. En la Ronda 2, los dos primeros grupos y el último
          grupo se usan para entrenamiento, mientras que el tercer grupo se usa para
          y pruebas. En la ronda 3, el primer grupo y los dos últimos
          se usa para el entrenamiento, mientras que el segundo grupo se usa para las pruebas.
          En la 4a ronda, el primer grupo se usa para pruebas, mientras que el final
          tres grupos para el entrenamiento.

Por ejemplo, el error cuadrático medio (ECM) podría podría ser la métrica más significativa para un modelo de regresión lineal. Por lo tanto, encontraría la media y la desviación estándar del ECM en las cuatro rondas.

k-medios

#clustering

Algoritmo de agrupamiento en clústeres popular que agrupa ejemplos en el aprendizaje no supervisado. El algoritmo k-means hace básicamente lo siguiente:

  • Determina de forma iterativa los mejores puntos centrales k (conocidos como como centroides).
  • Asigna cada ejemplo al centroide más cercano. Los ejemplos más cercanos mismo centroide pertenecen al mismo grupo.

El algoritmo k-means selecciona las ubicaciones del centroide para minimizar la acumulación cuadrado de las distancias desde cada ejemplo hasta su centroide más cercano.

Por ejemplo, considera la siguiente representación de altura a ancho de perro:

Representación cartesiana con varias docenas de puntos de datos.

Si k=3, el algoritmo k-means determinará tres centroides. Cada ejemplo se asigna a su centroide más cercano, lo que genera tres grupos:

La misma representación cartesiana que en la ilustración anterior, excepto que
          con tres centroides agregados.
          Los datos anteriores se agrupan en tres grupos distintos,
          y cada grupo representa los datos más cercanos a un
          centroide.

Imagina que un fabricante quiere determinar los tamaños ideales para los tamaños suéteres medianos y grandes para perros. Los tres centroides identifican la media la altura y el ancho medio de cada perro en ese grupo. Por lo tanto, el fabricante probablemente debería basar los tamaños de suéter en esos tres centroides. Ten en cuenta que el centroide de un clúster no suele ser un ejemplo del clúster.

En las ilustraciones anteriores, se muestra el valor de k-means para ejemplos con solo dos atributos (altura y ancho). Observa que k-means puede agrupar ejemplos en muchos atributos.

k-mediana

#clustering

Un algoritmo de agrupamiento en clústeres estrechamente relacionado con k-means. El La diferencia práctica entre ambos es la siguiente:

  • En k-means, los centroides se determinan minimizando la suma de los cuadrados de la distancia entre un centroide candidato y cada uno de sus ejemplos.
  • En k-mediana, los centroides se determinan minimizando la suma de la entre un centroide candidato y cada uno de sus ejemplos.

Ten en cuenta que las definiciones de distancia también son diferentes:

  • k-means se basa en la Distancia euclidiana desde el centroide a un ejemplo. (En dos dimensiones, el modelo euclidiano distancia significa usar el teorema de Pitágoras para calcular la hipotenusa). Por ejemplo, la distancia de k-medios entre (2,2) y (5,-2) sería:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median se basa en la distancia Manhattan del centroide a un ejemplo. Esta distancia es la suma de la deltas absolutos en cada dimensión. Por ejemplo, el valor k-median distancia entre (2,2) y (5,-2) sería:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

regularización L0

#fundamentals

Un tipo de regularización que penaliza el número total de pesos distintos de cero en un modelo. Por ejemplo, un modelo con 11 pesos distintos de cero sería penalizado más que un modelo similar con 10 pesos distintos de cero.

A veces, la regularización L0 se denomina regularización de norma L0.

pérdida L1

#fundamentals

Una función de pérdida que calcula el valor absoluto de la diferencia entre los valores reales de las etiquetas y son los valores que predice un modelo. Por ejemplo, este es el cálculo de la pérdida L1 para un lote de cinco ejemplos:

Valor real del ejemplo Valor previsto del modelo Valor absoluto de delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = pérdida L1

La pérdida L1 es menos sensible a los valores atípicos. que la pérdida L2.

El error absoluto medio es el promedio pérdida L1 por ejemplo.

regularización L1

#fundamentals

Un tipo de regularización que penaliza pesos en proporción a la suma del valor absoluto de los pesos. La regularización L1 ayuda a impulsar los pesos de objetos irrelevantes o los atributos poco relevantes a exactamente 0. Una función con se quita efectivamente un peso de 0 del modelo.

Compara esto con la regularización L2.

pérdida L2

#fundamentals

Una función de pérdida que calcula el cuadrado de la diferencia entre los valores reales de las etiquetas y son los valores que predice un modelo. Por ejemplo, este es el cálculo de la pérdida L2 para un lote de cinco ejemplos:

Valor real del ejemplo Valor previsto del modelo Cuadrado de delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = pérdida L2

Debido a la cuadratura, la pérdida L2 amplifica la influencia de valores atípicos. Es decir, la pérdida L2 reacciona con mayor intensidad ante las predicciones erróneas que pérdida L1. Por ejemplo, la pérdida L1 para el lote anterior serían 8 en vez de 16. Observa que un solo los valores atípicos representan 9 de las 16.

Los modelos de regresión suelen usar pérdida L2. como la función de pérdida.

El error cuadrático medio es el promedio pérdida L2 por ejemplo. Pérdida al cuadrado es otro nombre para la pérdida L2.

Regularización L2

#fundamentals

Un tipo de regularización que penaliza pesos en proporción a la suma de los cuadrados de los pesos. La regularización L2 ayuda a generar pesos de valores atípicos (los con valores negativos bajos o positivos altos) más cerca de 0, pero no exactamente entre 0. Los atributos con valores muy cercanos a 0 permanecen en el modelo pero no influyen mucho en la predicción del modelo.

La regularización L2 siempre mejora la generalización en modelos lineales.

Compara esto con la regularización L1.

etiqueta

#fundamentals

En el aprendizaje automático supervisado, "respuesta" o "resultado" parte de un ejemplo.

Cada ejemplo etiquetado consta de uno o más atributos y una etiqueta. Por ejemplo, en una carpeta de spam, del conjunto de datos de detección, es probable que la etiqueta sea “spam” o "no es spam". En un conjunto de datos de lluvia, la etiqueta puede ser la cantidad de lluvia que cayó durante cierto período.

ejemplo etiquetado

#fundamentals

Un ejemplo que contiene uno o más atributos y una etiqueta. Por ejemplo, la siguiente tabla muestra tres ejemplos etiquetados de un modelo de valoración de viviendas, cada uno con tres atributos y una etiqueta:

Cantidad de dormitorios Cantidad de baños Antigüedad de la casa Precio de la casa (etiqueta)
3 2 15 USD 345,000
2 1 72 USD 179,000
4 2 34 USD 392,000

En el aprendizaje automático supervisado, los modelos se entrenan con ejemplos etiquetados y hacen predicciones sobre ejemplos sin etiqueta.

Compara el ejemplo etiquetado con los ejemplos sin etiqueta.

filtración de etiquetas

Una falla en el diseño del modelo en la que un atributo es un proxy del etiqueta. Por ejemplo, considera un modelo de clasificación binaria que predice si un cliente potencial comprará o no un producto en particular. Supongamos que uno de los atributos para el modelo es un valor booleano SpokeToCustomerAgent Supongamos también que un agente del cliente solo Se asigna después de que el cliente potencial compra el producto. producto. Durante el entrenamiento, el modelo aprende rápido la asociación entre SpokeToCustomerAgent y la etiqueta.

Lambda

#fundamentals

Sinónimo de tasa de regularización.

Lambda es un término sobrecargado. Aquí nos centramos en los atributos definición dentro de la regularización.

LaMDA (modelo de lenguaje para aplicaciones de diálogo)

#language

Un modelo basado en Transformer modelo grande de lenguaje desarrollado por Google entrenado un gran conjunto de datos de diálogo que puede generar respuestas conversacionales realistas.

LaMDA: nuestra gran conversación tecnología proporciona una descripción general.

puntos de referencia

#image

Sinónimo de puntos clave.

modelo de lenguaje

#language

Un modelo que estima la probabilidad de un token o una secuencia de tokens que ocurra en una secuencia más larga de tokens.

modelo de lenguaje extenso

#language

Como mínimo, un modelo de lenguaje con un número muy alto de parámetros. De manera más informal, cualquier Modelo de lenguaje basado en Transformer, como Gemini o GPT.

espacio latente

#language

Sinónimo de espacio de incorporación.

oculta

#fundamentals

Un conjunto de neuronas en un red neuronal. Tres tipos comunes de capas son los siguientes:

Por ejemplo, en la siguiente ilustración se muestra una red neuronal con una capa de entrada, dos capas ocultas y una capa de salida:

Una red neuronal con una capa de entrada, dos capas ocultas y una
          capa de salida. La capa de entrada consta de dos atributos. La primera
          Consta de tres neuronas, y la segunda capa oculta
          consta de dos neuronas. La capa de salida consta de un solo nodo.

En TensorFlow, las capas también son funciones de Python que toman Tensors y opciones de configuración como entrada y producir otros tensores como salida.

API de Layers (tf.layers)

#TensorFlow

Una API de TensorFlow para construir una red neuronal profunda como una composición de capas. La API de Layers te permite crear diferentes tipos de capas, como:

La API de Layers sigue las convenciones de la API de capas de Keras. Es decir, a excepción de un prefijo diferente, todas las funciones de la API de Layers tener los mismos nombres y firmas que sus contrapartes en el archivo de capas.

hoja

#df

Cualquier extremo en un árbol de decisión. No te gusta un condition, una hoja no realiza ninguna prueba. Más bien, una hoja es una predicción posible. Una hoja también es la terminal. nodo de una ruta de inferencia.

Por ejemplo, el siguiente árbol de decisión contiene tres hojas:

Árbol de decisión con dos condiciones que conducen a tres hojas.

Herramienta de interpretabilidad de aprendizaje (LIT)

Una herramienta interactiva y visual de comprensión de modelos y visualización de datos.

Puedes usar LIT de código abierto para lo siguiente: interpretar modelos o visualizar texto, imágenes y datos tabulares.

tasa de aprendizaje

#fundamentals

Un número de punto flotante que le indica al descenso de gradientes algoritmo la precisión con la que se ajustan los pesos y sesgos en cada iteración. Por ejemplo, una tasa de aprendizaje de 0.3 Ajustan las ponderaciones y los sesgos tres veces con mayor eficacia que una tasa de aprendizaje. de 0.1.

La tasa de aprendizaje es un hiperparámetro clave. Si estableces Si la tasa de aprendizaje es demasiado baja, el entrenamiento demorará demasiado. Si si estableces una tasa de aprendizaje muy alta, el descenso de gradientes suele tener problemas para llegar a la convergencia.

regresión de mínimos cuadrados

Un modelo de regresión lineal entrenado mediante la minimización Pérdida L2.

linear

#fundamentals

Es una relación entre dos o más variables que solo se pueden representar. a través de la suma y la multiplicación.

El diagrama de una relación lineal es una línea.

Compara esto con lo no lineal.

modelo lineal

#fundamentals

Un modelo que asigna un peso por función para realizar predicciones. (Los modelos lineales también incorporan un sesgo). En cambio, la relación de los atributos con las predicciones en los modelos profundos suele ser no lineal.

Por lo general, los modelos lineales son más fáciles de entrenar y más interpretables que los modelos profundos. Sin embargo, Los modelos profundos pueden aprender relaciones complejas entre atributos.

Regresión lineal y La regresión logística son dos tipos de modelos lineales.

regresión lineal

#fundamentals

Un tipo de modelo de aprendizaje automático en el que se cumplen las siguientes condiciones:

  • El modelo es un modelo lineal.
  • La predicción es un valor de punto flotante. (Este es el regresión parte de regresión lineal).

Compara la regresión lineal con la regresión logística. Además, contrasta la regresión con la clasificación.

LIT

Abreviatura de Herramienta de interpretabilidad del aprendizaje (LIT), que antes se conocía como la Herramienta de interpretabilidad del lenguaje.

LLM

#language

Abreviatura de modelo de lenguaje grande.

regresión logística

#fundamentals

Es un tipo de modelo de regresión que predice una probabilidad. Los modelos de regresión logística tienen las siguientes características:

  • La etiqueta es categórica. El término logística por lo general, se refiere a la regresión logística binaria, es decir, en un modelo que calcula probabilidades para etiquetas con dos valores posibles. Una variante menos común, la regresión logística multinomial, calcula probabilidades para etiquetas con más de dos valores posibles.
  • La función de pérdida durante el entrenamiento es la pérdida logística. (Se pueden colocar en paralelo varias unidades de pérdida logística para las etiquetas con más de dos valores posibles).
  • El modelo tiene una arquitectura lineal, no una red neuronal profunda. Sin embargo, el resto de esta definición también se aplica a modelos profundos que predicen probabilidades. para las etiquetas categóricas.

Por ejemplo, considera un modelo de regresión logística que calcula la probabilidad de que un correo electrónico de entrada sea spam o no spam. Durante la inferencia, supongamos que el modelo predice 0.72. Por lo tanto, el que el modelo estima:

  • Un 72% de probabilidades de que el correo electrónico sea spam.
  • Existe una probabilidad del 28% de que el correo electrónico no sea spam.

Un modelo de regresión logística usa la siguiente arquitectura de dos pasos:

  1. El modelo genera una predicción sin procesar (y') aplicando una función lineal. de atributos de entrada.
  2. El modelo usa esa predicción sin procesar como entrada para un función sigmoidea, que convierte la expresión a un valor entre 0 y 1, exclusivo.

Como cualquier modelo de regresión, un modelo de regresión logística predice un número. Sin embargo, este número suele formar parte de una clasificación binaria modelo de la siguiente manera:

  • Si el número predicho es mayor que el el umbral de clasificación, el de clasificación binaria predice la clase positiva.
  • Si el número predicho es inferior al umbral de clasificación, el modelo de clasificación binaria predice la clase negativa.

logit

Vector de predicciones sin procesar (no normalizadas) que una clasificación genera el modelo, que luego se pasa comúnmente a una función de normalización. Si el modelo resuelve una clasificación de clases múltiples, problema, los logits suelen convertirse en una entrada función softmax. La función softmax luego genera un vector de (normalizado) probabilidades con un valor para cada clase posible.

Pérdida logística

#fundamentals

La función de pérdida que se usa en un objeto binario regresión logística.

logaritmo de probabilidad

#fundamentals

Logaritmo de las probabilidades de que ocurra algún evento.

Memoria a corto plazo de larga duración (LSTM)

#seq

Un tipo de celda en un red neuronal recurrente que se usa para procesar secuencias de datos en aplicaciones como el reconocimiento de escritura a mano, la traducción y la generación de leyendas de imágenes. Las LSTM abordan el problema de gradiente de fuga que ocurre cuando entrenar RNN debido a largas secuencias de datos manteniendo el historial en un estado de la memoria interna basada en la nueva entrada y contexto de celdas anteriores en la RNN.

Laura

#language
#generativeAI

Abreviatura de Adaptabilidad de clasificación baja.

pérdida

#fundamentals

Durante el entrenamiento de un modelo supervisado, una medida de hasta qué punto la predicción del modelo proviene de su etiqueta.

Una función de pérdida calcula la pérdida.

agregador de pérdidas

Un tipo de algoritmo de aprendizaje automático que Mejora el rendimiento de un modelo combinando las predicciones de múltiples modelos y usar esas predicciones para hacer una sola predicción. Como resultado, un agregador de pérdidas puede reducir la varianza de las predicciones y mejorar la exactitud de las predicciones.

curva de pérdida

#fundamentals

Un gráfico de la pérdida como una función de la cantidad de entrenamiento iteraciones. El siguiente gráfico muestra una pérdida típica curva:

Un gráfico cartesiano de pérdida frente a iteraciones de entrenamiento que muestra un
          rápida de la pérdida en las iteraciones iniciales, seguida de una
          y, luego, una pendiente plana durante las iteraciones finales.

Las curvas de pérdida ayudan a determinar cuándo el modelo la convergencia o el sobreajuste.

Las curvas de pérdida pueden representar los siguientes tipos de pérdida:

Consulta también la curva de generalización.

función de pérdida

#fundamentals

Durante el entrenamiento o la prueba, un función matemática que calcula pérdida en un lote de ejemplos. Una función de pérdida devuelve una pérdida más baja para los modelos que hacen buenas predicciones que para los que hacen predicciones erróneas.

Por lo general, el objetivo del entrenamiento es minimizar la pérdida de retorno.

Existen muchos tipos diferentes de funciones de pérdida. Elige la pérdida adecuada para el tipo de modelo que estás creando. Por ejemplo:

superficie de pérdida

Un gráfico de pesos versus pérdida. Objetivos del descenso de gradientes a fin de encontrar los pesos para los cuales la superficie de pérdida es un mínimo local.

Adaptabilidad de clasificación baja (LoRA)

#language
#generativeAI

Un algoritmo para realizar ajuste eficiente de parámetros ajusta solo un subconjunto de un parámetros de un modelo grande de lenguaje LoRA proporciona los siguientes beneficios:

  • Se ajusta más rápido que las técnicas que requieren un ajuste de todos los modelos parámetros.
  • Se reduce el costo de procesamiento de la inferencia en la más ajustado.

Un modelo ajustado con LoRA mantiene o mejora la calidad de sus predicciones.

LoRA habilita múltiples versiones especializadas de un modelo.

LSTM

#seq

Abreviatura de memoria a corto plazo de larga duración.

M

aprendizaje automático

#fundamentals

Un programa o sistema que entrena a un model a partir de datos de entrada. El modelo entrenado puede hacer predicciones útiles a partir de datos nuevos (nunca antes vistos) extraídos de la misma distribución que se usó para entrenar el modelo.

El aprendizaje automático también hace referencia al campo de estudio involucrado con estos programas o sistemas.

clase mayoritaria

#fundamentals

La etiqueta más común en una Conjunto de datos con desequilibrio de clases. Por ejemplo: dado un conjunto de datos que contiene un 99% de etiquetas negativas y un 1% de etiquetas positivas, el las etiquetas negativas son la clase mayoritaria.

Compara esto con la clase minoritaria.

Proceso de decisión de Markov (MDP)

#rl

Gráfico que representa el modelo de toma de decisiones en el que las decisiones (o acciones) se usan para navegar por una secuencia de state bajo la suposición de que Se mantiene la propiedad de Markov. En aprendizaje por refuerzo, estas transiciones entre estados muestran una recompensa numérica.

Propiedad de Márkov

#rl

Es una propiedad de determinados entornos, en la que el estado que las transiciones estén determinadas completamente por la información implícita en el el estado actual y la acción del agente.

modelo de lenguaje enmascarado

#language

Un modelo de lenguaje que predice la probabilidad de tokens candidatos para completar espacios en blanco en una secuencia. Por ejemplo, un el modelo de lenguaje enmascarado puede calcular las probabilidades de las palabras candidatas. para reemplazar el subrayado en la siguiente oración:

Regresó el ____ del sombrero.

Por lo general, se usa la cadena "MASK" en lugar de un subrayado. Por ejemplo:

La MASK regresó.

La mayoría de los modelos modernos de lenguaje enmascarado son bidireccionales.

matplotlib

Una biblioteca de código abierto de Python 2D para generar gráficos. matplotlib te ayuda a visualizar diferentes aspectos del aprendizaje automático.

factorización de matrices

#recsystems

En matemática, un mecanismo para encontrar las matrices cuyo producto escalar se aproxima a un matriz objetivo.

En los sistemas de recomendaciones, la matriz objetivo suele retener los datos de los usuarios calificaciones de los elementos. Por ejemplo, el objetivo para un sistema de recomendación de películas podría verse así después, donde los números enteros positivos son calificaciones de los usuarios y 0 significa que el usuario no calificó la película:

  Casablanca La historia de Filadelfia Pantera Negra Mujer Maravilla Tiempos violentos
Usuario 1 5.0 3.0 0.0 2.0 0.0
Usuario 2 4.0 0.0 0.0 1.0 5.0
Usuario 3 3.0 1.0 4.0 5.0 0.0

El sistema de recomendación de películas busca predecir las calificaciones de los usuarios películas sin clasificar. Por ejemplo, ¿le gustará al Usuario 1 Pantera Negra?

Un enfoque para los sistemas de recomendación es usar modelos la factorización para generar las dos matrices siguientes:

  • Una matriz de usuarios, formada por la cantidad de usuarios X la cantidad de dimensiones de incorporación.
  • Una matriz de elementos, formada por la cantidad de incorporaciones dimensiones X la cantidad de artículos.

Por ejemplo, el uso de la factorización de matrices en nuestros tres usuarios y cinco elementos podría generar la siguiente matriz de usuarios y matriz de elementos:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

El producto escalar de la matriz de usuarios y la matriz de elementos genera una recomendación que contiene no solo las calificaciones originales de los usuarios, sino también predicciones para las películas que ningún usuario ha visto. Por ejemplo, considera la calificación del Usuario 1 de Casablanca que fue de 5.0. El punto producto correspondiente a esa celda en la matriz de recomendaciones debe con suerte, será de alrededor de 5.0, y es:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Más importante aún, ¿al Usuario 1 le gustará Pantera Negra? Toma el producto escalar correspondiente a la primera fila y a la tercera columna produce un calificación de 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

La factorización de matrices suele producir una matriz de usuarios y una matriz de elementos que, son mucho más compactos que la matriz objetivo.

Error absoluto medio (MAE)

La pérdida promedio por ejemplo cuando la pérdida L1 es que se usan. Calcula el error absoluto medio de la siguiente manera:

  1. Calcula la pérdida L1 de un lote.
  2. Divide la pérdida L1 por la cantidad de ejemplos en el lote.

Por ejemplo, considera el cálculo de la pérdida L1 de la siguiente lote de cinco ejemplos:

Valor real del ejemplo Valor previsto del modelo Pérdida (diferencia entre el valor real y el previsto)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = pérdida L1

Por lo tanto, la pérdida L1 es 8 y la cantidad de ejemplos es 5. Por lo tanto, el error absoluto medio es:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Comparar el error absoluto medio con el error cuadrático medio y Raíz cuadrada del error cuadrático medio.

error cuadrático medio (ECM)

La pérdida promedio por ejemplo cuando la pérdida L2 es que se usan. Calcula el error cuadrático medio de la siguiente manera:

  1. Calcula la pérdida L2 de un lote.
  2. Divide la pérdida L2 por la cantidad de ejemplos en el lote.

Por ejemplo, considera la pérdida en el siguiente lote de cinco ejemplos:

Valor real Predicción del modelo Pérdida Pérdida al cuadrado
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = pérdida L2

Por lo tanto, el error cuadrático medio es:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

El error cuadrático medio es un optimizador de entrenamiento popular, en particular, para la regresión lineal.

Comparar el error cuadrático medio con Error absoluto medio y Raíz cuadrada del error cuadrático medio.

TensorFlow Playground usa el error cuadrático medio para calcular valores de pérdida.

malla

#TensorFlow
#GoogleCloud

En la programación paralela de AA, un término asociado con la asignación de los datos y modelo a chips TPU y la definición de cómo estos valores se fragmentarán o replicarán.

Malla es un término sobrecargado que puede significar cualquiera de las siguientes opciones:

  • Un diseño físico de los chips TPU.
  • Una construcción lógica abstracta para asignar los datos y el modelo a la TPU chips.

En cualquier caso, una malla se especifica como una forma.

metaaprendizaje

#language

Subconjunto del aprendizaje automático que descubre o mejora un algoritmo de aprendizaje. Un sistema de metaaprendizaje también busca entrenar un modelo para aprender rápido un nuevo a partir de una pequeña cantidad de datos o de la experiencia adquirida en tareas anteriores. Por lo general, los algoritmos de metaaprendizaje intentan lograr lo siguiente:

  • Mejorar o aprender funciones diseñadas a mano (como un inicializador o un optimizador).
  • Ser más eficientes en términos de datos y de procesamiento
  • Mejorar la generalización

El metaaprendizaje se relaciona con el aprendizaje en pocos ejemplos.

métrica

#TensorFlow

Una estadística que te interesa.

Un objetivo es una métrica que un sistema de aprendizaje automático de optimización.

API de Metrics (tf.metrics)

Una API de TensorFlow para evaluar modelos. Por ejemplo, tf.metrics.accuracy. determina la frecuencia con la que las predicciones de un modelo coinciden con las etiquetas.

minilote

#fundamentals

Un pequeño subconjunto seleccionado al azar de un lote procesado en una iteración. Por lo general, el tamaño del lote de un minilote es el siguiente: entre 10 y 1,000 ejemplos.

Por ejemplo, supongamos que todo el conjunto de entrenamiento (el lote completo) consta de 1,000 ejemplos. Supongamos más también que estableces tamaño del lote de cada minilote hasta 20. Por lo tanto, cada la iteración determina la pérdida en 20 de los 1,000 ejemplos al azar y, luego, ajusta los pesos y los sesgos en consecuencia.

Es mucho más eficiente calcular la pérdida en un minilote que en todos los ejemplos del lote completo.

descenso de gradientes estocástico de minilote

Un algoritmo de descenso de gradientes que usa minilotes. En otras palabras, estocástico de minilotes el descenso de gradientes estima el gradiente a partir de un pequeño subconjunto de los datos de entrenamiento. El descenso de gradientes estocástico normal usa un minilote de tamaño 1.

pérdida de minimax

Una función de pérdida para redes generativas adversarias, según la entropía cruzada entre la distribución de datos generados y datos reales.

La pérdida de minimax se usa en primer informe para describir redes generativas adversarias.

clase minoritaria

#fundamentals

La etiqueta menos común en una Conjunto de datos con desequilibrio de clases. Por ejemplo: dado un conjunto de datos que contiene un 99% de etiquetas negativas y un 1% de etiquetas positivas, el las etiquetas positivas son la clase minoritaria.

Compara esto con la clase mayor.

combinación de expertos

#language
#generativeAI

Un esquema para aumentar la eficiencia de las redes neuronales en un usando solo un subconjunto de sus parámetros (conocido como experto) para procesar un token o un ejemplo de entrada determinados. R gating network enruta cada token o ejemplo de entrada a los expertos correspondientes.

Para obtener más información, consulta cualquiera de los siguientes documentos:

AA

Abreviatura de aprendizaje automático.

MMIT

#language
#image
#generativeAI

Abreviatura de ajuste de instrucciones multimodales.

MNIST

#image

Conjunto de datos de dominio público compilado por LeCun, Cortes y Burges 60,000 imágenes, cada una de las cuales muestra cómo un ser humano escribió manualmente un dígito del 0 al 9. Cada imagen se almacena como un array de números enteros de 28x28, donde cada número entero es un valor en escala de grises entre 0 y 255, inclusive.

MNIST es un conjunto de datos canónico para el aprendizaje automático, que a menudo se usa para probar y los enfoques del aprendizaje automático. Para obtener más información, consulta Base de datos de dígitos escritos a mano de MNIST.

modality

#language

Es una categoría de datos de alto nivel. Por ejemplo, números, texto, imágenes, video y el audio son cinco modalidades diferentes.

modelo

#fundamentals

En general, cualquier construcción matemática que procesa datos de entrada y devuelve salida. En una frase diferente, un modelo es el conjunto de parámetros y estructura necesarias para que un sistema haga predicciones. En el aprendizaje automático supervisado, un modelo toma un ejemplo como entrada y, luego, infiere un prediction como resultado. En el aprendizaje automático supervisado, varíe un poco. Por ejemplo:

  • Un modelo de regresión lineal consta de un conjunto de pesos y un sesgo.
  • Un modelo de red neuronal consta de lo siguiente:
    • Un conjunto de capas ocultas, cada una con una o más neuronas.
    • Los pesos y el sesgo asociados con cada neurona.
  • Un modelo de árbol de decisión consta de lo siguiente:
    • La forma del árbol; es decir, el patrón en el que las condiciones y las hojas están conectadas.
    • Las condiciones y las salidas.

Puedes guardar, restablecer o hacer copias de un modelo.

El aprendizaje automático no supervisado también genera modelos, generalmente una función que puede asignar un ejemplo de entrada a el clúster más adecuado.

capacidad del modelo

La complejidad de los problemas que un modelo puede aprender Cuanto más complejo sea problemas que un modelo puede aprender, mayor será su capacidad. La propiedad de un modelo por lo general, la capacidad aumenta con la cantidad de parámetros del modelo. Para un definición formal de capacidad del clasificador, consulta Dimensión VC.

modelo en cascada

#generativeAI

Un sistema que elige el modelo ideal para una inferencia específica para cada búsqueda.

Imagina un grupo de modelos que van desde muy grandes (muchos parámetros) a mucho más pequeños (muchos menos parámetros). Los modelos muy grandes consumen más recursos de procesamiento al de inferencia que en los modelos más pequeños. Sin embargo, un tamaño muy grande por lo general, los modelos pueden inferir solicitudes más complejas que los modelos más pequeños. La cascada del modelo determina la complejidad de la consulta de inferencia y, luego, selecciona el modelo adecuado para realizar la inferencia. La motivación principal para la cascada del modelo es reducir los costos de inferencia generalmente seleccionando modelos más pequeños y solo un modelo más grande para más para realizar consultas complejas.

Imagina que un modelo pequeño se ejecuta en un teléfono y una versión más grande de ese modelo se ejecuta en un servidor remoto. Un buen modelo en cascada reduce el costo y la latencia en lo que permite que el modelo más pequeño maneje solicitudes simples y solo llame al para manejar solicitudes complejas.

Consulta también modelo de router.

paralelismo de modelos

#language

Forma de escalar el entrenamiento o la inferencia que coloca diferentes partes de uno model en diferentes dispositivos. Paralelismo de modelos permite modelos que son demasiado grandes para caber en un solo dispositivo.

Para implementar el paralelismo de modelos, por lo general, un sistema hace lo siguiente:

  1. Fragmenta (divide) el modelo en partes más pequeñas.
  2. Distribuye el entrenamiento de esas partes más pequeñas a través de múltiples procesadores. Cada procesador entrena su propia parte del modelo.
  3. Combina los resultados para crear un solo modelo.

El paralelismo de modelos ralentiza el entrenamiento.

Consulta también el paralelismo de datos.

modelo de router

#generativeAI

Algoritmo que determina el modelo ideal para inferencia en modelo en cascada. Un modelo de router es en sí mismo un modelo de aprendizaje automático aprende gradualmente cómo elegir el mejor modelo para una entrada determinada. Sin embargo, un modelo de router a veces puede ser un modelo que no es de aprendizaje automático.

entrenamiento de modelos

Es el proceso mediante el cual se determina el mejor modelo.

Momentum

Algoritmo de descenso de gradientes sofisticado en el que un paso de aprendizaje depende no solo en la derivada en el paso actual, sino también en las derivadas de los pasos que lo anteceden inmediatamente. El impulso implica calcular el promedio móvil ponderado exponencialmente de los gradientes a lo largo del tiempo, análogo a un impulso en la física. El impulso a veces impide que el aprendizaje obtenga atascado en los mínimos locales.

MIE

#language
#image
#generativeAI

Abreviatura de combinación de expertos.

clasificación de clases múltiples

#fundamentals

En el aprendizaje supervisado, un problema de clasificación en el que el conjunto de datos contiene más de dos clases de etiquetas. Por ejemplo, las etiquetas en el conjunto de datos Iris deben ser una de las siguientes tres clases:

  • Setosa de iris
  • Iris virginica
  • Iris versicolor

Modelo entrenado con el conjunto de datos Iris que predice el tipo de iris en ejemplos nuevos realiza una clasificación de clases múltiples.

En cambio, los problemas de clasificación que distinguen entre exactamente dos son modelos de clasificación binaria. Por ejemplo, un modelo de correo electrónico que prediga si es spam o no es spam es un modelo de clasificación binaria.

En los problemas de agrupamiento en clústeres, la clasificación de clases múltiples se refiere a más de entre dos clústeres.

regresión logística de clases múltiples

El uso de la regresión logística en de clasificación de clases múltiples.

autoatención de varios cabezales

#language

Es una extensión de la autoatención que aplica la mecanismo de autoatención varias veces para cada posición en la secuencia de entrada.

Transformers introdujo la autoatención de varias cabezas.

modelo multimodal

#language

Es un modelo cuyas entradas o salidas incluyen más de una. modalidad. Por ejemplo, considera un modelo que toma y una leyenda de texto (dos modalidades) como atributos, y genera una puntuación que indica cuán apropiada es la leyenda de texto para la imagen. Por lo tanto, las entradas de este modelo son multimodales y la salida es unimodal.

ajuste de instrucciones multimodales

#language

Un modelo ajustado a las instrucciones que puede procesar entradas más allá del texto, como las imágenes, los videos y el audio.

clasificación multinomial

Sinónimo de clasificación de clases múltiples.

regresión multinomial

Sinónimo de regresión logística de clases múltiples.

multitarea

Es una técnica de aprendizaje automático en la que se usa un único modelo. para realizar múltiples tareas.

Los modelos multitarea se crean entrenando con datos que son apropiados cada una de las diferentes tareas. Esto permite que el modelo aprenda a compartir información adicional en las tareas, lo que ayuda al modelo a aprender de manera más eficaz.

Un modelo entrenado para varias tareas a menudo ha mejorado las capacidades de generalización y pueden ser más sólidos en el manejo de diferentes tipos de datos.

N

trampa de NaN

Cuando un número en tu modelo se convierte en NaN. durante el entrenamiento, lo que provoca que muchos otros números del modelo finalmente convertirse en un NaN.

NaN es una abreviatura de Not un Number.

comprensión del lenguaje natural

#language

Determinar las intenciones de un usuario en función de lo que este escribió o dijo. Por ejemplo, un motor de búsqueda utiliza la comprensión del lenguaje natural para para determinar qué busca el usuario según lo que escribió o dijo.

clase negativa

#fundamentals

En la clasificación binaria, una clase es se considera positiva y la otra se denomina negativa. La clase positiva es el objeto o evento que el modelo está probando, y la clase negativa es otra posibilidad. Por ejemplo:

  • La clase negativa en una prueba médica puede ser "no es un tumor".
  • La clase negativa en un clasificador de correo electrónico puede ser “no es spam”.

Compara esto con la clase positiva.

muestreo negativo

Sinónimo de muestreo de candidatos.

Búsqueda de arquitectura neuronal (NAS)

Es una técnica para diseñar automáticamente la arquitectura de un red neuronal. Los algoritmos NAS pueden reducir la cantidad tiempo y recursos necesarios para entrenar una red neuronal.

Por lo general, la NAS usa lo siguiente:

  • Un espacio de búsqueda, que es un conjunto de arquitecturas posibles
  • Una función de fitness, que es una medida de qué tan bien arquitectura desempeña en una tarea determinada.

Los algoritmos de NAS suelen comenzar con un pequeño conjunto de arquitecturas posibles expandir gradualmente el espacio de búsqueda a medida que el algoritmo aprende más sobre lo que arquitecturas sean eficaces. La función de fitness se basa generalmente de la arquitectura en un conjunto de entrenamiento, y el algoritmo normalmente se entrena con un aprendizaje por refuerzo.

Los algoritmos de NAS han demostrado ser eficaces para encontrar arquitecturas para una variedad de tareas, incluidas clasificación, clasificación de texto y la traducción automática.

neuronal prealimentada

#fundamentals

Un modelo que contenga al menos un capa oculta. Una red neuronal profunda es un tipo de red neuronal con más de una capa oculta. Por ejemplo, en el siguiente diagrama muestra una red neuronal profunda que contiene dos capas ocultas.

Una red neuronal con una capa de entrada, dos capas ocultas y un
          capa de salida.

Cada neurona en una red neuronal se conecta con todos los nodos de la siguiente capa. Por ejemplo, en el diagrama anterior, observa que cada una de las tres neuronas En la primera capa oculta, se conectan por separado a las dos neuronas segunda capa oculta.

Las redes neuronales implementadas en computadoras a veces se denominan redes neuronales artificiales para diferenciarlas de que se encuentran en el cerebro y otros sistemas nerviosos.

Algunas redes neuronales pueden imitar relaciones no lineales extremadamente complejas entre diferentes atributos y la etiqueta.

Consulta también red neuronal convolucional y red neuronal recurrente.

neurona

#fundamentals

En el aprendizaje automático, una unidad distinta dentro de una capa oculta de una red neuronal. Cada neurona realiza las siguientes acción en dos pasos:

  1. Calcula la suma ponderada de los valores de entrada multiplicados. según sus ponderaciones correspondientes.
  2. Pasa la suma ponderada como entrada a un función de activación.

Una neurona en la primera capa oculta acepta entradas de valores de atributos en la capa de entrada. Una neurona en cualquier capa oculta más allá la primera acepta entradas de las neuronas en la capa oculta anterior. Por ejemplo, una neurona en la segunda capa oculta acepta entradas de la neuronas en la primera capa oculta.

En la siguiente ilustración, se destacan dos neuronas y sus de datos.

Una red neuronal con una capa de entrada, dos capas ocultas y un
          capa de salida. Se destacan dos neuronas: una en la primera
          una capa oculta y otra en la segunda. El botón de
          La neurona en la primera capa oculta recibe entradas de ambos atributos.
          en la capa de entrada. La neurona destacada en la segunda capa oculta
          recibe entradas de cada una de las tres neuronas en la primera
          por la capa de prealimentación.

Una neurona en una red neuronal imita el comportamiento de las neuronas en el cerebro y y otras partes del sistema nervioso.

n-grama

#seq
#language

Secuencia ordenada de n palabras. Por ejemplo, realmente loco es un 2-grama. Porque orden es relevante, loco realmente es un 2-grama diferente a realmente loco.

N Nombres para este tipo de n-grama Ejemplos
2 bigrama o 2-grama para ir a, almorzar o cenar
3 trigrama o 3-grama comí demasiado, tres ratones ciegos, las campanas
4 4-grama el chico comía lentejas...

Muchos comprender el lenguaje natural los modelos se basan en n-gramas para predecir la siguiente palabra que el usuario escribirá ni decir. Por ejemplo, supongamos que un usuario escribió tres tristes. Un modelo CLN basado en trigramas probablemente predeciría que la El usuario escribirá a continuación mouse.

Comparar los n-gramas con la bolsa de palabras, que es conjuntos de palabras desordenados.

CLN

#language

Abreviatura de lenguaje natural comprensión.

nodo (árbol de decisión)

#df

En un árbol de decisión, cualquier condition o la hoja.

Árbol de decisión con dos condiciones y tres hojas.

nodo (red neuronal)

#fundamentals

Una neurona en una capa oculta.

nodo (grafo de TensorFlow)

#TensorFlow

Una operación en un gráfico de TensorFlow

ruido

En términos generales, cualquier cosa que oculte la señal en un conjunto de datos. Ruido pueden introducirse en los datos de diversas maneras. Por ejemplo:

  • Los evaluadores humanos cometen errores durante el etiquetado.
  • Los instrumentos o personas omiten o registran incorrectamente los valores de atributos.

condición no binaria

#df

Es una condición que contiene más de dos resultados posibles. Por ejemplo, la siguiente condición no binaria contiene tres resultados:

Una condición (number_of_legs = ?) que genera tres posibles
          resultados. Un resultado (number_of_legs = 8) conduce a una hoja
          llamada araña. Un segundo resultado (number_of_legs = 4) conduce a
          una hoja llamada &quot;perro&quot;. Un tercer resultado (number_of_legs = 2) conduce a
          una hoja llamada penguin.

no lineal

#fundamentals

Es una relación entre dos o más variables que no se pueden representar solo. a través de la suma y la multiplicación. Una relación lineal se puede representar como una línea; Una relación no lineal no puede ser representados como una línea. Por ejemplo, considera dos modelos que se relacionan entre sí un solo atributo a una sola etiqueta. El modelo de la izquierda es lineal. y el modelo de la derecha es no lineal:

Dos diagramas. Un diagrama es una línea, por lo que esta es una relación lineal.
          El otro diagrama es una curva, por lo que esta es una relación no lineal.

sesgo de no respuesta

#fairness

Consulta sesgo de selección.

no estacionariedad

#fundamentals

Es un atributo cuyos valores cambian en una o más dimensiones, por lo general, el tiempo. Por ejemplo, considera los siguientes ejemplos de no estacionariedad:

  • La cantidad de trajes de baño que se venden en una tienda varía según la temporada.
  • La cantidad de una fruta específica que se cosechó en una región determinada es cero durante gran parte del año, pero grande durante un período breve.
  • Debido al cambio climático, las temperaturas medias anuales están cambiando.

Compara esto con la estacionariedad.

normalización

#fundamentals

En términos generales, el proceso de convertir el rango real de una variable de valores en un rango estándar de valores, por ejemplo:

  • -1 a +1
  • De 0 a 1
  • Puntuaciones Z (aproximadamente, -3 a +3)

Por ejemplo, supongamos que el rango real de valores de un atributo determinado es De 800 a 2,400. Como parte de la ingeniería de atributos, podrías normalizar los valores reales a un rango estándar, como de -1 a +1.

La normalización es una tarea común ingeniería de atributos. Los modelos suelen entrenarse más rápido (y generar mejores predicciones) cuando cada atributo numérico del El vector de atributos tiene más o menos el mismo rango.

detección de novedades

Proceso que determina si un nuevo ejemplo (novedoso) proviene de la misma como el conjunto de entrenamiento. En otras palabras, después de en el conjunto de entrenamiento, la detección de novedad determina si un nuevo ejemplo (durante la inferencia o durante el entrenamiento adicional) es valores atípicos.

Compara esto con la detección de valores atípicos.

datos numéricos

#fundamentals

Atributos representados como números enteros o de valores reales. Por ejemplo, un modelo de valoración de casas probablemente representaría el tamaño de una casa (en pies cuadrados o metros cuadrados) como datos numéricos. Representando un atributo, ya que los datos numéricos indican que los valores del atributo tienen una relación matemática con la etiqueta. Es decir, el número de metros cuadrados de una casa probablemente tenga matemática y el valor de la vivienda.

No todos los datos de números enteros deben representarse como datos numéricos. Por ejemplo: los códigos postales en algunas partes del mundo son números enteros; sin embargo, el código postal con número entero los códigos no deben representarse como datos numéricos en los modelos. Esto se debe a que un código postal de 20000 no es el doble (o la mitad) más potente que un código postal de 10,000. Además, aunque los distintos códigos postales se correlacionan con diferentes de bienes raíces, no podemos suponer que los valores de bienes raíces en el código postal 20000 son el doble de valiosos que los valores de bienes raíces en el código postal 10000. Los códigos postales deben representarse como datos categóricos en su lugar.

A veces, los atributos numéricos se denominan funciones continuas.

NumPy

Un biblioteca matemática de código abierto que brinda operaciones de array eficientes en Python. Pandas se basa en NumPy.

O

objetivo

Una métrica que tu algoritmo intenta optimizar.

función objetiva

Es la fórmula matemática o la métrica que un modelo quiere optimizar. Por ejemplo, la función objetiva para Por lo general, la regresión lineal es Pérdida al cuadrado media. Por lo tanto, cuando se entrena un de regresión lineal, el objetivo del entrenamiento es minimizar la pérdida cuadrática media.

En algunos casos, el objetivo es maximizar la función objetivo. Por ejemplo, si la función objetiva es exactitud, la meta es para maximizar la exactitud.

Consulta también pérdida.

condición oblicua

#df

En un árbol de decisión, se condición que involucra a más de un feature. Por ejemplo, si la altura y el ancho son ambos atributos, entonces la siguiente es una condición oblicua:

  height > width

Compara esto con la condición alineada al eje.

sin conexión

#fundamentals

Sinónimo de estático.

inferencia sin conexión

#fundamentals

El proceso de un modelo que genera un lote de predicciones y, luego, almacenar en caché (guardar) esas predicciones. Luego, las apps pueden acceder al modelo desde la caché, en lugar de volver a ejecutar el modelo.

Por ejemplo, considera un modelo que genere pronósticos meteorológicos locales. (predicciones) una vez cada cuatro horas. Después de cada ejecución del modelo, el sistema almacena en caché todos los pronósticos meteorológicos locales. Apps del clima recuperan el pronóstico de la caché.

La inferencia sin conexión también se denomina inferencia estática.

Compara esto con la inferencia en línea.

codificación one-hot

#fundamentals

La representación de datos categóricos como un vector en el que:

  • Un elemento se establece en 1.
  • Todos los demás elementos se establecen en 0.

La codificación one-hot se usa para representar cadenas o identificadores tienen un conjunto finito de valores posibles. Por ejemplo, supongamos un cierto atributo categórico llamado Scandinavia tiene cinco valores posibles:

  • “Dinamarca”
  • “Suecia”
  • “Noruega”
  • “Finlandia”
  • “Islandia”

La codificación one-hot podría representar cada uno de los cinco valores de la siguiente manera:

country Vector
“Dinamarca” 1 0 0 0 0
“Suecia” 0 1 0 0 0
“Noruega” 0 0 1 0 0
“Finlandia” 0 0 0 1 0
“Islandia” 0 0 0 0 1

Gracias a la codificación one-hot, un modelo puede aprender diferentes conexiones en función de cada uno de los cinco países.

Representar un atributo como datos numéricos es un como alternativa a la codificación one-hot. Desafortunadamente, representar el Los países escandinavos, numéricamente, no son una buena opción. Por ejemplo: considera la siguiente representación numérica:

  • “Dinamarca” es 0
  • “Suecia” es 1
  • “Noruega” es 2
  • “Finlandia” es 3
  • “Islandia” es 4

Con la codificación numérica, un modelo interpretaría los números sin procesar matemáticamente y trataría de entrenar con esos números. Sin embargo, Islandia no tiene el doble (o la mitad) de algo como Noruega, por lo que el modelo llegaría a algunas conclusiones extrañas.

aprendizaje en un intento

Un enfoque de aprendizaje automático, que suele usarse para la clasificación de objetos diseñados para aprender clasificadores efectivos a partir de un solo ejemplo de entrenamiento.

Consulta también aprendizaje en pocos ejemplos y aprendizaje sin ejemplos.

instrucciones con un solo ejemplo

#language
#generativeAI

Una instrucción que contiene un ejemplo que demuestra cómo se Debería responder el modelo grande de lenguaje. Por ejemplo: la siguiente instrucción contiene un ejemplo en el que se muestra a un modelo de lenguaje extenso cómo debería responder una consulta.

Partes de una instrucción Notas
¿Cuál es la moneda oficial del país especificado? La pregunta que quieres que el LLM responda.
Francia: EUR Un ejemplo.
India: Es la consulta real.

Compara y contrasta la instrucción con un solo ejemplo con los siguientes términos:

uno frente a todos

#fundamentals

Dado un problema de clasificación con clases N, un que consta de N unidades clasificadores binarios: un clasificador binario para cada resultado posible. Por ejemplo, dado un modelo que clasifica ejemplos como animal, vegetal o mineral, una solución de uno frente a todos brindaría la usando tres clasificadores binarios separados:

  • animal frente a no animal
  • vegetal frente a no vegetal
  • mineral frente a no mineral

en línea

#fundamentals

Sinónimo de dinámico.

inferencia en línea

#fundamentals

Generación de predicciones a pedido. Por ejemplo: supongamos que una aplicación pasa una entrada a un modelo y emite una solicitud para una para la predicción. Un sistema que usa inferencia en línea responde a la solicitud ejecutando el modelo (y mostrar la predicción a la app).

Compara esto con la inferencia sin conexión.

operación (op)

#TensorFlow

En TensorFlow, cualquier procedimiento que cree, manipula o destruye un tensor. Para ejemplo, una multiplicación de matrices es una operación que toma dos tensores como de entrada y genera un tensor como salida.

Optax

Una biblioteca de procesamiento y optimización de gradientes para JAX. Optax facilita la investigación al proporcionar componentes básicos que se pueden recombinados de formas personalizadas para optimizar modelos paramétricos, como las redes neuronales profundas. Otros objetivos incluyen:

  • Proporcionar implementaciones legibles, comprobadas y eficientes de componentes principales.
  • Mejora de la productividad, ya que permite combinar ingredientes de bajo nivel en optimizadores personalizados (o en otros componentes de procesamiento de gradientes).
  • Acelerar la adopción de nuevas ideas facilitando a todos para contribuir.

optimizador

Implementación específica del descenso de gradientes de codificador-decodificador. Entre los optimizadores populares, se incluyen los siguientes:

  • AdaGrad, que significa Descenso de GRADientes ADAptable.
  • Adam, que significa ADAptable con Momentum.

sesgo de homogeneidad de los demás

#fairness

Tendencia de ver a los miembros externos al grupo como más parecidos que los miembros del grupo al comparar actitudes, valores, rasgos de personalidad y otros del usuario. En grupo se refiere a las personas con las que interactúas regularmente. out-group se refiere a las personas con las que no interactúas regularmente. Si crear un conjunto de datos pidiéndole a las personas que proporcionen atributos sobre fuera de los grupos, esos atributos pueden tener menos matices y más estereotipos que los atributos que los participantes enumeran para las personas en su grupo.

Por ejemplo, la gente de Liliputa podría describir las casas de otras personas de esta ciudad. con gran detalle y citando pequeñas diferencias en los estilos arquitectónicos, puertas y tamaños. Sin embargo, la misma persona de Buenos Aires podría simplemente declarar que Los brobdingnagios viven en casas idénticas.

El sesgo de homogeneidad de los demás es una forma de sesgo de correspondencia.

Consulta también el sesgo endogrupal.

detección de valores atípicos

El proceso de identificar valores atípicos de una conjunto de entrenamiento.

Compara esto con la detección de novedades.

los valores atípicos

Valores distantes de la mayoría de los demás valores. En el aprendizaje automático, cualquiera de siguientes son valores atípicos:

  • Datos de entrada cuyos valores son aproximadamente 3 desviaciones estándar de la media.
  • Ponderaciones con valores absolutos altos
  • Valores predichos relativamente lejos de los valores reales

Por ejemplo, supongamos que widget-price es un atributo de un modelo determinado. Supongamos que la widget-price media es de 7 euros con una desviación estándar de 1 euro. Ejemplos que contienen un widget-price de 12 euros o 2 euros por lo tanto, se considerarían valores atípicos porque cada uno de esos precios cinco desviaciones estándar de la media.

Los valores atípicos suelen deberse a errores tipográficos o de entrada. En otros casos, los valores atípicos no son errores; después de todo, valora a cinco desviaciones estándar de distancia de la media son poco frecuentes, pero casi imposibles.

Los valores atípicos suelen causar problemas en el entrenamiento del modelo. Recortes es una forma de gestionar los valores atípicos.

evaluación fuera de bolsa (evaluación OOB)

#df

Un mecanismo para evaluar la calidad de un bosque de decisión probando cada árbol de decisión con respecto al ejemplos que no se usaron durante el entrenamiento de ese árbol de decisión. Por ejemplo, en la del siguiente diagrama, observa que el sistema entrena cada árbol de decisión en aproximadamente dos tercios de los ejemplos y luego compara restante en un tercio de los ejemplos.

Un bosque de decisiones que consta de tres árboles de decisión.
          Un árbol de decisión se entrena con dos tercios de los ejemplos
          y luego usa el tercio restante
para la evaluación de OOB.
          Un segundo árbol de decisión se entrena con dos tercios diferentes
          de los ejemplos que en el árbol de decisión anterior y, luego,
          usa un tercio diferente para la evaluación OOB que el
          árbol de decisión anterior.

La evaluación fuera de lo común es una solución eficiente y conservadora desde el punto de vista informático una aproximación del mecanismo de validación cruzada. En la validación cruzada, se entrena un modelo para cada ronda de validación cruzada. (por ejemplo, se entrenan 10 modelos en una validación cruzada de 10 veces). Con la evaluación OOB, se entrena un solo modelo. Porque los bolsos retiene algunos datos de cada árbol durante el entrenamiento, la evaluación OOB puede usar esos datos para aproximar la validación cruzada.

capa de salida

#fundamentals

La "final" de una red neuronal. La capa de salida contiene la predicción.

En la siguiente ilustración, se muestra una pequeña red neuronal profunda con una entrada de salida, dos capas ocultas y una de salida:

Una red neuronal con una capa de entrada, dos capas ocultas y una
          capa de salida. La capa de entrada consta de dos atributos. La primera
          Consta de tres neuronas, y la segunda capa oculta
          consta de dos neuronas. La capa de salida consta de un solo nodo.

sobreajuste

#fundamentals

Crear un modelo que coincida con datos de entrenamiento con tanta precisión que el modelo no puede hacer predicciones correctas con los datos nuevos.

La regularización puede reducir el sobreajuste. Entrenar con un conjunto de entrenamiento grande y diverso también puede reducir el sobreajuste.

oversampling

Volver a usar los ejemplos de una clase minoritaria en un conjunto de datos con desequilibrio de clases Crear un conjunto de entrenamiento más equilibrado.

Por ejemplo, considera una clasificación binaria problema en el que la proporción de la clase mayor clase minoritaria es 5,000:1. Si el conjunto de datos contiene un millón de ejemplos, entonces el conjunto de datos contiene solo unos 200 ejemplos de la clase minoritaria, que podría son muy pocos ejemplos para lograr una capacitación eficaz. Para superar esta deficiencia, podría sobremuestrear (reutilizar) esos 200 ejemplos varias veces, lo que posiblemente daría ejemplos suficientes para un entrenamiento útil.

Debe tener cuidado con el sobreajuste cuando sobremuestreo.

Compara esto con el submuestreo.

P

datos empaquetados

Un enfoque para almacenar datos de manera más eficiente.

Los datos empaquetados almacenan datos mediante un formato comprimido o en de alguna otra manera que permita acceder a ella de manera más eficiente. Los datos empaquetados minimizan la cantidad de memoria y procesamiento necesarios acceder a él, lo que permite un entrenamiento más rápido y una inferencia de modelo más eficiente.

Los datos empaquetados suelen usarse con otras técnicas, como magnificación de datos y regularización para mejorar aún más el rendimiento modelos.

pandas

#fundamentals

Una API de análisis de datos orientada a columnas compilada en numpy. Muchos frameworks de aprendizaje automático incluido TensorFlow, admiten estructuras de datos de Pandas como entradas. Consulta la documentación de Pandas para conocer los detalles.

parámetro

#fundamentals

Los pesos y los sesgos que aprende un modelo durante capacitación. Por ejemplo, en una regresión lineal, los parámetros constan de el sesgo (b) y todos los pesos (w1, w2, etcétera) en la siguiente fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Por el contrario, los hiperparámetros son los valores que (o un servicio de ajuste de hiperparámetros) suministran al modelo. Por ejemplo, una tasa de aprendizaje es un hiperparámetro.

ajuste eficiente de parámetros

#language
#generativeAI

Un conjunto de técnicas para ajustar una gran modelo de lenguaje previamente entrenado (PLM) de forma más eficiente que el ajuste completo. Eficaz en parámetros pero el ajuste suele ajustar muchos menos parámetros que los pero, por lo general, produce un un modelo grande de lenguaje que realice (o casi igual) como un modelo grande de lenguaje construido a partir de ajustes.

Compara y contrasta el ajuste eficiente de parámetros con lo siguiente:

El ajuste eficiente en cuanto a parámetros también se conoce como ajuste eficiente de parámetros.

Servidor de parámetros (PS)

#TensorFlow

Un trabajo que realiza un seguimiento de los parámetros de un modelo en un configuración distribuida.

actualización de parámetros

La operación de ajustar los parámetros de un modelo durante dentro de una sola iteración de descenso de gradientes.

derivada parcial

Derivada en la que todas menos una de las variables se consideran una constante. Por ejemplo, la derivada parcial de f(x, y) con respecto a x es la derivada de f considerada como una función de x sola (es decir, manteniendo y constante). La derivada parcial de f con respecto a x se centra solo en cómo cambia x e ignora todas las demás variables de la ecuación.

sesgo de participación

#fairness

Sinónimo de sesgo de no respuesta. Consulta sesgo de selección.

estrategia de partición

Algoritmo por el cual se dividen las variables en servidores de parámetros.

Pax

Es un framework de programación diseñado para el entrenamiento a gran escala. modelos de redes neuronales tan grandes que abarquen múltiples TPU chip acelerador slices o pods.

Pax se basa en Flax, que se basa en JAX.

Diagrama que indica la posición de Pax en la pila de software.
          Pax se basa en JAX. Pax consta de tres
          capas. La capa inferior contiene TensorStore y Flax.
          La capa del medio contiene Optax y Flaxformer. Los mejores
          contiene la biblioteca de modelos de Praxis. Fiddle está diseñado
          por encima de Pax.

perceptrón

Es un sistema (de hardware o software) que acepta uno o más valores de entrada. ejecuta una función en la suma ponderada de las entradas y calcula una única de salida. En el aprendizaje automático, la función suele ser no lineal, como ReLU, sigmoidea o tanh. Por ejemplo, el siguiente perceptrón utiliza la función sigmoidea para procesar tres valores de entrada:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

En la siguiente ilustración, el perceptrón toma tres entradas, cada una de las cuales se modifica con un peso antes de ingresar al perceptrón:

Un perceptrón que toma 3 entradas, cada una multiplicada por separadas
          los pesos. El perceptrón da como resultado un solo valor.

Los perceptrones son las neuronas de redes neuronales.

rendimiento

Término sobrecargado con los siguientes significados:

  • El significado estándar dentro de la ingeniería de software. A saber: Qué tan rápido (o de manera eficiente) ¿funciona este software?
  • El significado dentro del aprendizaje automático. Aquí, el rendimiento responde a siguiente pregunta: ¿Qué tan correcto es este modelo? Es decir, ¿qué tan buenas son las predicciones del modelo?

importancias de las variables de permutación

#df

Un tipo de importancia variable que evalúa el aumento en el error de predicción de un modelo después de permutar los valores del atributo. La importancia de las variables de permutación es un modelo métrica

perplejidad

Medición de qué tan bien está logrando su tarea un modelo. Por ejemplo, supongamos que tu tarea es leer las primeras letras de una palabra un usuario está escribiendo en el teclado de un teléfono y ofrecer una lista de posibles palabras de finalización. La perplejidad, P, para esta tarea es aproximadamente el número de conjeturas que debes ofrecer para que tu lista contenga el palabra que el usuario intenta escribir.

La perplejidad está relacionada con la entropía cruzada de la siguiente manera:

$$P= 2^{-\text{cross entropy}}$$

pipeline

Es la infraestructura que rodea al algoritmo de aprendizaje automático. Una canalización incluye recopilar los datos, colocarlos en archivos de datos de entrenamiento, entrenar uno o más modelos y exportarlos para producción.

canalización

#language

Una forma de paralelismo de modelos en la que la latencia el procesamiento se divide en etapas consecutivas y cada una se ejecuta en otro dispositivo. Mientras una etapa procesa un lote, la anterior puede funcionar en el siguiente lote.

Consulta también el entrenamiento en etapas.

PJIT

Una función JAX que divide el código para que se ejecute en múltiples chips aceleradores. El usuario pasa una función a pjit, que devuelve una función que tiene una semántica equivalente, pero que se compila en un procesamiento de XLA que se ejecuta en varios dispositivos (como GPU o núcleos de TPU).

pjit permite a los usuarios fragmentar cálculos sin reescribirlos mediante el particionador SPMD.

A partir de marzo de 2023, pjit se fusionó con jit. Consulta Los arrays distribuidos y los atributos paralelización para obtener más información.

PLM

#language
#generativeAI

Abreviatura de modelo de lenguaje previamente entrenado.

pmap

Una función JAX que ejecuta copias de una función de entrada en varios dispositivos de hardware subyacentes (CPUs, GPU o TPU), con diferentes valores de entrada. pmap se basa en SPMD.

política

#rl

En el aprendizaje por refuerzo, el mapeo probabilístico de un agente de estados a acciones.

reducción

#image

Reducir una matriz (o matrices) creada por un modelo anterior capa convolucional a una matriz más pequeña. La reducción generalmente implica tomar el valor máximo o promedio a lo largo del área estandarizada. Por ejemplo, supongamos que tenemos la siguiente matriz de 3x3:

La matriz de 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Una operación de reducción, al igual que una convolucional, divide esa matriz en porciones y luego desliza esa operación convolucional avances. Por ejemplo, supongamos que la operación de reducción divide la matriz convolucional en porciones de 2 × 2 con un zancada de 1 × 1. Como se ilustra en el siguiente diagrama, se producen cuatro operaciones de reducción. Imagina que cada operación de reducción elige el valor máximo del cuatro en esa porción:

La matriz de entrada es 3x3 con los valores [[5,3,1], [8,2,5], [9,4,3]].
          La submatriz 2x2 superior izquierda de la matriz de entrada es [[5,3], [8,2]], de modo que
          la operación de reducción superior izquierda arroja el valor 8 (que es el
          máximo de 5, 3, 8 y 2). La submatriz de 2 x 2 superior derecha de la entrada
          es [[3,1], [2,5]], por lo que la operación de reducción de la parte superior derecha produce
          el valor 5. La submatriz 2x2 inferior izquierda de la matriz de entrada es
          [[8,2], [9,4]], por lo que la operación de reducción inferior izquierda produce el valor
          9. La submatriz 2x2 inferior derecha de la matriz de entrada es
          [[2,5], [4,3]], por lo que la operación de reducción de la esquina inferior derecha produce el valor
          5) En resumen, la operación de reducción produce la matriz 2x2.
          [[8,5], [9,5]].

La reducción permite aplicar invariancia traslacional en la matriz de entrada.

La reducción para aplicaciones de visión se conoce más formalmente como reducción espacial. Por lo general, las aplicaciones de series temporales se refieren a la reducción como reducción temporal. De manera menos formal, la reducción a menudo se denomina submuestreo o reducción de muestreo.

codificación posicional

#language

Técnica para agregar información sobre la posición de un token en una secuencia a la incorporación del token. Los modelos Transformer usan codificación para comprender mejor la relación entre las diferentes partes del secuencia.

Una implementación común de codificación posicional usa una función sinusoidal. (Específicamente, la frecuencia y la amplitud de la función sinusoidal se determinadas por la posición del token en la secuencia). Esta técnica permite que un modelo Transformer aprenda a atender las diferentes partes del ordenada en función de su posición.

clase positiva

#fundamentals

La clase que estás probando.

Por ejemplo, la clase positiva en un modelo de cáncer podría ser "tumor". La clase positiva en un clasificador de correo electrónico puede ser “spam”.

Compara esto con la clase negativa.

posprocesamiento

#fairness
#fundamentals

Ajustar la salida de un modelo después de que este se haya ejecutado El procesamiento posterior se puede usar para aplicar las restricciones de equidad modificar los modelos por su cuenta.

Por ejemplo, se podría aplicar el procesamiento posterior a un clasificador binario. estableciendo un umbral de clasificación que La igualdad de oportunidades se mantiene. para algún atributo verificando que la tasa de verdaderos positivos es la misma para todos los valores de ese atributo.

AUC de PR (área bajo la curva PR)

Área bajo la tabla de curva de precisión-recuperación, que se obtiene por trazado puntos (recuperación, precisión) para diferentes valores del umbral de clasificación. Según cómo el AUC de PR puede ser equivalente al precisión promedio del modelo.

Praxis

Una biblioteca principal de AA de alto rendimiento de Pax. La praxia suele ser llamada "Biblioteca de capas".

La praxis no solo contiene las definiciones para la clase Layer, sino también la mayoría de sus componentes de respaldo, como los siguientes:

La praxis proporciona las definiciones para la clase Model.

precision

Una métrica para los modelos de clasificación que responde la siguiente pregunta:

Cuando el modelo predijo la clase positiva, ¿Qué porcentaje de las predicciones fueron correctas?

Esta es la fórmula:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

Donde:

  • verdadero positivo significa que el modelo predijo correctamente la clase positiva.
  • falso positivo significa que el modelo predijo por error la clase positiva.

Por ejemplo, supongamos que un modelo hizo 200 predicciones positivas. De estas 200 predicciones positivas:

  • 150 fueron verdaderos positivos.
  • 50 fueron falsos positivos.

En este caso, ocurre lo siguiente:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Compara esto con la exactitud y la recuperación.

curva de precisión-recuperación

Una curva de precisión frente a recuperación a diferentes valores umbrales de clasificación.

Predicción

#fundamentals

La salida de un modelo. Por ejemplo:

  • La predicción de un modelo de clasificación binaria la clase negativa o la clase negativa.
  • La predicción de un modelo de clasificación de clases múltiples es una clase.
  • La predicción de un modelo de regresión lineal es un número.

sesgo de predicción

Valor que indica a qué distancia hay entre el promedio de predictions proviene del promedio de etiquetas del conjunto de datos.

No se debe confundir con el término sesgo en los modelos de aprendizaje automático. o con sesgo en ética y equidad.

AA predictivo

Cualquier sistema de aprendizaje automático estándar (“clásico”).

El término AA predictivo no tiene una definición formal. Más bien, el término distingue una categoría de sistemas de AA que no se basan en IA generativa.

paridad predictiva

#fairness

Una métrica de equidad que verifica lo siguiente para un clasificador determinado, las tasas de precisión son equivalentes para los subgrupos en consideración.

Por ejemplo, un modelo que predice la aceptación de la universidad cumpliría paridad predictiva de nacionalidad si su tasa de precisión es la misma para los lilipúes y de Brobding.

La paridad predictiva a veces también se llama paridad de tasa predictiva.

Consulta "Definiciones de equidad Explicación" (sección 3.2.1). para obtener un análisis más detallado de la paridad predictiva.

paridad de tasa predictiva

#fairness

Otro nombre para la paridad predictiva.

procesamiento previo

#fairness
Procesar datos antes de que se usen para entrenar un modelo El procesamiento previo podría tan simple como quitar palabras de un corpus de texto en inglés que no ocurren en el diccionario de inglés o pueden ser tan complejas como reexpresar los datos de una manera que elimina la cantidad de atributos correlacionados con atributos sensibles como sea posible. El procesamiento previo puede ayudar a satisfacer las restricciones de equidad.

modelo previamente entrenado

#language
#image
#generativeAI

Los modelos o componentes de modelos (como un vector de incorporación) que ya se entrenaron. A veces, ingresarás vectores de incorporación previamente entrenados en un red neuronal. Otras veces, el modelo entrenará el vectores de incorporación en lugar de depender de las incorporaciones previamente entrenadas.

El término modelo de lenguaje previamente entrenado hace referencia a un modelo grande de lenguaje que se sometió entrenamiento previo.

entrenamiento previo

#language
#image
#generativeAI

Entrenamiento inicial de un modelo en un conjunto de datos grande. Algunos modelos previamente entrenados son gigantes y torpes y, por lo general, deben perfeccionarse mediante capacitación adicional. Por ejemplo, los expertos en AA pueden capacitar previamente a un un modelo grande de lenguaje en un conjunto de datos de texto amplio, como todas las páginas en inglés de Wikipedia. Después del entrenamiento previo, modelo resultante podría refinarse aún más a través de cualquiera de los siguientes técnicas:

creencia previa

Lo que crees sobre los datos antes de comenzar a entrenar con ellos. Por ejemplo, la regularización L2 se basa en una creencia previa de que los pesos deberían ser pequeños y, por lo general, distribuida alrededor de cero.

modelo de regresión probabilística

Un modelo de regresión que usa no solo el ponderaciones para cada atributo, pero también para la incertidumbre de esas ponderaciones. Un modelo de regresión probabilística genera una predicción y la incertidumbre de esa predicción. Por ejemplo, un de regresión probabilística podría dar como resultado una predicción de 325 con la desviación estándar de 12. Para obtener más información sobre la regresión probabilística consulta este vínculo de Colab tensorflow.org.

función de densidad de probabilidad

Función que identifica la frecuencia de las muestras de datos que tienen exactamente un un valor particular. Cuando los valores de un conjunto de datos son de punto flotante continuo números, rara vez se producen concordancias exactas. Sin embargo, integrar una probabilidad de densidad del valor x al valor y produce la frecuencia esperada de muestras de datos entre x y y.

Por ejemplo, considera una distribución normal con una media de 200 y una la desviación estándar de 30. Para determinar la frecuencia esperada de las muestras de datos dentro del rango de 211.4 a 218.7, puedes integrar la columna “densidad” para una distribución normal de 211.4 a 218.7.

mensaje

#language
#generativeAI

Cualquier texto ingresado como entrada en un modelo de idioma grande para condicionar el modelo para que se comporte de cierta manera. Las instrucciones pueden ser tan cortas frase o arbitrariamente larga (por ejemplo, todo el texto de una novela). Mensajes se dividen en varias categorías, incluidas las que se muestran en la siguiente tabla:

Categoría de instrucción Ejemplo Notas
Pregunta ¿Qué tan rápido puede volar una paloma?
Instrucción Escribe un poema divertido sobre el arbitraje. Un mensaje en el que se le pide al modelo de lenguaje extenso que haga algo.
Ejemplo Traduce código de Markdown a HTML. Por ejemplo:
Markdown: * elemento de lista
HTML: <ul> <li>elemento de la lista</li> &lt;/ul&gt;
La primera oración de esta instrucción de ejemplo es una instrucción. El resto de la instrucción es el ejemplo.
Rol Explicar por qué se usa el descenso de gradientes en el entrenamiento del aprendizaje automático para un doctorado en Física. La primera parte de la oración es una instrucción; la frase "hasta un doctorado en física" es la parte del rol.
Entrada parcial para que el modelo se complete El primer ministro del Reino Unido vive en Una instrucción de entrada parcial puede terminar de manera abrupta (como sucede en este ejemplo). o terminar con un guion bajo.

Un modelo de IA generativa puede responder a una instrucción con texto, código, imágenes, incorporaciones, videos...casi nada.

aprendizaje basado en instrucciones

#language
#generativeAI

Capacidad de ciertos modelos que les permite adaptarse su comportamiento en respuesta a una entrada de texto arbitraria (mensajes). En un paradigma típico de aprendizaje basado en instrucciones, un modelo de lenguaje grande responde a un mensaje que generan texto. Por ejemplo, supongamos que un usuario ingresa el siguiente mensaje:

Resumir la tercera ley del movimiento de Newton

Un modelo capaz de aprender basado en instrucciones no está entrenado específicamente para responder la instrucción anterior. Más bien, el modelo “sabe” muchos datos sobre física, mucho sobre las reglas del lenguaje generales y mucho sobre lo que constituye respuestas útiles. Ese conocimiento es suficiente para proporcionar (con suerte) un recurso útil una respuesta en particular. Comentarios de personas adicionales (“Esa respuesta fue demasiado complicada” o “¿Cuál es una reacción?””) permite que algunos sistemas de aprendizaje basado en instrucciones mejorar la utilidad de sus respuestas.

diseño de mensajes

#language
#generativeAI

Sinónimo de ingeniería de instrucciones.

ingeniería de instrucciones

#language
#generativeAI

El arte de crear mensajes que generen las respuestas deseadas a partir de un modelo de lenguaje grande. Una persona realiza una instrucción con ingeniería de atributos. Escribir instrucciones bien estructuradas es esencial para garantizar respuestas útiles de un modelo de lenguaje extenso. La ingeniería de instrucciones depende de muchos factores, entre ellos:

  • Es el conjunto de datos que se usó para el entrenamiento previo y, posiblemente, ajustar el modelo grande de lenguaje.
  • La temperature y otros parámetros de decodificación que la que el modelo usa para generar respuestas.

Consulta Introducción al diseño de instrucciones para obtener más detalles sobre cómo escribir instrucciones útiles.

Diseño de instrucciones es un sinónimo de ingeniería de instrucciones.

ajuste de mensajes

#language
#generativeAI

Un mecanismo de ajuste eficiente de parámetros que aprende un “prefijo” que el sistema antepone al instrucción real.

Una variación del ajuste de instrucciones, a veces llamada ajuste de prefijo, es antepón el prefijo en cada capa. En cambio, la mayoría del ajuste de instrucciones solo Agrega un prefijo a la capa de entrada.

etiquetas de proxy

#fundamentals

Son datos que se usan para aproximar etiquetas que no están disponibles directamente en un conjunto de datos.

Por ejemplo, supongamos que debes entrenar un modelo para predecir nivel de estrés. Tu conjunto de datos contiene muchos atributos predictivos no contiene una etiqueta llamada nivel de estrés. Sin desanimarte, eliges "accidentes de trabajo" como etiqueta de proxy para nivel de estrés. Después de todo, los empleados con mucho estrés se involucran en más accidentes que los empleados tranquilos. ¿O no? Quizás accidentes laborales subir y bajar en realidad por múltiples razones.

Como segundo ejemplo, supongamos que quieres que ¿está lloviendo? como una etiqueta booleana. para tu conjunto de datos, pero este no contiene datos de lluvia. Si hay fotografías disponibles, puedes establecer imágenes de personas con paraguas como etiqueta de proxy de ¿está lloviendo? Ese una buena etiqueta de proxy? Posiblemente, pero las personas de algunas culturas pueden estar es más probable que lleves paraguas para protegerte del sol en lugar de la lluvia.

Las etiquetas de proxy suelen ser imperfectas. Cuando sea posible, elige etiquetas reales en lugar las etiquetas de proxy. Dicho esto, cuando una etiqueta real esté ausente, elige el proxy con mucho cuidado, elegimos la etiqueta de proxy menos horrible.

proxy (atributos sensibles)

#fairness
Un atributo que se usa como reemplazo de un atributo sensible. Por ejemplo, un el código postal de una persona puede usarse como sustituto de sus ingresos, raza o etnia.

función pura

Una función cuyas salidas se basan solo en sus entradas y que no tiene lado efectos. Específicamente, una función pura no usa ni cambia ningún estado global, como el contenido de un archivo o el valor de una variable fuera de la función.

Se pueden usar funciones puras para crear código seguro para subprocesos, lo cual es beneficioso cuando se fragmenta el código del modelo en varias chips aceleradores.

Los métodos de transformación de funciones de JAX requieren que las funciones de entrada son funciones puras.

P

Función Q

#rl

En el aprendizaje por refuerzo, la función que predice el retorno esperado si se toma un action en una state y, luego, seguir una política determinada.

La función Q también se conoce como función de valor de acción de estado.

Q-Learning

#rl

En el aprendizaje por refuerzo, un algoritmo que permite que un agente para aprender la función Q óptima de un Proceso de decisión de Markov mediante la aplicación de los Ecuación de Bellman. Los modelos del proceso de decisión de Markov un entorno.

cuantil

Cada bucket en el agrupamiento en cuantiles.

agrupamiento en cuantiles

Distribuir los valores de un atributo en buckets para que cada contiene la misma (o casi la misma) cantidad de ejemplos. Por ejemplo: la siguiente figura divide 44 puntos en 4 categorías, cada una de las cuales contiene 11 puntos. Para que cada bucket de la figura contenga el la misma cantidad de puntos, algunos buckets abarcan un ancho diferente de valores X.

44 datos divididos en 4 buckets de 11 puntos cada uno.
          Aunque cada bucket contiene el mismo número de datos,
          algunos buckets contienen un rango más amplio de valores de atributos que otros
          buckets.

cuantización

Término sobrecargado que podría usarse de cualquiera de las siguientes maneras:

  • Implementación del agrupamiento en cuantiles en una función en particular.
  • Transformar los datos en ceros y unos para agilizar el almacenamiento, el entrenamiento y la inferencia. Como los datos booleanos son más resistentes al ruido y a los errores que otros formatos, la cuantización puede mejorar la precisión del modelo. Las técnicas de cuantización incluyen redondeo, truncamiento y binning.
  • Reducir la cantidad de bits que se usan para almacenar la parámetros. Por ejemplo, supongamos que los parámetros de un modelo son se almacenan como números de punto flotante de 32 bits. La cuantización las convierte parámetros de 32 bits a 4, 8 o 16 bits. La cuantización reduce el lo siguiente:

    • Uso de procesamiento, memoria, disco y red
    • Momento de inferir una predicción
    • Consumo de energía

    Sin embargo, la cuantización a veces disminuye la precisión de la predicciones.

cola

#TensorFlow

Operación de TensorFlow que implementa una cola de datos en la nube. Por lo general, se usa en E/S.

R

RAG

#fundamentals

Abreviatura de generación aumentada de recuperación.

bosque aleatorio

#df

Un ensamble de árboles de decisión en que se entrena con un ruido aleatorio específico, como bolso.

Los bosques aleatorios son un tipo de bosque de decisión.

política aleatoria

#rl

En el aprendizaje por refuerzo, un política que elige una action de forma aleatoria.

clasificación

Es un tipo de aprendizaje supervisado cuyo objetivo es ordenar una lista de elementos.

rango (ordinalidad)

La posición ordinal de una clase en un problema de aprendizaje automático que clasifica de mayor a menor. Por ejemplo, una clasificación de comportamiento podría clasificar las recompensas de un perro de la más alta (un filete) a más baja (col rizada marchita).

rango (tensor)

#TensorFlow

La cantidad de dimensiones en un tensor. Por ejemplo: un escalar tiene rango 0, un vector tiene rango 1 y una matriz tiene rango 2.

No se debe confundir con rango (ordinalidad).

evaluador

#fundamentals

Una persona que proporciona etiquetas para ejemplos. “Anotador” es otro nombre para evaluador.

recall

Una métrica para los modelos de clasificación que responde la siguiente pregunta:

Cuando la verdad fundamental fue la clase positiva, qué porcentaje de predicciones hicieron identificar de forma correcta el modelo como la clase positiva?

Esta es la fórmula:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

Donde:

  • verdadero positivo significa que el modelo predijo correctamente la clase positiva.
  • falso negativo significa que el modelo predijo por error clase negativa.

Por ejemplo, supongamos que tu modelo hizo 200 predicciones con ejemplos para los que la verdad fundamental fue la clase positiva. De estas 200 predicciones:

  • 180 fueron verdaderos positivos.
  • 20 fueron falsos negativos.

En este caso, ocurre lo siguiente:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

sistema de recomendación

#recsystems

Es un sistema que selecciona para cada usuario un conjunto relativamente pequeño de items de un gran corpus. Por ejemplo, un sistema de recomendación de videos podría recomendar dos videos de un corpus de 100,000 videos, seleccionando Casablanca y La historia de Filadelfia para un usuario, y la Mujer Maravilla y Pantera Negra para otra. Un sistema de recomendación de videos puede basar sus recomendaciones en factores como los siguientes:

  • Películas que usuarios similares han calificado o visto
  • Género, directores, actores, segmento demográfico...

Unidad lineal rectificada (ReLU)

#fundamentals

Una función de activación con el siguiente comportamiento:

  • Si la entrada es negativa o cero, entonces el resultado es 0.
  • Si la entrada es positiva, entonces el resultado es igual a la entrada.

Por ejemplo:

  • Si la entrada es -3, entonces el resultado es 0.
  • Si la entrada es +3, entonces el resultado es 3.0.

A continuación, se muestra un gráfico de ReLU:

Representación cartesiana de dos líneas. La primera línea tiene una constante
          y de 0, que se extiende a lo largo del eje x de -infinity,0 a 0,-0.
          La segunda línea comienza en 0,0. Esta línea tiene una pendiente de +1, de modo que
          va de 0,0 a +infinito,+infinito.

ReLU es una función de activación muy popular. A pesar de su comportamiento simple, ReLU todavía permite que una red neuronal aprenda no lineal relaciones entre los atributos y la etiqueta.

red neuronal recurrente

#seq

Es una red neuronal que ejecuta intencionalmente varias veces, en las que partes de cada ejecución se incorporan a la siguiente ejecución. Específicamente: las capas ocultas de la ejecución anterior proporcionan parte del entrada a la misma capa oculta en la próxima ejecución. Redes neuronales recurrentes son particularmente útiles para evaluar secuencias, de modo que las capas ocultas puede aprender de ejecuciones anteriores de la red neuronal en partes anteriores de la secuencia.

Por ejemplo, en la siguiente figura se muestra una red neuronal recurrente que se ejecuta cuatro veces. Observa que los valores aprendidos en las capas ocultas del la primera ejecución formarán parte de la entrada a las mismas capas ocultas en la segunda ejecución. De forma similar, los valores aprendidos en la capa oculta de la segunda ejecución se vuelven parte de la entrada a la misma capa oculta en por tercera vez. De esta manera, la red neuronal recurrente se entrena gradualmente predice el significado de toda la secuencia, en lugar de solo el significado de palabras individuales.

Una RNN que se ejecuta cuatro veces para procesar cuatro palabras de entrada.

modelo de regresión

#fundamentals

Informalmente, un modelo que genera una predicción numérica. (En cambio, un modelo de clasificación genera una clase prediction.) Por ejemplo, los siguientes son todos los modelos de regresión:

  • Modelo que predice el valor de una casa determinada, como 423,000 euros.
  • Modelo que predice la esperanza de vida de un árbol determinado, como 23.2 años.
  • Un modelo que predice la cantidad de lluvia que caerá en una ciudad determinada en las próximas seis horas, como 0.48 pulgadas.

Los siguientes son dos tipos comunes de modelos de regresión:

  • Regresión lineal, que encuentra la línea que mejor ajusta los valores de las etiquetas a los atributos.
  • La regresión logística, que genera un entre 0.0 y 1.0 que un sistema suele asignar a una clase para la predicción.

No todos los modelos que generan predicciones numéricas son modelos de regresión. En algunos casos, una predicción numérica es solo un modelo de clasificación que sucede que tiene nombres de clases numéricos. Por ejemplo, un modelo que predice Un código postal numérico es un modelo de clasificación, no de regresión.

regularización

#fundamentals

Cualquier mecanismo que reduzca el sobreajuste Entre los tipos populares de regularización, se incluyen los siguientes:

La regularización también puede definirse como la penalización por la complejidad de un modelo.

tasa de regularización

#fundamentals

Número que especifica la importancia relativa de regularización durante el entrenamiento. Elevando la la tasa de regularización reduce el sobreajuste, pero puede reducir el poder predictivo del modelo. Por el contrario, omitir o reducir la tasa de regularización aumenta el sobreajuste.

aprendizaje por refuerzo (RL)

#rl

Una familia de algoritmos que aprenden una política óptima, cuyo objetivo es maximizar el retorno cuando interactúa con un entorno. Por ejemplo, la máxima recompensa para la mayoría de los juegos es la victoria. Los sistemas de aprendizaje por refuerzo pueden convertirse en expertos en juegos complejos mediante la evaluación de secuencias de movimientos anteriores que finalmente generó victorias y secuencias que finalmente llevaron a derrotas.

Aprendizaje por refuerzo con retroalimentación humana (RLHF)

#generativeAI
#rl

Usa los comentarios de evaluadores humanos para mejorar la calidad de las respuestas de un modelo. Por ejemplo, un mecanismo de RLHF puede pedirles a los usuarios que califiquen la calidad de la con un emoji 👍 o 👎. Luego, el sistema puede ajustar sus respuestas futuras en función de esos comentarios.

ReLU

#fundamentals

Abreviatura de unidad lineal rectificada.

búfer de reproducción

#rl

En algoritmos similares a DQN, la memoria que usa el agente para almacenar transiciones de estado para su uso en reproducción de la experiencia.

de Cloud SQL

Una copia del conjunto de entrenamiento o el modelo generalmente en otra máquina. Por ejemplo, un sistema podría usar los siguientes Estrategia para implementar el paralelismo de datos:

  1. Colocar réplicas de un modelo existente en varias máquinas
  2. Enviar diferentes subconjuntos del conjunto de entrenamiento a cada réplica
  3. Agrega las actualizaciones de parámetros.

sesgo de reporte

#fairness

El hecho de que la frecuencia con la que las personas escriben sobre acciones, resultados o propiedades no es un reflejo de sus características las frecuencias o el grado en el que una propiedad es característica de una clase de individuos. El sesgo de reporte puede influir en la composición de datos de los que aprenden los sistemas de aprendizaje automático.

Por ejemplo, en los libros, la palabra reír es más frecuente que la respirar. Un modelo de aprendizaje automático que estima la frecuencia relativa de reírse y respirar de un corpus de libros probablemente determinaría que reír es más común que respirar.

representación de vectores

Es el proceso de asignar datos a atributos útiles.

reclasificación

#recsystems

La última etapa de un sistema de recomendaciones: durante el cual los elementos calificados se pueden volver a calificar de acuerdo con alguna (por lo general, no de AA). La reclasificación evalúa la lista de elementos generados por la fase de puntuación, realizando acciones tales como:

  • Eliminar los elementos que el usuario ya compró
  • Aumentar la puntuación de elementos más recientes

generación de recuperación aumentada (RAG)

#fundamentals

Una técnica para mejorar la calidad de Resultado del modelo de lenguaje grande (LLM) basándolo en fuentes de conocimiento recuperadas tras el entrenamiento del modelo. El RAG mejora la exactitud de las respuestas del LLM proporcionando al LLM entrenado acceso a información recuperada de bases de conocimiento o documentos confiables.

Entre las motivaciones comunes para usar la generación de aumento de recuperación, se incluyen las siguientes:

  • Aumentar la exactitud fáctica de las respuestas generadas de un modelo.
  • Darle al modelo acceso a conocimientos con los que no se entrenó
  • Cambiar el conocimiento que usa el modelo.
  • Habilita el modelo para citar fuentes.

Por ejemplo, supongamos que una app de química usa el PaLM API para generar resúmenes relacionadas con las consultas de los usuarios. Cuando el backend de la app recibe una consulta, el backend hace lo siguiente:

  1. Busca datos ("recupera") que son relevantes para la consulta del usuario.
  2. Agrega ("aumentos") los datos químicos relevantes a la consulta del usuario.
  3. Indica al LLM que cree un resumen basado en los datos agregados.

retorno

#rl

En el aprendizaje por refuerzo, dada una política y un estado determinados, return es la suma de todas las recompensas que el agente obtiene espera recibir cuando siga la política del state al final del episodio. El agente tiene en cuenta la naturaleza demorada de las recompensas esperadas al descontar las recompensas de acuerdo con las transiciones de estado requeridas para obtener la recompensa.

Por lo tanto, si el factor de descuento es \(\gamma\)y \(r_0, \ldots, r_{N}\). las recompensas hasta el final del episodio y, luego, el cálculo de la devolución es la siguiente:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

una recompensa

#rl

En el aprendizaje por refuerzo, el resultado numérico de tomar un action en un estado, según lo definido por el entorno.

regularización de cresta

Sinónimo de regularización L2. El término regularización de cresta se usa con más frecuencia en estadísticas puras. contextos, mientras que la regularización L2 se usa con más frecuencia en el aprendizaje automático.

RNN

#seq

Abreviatura de redes neuronales recurrentes.

Curva ROC (característica operativa del receptor)

#fundamentals

Gráfico de la tasa de verdaderos positivos en comparación con tasa de falsos positivos de diferentes umbrales de clasificación en objeto binario clasificación.

La forma de una curva ROC sugiere la capacidad de un modelo de clasificación binaria para separar las clases positivas de las negativas. Supongamos, por ejemplo, que un modelo de clasificación binaria separe perfectamente de todas las clases positivas:

Una recta numérica con 8 ejemplos positivos a la derecha y
          7 ejemplos negativos a la izquierda.

La curva ROC para el modelo anterior se ve de la siguiente manera:

Una curva ROC. El eje X es la tasa de falsos positivos y el eje Y.
          es la tasa de verdaderos positivos. La curva tiene una forma de L invertida. La curva
          comienza en (0.0,0.0) y va directamente a (0.0,1.0). Luego, la curva
          va de (0.0,1.0) a (1.0,1.0).

En cambio, en la siguiente ilustración, se muestra la representación de la regresión logística sin procesar valores para un modelo terrible que no puede separar las clases negativas de positivas en absoluto:

Una recta numérica con ejemplos positivos y clases negativas
          están completamente mezclados.

La curva ROC para este modelo se ve de la siguiente manera:

Una curva ROC, que en realidad es una línea recta de (0.0,0.0)
          a (1.0,1.0).

En el mundo real, la mayoría de los modelos de clasificación binaria positivas y negativas en cierta medida, pero no por lo general a la perfección. Entonces: una curva ROC típica se encuentra en algún lugar entre los dos extremos:

Una curva ROC. El eje X es la tasa de falsos positivos y el eje Y.
          es la tasa de verdaderos positivos. La curva ROC se aproxima a un arco tembloroso
          que atraviesa los puntos de la brújula de oeste a norte.

El punto en una curva ROC más cercana a (0.0,1.0) identifica teóricamente el umbral de clasificación ideal. Sin embargo, otros problemas del mundo real influyen en la selección del umbral de clasificación ideal. Por ejemplo: quizás los falsos negativos causan mucho más dolor que los falsos positivos.

Una métrica numérica llamada AUC resume la curva ROC en un único valor de punto flotante.

solicitud de función

#language
#generativeAI

Parte opcional de una instrucción que identifica un público objetivo para la respuesta de un modelo de IA generativa. Sin un rol un mensaje de texto, un modelo grande de lenguaje brinda una respuesta que puede ser útil o no para la persona que hace las preguntas. Con una instrucción de rol, se puede usar modelo puede responder de una manera que sea más apropiada y útil para un un público objetivo específico. Por ejemplo, la parte de la instrucción de rol de Los mensajes están en negrita:

  • Resume este artículo para obtener un doctorado en economía.
  • Describir cómo funcionan las mareas para un niño de diez años.
  • Explica la crisis financiera de 2008. Habla como lo harías con un niño pequeño: o un golden retriever.

raíz

#df

El nodo inicial (el primer condition) en un árbol de decisión. Por convención, los diagramas colocan la raíz en la parte superior del árbol de decisiones. Por ejemplo:

Árbol de decisión con dos condiciones y tres hojas. El
          la condición inicial (x > 2) es la raíz.

directorio raíz

#TensorFlow

El directorio que especificas para alojar subdirectorios de TensorFlow archivos de punto de control y eventos de varios modelos.

Raíz cuadrada del error cuadrático medio (RMSE)

#fundamentals

Raíz cuadrada del error cuadrático medio.

invariancia rotacional

#image

En un problema de clasificación de imágenes, la capacidad de un algoritmo para y clasificar imágenes aun cuando cambia su orientación. Por ejemplo: el algoritmo puede identificar una raqueta de tenis apuntando hacia arriba de lado o hacia abajo. Ten en cuenta que la invariancia rotacional no siempre es conveniente. Por ejemplo, un 9 al revés no debería clasificarse como un 9.

Consulta también Invariancia traslacional y invariancia de tamaño.

R al cuadrado

Es una métrica de regresión que indica cuánta variación en una La etiqueta se debe a un atributo individual o a un conjunto de atributos. El R cuadrado es un valor entre 0 y 1, que se puede interpretar de la siguiente manera:

  • Un R al cuadrado de 0 significa que ninguna de las variaciones de una etiqueta se debe al conjunto de atributos.
  • Un R al cuadrado de 1 significa que toda la variación de una etiqueta se debe al conjunto de atributos.
  • Un R cuadrado entre 0 y 1 indica el grado en que la etiqueta la variación a partir de un atributo en particular o del conjunto de atributos. Por ejemplo, un R cuadrado de 0.10 significa que el 10 por ciento de la varianza en la etiqueta se debe al conjunto de atributos, un R cuadrado de 0.20 significa que el 20% se debe al conjunto de atributos, y así sucesivamente.

R cuadrado es el cuadrado de la Correlación de Pearson coeficiente entre los valores que un modelo predijo y la verdad fundamental.

S

sesgo del muestreo

#fairness

Consulta sesgo de selección.

muestreo con reemplazo

#df

un método de selección de elementos de un conjunto de elementos candidatos en el que se el artículo se puede elegir varias veces. La frase "con reemplazo" significa que, después de cada selección, el elemento seleccionado se devuelve al grupo de elementos candidatos. El método inverso, muestreo sin reemplazo, significa que un elemento candidato solo se puede elegir una vez.

Por ejemplo, considera el siguiente conjunto de frutas:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supongamos que el sistema elige al azar fig como el primer elemento. Si usas el muestreo con reemplazo, el sistema elige la segundo elemento del siguiente conjunto:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sí, es el mismo conjunto que antes, por lo que el sistema podría elige fig de nuevo.

Si usas el muestreo sin reemplazo, una vez que se selecciona, no se puede se eligió de nuevo. Por ejemplo, si el sistema elige al azar fig como primera muestra, no se podrá volver a elegir fig. Por lo tanto, el sistema selecciona la segunda muestra del siguiente conjunto (reducido):

fruit = {kiwi, apple, pear, cherry, lime, mango}

modelo guardado

#TensorFlow

El formato recomendado para guardar y recuperar modelos de TensorFlow. SavedModel es un formato de serialización recuperable y neutral en cuanto al lenguaje, que permite sistemas y herramientas de alto nivel para producir, consumir y transformar TensorFlow e implementar modelos automáticamente.

Consulta el capítulo Cómo guardar y restablecer en la Guía para programadores de TensorFlow para conocer todos los detalles.

Económico

#TensorFlow

Un objeto de TensorFlow responsable de guardar los puntos de control del modelo.

escalar

Un solo número o una sola cadena que se puede representar como tensor de rango 0. Por ejemplo, los siguientes líneas de código, cada una crea un escalar en TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

escalamiento

Cualquier transformación o técnica matemática que cambie el rango de una etiqueta o el valor del atributo. Algunas formas de escalamiento son muy útiles para las transformaciones como la normalización.

Estas son algunas formas comunes de escalamiento útiles en el aprendizaje automático:

  • el escalamiento lineal, que generalmente usa una combinación de resta y división para reemplazar el valor original por un número entre -1 y +1, o entre 0 y 1.
  • escala logarítmica, que reemplaza el valor original por su logaritmo.
  • Normalización de puntuación Z, que reemplaza al valor original con un valor de punto flotante que representa el número de desviaciones estándar de la media de ese atributo.

scikit-learn

Plataforma popular de aprendizaje automático de código abierto. Consulta scikit-learn.org.

puntuación

#recsystems

La parte de un sistema de recomendaciones que proporciona un valor o clasificación para cada elemento producido por el de generación de candidatos.

sesgo de selección

#fairness

Errores en las conclusiones extraídas de los datos muestreados debido a un proceso de selección que genera diferencias sistemáticas entre las muestras observadas en los datos y las que no se observaron. Existen las siguientes formas de sesgo de selección:

  • sesgo de cobertura: La población representada en el conjunto de datos no coincidan con la población con la que el modelo de aprendizaje automático predicciones.
  • sesgo muestral: Los datos no se recolectan de forma aleatoria del grupo objetivo.
  • sesgo de no respuesta (también llamado sesgo de participación): los usuarios que ciertos grupos rechazan las encuestas en un porcentaje diferente al de los usuarios de con otros grupos.

Por ejemplo, supongamos que estás creando un modelo de aprendizaje automático que predice el disfrute de las personas de una película. Para recopilar datos de entrenamiento, repartes una encuesta a todos los que están en primera fila en el que se muestra la película. A primera vista, esta puede parecer una forma razonable para recopilar un conjunto de datos; pero esta forma de recopilación de datos introduce las siguientes formas de sesgo de selección:

  • sesgo de cobertura: Mediante el muestreo de una población que eligió ver la película, es posible que las predicciones de tu modelo no se generalicen que no expresó ese nivel de interés en la película.
  • sesgo muestral: En lugar de realizar un muestreo aleatorio de las población prevista (todas las personas en la película), solo muestreaste las personas de la primera fila. Es posible que las personas sentadas estaban más interesados en la película que en otras filas.
  • sesgo de no respuesta: en general, las personas con opiniones sólidas tienden de responder las encuestas opcionales con más frecuencia que las personas con opiniones. Como la encuesta sobre la película es opcional, las respuestas tienen más probabilidades de formar un distribución bimodal que una distribución normal (en forma de campana).

autoatención (también llamada capa de autoatención)

#language

Capa de red neuronal que transforma una secuencia de incorporaciones (por ejemplo, incorporaciones de token) en otra secuencia de incorporaciones. Cada incorporación en la secuencia de salida Se construye integrando información de los elementos de la secuencia de entrada a través de un mecanismo de atención.

La parte self de autoatención se refiere a la secuencia que asiste a en lugar de a algún otro contexto. La autoatención es una de las principales componentes básicos para Transformers y usa la búsqueda en el diccionario y la terminología, como “consulta”, “clave” y “valor”.

Una capa de autoatención comienza con una secuencia de representaciones de entrada, una para cada palabra. La representación de entrada para una palabra puede ser una simple a través de la incorporación de texto. Para cada palabra en una secuencia de entrada, la red califica la relevancia de la palabra para cada elemento de toda la secuencia de palabras. Las puntuaciones de relevancia determinan en qué medida la representación final de la palabra Incorpora las representaciones de otras palabras.

Por ejemplo, considera la siguiente oración:

El animal no cruzó la calle porque estaba demasiado cansado.

La siguiente ilustración (de Transformer: Una novedosa arquitectura de redes neuronales para el lenguaje Comprensión) muestra el patrón de atención de una capa de autoatención para el pronombre it, con la oscuridad de cada línea que indica cuánto contribuye cada palabra a la siguiente:

La siguiente oración aparece dos veces: El animal no cruzó el
          calle porque estaba demasiado cansada. Las líneas conectan el pronombre en el que
          una oración a cinco tokens (The, animal, street, it y
          el punto) en la otra oración.  La línea entre el pronombre que
          y la palabra animal es la más fuerte.

La capa de autoatención destaca las palabras que son relevantes para "ella". En este En este caso, la capa de atención aprendió a destacar palabras que podría referirnos a esto asignando el peso más alto a animal.

Para una secuencia de n tokens, la autoatención transforma una secuencia de incorporaciones n veces por separado, una vez en cada posición de la secuencia.

Consulta también la sección de atención y autoatención de varios cabezales.

aprendizaje autosupervisado

Una familia de técnicas para convertir un problema de aprendizaje automático no supervisado un problema de aprendizaje automático supervisado creando etiquetas subrogadas a partir de ejemplos sin etiqueta.

Algunos modelos basados en Transformer, como BERT, usan y el aprendizaje autosupervisado.

El entrenamiento autosupervisado es una aprendizaje semisupervisado.

autoentrenamiento

Es una variante del aprendizaje autosupervisado que es es particularmente útil cuando se cumplen todas estas condiciones:

El autoentrenamiento funciona iterando en los siguientes dos pasos hasta que el modelo deja de mejorar:

  1. Usa el aprendizaje automático supervisado para entrenar un modelo con los ejemplos etiquetados.
  2. Usa el modelo creado en el paso 1 para generar predicciones (etiquetas) en la ejemplos sin etiqueta, y trasladar a aquellos en los que hay un alto nivel de confianza a los ejemplos etiquetados con la etiqueta predicha.

Observa que cada iteración del Paso 2 agrega más ejemplos etiquetados para el Paso 1 para para el entrenamiento.

aprendizaje semisupervisado

Entrenar un modelo con datos en el que algunos de los ejemplos tienen etiquetas, otras no. Una técnica del aprendizaje semisupervisado es inferir etiquetas para los ejemplos sin etiqueta y, luego, entrenar con las etiquetas inferidas para crear un nuevo un modelo de responsabilidad compartida. El aprendizaje semisupervisado puede ser útil si las etiquetas son costosas de obtener pero los ejemplos sin etiqueta son abundantes.

El autoentrenamiento es una técnica para la evaluación automático.

atributo sensible

#fairness
Atributo humano que puede ser objeto de consideración especial por cuestiones legales por motivos éticos, sociales o personales.

análisis de opiniones

#language

Usar algoritmos estadísticos o de aprendizaje automático para determinar la actitud general, positiva o negativa, hacia un servicio, producto, organización o tema. Por ejemplo, comprensión del lenguaje natural, un algoritmo podría realizar un análisis de opiniones sobre la retroalimentación textual de un curso universitario para determinar el título de los estudiantes les gustó o disgustó el curso.

modelo de secuencia

#seq

Modelo cuyas entradas tienen una dependencia secuencial. Por ejemplo, predecir el siguiente video de una secuencia de videos vistos anteriormente.

tarea de secuencia por secuencia

#language

Una tarea que convierte una secuencia de entrada de tokens en una salida secuencia de tokens. Por ejemplo, hay dos tipos populares de modelos tareas son:

  • Traductores:
    • Secuencia de entrada de muestra: "Te quiero".
    • Secuencia de salida de muestra: "Je t'aime".
  • Búsqueda de respuestas:
    • Secuencia de entrada de muestra: "¿Necesito mi auto en Nueva York?".
    • Secuencia de salida de muestra: "No. Mantén el vehículo en casa".

modelos

El proceso de hacer que un modelo entrenado esté disponible para proporcionar predicciones a través de inferencia en línea o Inferencia sin conexión.

forma (tensor)

La cantidad de elementos en cada dimensión de una tensor. La forma se representa como una lista de números enteros. Por ejemplo: el siguiente tensor bidimensional tiene una forma de [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow usa el formato de fila mayor (estilo C) para representar el orden de dimensiones y por eso la forma en TensorFlow es [3,4] en lugar de [4,3] En otras palabras, en un Tensor de TensorFlow bidimensional, la forma es [número de filas, número de columnas].

Una forma estática es una forma de tensor que se conoce en el tiempo de compilación.

Una forma dinámica es desconocida en el tiempo de compilación y es por lo tanto, dependen de los datos del entorno de ejecución. Este tensor podría representarse con una dimensión de marcador de posición en TensorFlow, como en [3, ?].

fragmento

#TensorFlow
#GoogleCloud

Una división lógica del conjunto de entrenamiento o del model. Por lo general, algún proceso crea fragmentos al dividir los ejemplos o los parámetros en (por lo general) en fragmentos de igual tamaño. Luego, cada fragmento se asigna a una máquina diferente.

La fragmentación de un modelo se denomina paralelismo de modelos. la fragmentación de datos se denomina paralelismo de datos.

reducción

#df

Un hiperparámetro en potenciación de gradiente que controla sobreajuste. Contracción en el boosting del gradiente es análogo a la tasa de aprendizaje en descenso de gradientes. La reducción es un decimal entre 0.0 y 1.0. Un valor de reducción más bajo reduce el sobreajuste superior a un valor de reducción mayor.

función sigmoidea

#fundamentals

Una función matemática que "aplasta" un valor de entrada a un rango restringido generalmente de 0 a 1 o de -1 a +1. Es decir, puedes pasar cualquier número (dos, un millón, mil millones negativo, lo que sea) a una sigmoidea, y la salida seguirá estando en rango restringido. Un diagrama de la función de activación sigmoidea se ve de la siguiente manera:

Un diagrama curvo bidimensional con valores x que abarcan el dominio
          -infinity a +positivo, mientras que los valores y abarcan el rango casi 0 a
          casi 1. Cuando x es 0, y es 0.5. La pendiente de la curva es siempre
          positivo, con la pendiente más alta en 0,0.5 y disminuyendo gradualmente
          pendientes a medida que aumenta el valor absoluto de x.

La función sigmoidea tiene varios usos en el aprendizaje automático, incluidos los siguientes:

medida de similitud

#clustering

En los algoritmos de agrupamiento en clústeres, la métrica que se usa para determinar qué tan semejantes (qué tan similares) son cualquiera de los dos ejemplos.

programa único / varios datos (SPMD)

Es una técnica de paralelismo en la que el mismo procesamiento se ejecuta en entradas diferentes. datos en paralelo en diferentes dispositivos. El objetivo de SPMD es obtener resultados más rápido. Es el estilo más común de programación paralela.

invariancia de tamaño

#image

En un problema de clasificación de imágenes, la capacidad de un algoritmo para y clasificar imágenes aun cuando su tamaño cambia. Por ejemplo: el algoritmo puede identificar una cat ya sea que consuma 2 M o 200 K de píxeles. Ten en cuenta que incluso los mejores los algoritmos de clasificación de imágenes aún tienen límites prácticos sobre la invariancia de tamaño. Por ejemplo, es poco probable que un algoritmo (o humano) clasifique correctamente un gato que consume solo 20 píxeles.

Consulta también Invariancia traslacional y invariancia rotacional.

esbozo

#clustering

En el aprendizaje automático no supervisado, una categoría de algoritmos que realizan un análisis preliminar de similitud con ejemplos. Los algoritmos de esbozo usan un función hash sensible a la localidad para identificar puntos que probablemente sean similares y, luego, agrupar en buckets.

El esbozo disminuye el cálculo requerido para los cálculos de similitud en grandes conjuntos de datos. En lugar de calcular la similitud para cada par de ejemplos en el conjunto de datos, calculamos la similitud solo para cada par de puntos dentro de cada bucket.

omitir-grama

#language

Un n-grama que puede omitir (o, también, "omitir") palabras del original contextual, lo que significa que las palabras N podrían no haber sido originalmente adyacentes. Más precisamente, un "k-skip-n-gram" es un n-grama para el que pueden tener hasta k palabras se omitió.

Por ejemplo, "el ratón zorro" tiene los siguientes 2-gramas posibles:

  • "rápido"
  • “marrón rápido”
  • "fox marrón"

Un "1-omitir-2-grama" es un par de palabras que tienen 1 palabra como máximo entre ellas. Por lo tanto, "el rápido zorro marrón" tiene los siguientes 1-omiten 2-gramas:

  • "el marrón"
  • “rápido zorro”

Además, todos los 2-gramas también son 1-omiten-2-gramas, ya que menos se podrá omitir más de una palabra.

Los Omitir gramas son útiles para entender mejor el contexto circundante de una palabra. En el ejemplo, "fox" se asoció directamente con la palabra "rápido" en el conjunto de 1-skip-2-gramas, pero no en el conjunto de 2-gramos.

Los saltos gramaticales ayudan a entrenar modelos de word embedding.

softmax

#fundamentals

Función que determina las probabilidades para cada clase posible en una modelo de clasificación de clases múltiples. Las probabilidades suman a exactamente 1.0. Por ejemplo, la siguiente tabla muestra cómo softmax distribuye varias probabilidades:

La imagen es... Probabilidad
perro 0,85
gato 0,13
caballo 0,02

Softmax también se denomina softmax completo.

Compara esto con el muestreo de candidatos.

ajuste de instrucciones discretas

#language
#generativeAI

Técnica para ajustar un modelo de lenguaje grande para una tarea concreta, sin que se requiera una gran cantidad de recursos ajuste. En lugar de volver a entrenar pesos en el modelo, ajuste de mensajes suaves Ajusta automáticamente una instrucción para lograr el mismo objetivo.

Dada una instrucción textual, se puede ajustar normalmente agrega incorporaciones de token adicionales al mensaje y usa propagación inversa para optimizar la entrada.

La fase "difícil" contiene tokens reales en lugar de incorporaciones de token.

atributo disperso

#language
#fundamentals

atributo cuyos valores son predominantemente cero o están vacíos. Por ejemplo, un atributo que contiene un solo valor 1 y un millón de valores 0 se dispersas. Por el contrario, un atributo denso tiene valores que no estén vacíos ni estén vacíos.

En el aprendizaje automático, un número sorprendente de atributos son atributos dispersos. Los atributos categóricos suelen ser atributos dispersos. Por ejemplo, de las 300 posibles especies de árboles en un bosque, un único ejemplo podría identificar solo un árbol de arce. O de los millones de videos posibles en una biblioteca de videos, un solo ejemplo podría identificar solo "Casablanca".

En un modelo, normalmente representas atributos dispersos con codificación one-hot. Si la codificación one-hot es grande, puedes colocar una capa de incorporación sobre el la codificación one-hot para una mayor eficiencia.

representación dispersa

#language
#fundamentals

Almacenar solo las posiciones de elementos distintos de cero en un atributo disperso

Por ejemplo, supongamos que un atributo categórico llamado species identifica las 36 las especies arbóreas de un bosque en particular. Supón además que cada example identifica solo una especie.

Podrías usar un vector one-hot para representar las especies arbóreas en cada ejemplo. Un vector one-hot contendría un único 1 (para representar la especie de árbol particular en ese ejemplo) y 35 0 (para representar la 35 especies de árboles no en ese ejemplo). La representación one-hot de maple podría verse de la siguiente manera:

Un vector en el que las posiciones 0 a 23 contienen el valor 0, posición
          24 contiene el valor 1, y las posiciones 25 a 35 tienen el valor 0.

Por otro lado, la representación dispersa simplemente identificaría la posición de la a una especie particular. Si maple está en la posición 24, entonces la representación dispersa de maple sería la siguiente:

24

Ten en cuenta que la representación dispersa es mucho más compacta que la one-hot para la representación de los datos.

vector disperso

#fundamentals

Vector cuyos valores son en su mayoría ceros. Consulta también dispersas atributo y dispersión.

dispersión

El número de elementos establecidos en cero (o nulo) en un vector o una matriz dividido por el número total de entradas en ese vector o matriz. Por ejemplo: considera una matriz de 100 elementos en la que 98 celdas contienen cero. El cálculo de la dispersión es la siguiente:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

La dispersión de atributos se refiere a la dispersión de un vector de atributos. La dispersión de modelos se refiere a la dispersión de los pesos del modelo.

reducción espacial

#image

Consulta reducción.

split

#df

En un árbol de decisión, otro nombre para una condition [estado].

separador

#df

Mientras se entrena un árbol de decisión, la rutina (y algoritmo) responsables de encontrar la mejor condition en cada nodo.

SPMD

Abreviatura de un solo programa / varios datos.

pérdida de bisagra al cuadrado

Cuadrado de la pérdida de bisagra. La pérdida de bisagra al cuadrado penaliza los valores atípicos de manera más severa que la pérdida normal de bisagra.

pérdida al cuadrado

#fundamentals

Sinónimo de pérdida L2.

entrenamiento por etapas

#language

Es una táctica de entrenar un modelo en una secuencia de etapas discretas. El objetivo puede ser ya sea para acelerar el proceso de entrenamiento o lograr una mejor calidad del modelo.

A continuación, se muestra una ilustración del enfoque de apilado progresivo:

  • La etapa 1 contiene 3 capas ocultas, la etapa 2 contiene 6 capas ocultas y la etapa 3 contiene 12 capas ocultas.
  • La etapa 2 comienza el entrenamiento con los pesos aprendidos en las 3 capas ocultas. de la Etapa 1. En la etapa 3, se comienza el entrenamiento con los pesos que se aprendieron en los 6. capas ocultas de la etapa 2.

Tres etapas, que están etiquetadas como Etapa 1, Etapa 2 y Etapa 3.
          Cada etapa contiene un número diferente de capas: la etapa 1 contiene
          3 capas, la etapa 2 contiene 6 capas y la etapa 3 contiene 12 capas.
          Las 3 capas de la Etapa 1 se convierten en las primeras 3 capas de la Etapa 2.
          Del mismo modo, las 6 capas de la Etapa 2 se convierten en las primeras 6 capas de
          Etapa 3.

Consulta también la canalización.

state

#rl

En el aprendizaje por refuerzo, los valores de los parámetros que describen el estado configuración del entorno que el agente usa para elige una acción.

función de valor de acción de estado

#rl

Sinónimo de función Q.

static

#fundamentals

Algo hecho una vez en lugar de hacerlo continuamente. Los términos estático y sin conexión son sinónimos. Los siguientes son usos comunes de estático y sin conexión en máquinas aprendizaje:

  • El modelo estático (o modelo sin conexión) es un modelo entrenado una vez y, luego, se usó durante un tiempo.
  • El entrenamiento estático (o entrenamiento sin conexión) es el proceso de entrenar un para un modelo estático.
  • La inferencia estática (o inferencia sin conexión) es una en el que un modelo genera un lote de predicciones a la vez.

Compara esto con los atributos dinámicos.

inferencia estática

#fundamentals

Sinónimo de inferencia sin conexión.

estacionariedad

#fundamentals

Es un atributo cuyos valores no cambian en una o más dimensiones, por lo general, en el tiempo. Por ejemplo, un atributo cuyos valores parecen casi los mismos en 2021 y El 2023 muestra estacionariedad.

En el mundo real, muy pocos atributos muestran estacionariedad. Funciones uniformes que son sinónimo de cambio de estabilidad (como el nivel del mar) con el tiempo.

Compara esto con la no estacionariedad.

paso

Es un pase hacia delante y hacia atrás de un lote.

Consulta propagación inversa para obtener más información. para avanzar y retroceder.

tamaño del paso

Sinónimo de tasa de aprendizaje.

descenso de gradientes estocástico (SGD)

#fundamentals

Es un algoritmo de descenso de gradientes en el que la tamaño del lote es uno. En otras palabras, el SGD entrena un solo ejemplo elegido de manera uniforme al aleatorias de un conjunto de entrenamiento.

stride

#image

En una operación convolucional o de reducción, el delta en cada dimensión del la siguiente serie de porciones de entrada. Por ejemplo, la siguiente animación demuestra un zancada (1,1) durante una operación convolucional. Por lo tanto, la siguiente porción de entrada comienza una posición a la derecha de la entrada anterior porción. Cuando la operación alcanza el borde derecho, la siguiente porción es hacia la izquierda, pero una posición hacia abajo.

Una matriz de entrada de 5×5 y un filtro convolucional de 3×3. Debido a que el
     stride es (1,1); se aplicará un filtro convolucional 9 veces. La primera
     porción convolucional evalúa la submatriz 3x3 superior izquierda de la entrada
     de salida. La segunda porción evalúa el medio superior 3x3.
     submatriz. La tercera porción convolucional evalúa la 3x3 superior derecha
     submatriz.  La cuarta porción evalúa la submatriz 3x3 del medio izquierdo.
     La quinta porción evalúa la submatriz 3x3 del medio. La sexta porción
     evalúa la submatriz 3x3 del medio derecho. La séptima porción evalúa
     la submatriz 3x3 inferior izquierda.  La octava porción evalúa la
     submatriz de 3x3 en la parte inferior central. La novena porción evalúa 3x3, la esquina inferior derecha
     submatriz.

En el ejemplo anterior, se muestra un stride bidimensional. Si la entrada es tridimensional, el zancada también sería tridimensional.

minimización del riesgo estructural (SRM)

Un algoritmo que equilibra dos objetivos:

  • La necesidad de crear el modelo más predictivo (por ejemplo, con la pérdida más baja)
  • La necesidad de mantener el modelo lo más simple posible (por ejemplo, una regularización).

Por ejemplo, una función que minimice la pérdida+regularización en la es un algoritmo de minimización del riesgo estructural.

Compara esto con la minimización del riesgo empírico.

submuestreo

#image

Consulta reducción.

token de subpalabra

#language

En los modelos de lenguaje, un token que es un o la subcadena de una palabra, que puede ser la palabra completa.

Por ejemplo, una palabra como "itemizar" podría dividirse en las partes “elemento” (una palabra raíz) y "ize" (un sufijo), cada uno de los cuales está representado por su propio token. Dividir palabras poco comunes en esas partes, llamadas subpalabras, permite de lenguaje extensos para operar en las partes constituyentes más comunes de la palabra, como prefijos y sufijos.

Por el contrario, las palabras comunes como "ir" pueden no estar divididas y representados por un solo token.

resumen

#TensorFlow

En TensorFlow, un valor o conjunto de valores calculados a un nivel step, generalmente se usa para hacer un seguimiento de las métricas del modelo durante el entrenamiento.

aprendizaje automático supervisado

#fundamentals

Entrenar un modelo a partir de atributos y sus las etiquetas correspondientes. El aprendizaje automático supervisado es análogo hasta aprender un tema mediante el estudio de un conjunto de preguntas y sus respuestas correspondientes. Después de dominar el mapeo entre preguntas y respuestas, el estudiante puede dar respuestas a preguntas nuevas (nunca antes vistas) preguntas sobre el mismo tema.

Comparar con aprendizaje automático no supervisado.

atributo sintético

#fundamentals

Es un atributo que no está presente entre los atributos de entrada, pero ensamblado a partir de uno o más de ellos. Métodos para crear atributos sintéticos incluyen lo siguiente:

  • Agrupamiento de un atributo continuo en discretizaciones de rango.
  • Crear una combinación de atributos
  • Multiplicar (o dividir) el valor de un atributo por otros atributos o por su cuenta. Por ejemplo, si a y b son atributos de entrada, el Estos son ejemplos de atributos sintéticos:
    • ab
    • a2
  • Aplicar una función trascendental al valor de un atributo Por ejemplo, si c es un atributo de entrada, los siguientes son ejemplos de atributos sintéticos:
    • sen(c)
    • ln(c)

Funciones creadas mediante la normalización o el escalamiento por sí solos no se consideran atributos sintéticos.

T

T5

#language

Un modelo de aprendizaje por transferencia de texto a texto introducido por La IA de Google en 2020. T5 es un modelo de codificador-decodificador que se basa en el una arquitectura de transformador, entrenada con un modelo de tu conjunto de datos. Es eficaz en una variedad de tareas de procesamiento de lenguaje natural, como generar texto, traducir idiomas y responder preguntas en de una manera coloquial.

El T5 recibe su nombre de las cinco T de “Transformador de transferencia de texto a texto”.

T5X

#language

Un framework de aprendizaje automático de código abierto diseñado para compilar y entrenar procesamiento de lenguaje natural a gran escala (PLN). T5 se implementa en la base de código T5X (que es compilada en JAX y Flax).

Q-learning tabular

#rl

En el aprendizaje por refuerzo, implementar Q-learning mediante el uso de una tabla para almacenar los Funciones Q para cada combinación de state y action.

objetivo

Sinónimo de etiqueta.

red de destino

#rl

En Deep Q-learning, una red neuronal que es un aproximación de la red neuronal principal, donde esta implementa una función Q o una política. Luego, puedes entrenar a la red principal con los valores Q que predijo el objetivo en cada red. Así, evita el ciclo de retroalimentación que ocurre cuando la instancia principal la red se entrena con los valores Q que predijo por sí misma. Al evitar estos comentarios, aumenta la estabilidad del entrenamiento.

tarea

Un problema que se puede resolver con técnicas de aprendizaje automático, como las siguientes:

temperatura

#language
#image
#generativeAI

Un hiperparámetro que controla el grado de aleatorización de la salida de un modelo. Las temperaturas más altas generan resultados más aleatorios, mientras que las temperaturas más bajas generan resultados menos aleatorios.

La elección de la mejor temperatura depende de la aplicación específica y las propiedades preferidas del resultado del modelo. Por ejemplo, probablemente aumente la temperatura cuando crees una aplicación que genera resultados creativos. Por el contrario, probablemente bajarías la temperatura cuando compilas un modelo que clasifica imágenes o texto para mejorar el la exactitud y coherencia del modelo.

La temperatura suele usarse con softmax.

datos temporales

Datos registrados en diferentes momentos. Por ejemplo, las ventas de abrigos registrados para cada día del año serían datos temporales.

Tensor

#TensorFlow

Principal estructura de datos en los programas de TensorFlow. Los tensores son de dimensión n (donde N podría ser muy grande) estructuras de datos, comúnmente escalares, vectores, o matrices. Los elementos de un tensor pueden contener un número entero, un punto flotante o valores de cadena.

TensorBoard

#TensorFlow

El panel que muestra los resúmenes guardados durante la ejecución de uno o más programas de TensorFlow.

TensorFlow

#TensorFlow

Una plataforma de aprendizaje automático distribuida a gran escala. El término también se refiere a capa de API base en la pila de TensorFlow, que admite procesamiento general en los grafos de Dataflow.

Aunque TensorFlow se usa principalmente para el aprendizaje automático, también puedes usar TensorFlow para tareas no relacionadas con el AA que requieren procesamiento numérico con Gráficos de Dataflow.

TensorFlow Playground

#TensorFlow

Un programa que visualiza qué tan diferentes modelo de influencia de hiperparámetros (principalmente de red neuronal). Ir a http://playground.tensorflow.org para experimentar con TensorFlow Playground.

TensorFlow Serving

#TensorFlow

Es una plataforma para implementar modelos entrenados en producción.

Unidad de procesamiento tensorial (TPU)

#TensorFlow
#GoogleCloud

Un circuito integrado específico de la aplicación (ASIC) que optimiza la de las cargas de trabajo de aprendizaje automático. Estos ASIC se implementan como Varios chips de TPU en un dispositivo de TPU.

Rango de tensor

#TensorFlow

Consulta rango (tensor).

Forma de tensor (Tensor shape)

#TensorFlow

Número de elementos que contiene un tensor en distintas dimensiones. Por ejemplo, un tensor de [5, 10] tiene una forma de 5 en una dimensión y de 10. en otro.

tamaño de tensor

#TensorFlow

Cantidad total de escalares que contiene un tensor. Por ejemplo, un [5, 10] El tensor tiene un tamaño de 50.

TensorStore

Una biblioteca para leer y escribir arrays multidimensionales grandes.

condición de finalización

#rl

En el aprendizaje por refuerzo, las condiciones que determinar cuándo finaliza un episodio, como cuando el agente llega un estado determinado o excede un umbral de transiciones de estado. Por ejemplo, en tic-tac-toe (también conocidos como ceros y cruces), un episodio termina ya sea cuando un jugador tres espacios consecutivos o cuando todos los espacios están marcados.

prueba

#df

En un árbol de decisión, otro nombre para una condition [estado].

pérdida de prueba

#fundamentals

Una métrica que representa la pérdida de un modelo según el conjunto de prueba. Cuando creas un modelo, suele intentar minimizar la pérdida de prueba. Eso se debe a que una pérdida de prueba baja es un una señal de mejor calidad que una baja pérdida de entrenamiento o baja pérdida de validación.

En ocasiones, hay una gran brecha entre la pérdida de prueba y la pérdida de entrenamiento o validación. sugiere que debes aumentar la probabilidad tasa de regularización.

conjunto de prueba

Un subconjunto del conjunto de datos reservado para pruebas un modelo entrenado.

Tradicionalmente, se dividen los ejemplos en el conjunto de datos en los siguientes tres subconjuntos distintos:

Cada ejemplo de un conjunto de datos debe pertenecer a solo uno de los subconjuntos anteriores. Por ejemplo, un solo ejemplo no debe pertenecer tanto al conjunto de entrenamiento como el conjunto de prueba.

El conjunto de entrenamiento y el de validación están estrechamente vinculados al entrenamiento de un modelo. Debido a que el conjunto de prueba solo se asocia indirectamente con el entrenamiento, test Loss (pérdida de prueba) es una métrica menos sesgada y de mejor calidad que pérdida de entrenamiento o pérdida de validación.

intervalo de texto

#language

El intervalo del índice del array asociado con una subsección específica de una cadena de texto. Por ejemplo, la palabra good en la cadena s="Be good now" de Python ocupa el texto abarcan de 3 a 6.

tf.Example

#TensorFlow

Un estándar búfer de protocolo Sirve para describir los datos de entrada para el entrenamiento o la inferencia de modelos de aprendizaje automático.

tf.keras

#TensorFlow

Una implementación de Keras integrada en TensorFlow

umbral (para árboles de decisión)

#df

En una condición alineada al eje, el valor al que función con la que se compara. Por ejemplo, 75 es el umbral en la siguiente condición:

grade >= 75

análisis de series temporales

#clustering

Subcampo del aprendizaje automático y la estadística que analiza datos temporales. Muchos tipos de aprendizaje automático problemas requieren un análisis de series temporales, que incluya clasificación, agrupamiento la previsión y la detección de anomalías. Por ejemplo, podrías usar Análisis de series temporales para prever las ventas futuras de abrigos de invierno por mes según los datos históricos de ventas.

Intervalo de tiempo

#seq

Uno "sin rodar" celda dentro de un red neuronal recurrente. Por ejemplo, en la siguiente figura se muestran tres pasos de tiempo (etiquetados con los subíndices t-1, t y t+1):

Tres pasos de tiempo en una red neuronal recurrente. El resultado de la
          primer paso en el tiempo se convierte en una entrada para el segundo paso. El resultado
          del segundo paso en el tiempo se convierte en una entrada del tercer paso.

token

#language

En un modelo de lenguaje, la unidad atómica a la que se dedica para entrenar y hacer predicciones. Por lo general, un token es uno de los lo siguiente:

  • una palabra, por ejemplo, la frase "perros como gatos" consta de tres palabras tokens: “dogs”, “like” y “cats”.
  • un carácter, por ejemplo, la frase "pez bicicleta" consta de nueve tokens de caracteres. (Ten en cuenta que el espacio en blanco cuenta como uno de los tokens).
  • subpalabras, en las que una sola palabra puede ser uno o varios tokens. Una subpalabra consta de una palabra raíz, un prefijo o un sufijo. Por ejemplo: un modelo de lenguaje que usa subpalabras como tokens podría ver la palabra “dogs” como dos tokens (la palabra raíz "dog" y el sufijo plural "s"). Lo mismo de lenguaje natural podrían ver la sola palabra “más alta” en dos subpalabras (el palabra raíz “tall” y el sufijo “er”).

En dominios fuera de los modelos de lenguaje, los tokens pueden representar otros tipos de unidades atómicas. Por ejemplo, en visión artificial, un token puede ser un subconjunto de una imagen.

torre

Es un componente de una red neuronal profunda que es una red neuronal profunda. En algunos casos, cada torre lee de una fuente de datos independiente, y esas torres se mantienen independientes hasta que de salida se combina en una capa final. En otros casos, (por ejemplo, en la pila/torre del codificador y el decodificador de muchos Transformers), las torres tienen conexiones cruzadas entre sí.

TPU

#TensorFlow
#GoogleCloud

Abreviatura de unidad de procesamiento tensorial.

chip TPU

#TensorFlow
#GoogleCloud

Un acelerador de álgebra lineal programable con memoria de gran ancho de banda en el chip que está optimizado para las cargas de trabajo de aprendizaje automático. Se implementan varios chips TPU en un dispositivo de TPU.

Dispositivo de TPU

#TensorFlow
#GoogleCloud

Una placa de circuito impreso (PCB) con varios chips TPU interfaces de red con alto ancho de banda y hardware de enfriamiento del sistema.

TPU principal

#TensorFlow
#GoogleCloud

Es el proceso de coordinación central que se ejecuta en una máquina anfitrión que envía y recibe datos, resultados, programas, información sobre el rendimiento y el estado del sistema a los trabajadores de TPU. La instancia principal de TPU también administra la configuración y el cierre de los dispositivos de TPU.

Nodo TPU

#TensorFlow
#GoogleCloud

Un recurso de TPU en Google Cloud con un Tipo de TPU. El nodo TPU se conecta a tu Red de VPC de un red de VPC de intercambio de tráfico. Los nodos TPU son un recurso definido en el API de Cloud TPU.

pod de TPU

#TensorFlow
#GoogleCloud

Es una configuración específica de dispositivos de TPU en un dispositivo de Google centro de datos de la empresa. Todos los dispositivos en un pod de TPU están conectados entre sí a través de una red dedicada de alta velocidad. Un pod de TPU es la mayor configuración de Dispositivos de TPU disponibles para una versión específica de TPU.

recurso TPU

#TensorFlow
#GoogleCloud

Es una entidad de TPU en Google Cloud que creas, administras o consumes. Para Por ejemplo, los nodos TPU y los tipos de TPU son recursos de TPU.

Porción de TPU

#TensorFlow
#GoogleCloud

Una porción de TPU es una porción fraccionaria de los dispositivos de TPU en un Pod de TPU. Todos los dispositivos de una porción de TPU están conectados a través de una red dedicada de alta velocidad.

Tipo de TPU

#TensorFlow
#GoogleCloud

Una configuración de uno o más dispositivos de TPU con un Versión de hardware de TPU. El tipo de TPU se selecciona cuando se crea un nodo TPU en Google Cloud Por ejemplo, un objeto v2-8 El tipo de TPU es un dispositivo único de TPU v2 con 8 núcleos. Un tipo de TPU v3-2048 tiene 256 con dispositivos TPU v3 conectados en red y un total de 2,048 núcleos. Los tipos de TPU son un recurso definidos en las API de Cloud TPU.

trabajador TPU

#TensorFlow
#GoogleCloud

Es un proceso que se ejecuta en una máquina anfitrión y en programas de aprendizaje automático. en dispositivos de TPU.

modelos

#fundamentals

Proceso de determinar los parámetros ideales (pesos y sesgos) que comprende un modelo. Durante el entrenamiento, un sistema lee ejemplos y ajusta los parámetros de forma gradual. El entrenamiento usa cada de unas cuantas veces a miles de millones de veces.

pérdida de entrenamiento

#fundamentals

Una métrica que representa la pérdida de un modelo durante una en una iteración de entrenamiento específica. Por ejemplo, supongamos que la función de pérdida es el error cuadrático medio. Quizás la pérdida de entrenamiento (la media (error cuadrático) para la 10.a iteración es 2.2, y la pérdida de entrenamiento para la iteración número 100 es 1.9.

Una curva de pérdida representa la pérdida de entrenamiento frente a la cantidad de iteraciones. Una curva de pérdida proporciona las siguientes sugerencias sobre el entrenamiento:

  • Una pendiente descendente implica que el modelo está mejorando.
  • Una pendiente ascendente indica que el modelo está empeorando.
  • Una pendiente plana implica que el modelo alcanzó convergencia.

Por ejemplo, la siguiente curva de pérdida un poco idealizada muestra:

  • Una pendiente empinada hacia abajo durante las iteraciones iniciales, lo que implica una mejora rápida del modelo.
  • Una pendiente que se aplana gradualmente (pero aún baja) hasta llegar al final de entrenamiento, lo que implica una mejora continua del modelo a un cierto un ritmo más lento que durante las iteraciones iniciales.
  • Una pendiente plana hacia el final del entrenamiento, lo que sugiere convergencia.

La representación de la pérdida de entrenamiento frente a las iteraciones. Esta curva de pérdida comienza
     con una pendiente empinada. La pendiente se aplana gradualmente hasta que
     la pendiente se vuelve cero.

Aunque la pérdida de entrenamiento es importante, consulta también generalización.

desviación entre el entrenamiento y la entrega

#fundamentals

La diferencia entre el rendimiento de un modelo durante entrenamiento y el rendimiento del mismo modelo durante de publicación.

conjunto de entrenamiento

#fundamentals

Subconjunto del conjunto de datos que se usa para entrenar un modelo.

Tradicionalmente, los ejemplos del conjunto de datos se dividen en los siguientes tres subconjuntos distintos:

Idealmente, cada ejemplo del conjunto de datos debería pertenecer solo a uno de los subconjuntos anteriores. Por ejemplo, un solo ejemplo no debe pertenecer a el conjunto de entrenamiento y el de validación.

trayectoria

#rl

En el aprendizaje por refuerzo, una secuencia de tuplas que representan una secuencia de transiciones de estado del agente en la que cada tupla corresponde al estado, action, recompensa y el siguiente estado para una transición de estado determinada.

aprendizaje por transferencia

Transferencia de información de una tarea de aprendizaje automático a otra. Por ejemplo, en el aprendizaje multitarea, un solo modelo resuelve múltiples tareas, como un modelo profundo que tiene diferentes nodos de salida para diferentes tareas. El aprendizaje por transferencia puede implicar la transferencia de conocimientos desde la solución de una tarea más simple a una más compleja, o involucran transferir el conocimiento de una tarea en la que hay más datos a otra en la que hay menos datos.

La mayoría de los sistemas de aprendizaje automático resuelven una única tarea. El aprendizaje por transferencia es un pequeño paso hacia la inteligencia artificial, en la que un solo programa puede resolver múltiples tareas.

Transformador

#language

Es una arquitectura de red neuronal desarrollada en Google que se basa en mecanismos de autoatención para transformar una de incorporaciones de entrada en una secuencia de salida de las incorporaciones sin depender de las convoluciones redes neuronales recurrentes. Un transformador puede ser como una pila de capas de autoatención.

Un Transformer puede incluir cualquiera de los siguientes elementos:

Un codificador transforma una secuencia de incorporaciones en una secuencia nueva del la misma duración. Un codificador incluye N capas idénticas, cada una de las cuales contiene dos subcapas. Estas dos subcapas se aplican en cada posición de la entrada secuencia de incorporación, transformando cada elemento de la secuencia en un nuevo a través de la incorporación de texto. La primera subcapa del codificador agrega información de todo secuencia de entrada. La segunda subcapa del codificador transforma la información en una incorporación de salida.

Un decodificador transforma una secuencia de incorporaciones de entrada en una secuencia de de salida, posiblemente con una longitud diferente. Un decodificador también incluye N capas idénticas con tres subcapas, dos de las cuales son similares a la subcapas del codificador. La tercera subcapa del decodificador toma la salida de la y aplica el mecanismo de autoatención para recopilar información a partir de ellos.

La entrada de blog Transformer: A Novel Neural Network Architecture for Language Comprensión proporciona una buena introducción a Transformers.

invariancia traslacional

#image

En un problema de clasificación de imágenes, la capacidad de un algoritmo para y clasificar imágenes aun cuando cambia la posición de los objetos. Por ejemplo, el algoritmo aún puede identificar a un perro, ya sea que esté en centro o en el extremo izquierdo del marco.

Consulta también la invariancia de tamaño y invariancia rotacional.

trigrama

#seq
#language

n-grama en el cual n=3.

verdadero negativo (VN)

#fundamentals

Ejemplo en el que el modelo predice correctamente la clase negativa. Por ejemplo, el modelo infiere que un mensaje de correo electrónico en particular no es spam, el cual en realidad es no es spam.

verdadero positivo (VP)

#fundamentals

Ejemplo en el que el modelo predice correctamente la clase positiva. Por ejemplo, el modelo infiere que un mensaje de correo electrónico en particular es spam, y ese mensaje en realidad es spam.

tasa de verdaderos positivos (TPR)

#fundamentals

Sinónimo de recuperación. Es decir:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

La tasa de verdaderos positivos es el eje Y en una curva ROC.

U

falta de conocimiento (a un atributo sensible)

#fairness

Situación en la que los atributos sensibles pero no en los datos de entrenamiento. Debido a que los atributos sensibles suelen correlacionarse con otros atributos de los datos propios, un modelo entrenado que desconocen un atributo sensible, impacto dispar con respecto a ese atributo o infringir otras restricciones de equidad

subajuste

#fundamentals

Producir un modelo con una capacidad predictiva deficiente porque el modelo no haya capturado por completo la complejidad de los datos de entrenamiento. Muchos problemas pueden provocar subajuste, como

submuestreo

Elimina los ejemplos de la clase mayor en una conjunto de datos con desequilibrio de clases Crear un conjunto de entrenamiento más equilibrado.

Por ejemplo, considera un conjunto de datos en el cual la proporción de la clase mayoritaria la clase minoritaria es 20:1. Para superar esta clase podrías crear un conjunto de entrenamiento compuesto por todos los grupos de clase mayoritaria, pero solo una décima parte de las de clase mayoritaria, lo que Crea una relación de clase del conjunto de entrenamiento de 2:1. Gracias al submuestreo, esto es más de entrenamiento equilibrado puede producir un modelo mejor. De manera alternativa, esta conjunto de entrenamiento más equilibrado puede contener ejemplos insuficientes para entrenar un para un modelo eficaz.

Compara esto con el oversampling.

unidireccional

#language

Es un sistema que solo evalúa el texto que antecede a una sección objetivo del texto. Por el contrario, un sistema bidireccional evalúa tanto el texto que antecede y sigue una sección objetivo del texto. Consulta bidireccional para obtener más detalles.

modelo unidireccional de lenguaje

#language

Es un modelo de lenguaje que basa sus probabilidades solo en la Los tokens que aparecen antes, no después de los tokens de destino. Compara esto con el modelo bidireccional de lenguaje.

ejemplo sin etiqueta

#fundamentals

Un ejemplo que contiene atributos, pero no etiqueta. Por ejemplo, en la siguiente tabla se muestran tres ejemplos sin etiqueta de una casa de valoración, cada uno con tres atributos, pero sin valor de la casa:

Cantidad de dormitorios Cantidad de baños Antigüedad de la casa
3 2 15
2 1 72
4 2 34

En el aprendizaje automático supervisado, los modelos se entrenan con ejemplos etiquetados y hacen predicciones sobre ejemplos sin etiqueta.

En las estrategias semisupervisadas y el aprendizaje no supervisado, ejemplos sin etiqueta durante el entrenamiento.

Compara el ejemplo sin etiqueta con el ejemplo etiquetado.

aprendizaje automático no supervisado

#clustering
#fundamentals

Entrenar un modelo para encontrar patrones en un conjunto de datos, generalmente un sin etiquetar.

El uso más común del aprendizaje automático no supervisado Datos del clúster en grupos de ejemplos similares. Por ejemplo, una máquina no supervisada El algoritmo de aprendizaje puede agrupar canciones en función de distintas propiedades de la música. Los clústeres resultantes pueden convertirse en una entrada para otra máquina algoritmos de aprendizaje (por ejemplo, a un servicio de recomendación de música). El agrupamiento en clústeres puede ser útil cuando las etiquetas útiles son escasas o faltan. Por ejemplo, en dominios como la protección contra el abuso y el fraude, los clústeres a los seres humanos a comprender mejor los datos.

Compara esto con el aprendizaje automático supervisado.

modelado de aumento

Una técnica de modelado, de uso general en marketing, que modela el "efecto causal" (también conocido como "impacto incremental") de un “tratamiento” en una "persona". A continuación, presentamos dos ejemplos:

  • Los médicos podrían usar el modelado de aumento para predecir la disminución de la mortalidad (efecto causal) de un procedimiento médico (tratamiento) según la la edad y los antecedentes médicos del paciente (individuo).
  • Los especialistas en marketing pueden usar el modelado de aumento para predecir el aumento en probabilidad de una compra (efecto causal) debido a un anuncio (tratamiento) en una persona (persona).

El modelado de aumento difiere de la clasificación o regresión en el sentido de que algunas etiquetas (por ejemplo, mitad de las etiquetas en tratamientos binarios) siempre faltan en el modelado de aumento. Por ejemplo, un paciente puede recibir o no un tratamiento. por lo tanto, solo podemos observar si el paciente va a sanar o no sanar solo en una de estas dos situaciones (pero nunca en ambas). La ventaja principal de un modelo de aumento es que puede generar predicciones de la situación no observada (lo contrafáctico) y utilizarlo para calcular el efecto causal.

subiendo la ponderación

Cómo aplicar un peso a la clase con reducción de muestreo igual al factor por el que se redujo el muestreo.

matriz de usuarios

#recsystems

En los sistemas de recomendación, se incluye un vector de incorporación generado por factorización de matrices que contiene indicadores latentes sobre las preferencias del usuario. Cada fila de la matriz de usuario contiene información sobre los la intensidad de varias señales latentes para un solo usuario. Por ejemplo, piensa en un sistema de recomendación de películas. En este sistema, las señales latentes de la matriz de usuarios podrían representar el interés de cada usuario géneros específicos, o podrían ser señales más difíciles de interpretar que impliquen interacciones complejas entre múltiples factores.

La matriz de usuarios tiene una columna para cada atributo latente y una fila para cada usuario. Es decir, la matriz de usuarios tiene la misma cantidad de filas que el objetivo. matriz que se factoriza. Por ejemplo, en el caso de una película de recomendación para 1,000,000 de usuarios, tendrá 1,000,000 de filas.

V

validación

#fundamentals

Es la evaluación inicial de la calidad de un modelo. La validación comprueba la calidad de las predicciones de un modelo en comparación con el conjunto de validación.

Debido a que el conjunto de validación difiere del conjunto de entrenamiento, ayuda a protegerte contra el sobreajuste.

Puedes pensar en evaluar el modelo con el conjunto de validación como primera ronda de pruebas y evaluación del modelo en comparación con test set como segunda ronda de pruebas.

pérdida de validación

#fundamentals

Una métrica que representa la pérdida de un modelo en el conjunto de validación durante iteración del entrenamiento.

Consulta también la curva de generalización.

conjunto de validación

#fundamentals

El subconjunto del conjunto de datos que realiza evaluación de un modelo entrenado. Por lo general, se evalúan el modelo entrenado con el conjunto de validación veces antes de evaluar el modelo con el conjunto de prueba.

Tradicionalmente, se dividen los ejemplos del conjunto de datos en las siguientes tres subconjuntos distintos:

Idealmente, cada ejemplo del conjunto de datos debería pertenecer solo a uno de los subconjuntos anteriores. Por ejemplo, un solo ejemplo no debe pertenecer a el conjunto de entrenamiento y el de validación.

asignación de valor

El proceso de reemplazar un valor faltante por un sustituto aceptable. Cuando falta un valor, puedes descartar el ejemplo completo o podemos usar la asignación de valores para salvar el ejemplo.

Por ejemplo, considera un conjunto de datos que contiene un atributo temperature que tiene se debería grabar cada hora. Sin embargo, la lectura de la temperatura fue no disponible a una hora en particular. Esta es una sección del conjunto de datos:

Marca de tiempo Temperatura
1680561000 10
1680564600 12
1680568200 faltante
1680571800 20
1680575400 21
1680579000 21

Un sistema puede borrar el ejemplo faltante o imputar el que falta temperatura como 12, 16, 18 o 20, según el algoritmo de asignación.

problema de desvanecimiento del gradiente

#seq

La tendencia de los gradientes de las primeras capas ocultas de algunas redes neuronales profundas sorprendentemente plana (baja). Los gradientes cada vez más bajos dan como resultado una cambios más pequeños en los pesos de los nodos de una red neuronal profunda, lo que lleva a poco o nada de aprendizaje. Modelos que sufren el problema del gradiente desaparecido se vuelven difíciles o imposibles de entrenar. Las celdas de memoria a corto plazo de larga duración solucionan este problema.

Compara con el problema de gradiente con alto crecimiento.

importancias variables

#df

Un conjunto de puntuaciones que indica la importancia relativa de cada una atributo al modelo.

Por ejemplo, considera un árbol de decisión que estima el precio de las casas. Supongamos que este árbol de decisión usa tres características: tamaño, edad y estilo. Si un conjunto de importancias variables de las tres funciones están calculadas para {size=5.8, age=2.5, style=4.7}, entonces el tamaño es más importante para árbol de decisión que la edad o el estilo.

Existen diferentes métricas de importancia variable expertos en AA sobre diferentes aspectos de los modelos.

codificador automático variacional (VAE)

#language

Un tipo de codificador automático que aprovecha la discrepancia entre las entradas y las salidas para generar versiones modificadas de las entradas. Los codificadores automáticos variacionales son útiles para la IA generativa.

Los VAE se basan en la inferencia variacional, una técnica para estimar el parámetros de un modelo de probabilidad.

vector

Término muy sobrecargado cuyo significado varía en función de diferentes científicos y científicos. Dentro del aprendizaje automático, un vector tiene dos propiedades:

  • Tipo de datos: los vectores en el aprendizaje automático suelen contener números de punto flotante.
  • Cantidad de elementos: Es la longitud o su dimensión del vector.

Por ejemplo, considera un vector de atributos que contiene ocho números de punto flotante. Este vector de atributos tiene una longitud o dimensión de ocho. Ten en cuenta que los vectores de aprendizaje automático suelen tener una gran cantidad de dimensiones.

Puedes representar muchos tipos diferentes de información como un vector. Por ejemplo:

  • Cualquier posición en la superficie de la Tierra se puede representar como una imagen vector, en el que una dimensión es la latitud y la otra es la longitud.
  • Los precios actuales de cada una de las 500 acciones se pueden representar como Vector de 500 dimensiones.
  • Se puede representar una distribución de probabilidad sobre un número finito de clases. como vector. Por ejemplo, un de clasificación de clases múltiples que predice que uno de los tres colores de salida (rojo, verde o amarillo) podría generar el resultado vector (0.3, 0.2, 0.5) para que signifique P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Los vectores se pueden concatenar; Por lo tanto, se pueden usar representados como un único vector. Algunos modelos operan directamente en el concatenación de muchas codificaciones one-hot.

Los procesadores especializados, como las TPU, están optimizados para funcionar operaciones matemáticas en vectores.

Un vector es un tensor de rango 1.

W

Pérdida de Wasserstein

Una de las funciones de pérdida de uso general redes generativas adversarias, en función de la distancia que se moverá entre la distribución de datos generados y datos reales.

peso

#fundamentals

Es un valor que un modelo multiplica por otro valor. El entrenamiento es el proceso de determinar los pesos ideales de un modelo. La inferencia es el proceso de usar esas ponderaciones aprendidas para hacer predicciones.

mínimos cuadrados ponderados alternos (WALS, Weighted Alternating Least Squares)

#recsystems

Un algoritmo para minimizar la función objetiva durante factorización de matrices en sistemas de recomendación, que permiten la reducción de la ponderación de los ejemplos faltantes. WALS minimiza la cantidad de error cuadrático entre la matriz original y la reconstrucción alternando entre corregir la factorización de filas y la factorización de columnas. Cada una de estas optimizaciones puede resolverse con mínimos cuadrados optimización convexa. Para obtener más información, consulta la Recommendation Systems.

suma ponderada

#fundamentals

La suma de todos los valores de entrada relevantes multiplicados por sus valores los pesos. Por ejemplo, supongamos que las entradas relevantes son las siguientes:

valor de entrada peso de entrada
2 −1.3
-1 0.6
3 0.4

Por lo tanto, la suma ponderada es la siguiente:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Una suma ponderada es el argumento de entrada para un función de activación.

modelo amplio

Un modelo lineal que generalmente tiene muchos atributos de entrada dispersos. Lo denominamos "ancho" desde este modelo es un tipo especial de red neuronal con una una gran cantidad de entradas que se conectan directamente al nodo de salida. Modelos amplios suelen ser más fáciles de inspeccionar y depurar que los modelos profundos. Aunque los modelos amplios no puede expresar no linealidades a través de capas ocultas, los modelos amplios pueden usar transformaciones como combinación de atributos y agrupamiento en buckets para modelar no linealidades de diferentes maneras.

Compara esto con el modelo profundo.

ancho

La cantidad de neuronas en una capa en particular de una red neuronal.

la sabiduría de la multitud

#df

La idea de que promediar las opiniones o estimaciones de un grupo grande de personas ("la multitud") a menudo produce resultados sorprendentemente buenos. Por ejemplo, considera un juego en el que las personas adivinan el número de gomitas en un gran frasco. Aunque la mayoría de suposiciones serán inexactas, el promedio de todas ellas ha sido se muestra empíricamente como algo cercano al número real gomitas en el frasco.

Los conjuntos son un software análogo de la sabiduría de la multitud. Incluso si los modelos individuales realizan predicciones extremadamente inexactas, promediar las predicciones de muchos modelos suele generar predicciones correctas. Por ejemplo, aunque un individuo árbol de decisión puede hacer predicciones deficientes, un El bosque de decisiones a menudo realiza muy buenas predicciones.

incorporación de palabras

#language

Representación de cada palabra en un conjunto de palabras dentro de vector de incorporación es decir, representar cada palabra como un vector de valores de punto flotante entre 0.0 y 1.0. Palabras con similares significan representaciones más similares que las palabras con significados diferentes. Por ejemplo, zanahorias, apio y pepinos tendrían una cantidad relativamente similares, que serían muy diferentes de aquellas para avión, anteojos de sol y pasta dental.

X

XLA (álgebra lineal acelerada)

Compilador de aprendizaje automático de código abierto para GPU, CPU y aceleradores de AA.

El compilador XLA toma modelos de frameworks de AA populares, como PyTorch, TensorFlow y JAX, y las optimiza para una ejecución de alto rendimiento en diferentes plataformas de hardware, como GPU, CPU y aceleradores de AA.

Z

aprendizaje sin ejemplos

Es un tipo de entrenamiento de aprendizaje automático en el que model infiere una predicción para una tarea para los que no se entrenó previamente. En otras palabras, el modelo no recibe ejemplos de entrenamiento para tareas específicas, pero se le preguntó realice la inferencia para esa tarea.

instrucciones sin ejemplos

#language
#generativeAI

Una instrucción que no proporcione un ejemplo de cómo quieres el modelo grande de lenguaje para que responda. Por ejemplo:

Partes de una instrucción Notas
¿Cuál es la moneda oficial del país especificado? La pregunta que quieres que el LLM responda.
India: Es la consulta real.

El modelo de lenguaje extenso puede responder con cualquiera de las siguientes opciones:

  • Rupia
  • INR
  • Rupia hindú
  • La rupia
  • La rupia india

Todas las respuestas son correctas, aunque puede que prefieras un formato en particular.

Compara y contrasta la instrucción sin ejemplos con los siguientes términos:

Normalización de puntuación Z

#fundamentals

Es una técnica de escalamiento que reemplaza un elemento sin procesar. valor de feature con un valor de punto flotante que representa el número de desviaciones estándar de la media de ese atributo. Por ejemplo, considera un atributo cuya media es 800 y cuyo estándar desviación de los recursos es 100. En la siguiente tabla, se muestra cómo la normalización de la puntuación Z asignaría el valor sin procesar a su puntuación Z:

Valor sin procesar Puntaje Z
800 0
950 +1.5
575 −2.25

Luego, el modelo de aprendizaje automático se entrena con la puntuación Z. para ese atributo en lugar de los valores sin procesar.