En esta sección, nos enfocamos en dos técnicas comunes para obtener una incorporación:
- Reducción de la dimensionalidad
- Extraer una incorporación de un modelo de red neuronal más grande
Técnicas de reducción de la dimensionalidad
Existen muchas técnicas matemáticas para capturar la importancia de un espacio de dimensiones altas en un espacio de dimensiones bajas. En teoría, cualquiera de estas técnicas puede usarse para crear una incorporación para una máquina de aprendizaje automático.
Por ejemplo, el análisis de componentes principales (ACP) para crear incorporaciones de palabras. Dado un conjunto de instancias como vectores de bolsa de palabras, intentos de PCA para encontrar dimensiones altamente correlacionadas que puedan contraerse en un solo dimensión.
Entrenamiento de una incorporación como parte de una red neuronal
Puedes crear una incorporación mientras entrenas una red neuronal para la tarea objetivo. Este enfoque te proporciona una incorporación personalizada en un sistema particular, pero puede tardar más que entrenar la incorporación por separado.
En general, puedes crear una capa oculta de tamaño d en tu red neuronal de red que se designa como el capa de incorporación, donde d representa la cantidad de nodos de la capa oculta y la cantidad de dimensiones en el espacio de incorporaciones. Esta capa de incorporación se puede combinar con cualquier otro atributo y las capas ocultas. Al igual que en cualquier red neuronal profunda, el se optimizarán durante el entrenamiento para minimizar la pérdida en los nodos la capa de salida de la red.
Volviendo a nuestro ejemplo de recomendación de comida, nuestro objetivo es para predecir nuevas comidas que le gustarán a un usuario según su favorito actual comidas. Primero, podemos recopilar datos adicionales sobre las contraseñas los cinco favoritos alimentos. Luego, podemos modelar esta tarea como un problema de aprendizaje supervisado. Establecimos cuatro de estos cinco alimentos principales para que sean datos de atributos y, luego, separar aleatoriamente las el quinto alimento como la etiqueta positiva que nuestro modelo quiere predecir, optimizando las predicciones del modelo con softmax pérdida de reputación y de talento.
Durante el entrenamiento, el modelo de la red neuronal aprenderá los pesos óptimos para los nodos en la primera capa oculta, que funciona como capa de incorporación. Por ejemplo, si el modelo contiene tres nodos en la primera capa oculta, podría determinar que las tres dimensiones más relevantes de los alimentos sándwich, postre y liquidez. En la figura 12, se muestra la codificación one-hot valor de entrada para “hot dog” transformarse en un vector tridimensional.
Durante el entrenamiento, se optimizarán los pesos de la capa de incorporación. para que los vectores de incorporación de ejemplos similares están más cerca entre sí. Las dimensiones individuales de la capa de incorporación (lo que cada nodo del (capa de incorporación) rara vez se entienden tan bien como "postre" o "líquidez". A veces, lo que "quieren decir" puede inferirse, pero esto no siempre es no siempre es el caso.
Las incorporaciones suelen ser específicas de la tarea y difieren entre sí cuando la tarea es diferente. Por ejemplo, las incorporaciones generadas por una persona vegetariana en comparación con modelo de clasificación no vegetariano podría tener dos dimensiones: contenido cárnico y lácteos. Por otro lado, las incorporaciones generadas por un desayuno frente a el clasificador de cena para la cocina estadounidense puede tener dimensiones ligeramente diferentes: de calorías, de granos y de carne. “Cereales” y “sándwich de huevo y tocino” pueden estar muy cerca en el espacio de incorporaciones de un de desayuno y cena, pero muy alejados en el espacio de incorporación de una clasificadores vegetarianos frente a no vegetarianos.
Entrena una incorporación de palabras
En la sección anterior, exploraste un visualización de relaciones semánticas en el word2vec.
Word2vec es uno de los tantos algoritmos que se usan para entrenar incorporaciones de palabras. Se basa en la hipótesis distribucional para realizar mapas semánticos similares. palabras para cerrar geométricamente los vectores de incorporación. El enfoque distribucional hipótesis afirma que las palabras que suelen tener las mismas palabras contiguas tienden a similares en cuanto a semántica. Ambos “perro” y "gato" suelen aparecer cerca de la palabra "veterinario", y esto refleja su similitud semántica. Como dijo el lingüista John Firth en 1957, "Conocerás una palabra de la compañía que conserva".
En el siguiente video, se explica otro método para crear una incorporación de palabras como del proceso de entrenamiento de una red neuronal con un modelo más simple:
Incorporaciones estáticas o contextuales
Una limitación de la incorporación de palabras como la que se analizó en el video anterior es que son estáticos. Cada palabra está representada por un punto único en el vector espacio, aunque puede tener una variedad de significados diferentes, según cómo se utiliza en una oración. En el último ejercicio, descubriste la dificultad de asignar similitudes semánticas con la palabra naranja, que puede indicar un color o un tipo de fruta.
Las incorporaciones contextuales se desarrollaron para abordar estas deficiencias. Las incorporaciones contextuales permiten varias de la misma palabra, cada una incorporando información sobre el contexto en el que se usa la palabra. En una incorporación contextual, la palabra naranja podría tener dos representaciones separadas: una captura el “color” uso de la palabra, como en oraciones como "Mi suéter favorito tiene color naranja franjas", y uno que capture la "fruta" uso de la palabra, como en oraciones como "La naranja fue quitada del árbol antes de que hubiera madurado por completo".