Incorporaciones: Traducción a un espacio de menor dimensión

Una embedding es un espacio de dimensiones relativamente bajas al que puedes trasladar vectores de alta dimensión. Para un análisis de las métricas de alta dimensión datos de baja dimensión, consulta la columna Datos módulo.

Las incorporaciones facilitan el aprendizaje automático en grandes vectores de atributos, como como los vectores dispersos que representan los platos tratados en el sección anterior. Idealmente, una incorporación captura algunos de los semántica de la entrada, colocando entradas que sean más similares en cuanto a significado más en el espacio de incorporaciones. Por ejemplo, una buena incorporación colocaría al palabra "auto" más cerca de “garage” que a "elefante". Una incorporación se puede entrenar y reutilizar en los modelos.

Para tener una idea de cómo los vectores de incorporación representan la información, considera el siguiente representación unidimensional de los platos perros calientes, pizza, ensalada, shawarma borscht, en una escala de "menos como sándwich" como "un sándwich". “Sándwich” es la dimensión única.

Figura 3: A lo largo de un eje de sándwich, de menor a mayor:
    borscht, ensalada, pizza, perro caliente, shawarma.
Figura 3: Comidas en una dimensión imaginaria de “sándwich”.

¿En qué parte de esta línea strudel de manzana caerá? Podría decirse que se podría colocar entre hot dog y shawarma. Pero una manzana este strudel también parece tener una dimensión adicional de dulce (qué tan dulce la comida) o el postre (cuánto se parece a un postre) que hace es muy diferente a las otras opciones. En la siguiente figura, se visualiza agregando “postre” dimensión:

Figura 4: La misma imagen que antes, pero con un eje vertical de
    y postre. Un strudel de manzana está entre un perro caliente y un shawarma, pero en la parte superior
    el eje horizontal, pero más arriba
en el eje de postres.
Figura 4: Alimentos trazados por ambas palabras: “sándwich” y "postre".

Una incorporación representa cada elemento en el espacio de n dimensiones con n números de punto flotante (generalmente dentro del rango de -1 a 1 o de 0 a 1) Por ejemplo, la incorporación en la Figura 4 representa cada comida en espacio bidimensional con dos coordenadas. El elemento "strudel de manzana" está en el cuadrante superior derecho del gráfico y se le podría asignar el punto (0.5, 0.3), mientras que los términos se encuentra en el cuadrante inferior derecho del gráfico y se le podría asignar el punto (0.2, –0.5).

En una incorporación, la distancia entre dos elementos cualesquiera se puede calcular matemáticamente, y puede interpretarse como la similitud relativa de esos dos elementos. Dos elementos que están cerca, como shawarma y hot dog de la Figura 4, están más estrechamente relacionados que dos objetos más distantes de cada uno. otro, como apple strudel y borscht.

Observa también que, en el espacio 2D de la Figura 4, apple strudel está mucho más lejos de shawarma y hot dog de lo que sería en el espacio 1D, que coincide intuición: apple strudel no es tan similar a un perro caliente o un shawarma que a los perros y los shawarmas son el uno al otro.

Ahora considera el borscht, que es mucho más líquido que los otros elementos. Esta sugiere una tercera dimensión, la líquidez (qué tan líquidos son los alimentos). Cuando se agrega esa dimensión, los elementos podrían visualizarse en 3D de esta manera:

Figura 5: La misma imagen que antes, pero con un tercer eje de liquidez
    ortogonal respecto de los otros dos, y
borscht se movió mucho a lo largo de ese eje.
Figura 5: Los alimentos trazados por "sándwich", "postre", y "líquidez".

¿En qué parte de este espacio 3D tangyuan? Es un postre dulce, como un borscht, como un strudel de manzana, y, sin duda, no un sándwich. Esta es una posición posible:

Figura 6: La misma imagen que antes, pero con tangyuan encima
    postre y líquida calidad,
y bajo sándwich.
Figura 6. Agregando tangyuan a la imagen anterior, arriba "postre" y "líquidez" y sin "sándwich".

Observa cuánta información se expresa en estas tres dimensiones. Podrías imaginar dimensiones adicionales, como la medicidad o la preparación.

Espacios de incorporación del mundo real

Como vimos en los ejemplos de alimentos anteriores, incluso un espacio multidimensional pequeño ofrece la libertad de agrupar elementos semánticos similares entre sí y mantener elementos diferentes que están muy separados. Posición (distancia y dirección) en el vector pueden codificar la semántica en una buena incorporación. Por ejemplo, los siguientes las visualizaciones de incorporaciones reales ilustran las relaciones geométricas entre las palabras para un país y su capital. Puedes ver que la distancia de "Canadá" a "Ottawa" es aproximadamente la misma que la distancia de "Turquía" a “Ankara”.

Figura 7: Tres ejemplos de incorporaciones de palabras que representan palabras
      relaciones geométricas: el género (hombre/mujer y rey/reina son aproximadamente
      de la misma longitud), en tiempo verbal (caminar/caminar y nadar/natar son más o menos)
      tienen la misma longitud) y las capitales (Türkiye/Ankara y Vietnam/Hanói son
      más o menos de la misma duración).
Figura 7: Las incorporaciones pueden producir analogías notables.

Un espacio de incorporación significativo ayuda al modelo de aprendizaje automático a detectar patrones durante el entrenamiento.

Ejercicio

En este ejercicio, usarás la pestaña Incorporación Proyector para visualizar una palabra incorporación llamada word2vec que representa más de 70,000 palabras en inglés numéricamente en el espacio vectorial.

Tarea 1

Realiza las siguientes tareas y, luego, responde la pregunta a continuación.

  1. Abre la herramienta Embedding Projector.

  2. En el panel derecho, ingresa la palabra atom en el campo Buscar. Después haz clic en la palabra atom en los resultados que aparecen a continuación (debajo de 4 matches). Tu la pantalla debería verse como la que se muestra en la Figura 8.

    Figura 8: Captura de pantalla de la herramienta Embedding Projector, con "atom"
    ingresados en el campo de búsqueda (encerrados en un círculo rojo). La visualización en la
    centro de la herramienta ahora anota uno de los puntos con la palabra “atom”
    y también agrega anotaciones de palabras para puntos cercanos. En la página de
    puntos lista, las palabras "átomos", "molécula" y "electrones" se incluyen en la lista
    como las palabras más cercanas en el espacio vectorial a "atom"
    Figura 8: Herramienta de proyector de incorporaciones con la palabra "átomo" agregado. en el campo de búsqueda (con un círculo rojo).
  3. Nuevamente, en el panel derecho, haz clic en el botón Isolate 101 points (aislar 101 puntos) (encima de el campo Search) para mostrar las 100 palabras más cercanas a atom. Tu pantalla debería verse como la Figura 9.

    Figura 9: Captura de pantalla de la herramienta Embedding Projector, ahora con
    “Aísla 101 puntos” (botón encerrado en rojo). La visualización
    de la Figura 8 se actualizó para mostrar solo la palabra “atom” y la
    las 100 palabras más cercanas en el espacio vectorial, entre las que se incluyen las palabras "átomos",
    "núcleo" y "partícula".
    Figura 9: La herramienta de proyector de incorporaciones, ahora con "Aislar 101 puntos" en los que hiciste clic (encierra en un círculo rojo).

Ahora, revisa las palabras que aparecen en Puntos más cercanos en el espacio original. ¿Cómo describirías estas palabras?

Haz clic aquí para nuestra respuesta

La mayoría de las palabras más cercanas son palabras que comúnmente se asocian con la palabra átomo, por ejemplo, en la forma plural “átomos”, y las palabras "electrón", "molécula", y "núcleo".

Tarea 2

Realiza las siguientes tareas y, luego, responde la pregunta a continuación:

  1. Haz clic en el botón Mostrar todos los datos en el panel derecho para restablecer los datos. de visualización de la Tarea 1.

  2. En el panel derecho, ingresa la palabra uranium en el campo Buscar. La pantalla debería verse como la Figura 10.

    Figura 10: Captura de pantalla de la herramienta Embedding Projector, con "uranio"
    ingresados en el campo de búsqueda. La visualización en el centro de la
    la herramienta anota en uno de los puntos con la palabra “uranio” y también agrega
    anotaciones de palabras para puntos cercanos. En la sección “Puntos más cercanos” lista, los
    las palabras “carbón”, “isotópo”, “níquel”, “óxido”, “ore”, “cinc” y
    'manganés' se enumeran como las palabras más cercanas en el espacio vectorial a
    "uranio".
    Figura 10: Herramienta de proyector de incorporaciones, con la palabra "uranio" agregados en el campo de búsqueda.

Revisa las palabras que aparecen en Puntos más cercanos en el espacio original. Cómo ¿Estas palabras son diferentes de las palabras más cercanas para atom?

Haz clic aquí para nuestra respuesta

El uranio se refiere a una sustancia radiactiva elemento químico y muchas de las palabras más cercanas son otros elementos, como el zinc, el manganeso, cobre y aluminio.

Tarea 3

Realiza las siguientes tareas y, luego, responde la pregunta a continuación:

  1. Haz clic en el botón Mostrar todos los datos en el panel derecho para restablecer los datos. de visualización de la Tarea 2.

  2. En el panel derecho, ingresa la palabra naranja en el campo Buscar. Tu la pantalla debería verse como la que se muestra en la Figura 11.

    Figura 11: Captura de pantalla de la herramienta Proyector de incorporación, con el color “naranja”
    ingresarse en el campo de búsqueda. La visualización en el centro de la herramienta
    anota uno de los puntos con la palabra “naranja” y también agrega la palabra
    de puntos cercanos. En la sección “Puntos más cercanos” lista,
    las palabras “amarillo”, “verde”, “azul”, “púrpura” y “colores” se incluyen en la lista
    como las palabras más cercanas en el espacio vectorial a “naranja”.
    Figura 11: Herramienta de proyector de incorporaciones con la palabra “naranja” agregados en el campo de búsqueda.

Revisa las palabras que aparecen en Puntos más cercanos en el espacio original. ¿Qué notas sobre los tipos de palabras que se muestran aquí y los tipos de palabras no se muestra aquí?

Haz clic aquí para nuestra respuesta

Casi todas las palabras más cercanas son de otros colores, como "amarillo", "verde", "azul", "púrpura", y "rojo". Solo una de las palabras más cercanas ("jugo") referirnos al otro significado de la palabra (una fruta cítrica). Otras frutas que podrías esperar ver, como “manzana”, y "banana", no hizo la lista de con los términos más cercanos.

En este ejemplo, se ilustra una de las deficiencias clave de las incorporaciones estáticas como word2vec. Todos los posibles significados de una palabra están representados por una sola punto en el espacio vectorial, así que cuando hagas un análisis de similitud para "naranja", es no es posible aislar los puntos más cercanos para una denotación específica de la palabra, como "naranja" (fruta), pero no “naranja” (color).