Вложения: перевод в низкомерное пространство

Вы можете решить основные проблемы с разреженными входными данными, сопоставив ваши многомерные данные с низкоразмерным пространством.

Как вы видели ранее в упражнениях в кино , даже небольшое многомерное пространство дает свободу группировать семантически сходные элементы вместе и держать непохожие элементы далеко друг от друга. Положение (расстояние и направление) в векторном пространстве может кодировать семантику в хорошем встраивании. Например, следующие визуализации реальных вложений показывают геометрические отношения, которые фиксируют семантические отношения, такие как отношения между страной и ее столицей:

Три примера встраивания слов, которые геометрически представляют отношения слов: род (мужчина/женщина и король/королева), время глагола (гулять/шел и плавать/плавать) и столицы (Турция/Анкара и Вьетнам/Ханой).

Рисунок 4. Вложения могут привести к замечательным аналогиям.

Такое осмысленное пространство дает вашей системе машинного обучения возможность обнаруживать закономерности, которые могут помочь в решении задачи обучения.

Сжатие сети

Хотя нам нужно достаточное количество измерений для кодирования богатых семантических отношений, мы также хотим, чтобы пространство для встраивания было достаточно маленьким, чтобы позволить нам быстрее обучать нашу систему. Полезное вложение может быть порядка сотен измерений. Вероятно, это на несколько порядков меньше, чем размер вашего словарного запаса для задачи на естественном языке.