Векторні представлення: переведення в низьковимірний простір

Векторне представлення (або ембединг) – це відносно низьковимірний простір, у який можна перемістити високовимірні вектори. Докладніше про високовимірні й низьковимірні дані можна прочитати в модулі Категорійні дані.

Векторні представлення полегшують машинне навчання на великих векторах ознак, таких як розріджені вектори, що представляють страви, про які йдеться в попередньому розділі. Теоретично векторне представлення фіксує частину семантики вхідних даних, розміщуючи ті, які є більш схожими за значенням, ближче одне до одного в просторі векторного представлення. Наприклад, при вдалому векторному представленні до слова "автомобіль" ближче буде розміщено слово "гараж", ніж "слон". Векторне представлення можна навчити й повторно використовувати в різних моделях.

Щоб ви отримали уявлення про те, як вектори представлень передають інформацію, розгляньмо одновимірне представлення таких страв, як хот-дог, піца, салат, шаурма й борщ. Їх буде розміщено на шкалі від страви, що "найменш схожа на бутерброд", до тієї, яка "найбільш схожа на бутерброд". "Бутербродність" – єдиний вимір.

Рисунок 3. Страви, розміщені на осі від найменш до найбільш схожої на бутерброд: борщ, салат, піца, хот-дог, шаурма.
Рисунок 3. Страви, розміщені на осі уявного виміру "бутербродність".

Яке місце на цій лінії мав би яблучний струдель? За логікою, його можна розмістити між такими стравами, як hot dog і shawarma. Однак яблучний струдель також має додатковий вимір солодкість (наскільки страва солодка) або десертність (наскільки страва схожа на десерт), який відрізняє його від інших варіантів. На рисунку, наведеному нижче, це візуалізували, додавши вимір "десертність".

Рисунок 4. Те саме зображення, що й раніше, але з вертикальною віссю десертності. Яблучний струдель розташовано між хот-догом і шаурмою на горизонтальній осі, але вище за інші страви на осі десертності.
Рисунок 4. Страви, розподілені за вимірами "бутербродність" і "десертність".

У векторному представленні кожен об’єкт розташовано в n-вимірному просторі з кількістю чисел із рухомою комою n (зазвичай вона в діапазоні від –1 до 1 або від 0 до 1). Наприклад, векторне представлення на рисунку 4 виражає кожну страву у двовимірному просторі з двома координатами. Об’єкт "яблучний струдель" розташовано у верхньому правому квадранті графіка, і йому можна призначити точку з координатами (0,5, 0,3). А "хот-дог" – у нижньому правому квадранті графіка, тож йому можна призначити точку з координатами (0,2, –0,5).

У векторному представленні відстань між будь-якими двома об’єктами можна обчислити математично й інтерпретувати як їх відносну подібність. Два об’єкти, які розташовано близько один до одного (наприклад, shawarma і hot dog на рисунку 4), тісніше пов’язані, ніж два об’єкти, віддалені один від одного (наприклад, apple strudel і borscht).

Зауважте також, що у двовимірному просторі на рисунку 4 apple strudel розташовано набагато далі від таких страв, як shawarma і hot dog, ніж це було б в одновимірному просторі. Це відповідає інтуїтивному розумінню: apple strudel має не так багато спільного з хот-догом чи шаурмою, як хот-доги із шаурмою.

А тепер розглянемо борщ, який набагато рідкіший за інші страви. Це означає, що потрібний третій вимір – рідкість (наскільки страва рідка). Додавши цей вимір, об’єкти можна візуалізувати в тривимірному просторі так:

Рисунок 5. Те саме зображення, що й раніше, але додано третю вісь рідкості, ортогональну двом іншим, і борщ перемістився далеко вздовж цієї осі.
Рисунок 5. Страви, розподілені за вимірами "бутербродність", "десертність" і "рідкість".

Яке місце в цьому тривимірному просторі займала б страва тан’юань? Вона схожа на суп, як борщ, але також є солодким десертом, як яблучний струдель, і точно не подібна до бутерброда. Ось де її можна розташувати:

Рисунок 6. Те саме зображення, що й раніше, але зі стравою тан’юань, яку розміщено високо на осі десертності й рідкості й низько на осі бутербродності.
Рисунок 6. До попереднього зображення додано тан’юань. Його розміщено високо на осі "десертності" й "рідкості" та низько на осі "бутербродності".

Зверніть увагу на те, скільки інформації дають ці три виміри. Можна уявити додаткові виміри, такі як м’ясистість чи рівень запікання.

Практичні приклади просторів векторного представлення

З прикладів зі стравами, згаданих вище, ви дізналися, що навіть невеликий багатовимірний простір дає свободу групувати разом семантично схожі об’єкти, а різнорідні тримати далеко один від одного. У хорошому векторному представленні положення (відстань і напрямок) у векторному просторі може давати інформацію про семантику. Наприклад, візуалізації реальних векторних представлень, наведені нижче, ілюструють геометричні відносини між словами, що позначають країну і її столицю. Як бачимо, відстань від "Канади" до "Оттави" приблизно така сама, як відстань від "Туреччини" до "Анкари".

Рисунок 7. Три приклади векторних представлень, які геометрично виражають зв’язки слів: стать (вектори "чоловік"/"жінка" й "король"/"королева" мають приблизно однакову довжину); час дієслова (вектори "ходити"/"ходив" і "плавати"/"плив" мають приблизно однакову довжину); столиці (вектори "Туреччина"/"Анкара" й "В’єтнам"/"Ханой" мають приблизно однакову довжину).
Рисунок 7. Векторні представлення можуть створювати цікаві аналогії.

Змістовний простір векторного представлення допомагає моделі машинного навчання виявляти шаблони під час навчання.

Вправа

Виконуючи цю вправу, ви будете використовувати інструмент Проектор векторних представлень, щоб візуалізувати векторне представлення слів під назвою word2vec, у векторному просторі якого є понад 70 000 англійських слів у цифровому вигляді.

Завдання 1

Виконайте завдання й дайте відповідь на запитання нижче.

  1. Відкрийте інструмент Проектор векторних представлень.

  2. На правій панелі введіть слово atom (атом) у полі Search (Пошук). Потім натисніть слово atom у результатах нижче [під текстом 4 matches (4 збіги)]. Ваш екран має виглядати так, як показано на рисунку 8.

    Рисунок 8. Знімок екрана інструмента "Проектор векторних представлень" із введеним словом atom у полі пошуку (його обведено червоним кружком). Візуалізація в центрі інструмента тепер анотує одну з точок словом atom, а також додає анотації слів для сусідніх точок. У списку Nearest points (Найближчі точки) слова atoms (атоми), molecule (молекула) і electrons (електрони) указано як найближчі до слова atom у векторному просторі.
    Рисунок 8. Інструмент "Проектор векторних представлень" зі словом atom, доданим у поле пошуку (його обведено червоним кружком).
  3. Далі на правій панелі натисніть кнопку Isolate 101 points (Ізолювати 101 точку) [над полем Search (Пошук)], щоб відобразити 100 найближчих слів до значення atom. Ваш екран має виглядати так, як показано на рисунку 9.

    Рисунок 9. Знімок екрана інструмента "Проектор векторних представлень", на якому натиснуто кнопку Isolate 101 points (Ізолювати 101 точку) (обведену червоним). Візуалізацію з рисунка 8 тепер оновлено: показано лише значення atom і 100 найближчих слів у векторному просторі, що включають такі: atoms, nucleus (ядро) і particle (частинка).
    Рисунок 9. Інструмент "Проектор векторних представлень", на якому натиснуто кнопку Isolate 101 points (Ізолювати 101 точку) (обведену червоним).

Тепер перегляньте слова, наведені під текстом Nearest points in the original space (Найближчі точки в первинному просторі). Як би ви їх схарактеризували?

Натисніть тут, щоб побачити нашу відповідь

Більшість найближчих слів – це ті, які зазвичай асоціюються зі словом "атом", наприклад форма множини atoms і слова electron (електрон), molecule (молекула) і nucleus (ядро).

Завдання 2

Виконайте завдання й дайте відповідь на запитання, наведене нижче.

  1. Натисніть кнопку Show All Data (Показати всі дані) на правій панелі, щоб скинути візуалізацію даних, яка була потрібна для завдання 1.

  2. На правій панелі введіть слово uranium (уран) у поле Search (Пошук). Ваш екран має виглядати так, як показано на рисунку 10.

    Рисунок 10. Знімок екрана інструмента "Проектор векторних представлень" із введеним словом uranium у полі пошуку. Візуалізація в центрі інструмента тепер анотує одну з точок словом uranium, а також додає анотації слів для сусідніх точок. У списку Nearest points (Найближчі точки) слова coal (вугілля), isotope (ізотоп), nickel (нікель), oxide (оксид), ore (руда), zinc (цинк) і manganese (марганець) указано як найближчі до слова uranium у векторному просторі.
    Рисунок 10. Інструмент "Проектор векторних представлень" зі словом uranium, доданим у поле пошуку.

Перегляньте слова, наведені під текстом Nearest points in the original space (Найближчі точки в первинному просторі). Чим ці слова відрізняються від найближчих слів для значення atom?

Натисніть тут, щоб побачити нашу відповідь

Слово uranium означає певний радіоактивний хімічний елемент, і багато найближчих слів – це назви інших елементів, таких як цинк, марганець, мідь і алюміній.

Завдання 3

Виконайте завдання й дайте відповідь на запитання, наведене нижче.

  1. Натисніть кнопку Show All Data (Показати всі дані) на правій панелі, щоб скинути візуалізацію даних, яка була потрібна для завдання 2.

  2. На правій панелі введіть слово orange (помаранчевий/апельсин) у поле Search (Пошук). Ваш екран має виглядати так, як показано на рисунку 11.

    Рисунок 11. Знімок екрана інструмента "Проектор векторних представлень" із введеним словом orange у полі пошуку. Візуалізація в центрі інструмента тепер анотує одну з точок словом orange, а також додає анотації слів для сусідніх точок. У списку Nearest points (Найближчі точки) слова yellow (жовтий), green (зелений), blue (синій), purple (фіолетовий) і colors (кольори) указано як найближчі до слова orange у векторному просторі.
    Рисунок 11. Інструмент "Проектор векторних представлень" зі словом orange, доданим у поле пошуку.

Перегляньте слова, наведені під текстом Nearest points in the original space (Найближчі точки в первинному просторі). Що ви можете сказати про типи слів, які тут показано, і ті, яких тут немає?

Натисніть тут, щоб побачити нашу відповідь

Майже всі найближчі слова означають інші кольори, наприклад yellow (жовтий), green (зелений), blue (синій), purple (фіолетовий) і red (червоний). Лише одне з найближчих слів – juice (сік) – пов’язане з іншим значенням слова ("цитрусовий фрукт"). Слова на позначення інших очікуваних фруктів, наприклад "яблуко" й "банан", не увійшли до списку найближчих.

Цей приклад ілюструє один із ключових недоліків статичних векторних представлень, зокрема word2vec. Усі можливі значення слова представлено однією точкою у векторному просторі, тому, проводячи аналіз подібності для слова orange, неможливо виділити найближчі точки для певного значення, наприклад "апельсин" (фрукт), але не "помаранчевий" (колір).