Векторні представлення: інтерактивні вправи

Розміщений нижче віджет, який працює на основі Проєктора векторних представлень TensorFlow, проєктує 10 000 статичних векторів word2vec у тривимірний простір. Таке зменшення розмірності може бути неточним, оскільки точки, розташовані найближче одна до одної в оригінальному високовимірному просторі, можуть опинитися далі в тривимірній проєкції. Найближчі n точок позначено фіолетовим кольором; значення n вибирає користувач у полі Isolate __ points (Ізолювати стільки точок: __). Ці найближчі слова перераховано на бічній панелі праворуч.

Далі в експериментах ви попрацюєте з векторними представленнями word2vec у віджеті вище.

Завдання 1

Спробуйте знайти 20 найближчих сусідів для слів нижче й подивіться, де ці групи розташовані в хмарі.

iii, third і three
tao і way
orange, yellow і juice

Що ви помітили в цих результатах?

Натисніть тут, щоб побачити нашу відповідь

Хоча слова iii, third і three семантично схожі, у тексті вони з’являються в різних контекстах і не є близькими в цьому просторі векторних представлень. У векторному представленні word2vec слово iii розташоване ближче до слова iv, ніж до слова third.

Хоча слово way є прямим перекладом слова tao, вони найчастіше зустрічаються в різних групах слів поточного набору даних. Тому ці два вектори розташовані далеко один від одного.

Кілька перших найближчих сусідів слова orange пов’язані з кольорами, проте слова juice і peel, близькі до слова orange за значенням "фрукт", відображаються на 14-му й 18-му місцях серед найближчих сусідів. Водночас слово prince, що зустрічається у фразі "Prince of Orange", має 17-те місце. У цій проєкції слова, ближчі до слова orange, – це yellow й інші кольори, а слова, найближчі до слова juice, не включають orange.

Завдання 2

Спробуйте визначити характеристики навчальних даних. Наприклад, спробуйте знайти 100 найближчих сусідів для перелічених нижче слів і подивіться, де ці групи розташовані в хмарі.

boston, paris, tokyo, delhi, moscow й seoul (це непросте завдання)
jane, sarah, john, peter, rosa й juan

Натисніть тут, щоб побачити нашу відповідь

Багато найближчих сусідів слова boston є містами США, а слова, розташовані поряд зі словом paris, – міста Європи. Для слів tokyo і delhi модель дає різні результати: перше асоціюється з містами світу, які є туристичними центрами, а друге – зі словом india і пов’язаними з ним. seoul узагалі не з’являється в спрощеному наборі векторів слів.

Схоже, що цей набір даних містить багато матеріалів, пов’язаних із національною географією США, кілька документів на тему європейської регіональної географії, а інші країни чи регіони детально не охоплено.

Крім того, у цьому наборі, схоже, багато чоловічих англійських імен, деякі жіночі англійські імена, а також невелика кількість імен іншими мовами. Зверніть увагу, що найближчими сусідами слова "роза" є "скрудж" і "макдак", вірогідно, через те, що ілюстратор Дон Роса (Don Rosa) працював над коміксом про Скруджа Макдака для Disney.

Готові набори векторів слів, які пропонує word2vec, насправді були отримані в результаті навчання моделі на статтях Google Новин, виданих до 2013 року.

Завдання 3

Векторні представлення не обмежуються лише словами. Вони також можуть охоплювати зображення, аудіо й інші дані. Щоб виконати це завдання:

Відкрийте Проєктор векторних представлень TensorFlow.
Ліворуч на бічній панелі Data (Дані) виберіть MNIST with images (MNIST із зображеннями). Відкриється проєкція векторних представлень із бази даних рукописних цифр MNIST.
Натисніть, щоб зупинити обертання, і виберіть одне зображення. Якщо потрібно, наблизьте або віддаліть його.
На бічній панелі праворуч ви побачите найближчих сусідів. Результати вас можуть здивувати.

Чому найближчими сусідами деяких цифр 7 є цифри 1, а 8 розташовано найближче до цифри 9?
Чим відрізняються зображення на краях проєкційного простору від зображень у його центрі?

Важливо. Модель, яка створила ці векторні представлення, отримує дані зображення, тобто пікселі, і вибирає числове векторне представлення для кожного зображення. Ця модель не може автоматично асоціювати рукописне зображення цифри й саму цифру.

Натисніть тут, щоб побачити нашу відповідь

Через схожість форми векторні представлення деяких тонших, вужчих цифр 7 розташовані ближче до векторів рукописних цифр 1. Те саме стосується написання деяких цифр 8 і 9, а також деяких 5 та 3.

Модель краще розпізнає рукописні цифри за межами проєкційного простору як одну з дев’яти цифр і чітко відрізняє їх від інших можливих цифр.