Розміщений нижче віджет, який працює на основі Проєктора векторних представлень TensorFlow, проєктує 10 000 статичних векторів word2vec у тривимірний простір. Таке зменшення розмірності може бути неточним, оскільки точки, розташовані найближче одна до одної в оригінальному високовимірному просторі, можуть опинитися далі в тривимірній проєкції. Найближчі n точок позначено фіолетовим кольором; значення n вибирає користувач у полі Isolate __ points (Ізолювати стільки точок: __). Ці найближчі слова перераховано на бічній панелі праворуч.
Далі в експериментах ви попрацюєте з векторними представленнями word2vec у віджеті вище.
Завдання 1
Спробуйте знайти 20 найближчих сусідів для слів нижче й подивіться, де ці групи розташовані в хмарі.
iii,thirdіthreetaoіwayorange,yellowіjuice
Що ви помітили в цих результатах?
Натисніть тут, щоб побачити нашу відповідь
Хоча слова iii, third і three семантично схожі, у тексті вони з’являються в різних контекстах і не є близькими в цьому просторі векторних представлень. У векторному представленні word2vec слово iii розташоване ближче до слова iv, ніж до слова third.
Хоча слово way є прямим перекладом слова tao, вони найчастіше зустрічаються в різних групах слів поточного набору даних. Тому ці два вектори розташовані далеко один від одного.
Кілька перших найближчих сусідів слова orange пов’язані з кольорами, проте слова juice і peel, близькі до слова orange за значенням "фрукт", відображаються на 14-му й 18-му місцях серед найближчих сусідів. Водночас слово prince, що зустрічається у фразі "Prince of Orange", має 17-те місце. У цій проєкції слова, ближчі до слова orange, – це yellow й інші кольори, а слова, найближчі до слова juice, не включають orange.
Завдання 2
Спробуйте визначити характеристики навчальних даних. Наприклад, спробуйте знайти 100 найближчих сусідів для перелічених нижче слів і подивіться, де ці групи розташовані в хмарі.
boston,paris,tokyo,delhi,moscowйseoul(це непросте завдання)jane,sarah,john,peter,rosaйjuan
Натисніть тут, щоб побачити нашу відповідь
Багато найближчих сусідів слова boston є містами США, а слова, розташовані поряд зі словом paris, – міста Європи. Для слів tokyo і delhi модель дає різні результати: перше асоціюється з містами світу, які є туристичними центрами, а друге – зі словом india і пов’язаними з ним. seoul узагалі не з’являється в спрощеному наборі векторів слів.
Схоже, що цей набір даних містить багато матеріалів, пов’язаних із національною географією США, кілька документів на тему європейської регіональної географії, а інші країни чи регіони детально не охоплено.
Крім того, у цьому наборі, схоже, багато чоловічих англійських імен, деякі жіночі англійські імена, а також невелика кількість імен іншими мовами. Зверніть увагу, що найближчими сусідами слова "роза" є "скрудж" і "макдак", вірогідно, через те, що ілюстратор Дон Роса (Don Rosa) працював над коміксом про Скруджа Макдака для Disney.
Готові набори векторів слів, які пропонує word2vec, насправді були отримані в результаті навчання моделі на статтях Google Новин, виданих до 2013 року.
Завдання 3
Векторні представлення не обмежуються лише словами. Вони також можуть охоплювати зображення, аудіо й інші дані. Щоб виконати це завдання:
- Відкрийте Проєктор векторних представлень TensorFlow.
- Ліворуч на бічній панелі Data (Дані) виберіть MNIST with images (MNIST із зображеннями). Відкриється проєкція векторних представлень із бази даних рукописних цифр MNIST.
- Натисніть, щоб зупинити обертання, і виберіть одне зображення. Якщо потрібно, наблизьте або віддаліть його.
- На бічній панелі праворуч ви побачите найближчих сусідів. Результати вас можуть здивувати.
- Чому найближчими сусідами деяких цифр
7є цифри1, а8розташовано найближче до цифри9? - Чим відрізняються зображення на краях проєкційного простору від зображень у його центрі?
Важливо. Модель, яка створила ці векторні представлення, отримує дані зображення, тобто пікселі, і вибирає числове векторне представлення для кожного зображення. Ця модель не може автоматично асоціювати рукописне зображення цифри й саму цифру.
Натисніть тут, щоб побачити нашу відповідь
Через схожість форми векторні представлення деяких
тонших, вужчих цифр 7 розташовані ближче до векторів
рукописних цифр 1. Те саме стосується написання деяких цифр 8
і 9, а також деяких 5 та 3.
Модель краще розпізнає рукописні цифри за межами проєкційного простору як одну з дев’яти цифр і чітко відрізняє їх від інших можливих цифр.