ابزاره زیر، براساس فراتاب جاسازی TensorFlow، ۱۰٬۰۰۰ بردار ایستا word2vec را در فضایی سهبعدی مسطح میکند. این پایین رفتن ابعاد میتواند گمراهکننده باشد زیرا نقاطی که در فضای بُعدبالای اصلی به یکدیگر نزدیکتر هستند، ممکن است در تصویر سهبعدی دورتر از هم بهنظر برسند. نزدیکترین نقطههای n با رنگ بنفش برجسته شدهاند و n توسط کاربر در Isolate __ points انتخاب شده است. نوار کناری سمت چپ نزدیکترین موارد همجوار را مشخص میکند.
در این آزمایشها، جاسازیهای word2vec را در ابزاره بالا امتحان میکنید.
تکلیف ۱
سعی کنید ۲۰ نمونه از نزدیکترین موارد همجوار را برای موارد زیر پیدا کنید و ببینید این گروهها در فضای ابری کجا قرار میگیرند.
-
iii،third، وthree -
taoوway -
orange،yellow، وjuice
درباره این نتایج متوجه چه چیزی شدید؟
برای دیدن پاسخ ما، اینجا کلیک کنید
اگرچه iii، third، و three از نظر معنایی مشابه هستند، در متن در بافتهای متفاوتی ظاهر میشوند و بهنظر نمیرسد در این فضای جاسازی به هم نزدیک باشند. در word2vec، iii به iv نزدیکتر است تا به third.
بههمینترتیب، اگرچه way ترجمه مستقیمی از tao است، در مجموعه داده مورداستفاده این کلمات اغلب با گروههای کاملاً متفاوتی از کلمات ظاهر میشوند و بنابراین دو بردار بسیار از هم فاصله دارند.
نزدیکترین موارد همجوار ابتدایی orange رنگها هستند، بهجز juice و peel که به معنی orange بهعنوان میوه مربوط میشوند و بهعنوان چهاردهمین و هجدهمین مورد همجوار نزدیک ظاهر میشوند. درعینحال، prince در Prince of Orange هفدهمین مورد است. در طرح سهبعدی کلماتی که به orange نزدیکترند yellow و رنگهای دیگر هستند، درحالیکه orange جزو نزدیکترین کلمات به juice نیست.
تکلیف ۲
سعی کنید برخیاز ویژگیهای دادههای آموزشی را پیدا کنید. مثلاً سعی کنید نزدیکترین ۱۰۰ مورد همجوار را برای موارد زیر پیدا کنید و ببینید این گروهها در کجای فضای ابری قرار دارند:
-
boston،paris،tokyo،delhi،moscow، وseoul(این سؤال انحرافی است) -
jane،sarah،john،peter،rosa، وjuan
برای دیدن پاسخ ما، اینجا کلیک کنید
بسیاری از نزدیکترین موارد همجوار با boston شهرهای دیگر در ایالات متحده هستند. بسیاری از نزدیکترین موارد همجوار به paris شهرهای دیگر در اروپا هستند. بهنظر نمیرسد که tokyo و delhi نتایج مشابه داشته باشند: یکی با شهرهای سراسر دنیا که قطبهای مسافرتیاند مرتبط است، درحالیکه دیگری با india و کلمات مربوط به آن مرتبط است. seoul اصلاً در این مجموعه کوتاهشده از بردارهای کلمات دیده نمیشود.
بهنظر میرسد که این مجموعه دادهها شامل اسناد زیادی درارتباط با جغرافیای ملی ایالات متحده، تعدادی اسناد مربوط به جغرافیای منطقهای اروپا، و پوشش دقیق نه چندان زیاد سایر کشورها یا مناطق است.
همینطور بهنظر میرسد این مجموعه دادهها شامل نامهای انگلیسی مردانه زیاد، تعدادی نام انگلیسی زنانه، و نامهای بسیار کمتری از زبانهای دیگر است. توجه داشته باشید که Don Rosa کُمیکهای Scrooge McDuck را برای Disney نوشته و مصورسازی کرده است و احتمالاً به همین دلیل است که «scrooge» و «mcduck» از نزدیکترین موارد همجوار «rosa» هستند.
بردارهای کلمات ازپیش آموزشدیده که توسط word2vec ارائه شده است درواقع با مقالات Google News تا سال ۲۰۱۳ آموزش دیده بودند.
تکلیف ۳
جاسازیها محدود به کلمات نیستند. تصاویر، صداها، و دادههای دیگر هم میتوانند جاسازی شوند. برای این تکلیف:
- فراتاب جاسازی TensorFlow را باز کنید.
- در نوار کناری سمت راست با عنوان دادهها، Mnist با تصاویر را انتخاب کنید. با این کار طرح سهبعدی جاسازیهای پایگاه داده MNIST از اعداد دستنویس نمایش داده میشود.
- کلیک کنید تا چرخش متوقف شود و یک تصویر را انتخاب کنید. درصورت نیاز زومپیش و زومپس کنید.
- در نوار کناری سمت چپ بهدنبال نزدیکترین موارد همجوار بگردید. مورد غیرمنتظرهای میبینید؟
- چرا برخیاز
7ها1ها را بهعنوان نزدیکترین مورد همجوار دارند؟ چرا برخیاز8ها9ها را بهعنوان نزدیکترین مورد همجوار دارند؟ - آیا تصاویری که در لبههای فضای طرح سهبعدی قرار دارند از هیچ لحاظی با تصاویری که در مرکز فضای طرح سهبعدی قرار دارند تفاوت دارند؟
بهخاطر داشته باشید مُدلی که این جاسازیها را ایجاد کرده است دادههای تصویر، یعنی پیکسلها، را دریافت میکند و برداری عددی را برای نمایش دادن هر تصویر انتخاب میکند. این مدل بهطور خودکار بین تصویر عدد دستنویس و خود عدد ارتباط ذهنی برقرار نمیکند.
برای دیدن پاسخ ما، اینجا کلیک کنید
بهدلیل شباهتهای شکلی، نمایشهای برداری برخیاز 7های باریکتر و نازکتر به بردارهای دستنویس 1ها نزدیکتر قرار داده شدهاند. همین اتفاق برای بعضیاز 8ها و 9ها و حتی بعضیاز 5ها و 3ها میافتد.
اعداد دستنویس در بیرون فضای طرح سهبعدی بهطرز قابل تعریفتری بهعنوان یکی از نُه رقم و کاملاً متمایز از سایر ارقامِ احتمالی نشان داده میشوند.