تعبیه فضای نسبتاً کم بعدی است که می توانید بردارهای با ابعاد بالا را در آن ترجمه کنید. برای بحث در مورد داده های ابعادی بالا در مقابل داده های کم بعدی، به ماژول داده های دسته بندی مراجعه کنید.
جاسازیها انجام یادگیری ماشینی را در بردارهای ویژگی بزرگ آسانتر میکنند، مانند بردارهای پراکنده که نشاندهنده مواد غذایی مورد بحث در بخش قبل هستند. در حالت ایدهآل، تعبیه برخی از معنایی ورودی را با قرار دادن ورودیهایی که از نظر معنایی شبیهتر هستند، در فضای تعبیه نزدیکتر به هم نشان میدهد. به عنوان مثال، یک جاسازی خوب کلمه "ماشین" را به "گاراژ" نزدیکتر می کند تا "فیل". تعبیه را می توان در مدل ها آموزش داد و دوباره استفاده کرد.
برای ارائه ایده ای از نحوه نمایش اطلاعات بردارهای جاسازی شده، نمایش یک بعدی زیر را از ظروف هات داگ ، پیتزا ، سالاد ، شاورما و گل گاوزبان در مقیاسی از "کمترین شبیه ساندویچ " تا "بیشتر شبیه ساندویچ" در نظر بگیرید. " "ساندویچ بودن" تک بعدی است.
کجای این خط یک اشترودل سیب می افتد؟ شاید بتوان آن را بین hot dog
و shawarma
قرار داد. اما به نظر می رسد که اشترودل سیب دارای یک بعد اضافی از شیرینی (چقدر غذا شیرین است) یا دسر (که چقدر غذا شبیه دسر است) دارد که آن را از گزینه های دیگر بسیار متفاوت می کند. شکل زیر با افزودن یک بعد "دسر بودن" این موضوع را به تصویر می کشد:
تعبیه هر مورد را در فضای n بعدی با n عدد ممیز شناور نشان می دهد (معمولاً در محدوده -1 تا 1 یا 0 تا 1). به عنوان مثال، تعبیه در شکل 4 هر یک از مواد غذایی را در فضای دو بعدی با دو مختصات نشان می دهد. مورد "اشترودل سیب" در ربع سمت راست بالای نمودار قرار دارد و می تواند نقطه (0.5، 0.3) را به آن اختصاص دهد، در حالی که "هات داگ" در ربع پایین سمت راست نمودار است و می تواند به آن نقطه اختصاص داده شود ( 0.2، -0.5).
در یک جاسازی، فاصله بین هر دو مورد را می توان به صورت ریاضی محاسبه کرد و می توان آن را به عنوان شباهت نسبی آن دو مورد تفسیر کرد. دو چیز که به یکدیگر نزدیک هستند، مانند shawarma
و hot dog
در شکل 4، نسبت به دو چیز دورتر از یکدیگر، مانند apple strudel
و borscht
بیشتر به هم مرتبط هستند.
همچنین توجه داشته باشید که در فضای دو بعدی در شکل 4، apple strudel
از shawarma
و hot dog
بسیار دورتر از فضای 1 بعدی است که با شهود مطابقت دارد: apple strudel
به اندازه هات داگ شبیه هات داگ یا شاورما نیست. و شاورماها برای همدیگر هستند.
حالا گل گاوزبان را در نظر بگیرید که بسیار مایع تر از سایر اقلام است. این بعد سوم را نشان می دهد، مایع بودن (چقدر مایع غذا است). با افزودن این بعد، موارد را می توان به صورت سه بعدی به این شکل تجسم کرد:
تانگیوان در این فضای سه بعدی به کجا می رود؟ این سوپ مانند گل گاوزبان و یک دسر شیرین است، مانند اشترودل سیب، و قطعا یک ساندویچ نیست. در اینجا یک مکان ممکن است:
توجه کنید که چقدر اطلاعات در این سه بعد بیان می شود. شما می توانید ابعاد اضافی مانند گوشتی یا پخته بودن را تصور کنید.
فضاهای تعبیه شده در دنیای واقعی
همانطور که در نمونههای غذایی بالا دیدید، حتی یک فضای چند بعدی کوچک، آزادی گروهبندی اقلام مشابه معنایی را فراهم میکند و اقلام غیر مشابه را از هم دور نگه میدارد. موقعیت (فاصله و جهت) در فضای برداری می تواند معناشناسی را در یک جاسازی خوب رمزگذاری کند. برای مثال، تجسمهای زیر از تعبیههای واقعی، روابط هندسی بین کلمات یک کشور و پایتخت آن را نشان میدهد. می بینید که فاصله «کانادا» تا «اتاوا» تقریباً به اندازه فاصله «ترکیه» تا «آنکارا» است.
یک فضای جاسازی معنادار به یک مدل یادگیری ماشینی کمک می کند تا الگوها را در طول آموزش تشخیص دهد.
ورزش کنید
در این تمرین، از ابزار Embedding Projector برای تجسم یک کلمه جاسازی شده به نام word2vec استفاده می کنید که بیش از 70000 کلمه انگلیسی را به صورت عددی در فضای برداری نشان می دهد.
وظیفه 1
وظایف زیر را انجام دهید و سپس به سوال زیر پاسخ دهید.
ابزار Embedding Projector را باز کنید.
در پنل سمت راست، کلمه atom را در قسمت Search وارد کنید. سپس روی کلمه اتم از نتایج زیر کلیک کنید (زیر 4 مورد ). صفحه نمایش شما باید مانند شکل 8 باشد.
مجدداً، در پانل سمت راست، روی دکمه Isolate 101 points (بالای قسمت جستجو ) کلیک کنید تا نزدیکترین 100 کلمه به اتم نشان داده شود. صفحه نمایش شما باید مانند شکل 9 باشد.
اکنون، کلمات فهرست شده در زیر نزدیکترین نقاط در فضای اصلی را مرور کنید. چگونه این کلمات را توصیف می کنید؟
برای پاسخ ما اینجا را کلیک کنید
اکثر نزدیکترین کلمات کلماتی هستند که معمولاً با کلمه اتم همراه هستند، مانند شکل جمع «اتم» و کلمات «الکترون»، «مولکول» و «هسته».
وظیفه 2
وظایف زیر را انجام دهید و سپس به سوال زیر پاسخ دهید:
روی دکمه Show All Data در پانل سمت راست کلیک کنید تا تصویرسازی داده ها از Task 1 بازنشانی شود.
در پنل سمت راست، کلمه اورانیوم را در قسمت جستجو وارد کنید. صفحه نمایش شما باید مانند شکل 10 باشد.
کلمات فهرست شده در زیر نزدیکترین نقاط در فضای اصلی را مرور کنید. این کلمات چه تفاوتی با نزدیکترین کلمات برای اتم دارند؟
برای پاسخ ما اینجا را کلیک کنید
اورانیوم به یک عنصر شیمیایی رادیواکتیو خاص اطلاق می شود و بسیاری از نزدیک ترین کلمات عناصر دیگر مانند روی، منگنز، مس و آلومینیوم هستند.
وظیفه 3
وظایف زیر را انجام دهید و سپس به سوال زیر پاسخ دهید:
روی دکمه Show All Data در پانل سمت راست کلیک کنید تا تصویرسازی داده ها از Task 2 بازنشانی شود.
در پنل سمت راست، کلمه نارنجی را در قسمت جستجو وارد کنید. صفحه نمایش شما باید مانند شکل 11 باشد.
کلمات فهرست شده در زیر نزدیکترین نقاط در فضای اصلی را مرور کنید. در مورد انواع کلمات نشان داده شده در اینجا، و انواع کلماتی که در اینجا نشان داده نشده اند ، چه چیزی متوجه می شوید؟
برای پاسخ ما اینجا را کلیک کنید
تقریباً همه نزدیکترین کلمات رنگهای دیگر هستند، مانند "زرد"، "سبز"، "آبی"، "بنفش" و "قرمز". فقط یکی از نزدیکترین کلمات ("آب میوه") به معنای دیگر کلمه (یک مرکبات) اشاره دارد. سایر میوه هایی که ممکن است انتظار دیدن آنها را داشته باشید، مانند "سیب" و "موز" در فهرست نزدیکترین اصطلاحات قرار نگرفتند.
این مثال یکی از کاستیهای کلیدی جاسازیهای استاتیک مانند word2vec را نشان میدهد. تمام معانی ممکن یک کلمه با یک نقطه در فضای برداری نشان داده میشوند، بنابراین وقتی یک تحلیل شباهت برای "نارنجی" انجام میدهید، نمیتوانید نزدیکترین نقاط را برای یک علامت خاص از کلمه، مانند "نارنجی" جدا کنید. (میوه) اما نه "نارنجی" (رنگ).