جاسازی ها: ترجمه به فضایی با ابعاد پایین تر

تعبیه فضای نسبتاً کم بعدی است که می توانید بردارهای با ابعاد بالا را در آن ترجمه کنید. برای بحث در مورد داده های ابعادی بالا در مقابل داده های کم بعدی، به ماژول داده های دسته بندی مراجعه کنید.

جاسازی‌ها انجام یادگیری ماشینی را در بردارهای ویژگی بزرگ آسان‌تر می‌کنند، مانند بردارهای پراکنده که نشان‌دهنده مواد غذایی مورد بحث در بخش قبل هستند. در حالت ایده‌آل، تعبیه برخی از معنایی ورودی را با قرار دادن ورودی‌هایی که از نظر معنایی شبیه‌تر هستند، در فضای تعبیه نزدیک‌تر به هم نشان می‌دهد. به عنوان مثال، یک جاسازی خوب کلمه "ماشین" را به "گاراژ" نزدیکتر می کند تا "فیل". تعبیه را می توان در مدل ها آموزش داد و دوباره استفاده کرد.

برای ارائه ایده ای از نحوه نمایش اطلاعات بردارهای جاسازی شده، نمایش یک بعدی زیر را از ظروف هات داگ ، پیتزا ، سالاد ، شاورما و گل گاوزبان در مقیاسی از "کمترین شبیه ساندویچ " تا "بیشتر شبیه ساندویچ" در نظر بگیرید. " "ساندویچ بودن" تک بعدی است.

شکل 3. در امتداد یک محور ساندویچی، از حداقل به بیشتر: گل گاوزبان، سالاد، پیتزا، هات داگ، شاورما.
شکل 3. غذاها در امتداد یک بعد تصوری از "ساندویچ بودن".

کجای این خط یک اشترودل سیب می افتد؟ شاید بتوان آن را بین hot dog و shawarma قرار داد. اما به نظر می رسد که اشترودل سیب دارای یک بعد اضافی از شیرینی (چقدر غذا شیرین است) یا دسر (که چقدر غذا شبیه دسر است) دارد که آن را از گزینه های دیگر بسیار متفاوت می کند. شکل زیر با افزودن یک بعد "دسر بودن" این موضوع را به تصویر می کشد:

شکل 4. همان تصویر قبلی، اما با محور عمودی دسر. اشترودل سیب بین هات داگ و شاورما قرار دارد، اما در محور افقی بالاتر است، اما از محور بی‌حسی بالاتر است.
شکل 4. غذاها با هر دو «ساندویچ» و «دسر» رسم شده اند.

تعبیه هر مورد را در فضای n بعدی با n عدد ممیز شناور نشان می دهد (معمولاً در محدوده -1 تا 1 یا 0 تا 1). به عنوان مثال، تعبیه در شکل 4 هر یک از مواد غذایی را در فضای دو بعدی با دو مختصات نشان می دهد. مورد "اشترودل سیب" در ربع سمت راست بالای نمودار قرار دارد و می تواند نقطه (0.5، 0.3) را به آن اختصاص دهد، در حالی که "هات داگ" در ربع پایین سمت راست نمودار است و می تواند به آن نقطه اختصاص داده شود ( 0.2، -0.5).

در یک جاسازی، فاصله بین هر دو مورد را می توان به صورت ریاضی محاسبه کرد و می توان آن را به عنوان شباهت نسبی آن دو مورد تفسیر کرد. دو چیز که به یکدیگر نزدیک هستند، مانند shawarma و hot dog در شکل 4، نسبت به دو چیز دورتر از یکدیگر، مانند apple strudel و borscht بیشتر به هم مرتبط هستند.

همچنین توجه داشته باشید که در فضای دو بعدی در شکل 4، apple strudel از shawarma و hot dog بسیار دورتر از فضای 1 بعدی است که با شهود مطابقت دارد: apple strudel به اندازه هات داگ شبیه هات داگ یا شاورما نیست. و شاورماها برای همدیگر هستند.

حالا گل گاوزبان را در نظر بگیرید که بسیار مایع تر از سایر اقلام است. این بعد سوم را نشان می دهد، مایع بودن (چقدر مایع غذا است). با افزودن این بعد، موارد را می توان به صورت سه بعدی به این شکل تجسم کرد:

شکل 5. همان تصویر قبلی، اما با محور سوم سیالیت متعامد به دو محور دیگر، و گل گاوزبان در امتداد آن محور بسیار حرکت کرد.
شکل 5. غذاها بر اساس "ساندویچ بودن"، "دسر بودن" و "مایع بودن" ترسیم شده اند.

تانگیوان در این فضای سه بعدی به کجا می رود؟ این سوپ مانند گل گاوزبان و یک دسر شیرین است، مانند اشترودل سیب، و قطعا یک ساندویچ نیست. در اینجا یک مکان ممکن است:

شکل 6. همان تصویر قبلی، اما با تانگیوان که بر روی دسر و مایع بودن و در ساندویچ بودن کم قرار داده شده است.
شکل 6. افزودن tangyuan به تصویر قبلی، با مقدار زیاد «دسر» و «مایع بودن» و کم «ساندویچ».

توجه کنید که چقدر اطلاعات در این سه بعد بیان می شود. شما می توانید ابعاد اضافی مانند گوشتی یا پخته بودن را تصور کنید.

فضاهای تعبیه شده در دنیای واقعی

همانطور که در نمونه‌های غذایی بالا دیدید، حتی یک فضای چند بعدی کوچک، آزادی گروه‌بندی اقلام مشابه معنایی را فراهم می‌کند و اقلام غیر مشابه را از هم دور نگه می‌دارد. موقعیت (فاصله و جهت) در فضای برداری می تواند معناشناسی را در یک جاسازی خوب رمزگذاری کند. برای مثال، تجسم‌های زیر از تعبیه‌های واقعی، روابط هندسی بین کلمات یک کشور و پایتخت آن را نشان می‌دهد. می بینید که فاصله «کانادا» تا «اتاوا» تقریباً به اندازه فاصله «ترکیه» تا «آنکارا» است.

شکل 7. سه نمونه از جاسازی کلمات که روابط کلمات را به صورت هندسی نشان می دهند: جنسیت (مرد/زن و پادشاه/ملکه تقریباً یکسان هستند)، زمان فعل (راه رفتن/پیاده روی و شنا/شنا تقریباً طول یکسانی دارند) و شهرهای پایتخت. (ترکیه / آنکارا و ویتنام / هانوی تقریباً یکسان هستند).
شکل 7 . تعبیه‌ها می‌توانند تشابه‌های قابل‌توجهی ایجاد کنند.

یک فضای جاسازی معنادار به یک مدل یادگیری ماشینی کمک می کند تا الگوها را در طول آموزش تشخیص دهد.

ورزش کنید

در این تمرین، از ابزار Embedding Projector برای تجسم یک کلمه جاسازی شده به نام word2vec استفاده می کنید که بیش از 70000 کلمه انگلیسی را به صورت عددی در فضای برداری نشان می دهد.

وظیفه 1

وظایف زیر را انجام دهید و سپس به سوال زیر پاسخ دهید.

  1. ابزار Embedding Projector را باز کنید.

  2. در پنل سمت راست، کلمه atom را در قسمت Search وارد کنید. سپس روی کلمه اتم از نتایج زیر کلیک کنید (زیر 4 مورد ). صفحه نمایش شما باید مانند شکل 8 باشد.

    شکل 8. تصویری از ابزار جاسازی پروژکتور، با وارد کردن "اتم" در فیلد جستجو (دایره شده با رنگ قرمز). تجسم در مرکز ابزار اکنون یکی از نقاط را با کلمه "اتم" حاشیه نویسی می کند، و همچنین حاشیه نویسی کلمات را برای نقاط نزدیک اضافه می کند. در لیست "نزدیکترین نقاط"، کلمات "اتم"، "مولکول" و "الکترون" به عنوان نزدیکترین کلمات در فضای برداری به "اتم" فهرست شده اند.
    شکل 8 . ابزار پروژکتور تعبیه شده، با کلمه "اتم" در قسمت جستجو (که دایره ای قرمز دارد) اضافه شده است.
  3. مجدداً، در پانل سمت راست، روی دکمه Isolate 101 points (بالای قسمت جستجو ) کلیک کنید تا نزدیکترین 100 کلمه به اتم نشان داده شود. صفحه نمایش شما باید مانند شکل 9 باشد.

    شکل 9. تصویری از ابزار Embedding Projector، اکنون با کلیک روی "Isolate 101 points" (دکمه به رنگ قرمز دایره شده است). تجسم شکل 8 اکنون برای نمایش تنها کلمه "اتم" و 100 نزدیکترین کلمه در فضای برداری که شامل کلمات "اتم"، "هسته" و "ذره" است، به روز شده است.
    شکل 9 . ابزار پروژکتور جاسازی شده، اکنون با کلیک روی "Isolate 101 points" (دایره‌های قرمز رنگ).

اکنون، کلمات فهرست شده در زیر نزدیکترین نقاط در فضای اصلی را مرور کنید. چگونه این کلمات را توصیف می کنید؟

برای پاسخ ما اینجا را کلیک کنید

اکثر نزدیکترین کلمات کلماتی هستند که معمولاً با کلمه اتم همراه هستند، مانند شکل جمع «اتم» و کلمات «الکترون»، «مولکول» و «هسته».

وظیفه 2

وظایف زیر را انجام دهید و سپس به سوال زیر پاسخ دهید:

  1. روی دکمه Show All Data در پانل سمت راست کلیک کنید تا تصویرسازی داده ها از Task 1 بازنشانی شود.

  2. در پنل سمت راست، کلمه اورانیوم را در قسمت جستجو وارد کنید. صفحه نمایش شما باید مانند شکل 10 باشد.

    شکل 10. اسکرین شات ابزار جاسازی پروژکتور، با وارد کردن «اورانیوم» در قسمت جستجو. تجسم در مرکز ابزار یکی از نقاط را با کلمه "اورانیوم" حاشیه نویسی می کند، و همچنین حاشیه نویسی کلمات را برای نقاط نزدیک اضافه می کند. در فهرست «نزدیکترین نقاط»، کلمات «زغال سنگ»، «ایزوتوپ»، «نیکل»، «اکسید»، «سنگ معدن»، «روی» و «منگنز» به عنوان نزدیک‌ترین کلمات در فضای برداری به «اورانیوم» فهرست شده‌اند. '.
    شکل 10 . ابزار پروژکتور تعبیه شده با کلمه "اورانیوم" در قسمت جستجو اضافه شده است.

کلمات فهرست شده در زیر نزدیکترین نقاط در فضای اصلی را مرور کنید. این کلمات چه تفاوتی با نزدیکترین کلمات برای اتم دارند؟

برای پاسخ ما اینجا را کلیک کنید

اورانیوم به یک عنصر شیمیایی رادیواکتیو خاص اطلاق می شود و بسیاری از نزدیک ترین کلمات عناصر دیگر مانند روی، منگنز، مس و آلومینیوم هستند.

وظیفه 3

وظایف زیر را انجام دهید و سپس به سوال زیر پاسخ دهید:

  1. روی دکمه Show All Data در پانل سمت راست کلیک کنید تا تصویرسازی داده ها از Task 2 بازنشانی شود.

  2. در پنل سمت راست، کلمه نارنجی را در قسمت جستجو وارد کنید. صفحه نمایش شما باید مانند شکل 11 باشد.

    شکل 11. تصویری از ابزار جاسازی پروژکتور، با رنگ نارنجی وارد شده در قسمت جستجو. تجسم در مرکز ابزار یکی از نقاط را با کلمه "نارنجی" حاشیه نویسی می کند، و همچنین حاشیه نویسی کلمات را برای نقاط نزدیک اضافه می کند. در فهرست «نزدیکترین نقاط»، کلمات «زرد»، «سبز»، «آبی»، «بنفش» و «رنگ‌ها» به عنوان نزدیک‌ترین کلمات در فضای برداری به «نارنجی» فهرست شده‌اند.
    شکل 11 . ابزار پروژکتور تعبیه شده، با کلمه "نارنجی" در قسمت جستجو اضافه شده است.

کلمات فهرست شده در زیر نزدیکترین نقاط در فضای اصلی را مرور کنید. در مورد انواع کلمات نشان داده شده در اینجا، و انواع کلماتی که در اینجا نشان داده نشده اند ، چه چیزی متوجه می شوید؟

برای پاسخ ما اینجا را کلیک کنید

تقریباً همه نزدیک‌ترین کلمات رنگ‌های دیگر هستند، مانند "زرد"، "سبز"، "آبی"، "بنفش" و "قرمز". فقط یکی از نزدیکترین کلمات ("آب میوه") به معنای دیگر کلمه (یک مرکبات) اشاره دارد. سایر میوه هایی که ممکن است انتظار دیدن آنها را داشته باشید، مانند "سیب" و "موز" در فهرست نزدیکترین اصطلاحات قرار نگرفتند.

این مثال یکی از کاستی‌های کلیدی جاسازی‌های استاتیک مانند word2vec را نشان می‌دهد. تمام معانی ممکن یک کلمه با یک نقطه در فضای برداری نشان داده می‌شوند، بنابراین وقتی یک تحلیل شباهت برای "نارنجی" انجام می‌دهید، نمی‌توانید نزدیک‌ترین نقاط را برای یک علامت خاص از کلمه، مانند "نارنجی" جدا کنید. (میوه) اما نه "نارنجی" (رنگ).