כדי לפתור את הבעיות העיקריות של נתוני קלט מצומצמים, אפשר למפות את הנתונים בעלי המאפיינים הגבוהים ומרחבים קטנים.
כפי שראיתם בתרגילי הסרטים הקודמים, גם אם מדובר במרחב רב-מימדי קטן, אפשר לקבץ יחד פריטים דומים מבחינה סמנטית ולהפריד בין פריטים שונים. מיקום (מרחק וכיוון) במרחב הווקטורי יכול לקודד סמנטיקה בהטמעה טובה. לדוגמה, ברכיבים החזותיים הבאים של הטמעות אמיתיות מוצגים קשרים גיאומטריים שמתעדים קשרים סמנטיים, כמו הקשר בין מדינה לבירה:
איור 4. הטמעות יכולות לייצר אנלוגיות מדהימות.
מרחב משמעותי כזה מאפשר למערכת הלמידה החישובית לזהות הזדמנויות שעשויות לעזור במשימת הלמידה.
כיווץ הרשת
אנחנו רוצים שמקודדים מספיק קשרים סמנטיים, אבל אנחנו רוצים גם שטח הטמעה קטן מספיק שיאפשר לנו לאמן את המערכת מהר יותר. הטמעה שימושית יכולה להיות בסדר גודל של מאות מאפיינים. סביר להניח שסדר גודל מסוים נמוך מהגודל של אוצר המילים שלכם למשימת שפה טבעית.