רשתות נוירונים

אולי כדאי לזכור תרגילים משולבים במודול הנתונים הקטגוריים, שבעיית הסיווג הבאה היא לא ליניארית:

איור 1.  מישור קואורדינטות קרטזיות, מחולק לארבע
      מרובעים, כל אחד מהם מלא בנקודות אקראיות בצורה שדומה
      ריבוע. הנקודות בצד ימין למעלה ובצד שמאל למטה הן כחולות,
      והנקודות במרובעים בפינה השמאלית העליונה והימנית התחתונה הן כתומות.
איור 1. בעיית סיווג לא ליניארית. פונקציה לינארית לא יכולה מפרידים בבירור את כל הנקודות הכחולות מהנקודות הכתומות.

'לא לינארי' פירושו שלא ניתן לחזות באופן מדויק תווית עם בצורת \(b + w_1x_1 + w_2x_2\). במילים אחרות, 'שטח לקבלת החלטה' הוא לא שורה.

עם זאת, אם נבצע שילוב של תכונות בתכונות $x_1$ ו-$x_2$, נוכל לייצג את הקשר הלא ליניארי בין שתי התכונות באמצעות מודל לינארי: $b + w_1x_1 + w_2x_2 + w_3x_3$ כאשר $x_3$ הוא שילוב התכונות $x_1$ ו-$x_2$:

איור 2. אותו מישור קואורדינטות קרטזיות של כחול וכתום
      נקודות כמו באיור 1.  אבל הפעם עקומה היפרבולית לבנה
      מעל הרשת, שמפרידה בין הנקודות הכחולות בפינה הימנית העליונה.
      ומרובעים בפינה השמאלית התחתונה (עכשיו מוצללים על רקע כחול)
      הנקודות הכתומות בריבועים הימניים העליונים והתחתונים (עכשיו
      מוצללת על רקע כתום).
איור 2. על ידי הוספת צלב התכונות x1x 2, המודל הלינארי יכול ללמוד צורה היפרבולית שמפרידה בין הנקודות הכחולות מהנקודות הכתומות.

עכשיו נבחן את מערך הנתונים הבא:

איור 3.  מישור קואורדינטות קרטזיות, מחולק לארבעה רבעונים.
      אשכול מעוגל של נקודות כחולות ממורכז בנקודת המקור
      ומוקף בעיגול של נקודות כתומות.
איור 3. בעיית סיווג לא ליניארית קשה יותר.

אפשר גם להיזכר בתרגילי פיצ'ר חוצה-תכונות שקובעת מהי התכונה הנכונה חוצה כדי להתאים מודל ליניארי לנתונים האלה השקענו קצת יותר מאמץ וניסויים.

אבל מה אם לא הייתם צריכים לבצע את כל הניסויים בעצמכם? רשתות נוירונים הן משפחה של ארכיטקטורות מודלים לא לינארי דפוסים בנתונים. במהלך האימון של רשת נוירונים, בניית מודל באופן אוטומטי לומדת את הצלבות התכונות האופטימליות שצריך לבצע על נתוני הקלט כדי לצמצם .

בחלקים הבאים נבחן מקרוב את האופן שבו רשתות נוירונים פועלות.