אימון רשתות נוירונים: שיטות מומלצות

בקטע הזה מוסבר על מקרי כשל של הפצה לאחור והדרך הנפוצה ביותר לרנדר רשת נוירונים.

מקרים של כשלים

יש כמה דרכים נפוצות לגרום לבעיות של הפצה לאחור.

צבעים הדרגתיים נעלמים

ההדרגתיות של השכבות הנמוכות יותר (שקרובות יותר לקלט) יכולה להיות קטנה מאוד. ברשתות עמוקות, חישוב ההדרגות עשוי לכלול לקיחת תוצרים של מונחים קטנים רבים.

כאשר ההדרגתיות נעלמת לכיוון 0 עבור השכבות התחתונות, השכבות האלה מתאמנות לאט מאוד או לא פועלות בכלל.

ניתן להשתמש בפונקציה 'הפעלת ReLU' כדי למנוע היעלמות של הדרגתיים.

צבעים הדרגתיים

אם המשקולות ברשת גדולות מאוד, ההדרגה של השכבות התחתונות כוללת תוצרים של מונחים גדולים רבים. במקרה הזה יכולים להתרחש הדרגות מתפוצצות: הדרגות שגדולות מדי מכדי להתכנס.

נירמול בכמות גדולה יכול לעזור למנוע פיצוץ של הדרגתיים, וכך להפחית את קצב הלמידה.

יחידות ReLU מתות

אחרי שהסכום המשוקלל של יחידת ReLU יורד מתחת ל-0, יחידת ה-ReLU עלולה להיתקע. היא מפיקה פלט מסוג 0, ולא תורמת שום פעולה לפלט של הרשת, ואי אפשר יותר לעבור בהדרגה במהלך ההפצה לאחור. אם מקור ההדרגה נחתך, יכול להיות שהקלט ל-ReLU לא ישתנה מספיק כדי להחזיר את הסכום המשוקלל מ-0.

הורדת קצב הלמידה יכולה לעזור למנוע מצב שבו יחידות ReLU מתוות.

רצף נוטשים

צורה נוספת של ריצוף, שנקראת Dropout, שימושית לרשתות נוירונים. איך זה עובד? הכלי 'שחרור' הפעלות של יחידות באופן אקראי ברשת לצורך שלב אחד בהדרגתיות. ככל שתנטשו יותר, כך הרגולריזציה תהיה חזקה יותר:

  • 0.0 = ללא רנדומיזציה של נטישה.
  • 1.0 = לא צריך להסיר הכול. המודל לא לומד דבר.
  • ערכים בין 0.0 ל-1.0 = מועילים יותר.