נספח זה מכיל כמה פרטים נוספים על שיעור הלמידה.
לוח זמנים של דעיכה לאורך שיעור למידה
משפחת לוחות הזמנים של הדעיכה הטובה ביותר בשיעור הלמידה היא בעיה פתוחה. לא ברור כיצד ליצור קבוצה של ניסויים קפדניים שיענו באופן בטוח על השאלה הזו. אנחנו לא מכירים את משפחת הלו"ז הטובה ביותר, אבל אנחנו בטוחים:
- חשוב להגדיר לוח זמנים (לא קבוע).
- חשוב לכוונן את לוח הזמנים הזה.
שיעורי הלמידה השונים עובדים בצורה הטובה ביותר בזמנים שונים של תהליך האופטימיזציה. לוח זמנים כלשהו משפר את הסיכוי שהמודל יגיע לקצב למידה טוב.
דעיכה אופטימלית של שיעור הלמידה המוגדר כברירת מחדל
אנחנו ממליצים להשתמש באחת ממשפחות הדעיכה הבאות של שיעור למידה כברירת מחדל:
- דעיכה לינארית
- דעיכה בקוסינוס
סביר להניח שיש הרבה משפחות נוספות שמתאימות ללוח הזמנים.
למה בעבודות מסוימות יש לוחות זמנים מורכבים לשיעורי למידה?
בעבודות אקדמיות רבות נעשה שימוש בלוחות זמנים מורכבים לקצב למידה דינמי (LR). הקוראים בדרך כלל תוהים איך המחברים הגיעו ללוח זמנים מורכב כל כך. לוחות זמנים רבים של דעיכה ב-LR הם כוונון של התזמון כפונקציה של הביצועים של קבוצת האימות באופן אד-הוק. כלומר:
- התחילו הרצה יחידה עם דעיכה פשוטה של LR (או שיעור למידה קבוע).
- כדאי להמשיך באימון עד שייראה כאילו הביצועים לא דוממים. במקרה כזה, עליכם להשהות את האימון. לאחר מכן, המשך את התהליך עם לוח זמנים של דעיכה לאורך זמן של LR (או שיעור למידה קבוע פחות) מנקודה זו. יש לחזור על התהליך הזה (עד לכנס או המועד האחרון להשקה).
בדרך כלל לא כדאי להעתיק את התזמון שנוצר כתוצאה מכך, כי לוח הזמנים הספציפי הטוב ביותר הוא רגיש למגוון אפשרויות אחרות של היפר-פרמטרים. אנחנו ממליצים להעתיק את האלגוריתם שיצר את לוח הזמנים, על אף שהדבר נדיר במקרים שבהם שיקול הדעת האקראי נוצר על ידי האדם. זה סוג מתאים של לוח זמנים לאימות שגיאות, כך שהוא יכול להיות שימושי אם הוא יכול להיות אוטומטי לחלוטין, אבל לוח זמנים של פעולות אנושיות שפונקציה של שגיאת אימות הוא שבלתי וקשה לשחזר אותו. לכן, מומלץ להימנע מהן. לפני פרסום תוצאות שנעשה בהן שימוש בלוח זמנים כזה, כדאי לנסות לשחזר אותן באופן מלא.
כיצד יש לשפר את ההיפר-פרמטרים של אדם?
לא כל ההיפר-פרמטרים ב-AdSense חשובים באותה מידה. כללי האצבע הבאים מבוססים על "תקציבים" שונים למספר תקופות הניסיון במחקר.
- אם קטן מ-10 תקופות ניסיון במחקר, יש להתאים רק את שיעור הלמידה (בסיסי).
- אם יש 10-25 מחקרים במחקר, צריך לכוונן את קצב הלמידה ואת
beta_1
. - אם יש לכם יותר מ-25 תקופות ניסיון, התאימו את קצב הלמידה, את
beta_1
ואתepsilon
. - אם יש יותר מ-25 תקופות ניסיון, כוונון נוסף של
beta_2
.
בשל הקושי לספק כללים כלליים בנושא מרחבים משותפים וכמה נקודות צריך לדגום ממרחב החיפוש, כדאי לעיין בכללים הכלליים שצוינו בקטע הזה כהנחיות גסות.