חיפוש מעשי אקראי

היחידה הזו מתמקדת בחיפוש כמעט אקראי.

למה להשתמש בחיפוש מעין אקראי?

חיפוש מעין-אקראי (מבוסס על רצפים עם חוסר התאמה נמוך) הוא ההעדפה שלנו מעל כלי אופטימיזציה מתקדמים יותר של Blackbox, כחלק מניסוי תהליך כוונון שנועד למקסם את התובנות לגבי בעיית הכוונון "שלב הניתוח"). אופטימיזציה בייסיאנית ותחומים דומים מתאימים יותר לשלב הניצול. חיפוש מעין אקראי, המבוסס על רצפים של חוסר התאמה נמוך, שהשתנו באופן אקראי נחשב ל"חיפוש רשת רוטט ומעורבל", כיוון שבאופן אחיד, באופן אקראי, חוקר מרחב חיפוש נתון ומפרס את נקודות החיפוש יותר מאשר חיפוש אקראי.

היתרונות של חיפוש כמעט אקראי על פני Blackbox מתוחכמת יותר כלי אופטימיזציה (למשל, אופטימיזציה בייסיאנית, אלגוריתמים אבולוציוניים) כוללים:

  • דגימה של מרחב החיפוש באופן לא מותאם מאפשרת לשנות את יעד הכוונון בניתוח פוסט-הוק ללא הפעלה חוזרת של ניסויים. לדוגמה, אנחנו בדרך כלל רוצים למצוא את הניסוי הטוב ביותר מבחינת אימות בכל שלב באימון. לעומת זאת, המודל מטבעו של החיפוש האקראי המעין מאפשר למצוא את הניסוי הטוב ביותר על סמך שגיאת אימות סופית, שגיאת אימון או כל חלופה אחרת את מדד ההערכה בלי להפעיל שוב ניסויים.
  • חיפוש מדומה אקראי פועל באופן עקבי שניתן לשחזר מבחינה סטטיסטית בדרך הזו. אולי אפשר לשחזר מחקר מלפני שישה חודשים אפילו אם ההטמעה של אלגוריתם החיפוש משתנה, כל עוד שומרת על אותם תכונות אחידות. אם אתם משתמשים בבייסיאנית מתוחכמת השימוש בתוכנת אופטימיזציה, ההטמעה עשויה להשתנות בין גרסאות, וכך קשה יותר לשחזר חיפוש ישן. לא תמיד אפשר לחזור להטמעה ישנה (למשל, שכלי האופטימיזציה מופעל כשירות).
  • הניתוח האחיד של מרחב החיפוש מאפשר לחשוב בקלות רבה יותר על התוצאות ועל מה שהן עשויות להציע לגבי מרחב החיפוש. לדוגמה, אם הנקודה הטובה ביותר במעבר של חיפוש מעין אקראי נמצאת בגבולות מרחב החיפוש, היא בחירה טובה (אבל לא חסינה בפני פגמים) מסמן שצריך לשנות את גבולות רווח. עם זאת, אולי הוזנח באמצע מרחב החיפוש בגלל חוסר מזל בניסויים מוקדמים גם אם הוא מכיל נקודות טובות באותה מידה, כי האם סוג כזה של חוסר אחידות מדויק, שאלגוריתם אופטימיזציה טוב שצריך להשקיע כדי לזרז את החיפוש.
  • הרצה של מספרים שונים של ניסויים במקביל לעומת ברצף לא יפיקו תוצאות שונות מבחינה סטטיסטית כשמשתמשים באקראי מעין אקראי בחיפוש (או אלגוריתמים אחרים של חיפוש שאינו מותאם), בשונה ממודלים אלגוריתמים.
  • אלגוריתמים מתוחכמים יותר של החיפוש לא תמיד מסוגלים להתמודד את הנקודות בצורה נכונה, במיוחד אם הן לא מתוכננות באמצעות רשת נוירונים בכוונון היפר-פרמטרים.
  • חיפוש אקראי כמעט פשוט הוא פשוט ועובד טוב במיוחד כאשר הרבה כוונון ניסיונות פועלים במקביל. באופן אקראי1, קשה מאוד לאלגוריתם אדפטיבי לגבור על חיפוש מעין אקראי שיש לו פי 2 את התקציב שלו, במיוחד במהלך ניסויים רבים צריך לפעול במקביל (כך שיש מעט מאוד סיכויים שימוש בתוצאות של ניסויים קודמים כשמשיקים ניסויים חדשים). ללא מומחיות באופטימיזציה בייסיאנית וקופסה מתקדמת אחרת שיטות אופטימיזציה, ייתכן שלא תשיגו את היתרונות שהן מניבות, בעיקרון, מסוגל לספק. קשה לבצע נקודות השוואה למתקדמים אלגוריתמי אופטימיזציה של Blackbox בכוונון ריאליסטי של למידה עמוקה את התנאים וההגבלות. הם תחום פעיל מאוד במחקר הנוכחי, אלגוריתמים מתוחכמים יותר מגיעים עם מלכודות משלהם למשתמשים חסרי ניסיון. מומחים בשיטות האלה יכולים להגיע לתוצאות טובות, אבל בתנאים של מקבילה גבוהה, מרחב החיפוש והתקציב נוטים חשובות הרבה יותר.

עם זאת, אם משאבי המחשוב שלכם מאפשרים שימוש רק בחלק קטן במקביל ניסיונות להריץ במקביל, ותוכלו להרשות לעצמם להריץ ניסויים רבים ברצף, אופטימיזציה בייסיאנית הופכת לאטרקטיבית יותר, למרות וקשה יותר לפרש את התוצאות.

ל-Vizier יש את הקוד הפתוח יישום של מעין אקראיות חיפוש. הגדרת algorithm="QUASI_RANDOM_SEARCH" בשימוש הזה ב-Vizier דוגמה קיימת הטמעה חלופית בהגרלות של היפר-פרמטרים דוגמה. שתי שיטות ההטמעה האלו יוצרות רצף הילטון לחיפוש נתון (מיועד ליישם רצף הילטון ממוזג ומעורבל, מומלץ ב- היפר-פרמטרים קריטיים: לא אקראיים, לא בכי.

אם אלגוריתם חיפוש מעין-אקראי המבוסס על רצף עם אי-התאמה נמוכה אפשר להחליף במקום זאת בחיפוש אחיד אקראי לכאורה, אם כי סביר להניח שזה יהיה קצת פחות יעיל. במאפיין 1-2, אפשר להשתמש גם בחיפוש ברשת, אבל הוא לא במידות גבוהות יותר. (ראו Bergstra & Bengio, 2012).

כמה ניסויים נדרשים כדי לקבל תוצאות טובות בחיפוש כמעט אקראי?

אין דרך לקבוע כמה תקופות ניסיון נדרשות כדי לקבל בתוצאות של חיפוש כמעט אקראי, באופן כללי, אבל אפשר לבדוק דוגמאות ספציפיות. כפי שמוצג באיור 3, מספר הניסויים במחקר יכול משפיעות באופן משמעותי על התוצאות:

תרשים תיבה של שיעור שגיאות אימות (ציר ה-Y) לעומת תקציב כוונון (ציר ה-X),
          שבו תקציב הכוונון הוא מספר הניסיונות. האימות הממוצע
          שיעור השגיאות בדרך כלל ירד ככל שתקציב הכוונון גדל.

איור 3: מערכת ResNet-50 מכווננת ב-ImageNet לאחר 100 תקופות ניסיון. באמצעות אתחולי האתחול, בוצעה הדמיה של כמויות שונות של כוונון תקציבים. בתרשים מוצגות תרשימים של הביצועים הטובים ביותר בכל תקציב של תקופת הניסיון.

 

שימו לב לאיור 3:

  • הטווחים הבין-רבעוניים שבהם נדגמו 6 ניסויים גדולים בהרבה מאשר המועד שבו נדגמו 20 מדידות.
  • גם לאחר 20 ניסיונות, ההבדל בין בר מזל לבין חוסר מזל הם כנראה גדולים יותר מההבדלים הטיפוסיים בין האימון מחדש של המודל הזה בזרעים אקראיים שונים, עם היפר-פרמטרים קבועים, בשביל עומס העבודה הזה יכול להיות כ-0.1% + שיעור שגיאות אימות של כ-23%.

  1. בן רכט וקווין ג'יימיסון ציינו כמה חזק חיפוש אקראי לפי תקציב גדול פי 2 משמש כבסיס נייר היפר-פס ארגומנטים דומים), אבל בהחלט ניתן למצוא מרחבים ובעיות שבהם אופטימיזציה חדשנית של בייס שיטות מתנגשות עם חיפושים אקראיים שמוציאים פי 2 יותר מהתקציב. אבל, במסגרת העבודה על חיפוש אקראי בתקציב גדול פי 2 הופכת לקשה יותר של מקביליות גבוהה, מפני שלאופטימיזציה בייסיאנית אין הזדמנות לצפות בתוצאות של ניסויים קודמים.