AutoML: תחילת העבודה

אם אתם שוקלים להשתמש ב-AutoML, יכול להיות שיש לכם שאלות עובד ומהם השלבים שעליכם לבצע כדי להתחיל בעבודה. הקטע הזה מתעמק לדפוסי AutoML נפוצים, הוא בוחן איך AutoML פועל ובוחן אילו שלבים יכול להיות שתצטרכו לבצע אותה לפני שתתחילו להשתמש ב-AutoML בפרויקט.

כלי AutoML

כלי AutoML מתחלקים לשתי קטגוריות עיקריות:

  • כלים שלא דורשים תכנות בדרך כלל נבנים בפורמט של אפליקציות אינטרנט שמאפשרות להגדיר ולהריץ ניסויים דרך ממשק משתמש כדי למצוא את המודל הטוב ביותר לנתונים בלי לכתוב קוד.
  • הכלים של API ו-CLI מספקים תכונות אוטומציה מתקדמות, אבל נדרשים יותר (לפעמים הרבה יותר) ומומחיות בתכנות ובלמידת מכונה.

כלי AutoML שדורשים תכנות יכולים להיות חזקים וגמישים יותר או כלים שאין צורך בתכנות, אבל ייתכן שהם גם יהיו קשים יותר לשימוש. במודול הזה נתמקד באפשרויות ללא קוד לפיתוח מודלים, אבל שימו לב ש-API ו-CLI יכולות לעזור לכם אם נדרשת אוטומציה מותאמת אישית.

תהליך עבודה של AutoML

בואו נעבור על תהליך העבודה האופייני של למידת מכונה ונראה איך דברים פועלים כשמשתמשים AutoML. השלבים הכלליים בתהליך העבודה זהים לאלה שבהם אתם משתמשים אימון מותאם אישית; ההבדל העיקרי הוא ש-AutoML מטפל בשבילכם במשימות מסוימות.

הגדרת הבעיה

השלב הראשון בכל תהליך עבודה של למידת מכונה הוא הגדרת הבעיה. בזמן השימוש AutoML, ודאו שהכלי שתבחרו יכול לתמוך של פרויקט למידת המכונה שלכם. רוב כלי AutoML תומכים במגוון של אלגוריתמים של למידת מכונה וסוגי נתוני קלט.

למידע נוסף על בעיה בפריים, עיינו במודול ב מבוא לבעיות של למידת מכונה בפריים.

איסוף נתונים

לפני שמתחילים לעבוד עם כלי AutoML, צריך לאסוף את הנתונים למקור נתונים אחד. עיינו במסמכי התיעוד של המוצר כדי לוודא שהכלי תומך בהם: מקור הנתונים, סוגי הנתונים במערך הנתונים, גודל של מערך הנתונים.

הכנת נתונים

הכנת נתונים היא תחום שבו כלי AutoML יכולים לעזור לכם, יכול לעשות הכול באופן אוטומטי, לכן כדאי לעשות קצת עבודה לפני יכול לייבא את הנתונים שלך לכלי. הכנת הנתונים ל-AutoML דומה לתהליך הבא: מה צריך לעשות כדי לאמן מודל באופן ידני. אם אתם צריכים לדעת יותר שמסבירה איך להכין את הנתונים שלכם לאימון, נבחן את הכנת הנתונים .

למידע נוסף על הכנת הנתונים, אפשר לעיין עבודה עם נתונים מספריים וגם עבודה עם נתונים קטגוריים מודולים.

לפני שמייבאים את הנתונים לאימון AutoML, צריך להשלים את השלבים הבאים שלבים:

  • הוספת תוויות לנתונים

    צריך להוסיף תווית לכל דוגמה במערך הנתונים.

  • ניקוי ופורמט של נתונים

    נתונים מהעולם האמיתי נוטים להיות מבולגנים, לכן מומלץ לנקות את הנתונים לפני השימוש את זה. גם עם AutoML צריך לקבוע את הטיפולים הכי טובים ומערך נתונים מסוים. יכול להיות שיהיה צורך לבצע ניתוח, יש אפשרות להריץ כמה הרצת AutoML לפני שתקבלו את התוצאות הכי טובות.

  • ביצוע טרנספורמציות של תכונות

    חלק מהכלים של AutoML מטפלים בטרנספורמציות של תכונות בשבילכם. אבל, אם הכלי שבו אתם משתמשים לא תומך בטרנספורמציה של פיצ'ר שאתם צריכים לא תומך בו בצורה טובה, ייתכן שתצטרכו לבצע את הטרנספורמציות הזמן.

פיתוח מודלים (באמצעות AutoML ללא קוד)

AutoML עושה את העבודה בשבילכם במהלך האימון. אבל לפני שתתחילו אימון, עליכם להגדיר את הניסוי. הגדרה של אימון AutoML בדרך כלל צריך לציין את השלבים הכלליים הבאים:

  1. ייבוא הנתונים שלכם

    כדי לייבא נתונים, צריך לציין את מקור הנתונים. במהלך הייבוא מסוים, כלי AutoML מקצה סוג נתונים סמנטיים לכל ערך נתונים.

  2. ניתוח הנתונים

    מוצרי AutoML מספקים בדרך כלל כלים לניתוח מערך הנתונים לפני אחרי האימון. מומלץ להשתמש בכלי הניתוח האלה להבין ולאמת את הנתונים לפני שמתחילים הרצת AutoML.

  3. צמצום הנתונים

    לרוב כלי AutoML יש מנגנונים שעוזרים לצמצם את הנתונים אחרי ייבוא ולפני האימון. הנה כמה משימות שאולי כדאי לך לבצע כדי לצמצם את הנתונים:

    • בדיקה סמנטית: במהלך הייבוא, כלי AutoML מנסים לקבוע הסוג הסמנטי הנכון לכל תכונה, אבל אלה ניחושים בלבד. עליך לבדוק את הסוגים הייעודיים לכל התכונות ולשנות אותם אם הן הוקצו בצורה לא נכונה.

      לדוגמה, אפשר לשמור מספרי מיקוד בתור מספרים בעמודה של מסד הנתונים. רוב מערכות AutoML יזהו את הנתונים כרציפים נתונים מספריים. זה יהיה שגוי עבור מיקוד והמשתמש כנראה שתרצו לשנות את הסוג הסמנטי לקטגורית מהעמודה המתמשכת בעמודה של הישות הזו.

    • טרנספורמציות: חלק מהכלים מאפשרים למשתמשים להתאים אישית את הנתונים טרנספורמציות כחלק מתהליך השיפור. לפעמים זה קורה נדרש כאשר במערך נתונים יש תכונות חזויות ישתנו או ישלבו בדרך שמקשה על כלי AutoML כדי לקבוע ללא עזרה.

      לדוגמה, נבחן מערך נתונים של דיור שמשתמשים בו כדי לחזות מחיר המבצע של בית. נניח שיש תכונה שמייצגת לתיאור של דף בית בשם description, להשתמש בנתונים האלה כדי ליצור תכונה חדשה שנקראת description_length. חלק ממערכות AutoML מציעות דרכים לשימוש וטרנספורמציות. בדוגמה הזו, יכול להיות שיש פונקציית LENGTH ליצור תכונת אורך תיאור חדשה כמו זו: LENGTH(description).

  4. הגדרת פרמטרים להרצת AutoML

    השלב האחרון לפני הפעלת ניסוי האימון הוא לבחור כמה הגדרות אישיות כדי לומר לכלי איך תרצו לאמן את המודל. לכל כלי AutoML יש קבוצה ייחודית של אפשרויות הגדרה. הנה כמה ממשימות ההגדרה המשמעותיות שאולי תצטרכו הושלם:

    • בוחרים את סוג הבעיה בלמידת מכונה שמתכננים לפתור. לדוגמה, האם אתם לפתור בעיית סיווג או רגרסיה?
    • בוחרים את העמודה במערך הנתונים בתווית.
    • בוחרים את קבוצת התכונות שישמשו לאימון המודל.
    • לבחור את קבוצת האלגוריתמים של למידת המכונה ש-AutoML בוחן בחיפוש המודל.
    • צריך לבחור את מדד ההערכה שישמש את AutoML כדי לבחור את המודל הטוב ביותר.

אחרי שהגדרתם את ניסוי AutoML, תוכלו להתחיל באימון לרוץ. ייתכן שהשלמת ההדרכה תימשך זמן מה (לפי סדר השעות).

הערכת המודל

אחרי האימון, תוכלו לבחון את התוצאות באמצעות הכלים של AutoML כדי לעזור לכם:

  • כדי להעריך את התכונות, בוחנים את מדדי החשיבות של התכונות.
  • בוחנים את הארכיטקטורה ואת ההיפר-פרמטרים שבהם נעשה שימוש כדי להבין את המודל כדי לבנות אותו.
  • העריכו את ביצועי המודל ברמה העליונה באמצעות תרשימים ומדדים שנאספו במהלך אימון למודל הפלט.

ייצור

למרות שהוא לא נכלל במסגרת המודול הזה, חלק ממערכות AutoML יכולות לעזור לך לבדוק ולפרוס את המודל.

אימון מחדש של המודל

יכול להיות שתצטרכו לאמן מחדש את המודל עם נתונים חדשים. הדבר עשוי לקרות אחרי להעריך את ההרצה של אימון AutoML או אחרי שהמודל נמצא בסביבת ייצור בזמן האימון. בכל מקרה, מערכות AutoML יכולות לעזור גם באימונים מחדש. זו לא הסיבה רצוי לבחון שוב את הנתונים אחרי הרצת AutoML, ולאמן מחדש עם מערך נתונים משופר.

המאמרים הבאים

ברכות על סיום המודול הזה.

אנחנו ממליצים לכם לעיין במודולים של MLCC. בקצב שלכם ובקצב הרצוי לכם. כדי לעקוב אחרי הזמנה מומלצת, מומלץ לעבור למודול הבא: הוגנות בלמידת מכונה.