AutoML: תחילת העבודה

אם אתם שוקלים להשתמש ב-AutoML, יכול להיות שיש לכם שאלות לגבי האופן שבו הוא פועל ומה צריך לעשות כדי להתחיל. בקטע הזה נספק סקירה מעמיקה יותר של דפוסים נפוצים של AutoML, נסביר איך AutoML פועלת ונבחן אילו שלבים יכול להיות שתצטרכו לבצע לפני שתתחילו להשתמש ב-AutoML בפרויקט שלכם.

כלים של AutoML

כלי AutoML מתחלקים לשתי קטגוריות עיקריות:

  • כלים ללא צורך בתכנות הם בדרך כלל אפליקציות אינטרנט שמאפשרות להגדיר ולהריץ ניסויים דרך ממשק משתמש, כדי למצוא את המודל הטוב ביותר לנתונים שלכם בלי לכתוב קוד.
  • כלים של ממשקי API ו-CLI מספקים תכונות אוטומציה מתקדמות, אבל הם דורשים יותר מומחיות בתחום התכנות ובתחום ה-ML (לפעמים הרבה יותר).

כלים של AutoML שדורשים תכנות יכולים להיות חזקים וגמישים יותר מאשר כלים ללא תכנות, אבל גם קשה יותר להשתמש בהם. המודול הזה מתמקד באפשרויות ללא קוד לפיתוח מודלים, אבל חשוב לדעת שאפשרויות API ו-CLI יכולות לעזור אם אתם צריכים אוטומציה מותאמת אישית.

תהליך העבודה של AutoML

נעבור על תהליך עבודה טיפוסי של למידת מכונה ונראה איך הדברים פועלים כשמשתמשים ב-AutoML. השלבים ברמה גבוהה בתהליך העבודה זהים לאלה שבהם משתמשים לאימון מותאם אישית. ההבדל העיקרי הוא ש-AutoML מטפל בחלק מהמשימות בשבילכם.

הגדרת הבעיה

השלב הראשון בכל תהליך עבודה של למידת מכונה הוא הגדרת הבעיה. כשמשתמשים ב-AutoML, חשוב לוודא שהכלי שבוחרים יכול לתמוך ביעדים של פרויקט ה-ML. רוב הכלים של AutoML תומכים במגוון של אלגוריתמים של למידת מכונה בפיקוח ובסוגי נתוני קלט.

למידע נוסף על הגדרת בעיות, אפשר לעיין במודול מבוא להגדרת בעיות בלמידת מכונה.

איסוף נתונים

לפני שתוכלו להתחיל לעבוד עם כלי AutoML, תצטרכו לאסוף את הנתונים שלכם למקור נתונים יחיד. כדאי לבדוק את מסמכי העזרה של המוצר כדי לוודא שהכלי תומך במקור הנתונים, בסוגים של הנתונים במערך הנתונים ובגודל של מערך הנתונים.

הכנת הנתונים

הכנת הנתונים היא תחום שבו כלים של AutoML יכולים לעזור לכם, אבל אף כלי לא יכול לעשות הכל באופן אוטומטי, כך שצפויה לכם עבודה מסוימת לפני שתוכלו לייבא את הנתונים לכלי. הכנת הנתונים ל-AutoML דומה למה שצריך לעשות כדי לאמן מודל באופן ידני. למידע נוסף על הכנת הנתונים לאימון, אפשר לעיין בקטע 'הכנת הנתונים'.

למידע נוסף על הכנת הנתונים, אפשר לעיין במודולים עבודה עם נתונים מספריים ועבודה עם נתונים קטגוריאליים.

לפני ייבוא הנתונים לאימון AutoML, צריך לבצע את השלבים הבאים:

  • תיוג הנתונים

    לכל דוגמה במערך הנתונים צריכה להיות תווית.

  • ניקוי הנתונים וקביעת הפורמט שלהם

    נתונים מהעולם האמיתי נוטים להיות מבולגנים, לכן תצטרכו לנקות את הנתונים לפני השימוש בהם. גם כשמשתמשים ב-AutoML, צריך לקבוע את הטיפולים הטובים ביותר לבעיה ולמערך הנתונים הספציפיים. יכול להיות שתצטרכו לערוך חקירה מסוימת ולבצע כמה הפעלות של AutoML כדי לקבל את התוצאות הטובות ביותר.

  • ביצוע טרנספורמציות של מאפיינים

    חלק מהכלים של AutoML מטפלים בטרנספורמציות מסוימות של תכונות בשבילכם. עם זאת, אם הכלי שבו אתם משתמשים לא תומך בהמרת תכונות שאתם צריכים או לא תומך בה בצורה טובה, יכול להיות שתצטרכו לבצע את ההמרות מראש.

פיתוח מודלים (באמצעות AutoML ללא קוד)

AutoML מבצע את העבודה בשבילכם במהלך האימון. עם זאת, לפני שמתחילים את האימון, צריך להגדיר את הניסוי. כדי להגדיר הרצה של אימון AutoML, בדרך כלל צריך לציין את השלבים ברמה הרחבה הבאים:

  1. ייבוא הנתונים

    כדי לייבא את הנתונים, צריך לציין את מקור הנתונים. במהלך תהליך הייבוא, כלי AutoML מקצה לכל ערך נתונים סוג נתונים סמנטי.

  2. ניתוח הנתונים

    מוצרי AutoML בדרך כלל מספקים כלים לניתוח מערך הנתונים לפני ואחרי האימון. מומלץ להשתמש בכלי הניתוח האלה כדי להבין ולאמת את הנתונים לפני שמתחילים להריץ AutoML.

  3. שיפור הנתונים

    כלים של AutoML מספקים לעיתים קרובות מנגנונים שיעזרו לכם לשפר את הנתונים אחרי הייבוא ולפני האימון. הנה כמה משימות שאפשר לבצע כדי לשפר את הנתונים:

    • בדיקה סמנטית: במהלך הייבוא, הכלים של AutoML מנסים לקבוע את הסוג הסמנטי הנכון לכל תכונה, אבל אלה רק ניחושים. כדאי לבדוק את הסוגים שמיועדים לכל התכונות ולשנות אותם אם הם הוקצו בצורה שגויה.

      לדוגמה, יכול להיות שמיקודים מאוחסנים כמספרים בעמודה במסד הנתונים. רוב מערכות AutoML יזהו את הנתונים כנתונים מספריים רציפים. זה לא נכון למיקוד, והמשתמש כנראה ירצה לשנות את הסוג הסמנטי של עמודת המאפיין הזו ל'קטגוריאלי' במקום 'רציף'.

    • טרנספורמציות: חלק מהכלים מאפשרים למשתמשים להתאים אישית את הטרנספורמציות של הנתונים כחלק מתהליך השיפור. לפעמים צריך לעשות זאת כשקבוצת נתונים מכילה תכונות בעלות פוטנציאל חיזוי שצריך לבצע בהן טרנספורמציה או שילוב באופן שקשה לכלים של AutoML לקבוע ללא עזרה.

      לדוגמה, נניח שיש לכם מערך נתונים של עסקאות נדל"ן שאתם משתמשים בו כדי לחזות את מחיר המכירה של בית. נניח שיש תכונה שמייצגת את התיאור של דף נכס בשם description, ואתם רוצים להשתמש בנתונים האלה כדי ליצור תכונה חדשה בשם description_length. במערכות מסוימות של AutoML יש דרכים להשתמש בטרנספורמציות בהתאמה אישית. בדוגמה הזו, יכולה להיות פונקציה LENGTH כדי ליצור מאפיין חדש של אורך תיאור, כך: LENGTH(description).

  4. הגדרת פרמטרים להרצה של AutoML

    השלב האחרון לפני שמפעילים את ניסוי האימון הוא לבחור כמה הגדרות אישיות כדי להורות לכלי איך לאמן את המודל. לכל כלי AutoML יש קבוצה ייחודית משלו של אפשרויות הגדרה, אבל ריכזנו כאן כמה מהמשימות החשובות של הגדרה שעשויות להידרש:

    • בוחרים את סוג הבעיה ב-ML שרוצים לפתור. לדוגמה, האם אתם פותרים בעיית סיווג או רגרסיה?
    • בוחרים איזו עמודה במערך הנתונים היא התווית.
    • בוחרים את קבוצת המאפיינים שבה רוצים להשתמש כדי לאמן את המודל.
    • בוחרים את קבוצת אלגוריתמי ה-ML שמערכת AutoML תבחן בחיפוש המודל.
    • בוחרים את מדד ההערכה שבו AutoML משתמש כדי לבחור את המודל הטוב ביותר.

אחרי שמגדירים את הניסוי ב-AutoML, אפשר להתחיל את הרצה של האימון. תהליך ההדרכה עשוי להימשך זמן מה (כמה שעות).

הערכת המודל

אחרי האימון, תוכלו לבדוק את התוצאות באמצעות הכלים שמוצר ה-AutoML מספק, כדי:

  • הערכת המאפיינים על ידי בדיקת מדדי החשיבות של המאפיינים.
  • כדי להבין את המודל, כדאי לבחון את הארכיטקטורה ואת ההיפר-פרמטרים ששימשו ליצירתו.
  • הערכת ביצועי המודל ברמה העליונה באמצעות תרשימים ומדדים שנאספו במהלך האימון של מודל הפלט.

העברה לסביבת הייצור

הנושא הזה לא נכלל בתוכנית הזו, אבל חלק ממערכות AutoML יכולות לעזור לכם לבדוק ולפרוס את המודל.

אימון מחדש של המודל

יכול להיות שתצטרכו לאמן מחדש את המודל עם נתונים חדשים. זה יכול לקרות אחרי שבודקים את ההרצה של אימון ה-AutoML או אחרי שהמודל נמצא בסביבת הייצור במשך זמן מה. בכל מקרה, מערכות AutoML יכולות לעזור גם בהדרכה מחדש. לא פעם כדאי לבדוק שוב את הנתונים אחרי הרצת AutoML, ולבצע אימון מחדש עם מערך נתונים משופר.

המאמרים הבאים

כל הכבוד על סיום המודול הזה!

אנחנו ממליצים לכם לבדוק את מודולי ה-MLCC השונים בקצב ובעניין שלכם. אם אתם רוצים לפעול לפי סדר מומלץ, מומלץ להמשיך למודול הבא: הוגנות ב-ML.