איך תדעו אם ההטמעה של למידת מכונה הייתה שווה את המאמץ? מתי כדאי להתחיל לחגוג: מיד אחרי שהמודל עובר לייצור ומציג את החיזוי הראשון שלו, או רק אחרי שמדד עסקי כמותי מתחיל לנוע בכיוון הנכון?
לפני שמתחילים פרויקט, חשוב להגדיר את מדדי ההצלחה ולהסכים על התוצרים. תצטרכו להגדיר ולעקוב אחרי שני סוגים של מדדים:
מדדים עסקיים. מדדים לכימות הביצועים העסקיים, למשל הכנסות, שיעור קליקים או מספר המשתמשים.
מדדי מודל. מדדים לכימות איכות המודל, לדוגמה, שורש טעות ריבועית ממוצעת, דיוק או החזרה.
מדדים עסקיים
המדדים העסקיים הם החשובים ביותר. הם הסיבה לשימוש שלכם בלמידת מכונה: אתם רוצים לשפר את העסק.
מתחילים עם מדדים כמותיים של מוצרים או של העסק. המדד צריך להיות מפורט וממוקד ככל האפשר. אלה דוגמאות למדדים עסקיים ממוקדים שניתנים לכימות:
- הפחתה של 30% בעלויות החשמל החודשיות של מרכז נתונים.
- הגדלת ההכנסות מהמלצות על מוצרים ב-12 אחוזים.
- שיפור של 9% בשיעור הקליקים.
- הגדלת הסנטימנט של הלקוחות מסקרים שדורשים הסכמה ב-20%.
- הגדלת הזמן בדף ב-4%.
מעקב אחר מדדים עסקיים
אם אתם לא עוקבים אחרי המדד העסקי שאתם רוצים לשפר, כדאי להתחיל בהטמעה של התשתית שתאפשר לכם לעשות זאת. הגדרת יעד להגדלת שיעור הקליקים (CTR) ב-15% לא הגיונית אם אתם לא מודדים כרגע את שיעורי הקליקים.
חשוב יותר מכך, צריך לוודא שאתם מודדים את המדד הנכון לבעיה שלכם. לדוגמה, אל תשקיעו זמן בכתיבת קוד למעקב אחרי שיעורי קליקים (CTR) אם המדד החשוב יותר הוא ההכנסה מהמלצות.
במהלך הפרויקט, תוכלו להבין אם מדד ההצלחה שהגדרתם הוא יעד ריאלי. במקרים מסוימים, יכול להיות שתגיעו למסקנה שהפרויקט לא בר-קיימא בהתחשב במדדי ההצלחה שהוגדרו.
מדדים של מודלים
מתי כדאי להעביר את המודל לסביבת ייצור? כשהערך של AUC מגיע לערך מסוים? כשהמודל מגיע לציון F1 מסוים? התשובה לשאלה הזו תלויה בסוג הבעיה שאתם מנסים לפתור ובאיכות התחזית שאתם חושבים שצריך לשפר כדי לשפר את המדד העסקי.
כשמחליטים אילו מדדים לבחון כדי להעריך את המודל, כדאי להתייחס לנקודות הבאות:
בחירת מדד יחיד לאופטימיזציה. לדוגמה, אפשר להעריך מודלים של סיווג באמצעות מגוון מדדים (AUC, AUC-PR וכו'). יכול להיות שיהיה לכם קשה לבחור את המודל הכי טוב אם מדדים שונים מצביעים על מודלים שונים. לכן, חשוב להסכים על מדד יחיד להערכת המודלים.
קובעים יעדים של קבילות כדי לעמוד בהם. יעדי הקבלה שונים ממדדי הערכת המודל. הם מתייחסים למטרות שמודל צריך לעמוד בהן כדי להיחשב כקביל לתרחיש שימוש מיועד. לדוגמה, יעד קבילות יכול להיות "פלט שגוי הוא פחות מ-0.1%" או "הדיוק של חמש הקטגוריות המובילות הוא מעל 97%".
לדוגמה, נניח שמודל סיווג בינארי מזהה טרנזקציות שמקורן בתרמית. מדד האופטימיזציה שלה יכול להיות היזכרות, ויעד הקבלה שלה יכול להיות דיוק. במילים אחרות, אנחנו נותנים עדיפות לזיכרון (זיהוי נכון של תרמיות ברוב המקרים) ורוצים שהדיוק יישאר בערך מסוים או מעליו (זיהוי של עסקאות תרמיתיות אמיתיות).
הקשר בין מדדי המודל לבין מדדים עסקיים
בעיקרון, אתם מנסים לפתח מודל שאיכות התחזית שלו קשורה באופן סיבתי למדד העסקי. מדדים טובים של מודל לא בהכרח מעידים על שיפור במדדים העסקיים. יכול להיות שהצוות שלכם יפתח מודל עם מדדים מרשימים, אבל התחזיות של המודל לא ישפרו את המדד העסקי.
כשמרוצים מאיכות החיזוי של המודל, מנסים להבין איך המדדים של המודל משפיעים על המדד העסקי. בדרך כלל, צוותים יפרסו את המודל ל-1% מהמשתמשים ואז יעקבו אחרי המדד העסקי.
לדוגמה, נניח שהצוות שלכם מפתח מודל להגדלת ההכנסות על ידי חיזוי של נטישת לקוחות. באופן תיאורטי, אם אפשר לחזות אם לקוח מסוים צפוי לעזוב את הפלטפורמה, אפשר לעודד אותו להישאר.
הצוות שלכם יוצר מודל עם איכות חיזוי של 95% ובודק אותו במדגם קטן של משתמשים. עם זאת, ההכנסות לא גדלות. שיעור נטישת הלקוחות דווקא עולה. הנה כמה הסברים אפשריים:
התחזיות לא מתרחשות מספיק מוקדם כדי שאפשר יהיה לפעול לפיהן. המודל יכול לחזות נטישת לקוחות רק בטווח של שבעה ימים, וזה לא מספיק זמן כדי להציע תמריצים שישאירו אותם בפלטפורמה.
תכונות לא מלאות. יכול להיות שגורמים אחרים תורמים לנטישת הלקוחות שלא נכללו במערך נתוני האימון.
הסף לא גבוה מספיק. יכול להיות שהמודל צריך להיות בעל איכות חיזוי של 97% ומעלה כדי שיהיה שימושי.
בדוגמה הפשוטה הזו מודגשות שתי הנקודות:
- חשוב לבצע בדיקות מוקדמות של המשתמשים כדי להוכיח (ולהבין) את הקשר בין מדדי המודל לבין המדדים העסקיים.
- מדדים מצוינים של מודל לא מבטיחים שיפור במדדים העסקיים.
AI גנרטיבי
הערכת הפלט של AI גנרטיבי מציבה אתגרים ייחודיים. במקרים רבים, כמו פלט פתוח או יצירתי, קשה יותר להעריך את הפלט מאשר במקרים של פלט מסורתי של למידת מכונה.
אפשר למדוד ולהעריך מודלים של שפה גדולה (LLM) באמצעות מגוון מדדים. המדדים שבהם כדאי להשתמש כדי להעריך את המודל תלויים בתרחיש לדוגמה.
חשוב לזכור
אל תבלבלו בין הצלחת המודל לבין הצלחת העסק. במילים אחרות, מודל עם מדדים מצוינים לא מבטיח הצלחה עסקית.
מהנדסים מיומנים רבים יכולים ליצור מודלים עם מדדים מרשימים. בדרך כלל, הבעיה היא לא באימון של מודל טוב מספיק. אלא שהמודל לא משפר את מדד הביצועים העסקי. פרויקט ML עלול להיכשל אם אין התאמה בין מדדים עסקיים למדדים של המודל.