דף זה תורגם על ידי Cloud Translation API.

מדידת ההצלחה

איך תדעו אם הטמעת למידת המכונה שלכם הייתה שווה את העבודה? מתי כדאי להתחיל לחגוג: מיד אחרי שהמודל עובר לייצור ומפעיל את החיזוי הראשון, או רק אחרי שמדד עסקי כמותי מתחיל להתקדם בכיוון הנכון?

לפני שמתחילים פרויקט, חשוב להגדיר את מדדי ההצלחה ולהסכים על התוצרים. עליכם להגדיר את שני סוגי המדדים הבאים ולעקוב אחריהם:

מדדים עסקיים. מדדים לכמת ביצועים עסקיים, כמו הכנסה, שיעור קליקים או מספר המשתמשים.
מדדי המודל. מדדים לכימות איכות המודל, לדוגמה Root Mean Squared Error, דיוק או אחזור.

מדדים עסקיים

המדדים העסקיים הם החשובים ביותר. הם הסיבה שאתם משתמשים בלמידת מכונה: אתם רוצים לשפר את העסק.

מתחילים עם מדדים שאפשר לכמת לגבי מוצרים או עסקים. המדד צריך להיות מפורט וממוקד ככל האפשר. דוגמאות למדדים עסקיים ממוקדים שניתן לכימות:

הפחתת עלויות החשמל החודשיות של מרכז נתונים ב-30 אחוזים.
הגדלת ההכנסה מהמלצות על מוצרים ב-12 אחוזים.
הגדלת שיעור הקליקים ב-9 אחוזים.
הבעת הסכמה לעלייה של 20 אחוזים בתחושת הביטחון של הלקוחות בעזרת סקרי הצטרפות.
הארך את זמן הביקור הממוצע ב-4 אחוזים.

מעקב אחר מדדים עסקיים

אם אתם לא עוקבים אחרי המדד העסקי שרוצים לשפר, כדאי להתחיל בהטמעת התשתית כדי לעשות זאת. לא הגיוני להגדיר יעד להגדלת שיעור הקליקים ב-15% אם אתם לא מודדים כרגע שיעורי קליקים.

חשוב מכך, עליכם לוודא שאתם מודדים את המדד המתאים לבעיה שלכם. לדוגמה, אל תבזבזו זמן בכתיבת כלי למעקב אחר שיעורי קליקים, אם המדד החשוב יותר יכול להיות הכנסה מהמלצות.

עם התקדמות הפרויקט, תבינו אם מדד היעד להצלחה הוא יעד מציאותי. במקרים מסוימים, יכול להיות שתקבעו שהפרויקט לא ישים בגלל מדדי ההצלחה שהוגדרו.

מדדי המודל

מתי כדאי להעביר את המודל לייצור? מתי הערך של AUC הוא ערך מסוים? כשהמודל מגיע לציון F1 מסוים? התשובה לשאלה הזו תלויה בסוג הבעיה שאתם פותרים ובאיכות החיזוי שלדעתכם דרושה לכם כדי לשפר את המדד העסקי.

כדי להחליט לגבי אילו מדדים להעריך את המודל, מומלץ:

קבע מדד יחיד לביצוע אופטימיזציה. לדוגמה, אפשר להעריך מודלים של סיווג בהתאם למגוון מדדים (AUC, AUC-PR וכו'). בחירת המודל הטוב ביותר יכולה להיות מאתגרת כאשר מדדים שונים מעדיפים מודלים שונים. לכן, הסכימו על מדד אחד בלבד שעל פיו תעריכו את המודלים.
קובעים את יעדי ההסכמה שצריך לעמוד בהם. יש הבדל בין יעדי קבלה שונים ממדדים של הערכת מודלים. הן מתייחס ליעדים שהמודל צריך לעמוד בהם כדי להיחשב כמקובלים בתרחיש לדוגמה המיועד. לדוגמה, יעד קביל יכול להיות "הפלט השגוי קטן מ-0.1%" או "היכולת לזכור את חמש הקטגוריות המובילות גדולה מ-97%".

לדוגמה, נניח שמודל סיווג בינארי מזהה עסקאות שמקורן בתרמית. יכול להיות שמדד האופטימיזציה שלו ייזכר, אבל יעד הקבלה שלו יכול להיות מדויק. במילים אחרות, אנחנו נותנים עדיפות לגבי זיכרון (זיהוי נכון של הונאות ברוב המקרים) תוך שמירה על דיוק בערך מסוים או גבוה ממנו (זיהוי של טרנזקציות אמיתיות שמקורן בתרמית).

הקשר בין מדדי המודל למדדים עסקיים

באופן בסיסי, אתם מנסים לפתח מודל שאיכות החיזוי שלו קשורה באופן מקרי למדד העסקי שלכם. מדדי מודל מעולים לא בהכרח מרמזים על שיפור במדדים עסקיים. הצוות שלכם עשוי לפתח מודל עם מדדים מרשימים, אבל יכול להיות שהתחזיות של המודל לא ישפרו את המדד העסקי.

כשתהיו מרוצים מאיכות החיזוי של המודל, נסו לקבוע איך המדדים שלו משפיעים על המדד העסקי. בדרך כלל צוותים יפרוס את המודל אצל 1% מהמשתמשים ולאחר מכן יעקבו אחר המדד העסקי.

לדוגמה, נניח שהצוות שלכם מפתח מודל להגדלת ההכנסות על ידי חיזוי נטישה של לקוחות. באופן כללי, אם אפשר לחזות אם לקוח צפוי לצאת מהפלטפורמה או לא, אפשר לעודד אותו להישאר בה.

הצוות שלכם יוצר מודל עם איכות חיזוי של 95% ובודק אותו על מדגם קטן של משתמשים. עם זאת, ההכנסה לא גדלה. למעשה, נטישת הלקוחות גדלה. הנה כמה הסברים אפשריים:

התחזיות לא מתרחשות בשלב מוקדם מספיק כדי שניתן יהיה לפעול לפיהן. המודל יכול לחזות נטישת לקוחות רק בפרק זמן של שבעה ימים, שזה לא מספיק כדי להציע תמריצים כדי לשמר את המשתמשים בפלטפורמה.
תכונות חלקיות. אולי גורמים אחרים תורמים לנטישה של לקוחות שלא נכללו במערך הנתונים לאימון.
הסף לא גבוה מספיק. יכול להיות שאיכות החיזוי של המודל תהיה 97% ומעלה כדי שהוא יהיה שימושי.

דוגמה פשוטה זו מדגישה את שתי הנקודות:

חשוב לבצע בדיקות משתמשים מוקדמות כדי להוכיח (ולהבין) את הקשר בין מדדי המודל למדדים העסקיים.
מדדי מודל טובים לא מבטיחים מדדים עסקיים משופרים.

Generative AI

הערכת התפוקה של הבינה המלאכותית הגנרטיבית מציבה אתגרים ייחודיים. במקרים רבים, כמו פלט בפורמט פתוח או קריאייטיב, קשה יותר להעריך פלטים של למידת מכונה מסורתית.

אפשר למדוד מודלי שפה גדולים ולהעריך אותם ביחס למגוון מדדים. קביעת המדדים שעליהם כדאי להעריך את המודל תלויה בתרחיש לדוגמה שלכם. אפשר לקרוא מידע נוסף במאמר מבוא להערכת LLMs.

חשוב לזכור

אין לבלבל בין הצלחה של מודל להצלחה עסקית. במילים אחרות, מודל עם מדדים מצוינים לא מבטיח הצלחה עסקית.

מהנדסים מנוסים רבים יכולים ליצור מודלים עם מדדים מרשימים. אימון מודל מספיק טוב הוא בדרך כלל לא הבעיה. אלא שהמודל לא משפר את המדד העסקי. פרויקט למידת מכונה יכול להגיע לכשל עקב אי-התאמה בין המדדים העסקיים למדדי המודל.

בחינת ההבנה

תכנון

ניסויים

AUC	AUC-PR
סיווג בינארי	ציון F1
מדד	דיוק
אחזור	שגיאה בריבוע מסוג 'root'