מערכי נתונים: תוויות

בקטע הזה נתמקד בתוויות.

תוויות ישירות לעומת תוויות של שרת proxy

כדאי להשתמש בשני סוגים שונים של תוויות:

  • תוויות ישירות, שהן תוויות זהות לחיזוי שהמודל מנסה לבצע. כלומר, התחזית שהמודל מנסה ליצור מוצגת בדיוק כעמודה במערך הנתונים. לדוגמה, עמודה בשם bicycle owner תהיה תווית ישירה למודל סיווג בינארי שמנבא אם לאדם יש אופניים או לא.
  • תוויות פרוקסי, שהן תוויות שדומות לתחזית שהמודל מנסה ליצור, אבל לא זהות לה. לדוגמה, אדם שנרשם למינוי למגזין Bicycle Bizarre כנראה – אבל לא בהכרח – מחזיק באופניים.

בדרך כלל, תוויות ישירות עדיפות על תוויות של שרת proxy. אם מערך הנתונים מספק תווית ישירה אפשרית, כדאי להשתמש בה. עם זאת, לרוב התוויות הישירות לא זמינות.

תוויות proxy הן תמיד פשרה – קירוב לא מושלם של תווית ישירה. עם זאת, חלק מהתוויות של ה-proxy הן קירובים מספיק טובים כדי להיות שימושיים. התועלת של מודלים שמשתמשים בתוויות proxy תלויה במידת הקשר בין תווית ה-proxy לבין החיזוי.

חשוב לזכור שכל תווית צריכה להיות מיוצגת כמספר נקודה צפה (floating-point number) בווקטור התכונות (כי למידת מכונה היא בעצם שילוב עצום של פעולות מתמטיות). לפעמים יש תווית ישירה, אבל אי אפשר לייצג אותה בקלות כמספר נקודה צפה בווקטור התכונות. במקרה כזה, צריך להשתמש בתווית proxy.

תרגיל: בדיקת ההבנה

החברה שלכם רוצה לבצע את הפעולות הבאות:

שליחת שוברי הנחה בדואר ("קבלו 15% הנחה על קסדה חדשה לאופניים") לבעלי אופניים.

לכן, המודל צריך:

לנבא לאילו אנשים יש אופניים.

לצערנו, מערך הנתונים לא מכיל עמודה בשם bike owner. עם זאת, מערך הנתונים מכיל עמודה בשם recently bought a bicycle.

האם recently bought a bicycle היא תווית טובה או גרועה לתיאור המודל הזה?
תווית טובה של שרת proxy
העמודה recently bought a bicycle היא תווית proxy טובה יחסית. בסופו של דבר, לרוב האנשים שקונים אופניים יש כבר אופניים. עם זאת, כמו כל תוויות ה-proxy, גם תוויות טובות מאוד, recently bought a bicycle לא מושלמת. בסופו של דבר, לא תמיד האדם שקונה פריט הוא האדם שמשתמש בו (או הבעלים שלו). לדוגמה, לפעמים אנשים קונים אופניים כמתנה.
תווית לא טובה של שרת proxy
כמו כל תוויות הפרוקסי, התווית recently bought a bicycle לא מושלמת (יש אופניים שנקנים כמתנות וניתנים לאנשים אחרים). עם זאת, recently bought a bicycle עדיין מהווה אינדיקטור טוב יחסית לכך שלמישהו יש אופניים.

נתונים שנוצרו על ידי בני אדם

חלק מהנתונים נוצרו על ידי בני אדם, כלומר, אדם אחד או יותר בודקים מידע מסוים ומספקים ערך, בדרך כלל עבור התווית. לדוגמה, יכול להיות שמטאורולוג אחד או יותר יבדקו תמונות של השמיים ויזהו סוגי עננים.

לחלופין, חלק מהנתונים נוצרים באופן אוטומטי. כלומר, תוכנה (יכול להיות שמדובר במודל אחר של למידת מכונה) קובעת את הערך. לדוגמה, מודל למידת מכונה יכול לבחון תמונות של שמיים ולזהות באופן אוטומטי את סוגי העננים.

בקטע הזה נבחן את היתרונות והחסרונות של נתונים שנוצרו על ידי בני אדם.

היתרונות

  • בודקים אנושיים יכולים לבצע מגוון רחב של משימות שגם מודלים מתוחכמים של למידת מכונה עשויים להתקשות בהן.
  • התהליך מחייב את הבעלים של מערך הנתונים לפתח קריטריונים ברורים ועקביים.

חסרונות

  • בדרך כלל משלמים למדרגים אנושיים, ולכן נתונים שנוצרו על ידי בני אדם יכולים להיות יקרים.
  • טועים לפעמים, זה אנושי. לכן, יכול להיות שכמה בודקים אנושיים יצטרכו להעריך את אותם נתונים.

כדי להבין מה הצרכים שלכם, כדאי לענות על השאלות הבאות:

  • מה רמת המיומנות הנדרשת מהמעריכים? (לדוגמה, האם המעריכים צריכים לדעת שפה מסוימת? Do you need linguists for dialogue or NLP applications?)
  • כמה דוגמאות מתויגות צריך? למתי הם נחוצים לך?
  • מה התקציב שלך?

תמיד צריך לבדוק שוב את הדירוגים של המדרגים האנושיים. לדוגמה, אפשר לתייג 1, 000 דוגמאות בעצמך ולראות איך התוצאות שלך תואמות לתוצאות של בודקים אחרים. אם יש הבדלים, אל תניחו שהסיווגים שלכם הם הנכונים, במיוחד אם מדובר בשיפוט ערכי. אם בודקים אנושיים גרמו לשגיאות, כדאי להוסיף הוראות שיעזרו להם ולנסות שוב.