Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

מערכי נתונים: תוויות

בקטע הזה נתמקד בתוויות.

תוויות ישירות לעומת תוויות של שרת proxy

כדאי להשתמש בשני סוגים שונים של תוויות:

תוויות ישירות, שהן תוויות זהות לחיזוי שהמודל מנסה לבצע. כלומר, התחזית שהמודל מנסה ליצור מוצגת בדיוק כעמודה במערך הנתונים. לדוגמה, עמודה בשם bicycle owner תהיה תווית ישירה למודל סיווג בינארי שמנבא אם לאדם יש אופניים או לא.
תוויות פרוקסי, שהן תוויות דומות – אבל לא זהות – לחיזוי שהמודל מנסה לבצע. לדוגמה, אדם שנרשם למינוי למגזין Bicycle Bizarre כנראה – אבל לא בהכרח – מחזיק באופניים.

בדרך כלל עדיף להשתמש בתוויות ישירות מאשר בתוויות פרוקסי. אם מערך הנתונים מספק תווית ישירה אפשרית, כדאי להשתמש בה. עם זאת, לרוב התוויות הישירות לא זמינות.

תוויות proxy הן תמיד פשרה – קירוב לא מושלם של תווית ישירה. עם זאת, חלק מהתוויות של ה-proxy הן קירוב מספיק טוב כדי להיות שימושיות. התועלת של מודלים שמשתמשים בתוויות proxy תלויה במידת הקשר בין תווית ה-proxy לבין החיזוי.

כדאי לזכור שכל תווית צריכה להיות מיוצגת כמספר נקודה צפה, בדומה לווקטור התכונות (כי למידת מכונה היא בעצם אוסף של פעולות מתמטיות). לפעמים יש תווית ישירה אבל אי אפשר לייצג אותה בקלות כמספר נקודה צפה. במקרה כזה, צריך להשתמש בתווית proxy.

תרגיל: בדיקת ההבנה

החברה שלכם רוצה לבצע את הפעולות הבאות:

שליחת שוברי הנחה בדואר ("קבלו 15% הנחה על קסדה חדשה לאופניים") לבעלי אופניים.

לכן, המודל צריך:

לנבא לאילו אנשים יש אופניים.

לצערנו, מערך הנתונים לא מכיל עמודה בשם bike owner. עם זאת, מערך הנתונים מכיל עמודה בשם recently bought a bicycle.

האם recently bought a bicycle היא תווית טובה או גרועה לתיאור המודל הזה?

תווית טובה של שרת proxy

העמודה recently bought a bicycle היא תווית proxy טובה יחסית. בסופו של דבר, לרוב האנשים שקונים אופניים יש כבר אופניים. עם זאת, כמו כל תוויות הפרוקסי, גם תוויות טובות מאוד,

recently bought a
            bicycle

לא מושלמת. בסופו של דבר, לא תמיד האדם שקונה פריט הוא האדם שמשתמש בו (או הבעלים שלו). לדוגמה, לפעמים אנשים קונים אופניים כמתנה.

תווית לא טובה של שרת proxy

כמו כל תוויות הפרוקסי, התווית recently bought a bicycle לא מושלמת (יש אופניים שנקנים כמתנות וניתנים לאנשים אחרים). עם זאת, recently bought a bicycle עדיין מהווה אינדיקטור טוב יחסית לכך שלמישהו יש אופניים.

נתונים שנוצרו על ידי בני אדם

חלק מהנתונים נוצרו על ידי בני אדם, כלומר אדם אחד או יותר בודקים מידע מסוים ומספקים ערך, בדרך כלל עבור התווית. לדוגמה, מטאורולוג אחד או יותר יכולים לבחון תמונות של השמיים ולזהות סוגי עננים.

לחלופין, חלק מהנתונים נוצרים באופן אוטומטי. כלומר, תוכנה (יכול להיות שזה מודל אחר של למידת מכונה) קובעת את הערך. לדוגמה, מודל למידת מכונה יכול לבחון תמונות של שמיים ולזהות באופן אוטומטי את סוגי העננים.

בקטע הזה נבחן את היתרונות והחסרונות של נתונים שנוצרו על ידי בני אדם.

היתרונות

בודקים אנושיים יכולים לבצע מגוון רחב של משימות שגם מודלים מתוחכמים של למידת מכונה עשויים להתקשות בהן.
התהליך מחייב את הבעלים של מערך הנתונים לפתח קריטריונים ברורים ועקביים.

חסרונות

בדרך כלל משלמים למדרגים אנושיים, ולכן נתונים שנוצרו על ידי בני אדם יכולים להיות יקרים.
טועים לפעמים, זה אנושי. לכן, יכול להיות שכמה בודקים אנושיים יצטרכו להעריך את אותם נתונים.

כדי להבין מה הצרכים שלכם, כדאי לענות על השאלות הבאות:

מה רמת המיומנות הנדרשת מהמעריכים? (לדוגמה, האם המעריכים צריכים לדעת שפה מסוימת? Do you need linguists for dialogue or NLP applications?)
כמה דוגמאות מתויגות צריך? למתי הם נחוצים לך?
מה התקציב שלך?

תמיד צריך לבדוק שוב את הדירוגים של המדרגים האנושיים. לדוגמה, אפשר לתייג 1, 000 דוגמאות בעצמכם ולראות איך התוצאות שלכם תואמות לתוצאות של בודקים אחרים. אם יש הבדלים, אל תניחו שהסיווגים שלכם הם הנכונים, במיוחד אם מדובר בשיפוט ערכי. אם בודקים אנושיים הכניסו שגיאות, כדאי להוסיף הוראות שיעזרו להם ולנסות שוב.

כדי לקבל מידע נוסף על נתונים שנוצרו על ידי בני אדם, לוחצים על סמל הפלוס.

בדיקה ידנית של הנתונים היא תרגול טוב, לא משנה איך השגתם את הנתונים. אנדריי קרפתי עשה את זה ב-ImageNet וכתב על החוויה.

אפשר לאמן את המודלים על שילוב של תוויות אוטומטיות ותוויות שנוצרו על ידי בני אדם. עם זאת, ברוב המקרים, לא כדאי להוסיף עוד קבוצה של תוויות שנוצרו על ידי בני אדם (שעלולות להתיישן) כי זה מייקר ומסבך את התחזוקה של רוב המודלים. עם זאת, לפעמים התוויות שנוצרו על ידי בני אדם יכולות לספק מידע נוסף שלא זמין בתוויות האוטומטיות.

מאפייני הנתונים (10 דקות)

מערכי נתונים לא מאוזנים (10 דקות)