נתונים קטגוריים: בעיות נפוצות

נתונים מספריים מתועדים לעיתים קרובות באמצעות כלים מדעיים או מדידות אוטומטיות. לעומת זאת, נתונים קטגוריים בדרך כלל מסווגים לפי בני אדם או לפי מודלים של למידת מכונה (ML). מי מחליט על קטגוריות ותוויות, ואיך הוא מקבל את ההחלטות האלה, משפיע על האמינות והתועלת של הנתונים.

בודקים אנושיים

נתונים שמתויגים באופן ידני על ידי בני אדם נקראים לרוב תוויות זהב, והם נחשבים עדיפים על נתונים שמתויגים על ידי מכונה לאימון מודלים, בגלל איכות הנתונים יחסית טובה יותר.

עם זאת, לא בטוח שכל קבוצת נתונים שסומנו על ידי בני אדם היא באיכות גבוהה. שגיאות אנוש, הטיה וכוונה זדונית יכולות להיכנס בשלב איסוף הנתונים או במהלך ניקוי הנתונים ועיבוד הנתונים. כדאי לבדוק אותם לפני האימון.

שני אנשים שונים עשויים לתייג את אותה דוגמה באופן שונה. ההבדל בין ההחלטות של מדרגים אנושיים נקרא הסכם בין תעריפים. כדי להבין את השונות בדעות של המדרגים, אפשר להשתמש במספר מדרגים לכל דוגמה ולמדוד את ההסכם בין המדרגים.

בודקי מכונות

נתונים שמתויגים על ידי מכונה, שבהם הקטגוריות נקבעות באופן אוטומטי על ידי מודל סיווג אחד או יותר, נקראים לרוב תוויות כסף. איכות הנתונים המתויגים על ידי מכונה יכולה להשתנות במידה רבה. בודקים לא רק את הדיוק וההטיות, אלא גם אם יש הפרות של השכל הישר, המציאות והכוונה. לדוגמה, אם מודל של ראייה ממוחשבת תייג בטעות תמונה של צ'יוואווה כמו מאפין, או תמונה של מאפינס בתור צ'יוואווה, האיכות של המודלים שאומנו על הנתונים האלה יהיו באיכות נמוכה יותר.

באופן דומה, ניתוח של סנטימנטים שמעניק למילים ניטרליות ציון של -0.25, כשהערך הנייטרלי הוא 0.0, עשוי להעניק לכל המילים הטיה שלילית נוספת שלא קיימת בפועל בנתונים. גלאי רעילות רגיש מדי עלול לסמן בטעות משפטים ניטרליים רבים כרעילים. כדאי לנסות להבין את האיכות וההטיות של תוויות המכונות וההערות שבנתונים לפני אימון הנתונים.

מאפיינים רבים

נתונים קטגוריים נוטים ליצור וקטורים של תכונות בעלי ממדים גבוהים. כלומר, וקטורים של מאפיינים עם מספר גדול של רכיבים. ככל שיש יותר מאפיינים, כך עלויות האימון גבוהות יותר והאימון קשה יותר. לכן, מומחים בתחום למידת המכונה מחפשים לעיתים קרובות דרכים לצמצם את מספר המאפיינים לפני האימון.

בנתונים בשפה טבעית, השיטה העיקרית לצמצום המאפיינים היא להמיר את וקטורי המאפיינים לוקטורי הטמעה. הנושא הזה נדון במודול ההטמעות בהמשך הקורס.