נתונים מספריים מתועדים בדרך כלל באמצעות כלים מדעיים או מדידות אוטומטיות. מצד שני, נתונים קטגוריים הם לרוב בסיווג לפי בני אדם או לפי מודלים של למידת מכונה (ML). מי מחליט על קטגוריות ותוויות, והאופן שבו הם מקבלים את ההחלטות האלה, משפיעים על והמהימנות והיעילות של הנתונים האלה.
מדרגים אנושיים
לרוב, נתונים שתויגו באופן ידני על ידי בני אדם מכונים תוויות זהב, והוא נחשב למבוקש יותר מנתונים שתויגו בתווית עבור מודלים לאימון, בזכות איכות נתונים טובה יותר יחסית.
זה לא בהכרח אומר שקבוצה כלשהי של נתונים שתויגו על ידי בני אדם היא באיכות גבוהה. בשלב הזה יכולים להיות טעויות אנוש, דעות קדומות וזדונות איסוף הנתונים או במהלך הניקוי והעיבוד של הנתונים. חיפוש לפני האימון.
כל שני בני אדם עשויים לתייג את אותה דוגמה באופן שונה. ההבדל בין מדרגים אנושיים נקרא שיעור בין מדרגים ההסכם. אפשר לקבל מושג של השונות במדרגים דעות באמצעות מספר מדרגים לדוגמה, ומודדים את ההסכם בין המדרגים.
מדרגי מכונות
נתונים שתויגו באמצעות תווית מכונה, כאשר הקטגוריות נקבעות באופן אוטומטי לפי יותר מודלים של סיווג, שנקראים בדרך כלל תוויות כסף. יכולים להיות הבדלים משמעותיים באיכות הנתונים עם תווית המכונה. חשוב לבדוק את המידע לא רק כדי לוודא שהוא מדויק והטיות, אלא גם להפרות של היגיון בריא, מציאות וכוונה. עבור למשל, אם מודל של ראייה ממוחשבת מסמן בטעות תמונה צ'יוואווה בתור מאפין, או תמונה של מאפין בתור צ'יוואווה, מודלים שמאומנת על הנתונים המתויגים להיות באיכות נמוכה יותר.
באופן דומה, מנתח סנטימנטים שמדרג מילים ניטרליות בציון 0.25-, כאשר 0.0 הוא ערך ניטרלי, ייתכן שהוא נותן ניקוד לכל המילים עם הטיה שלילית נוספת שלא קיים בפועל בנתונים. גלאי רעילות רגיש מדי עלול לסמן באופן שקרי הצהרות ניטרליות רבות כרעילות. נסו להבין או על הטיות או הטיות של תוויות מכונה והערות בנתונים שלכם. להתאמן עליו.
מידות גבוהות
לרוב, נתונים קטגוריים יוצרים וקטורים של תכונות בעלי ממדים גבוהים; כלומר, ויוצר וקטורים של מאפיינים שיש בהם מספר גדול של יסודות. המידות הגבוהות מגדילה את עלויות האימון והופכות את האימון קשה. מהסיבות האלה, מומחי למידת מכונה מחפשים בדרך כלל דרכים לצמצם את של מימדים לפני האימון.
לנתונים בשפה טבעית, השיטה העיקרית לצמצום הממדים היא כדי להמיר וקטורים של מאפיינים לווקטורים של הטמעה. בקטע הזה מתואר מודול ההטמעה בהמשך בקורס הזה.