קל לארגן דפים בעזרת אוספים
אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.
עצי תפוחים מניבים תערובת של פירות מתוקים וקטלניים.
אבל התפוחים בחנויות מכולת יוקרתיות מציגים פירות מושלמים ב-100%.
בין המטע למצרכים, מישהו מבלה זמן רב בהסרת מוצרים
את התפוחים הגרועים או לרסס קצת שעווה על התפוחים שניתן להציל.
כמהנדסי למידת מכונה תשקיעו כמויות עצומות של זמנכם
להשליך דוגמאות רעות ולנקות את הדוגמאות הבעייתיות.
גם כמה תפוחים גרועים יכולים להרוס מערך נתונים גדול.
הרבה דוגמאות במערכי נתונים הן לא אמינות בגלל אחד או יותר
את הבעיות הבאות:
קטגוריית הבעיה
דוגמה
ערכים שהושמטו
אדם שמבצע מפקד אוכלוסין לא מתעד את גילו של התושב.
דוגמאות כפולות
שרת מעלה את אותם יומנים פעמיים.
ערכי התכונות מחוץ לטווח.
בן אדם מקליד בטעות ספרה נוספת.
תוויות שגויות
מעריך אנושי מסמן בטעות תמונה של עץ אלון
מייפל.
תוכלו לכתוב תוכנה או סקריפט כדי לזהות כל אחת מהבעיות הבאות:
ערכים שהושמטו
דוגמאות כפולות
ערכי תכונות מחוץ לטווח
לדוגמה, מערך הנתונים הבא מכיל שישה ערכים חוזרים:
איור 15. ששת הערכים הראשונים חוזרים על עצמם.
דוגמה נוספת, נניח שטווח הטמפרטורות של תכונה מסוימת
בין 10 ל-30 מעלות, כולל. אבל תאונות קורות.
המדחום חשוף זמנית לשמש, מה שגורם לחריג חשוד טעות.
על התוכנית או הסקריפט שלך לזהות ערכי טמפרטורה נמוכים מ-10 ומעלה
מ-30:
איור 16. ערך מחוץ לטווח.
כשתוויות נוצרות על ידי כמה אנשים, מומלץ מבחינה סטטיסטית
כדי לקבוע אם כל המדרג יצר קבוצות שוות ערך של תוויות.
אולי אחד מהמדרגים היה גבוה יותר מהמדרגים האחרים, או השתמש בהם
קבוצה שונה של קריטריונים למתן ציונים?
לאחר הזיהוי, בדרך כלל "תיקון" דוגמאות שכוללות תכונות מזיקות
או תוויות שגויות על ידי הסרתם ממערך הנתונים או הקצאת הערכים שלהם.
פרטים נוספים זמינים במאמר
מאפייני הנתונים
בקטע של
מערכי נתונים, הכללה והתאמת יתר
של מודל טרנספורמר.
[null,null,["עדכון אחרון: 2024-08-13 (שעון UTC)."],[[["\u003cp\u003eLike sorting good apples from bad, ML engineers spend significant time cleaning data by removing or fixing bad examples to improve dataset quality.\u003c/p\u003e\n"],["\u003cp\u003eCommon data problems include omitted values, duplicate examples, out-of-range values, and incorrect labels, which can negatively impact model performance.\u003c/p\u003e\n"],["\u003cp\u003eYou can use programs or scripts to identify and handle data issues such as omitted values, duplicates, and out-of-range feature values by removing or correcting them.\u003c/p\u003e\n"],["\u003cp\u003eWhen multiple individuals label data, it's important to check for consistency and identify potential biases to ensure label quality.\u003c/p\u003e\n"],["\u003cp\u003eAddressing data quality issues before training a model leads to better model accuracy and overall performance.\u003c/p\u003e\n"]]],[],null,["# Numerical data: Scrubbing\n\nApple trees produce a mixture of great fruit and wormy messes.\nYet the apples in high-end grocery stores display 100% perfect fruit.\nBetween orchard and grocery, someone spends significant time removing\nthe bad apples or spraying a little wax on the salvageable ones.\nAs an ML engineer, you'll spend enormous amounts of your time\ntossing out bad examples and cleaning up the salvageable ones.\nEven a few bad apples can spoil a large dataset.\n\nMany examples in datasets are unreliable due to one or more of the\nfollowing problems:\n\n| Problem category | Example |\n|------------------------------|------------------------------------------------------------------|\n| Omitted values | A census taker fails to record a resident's age. |\n| Duplicate examples | A server uploads the same logs twice. |\n| Out-of-range feature values. | A human accidentally types an extra digit. |\n| Bad labels | A human evaluator mislabels a picture of an oak tree as a maple. |\n\nYou can write a program or script to detect any of the following problems:\n\n- Omitted values\n- Duplicate examples\n- Out-of-range feature values\n\nFor example, the following dataset contains six repeated values:\n**Figure 15.** The first six values are repeated.\n\nAs another example, suppose the temperature range for a certain feature must\nbe between 10 and 30 degrees, inclusive. But accidents happen---perhaps a\nthermometer is temporarily exposed to the sun which causes a bad outlier.\nYour program or script must identify temperature values less than 10 or greater\nthan 30:\n**Figure 16.** An out-of-range value.\n\nWhen labels are generated by multiple people, we recommend statistically\ndetermining whether each rater generated equivalent sets of labels.\nPerhaps one rater was a harsher grader than the other raters or used\na different set of grading criteria?\n\nOnce detected, you typically \"fix\" examples that contain bad features\nor bad labels by removing them from the dataset or imputing their values.\nFor details, see the\n[Data characteristics](/machine-learning/crash-course/overfitting/data-characteristics)\nsection of the\n[Datasets, generalization, and overfitting](/machine-learning/crash-course/overfitting)\nmodule. \n[Help Center](https://support.google.com/machinelearningeducation)"]]