درختان سیب ترکیبی از میوه های عالی و آشفتگی های کرمی تولید می کنند. با این حال، سیبهای موجود در فروشگاههای مواد غذایی گرانقیمت، میوهای 100% عالی را نشان میدهند. بین باغ و خواربار فروشی، شخصی زمان زیادی را صرف حذف سیب های بد یا پاشیدن کمی موم روی سیب های قابل نجات می کند. به عنوان یک مهندس ML، شما مقدار زیادی از زمان خود را صرف بیرون انداختن نمونه های بد و پاکسازی نمونه های قابل نجات خواهید کرد. حتی چند سیب بد می تواند یک مجموعه داده بزرگ را خراب کند.
بسیاری از نمونه ها در مجموعه داده ها به دلیل یک یا چند مورد از مشکلات زیر قابل اعتماد نیستند:
دسته مشکل | مثال |
---|---|
مقادیر حذف شده | سرشماری کننده سن ساکنین را ثبت نمی کند. |
نمونه های تکراری | یک سرور همان گزارش ها را دو بار آپلود می کند. |
مقادیر ویژگی خارج از محدوده | یک انسان به طور تصادفی یک رقم اضافی تایپ می کند. |
برچسب های بد | یک ارزیاب انسانی تصویری از درخت بلوط را به اشتباه به عنوان افرا برچسب گذاری می کند. |
شما می توانید یک برنامه یا اسکریپت بنویسید تا هر یک از مشکلات زیر را شناسایی کنید:
- مقادیر حذف شده
- نمونه های تکراری
- مقادیر ویژگی خارج از محدوده
به عنوان مثال، مجموعه داده زیر شامل شش مقدار تکرار شده است:
به عنوان مثال دیگر، فرض کنید محدوده دمایی برای یک ویژگی خاص باید بین 10 تا 30 درجه باشد. اما حوادثی اتفاق میافتد - شاید یک دماسنج به طور موقت در معرض نور خورشید قرار میگیرد که باعث میشود نقطه دورتر بدی ایجاد شود. برنامه یا اسکریپت شما باید مقادیر دمای کمتر از 10 یا بیشتر از 30 را شناسایی کند:
هنگامی که برچسبها توسط افراد متعددی تولید میشوند، توصیه میکنیم از نظر آماری تعیین کنید که آیا هر رتبهدهنده مجموعههای معادلی از برچسبها را تولید کرده است یا خیر. شاید یکی از ارزیابها نسبت به سایر ارزیابها درجهبندی سختتری داشته باشد یا از معیارهای درجهبندی متفاوتی استفاده کرده باشد؟
پس از شناسایی، معمولاً نمونههایی را که حاوی ویژگیهای بد یا برچسبهای بد هستند، با حذف آنها از مجموعه داده یا درج مقادیر آنها، «رفع» میکنید. برای جزئیات، به بخش ویژگی های داده در ماژول مجموعه داده ها، تعمیم و برازش بیش از حد مراجعه کنید.