داده های عددی: مراحل اولیه

قبل از ایجاد بردارهای ویژگی، مطالعه داده های عددی را به دو روش توصیه می کنیم:

  • داده های خود را در نمودارها یا نمودارها تجسم کنید.
  • آماری در مورد داده های خود دریافت کنید.

داده های خود را تجسم کنید

نمودارها می توانند به شما در یافتن ناهنجاری ها یا الگوهای پنهان در داده ها کمک کنند. بنابراین، قبل از پرداختن به تجزیه و تحلیل، به داده های خود به صورت گرافیکی، چه به صورت نمودارهای پراکنده یا هیستوگرام، نگاه کنید. نمودارها را نه تنها در ابتدای خط لوله داده، بلکه در سراسر تبدیل داده ها مشاهده کنید. تجسم به شما کمک می کند تا به طور مستمر فرضیات خود را بررسی کنید.

توصیه می کنیم برای تجسم با پانداها کار کنید:

توجه داشته باشید که ابزارهای تجسم خاص برای فرمت های داده خاص بهینه شده اند. یک ابزار تجسمی که به شما در ارزیابی بافرهای پروتکل کمک می کند ممکن است نتواند به شما در ارزیابی داده های CSV کمک کند.

داده های خود را به صورت آماری ارزیابی کنید

فراتر از تجزیه و تحلیل بصری، ما همچنین توصیه می‌کنیم ویژگی‌ها و برچسب‌های بالقوه را به صورت ریاضی ارزیابی کنید و آمارهای اولیه را جمع‌آوری کنید:

  • میانگین و میانه
  • انحراف معیار
  • مقادیر در تقسیمات چارک: صدک 0، 25، 50، 75 و 100. صدک صفر حداقل مقدار این ستون است. صدک 100 حداکثر مقدار این ستون است. (صدک 50 درصد میانه است.)

موارد پرت را پیدا کنید

پرت مقداری است که از اکثر مقادیر دیگر در یک ویژگی یا برچسب فاصله دارد . نقاط پرت اغلب در آموزش مدل مشکل ایجاد می کنند، بنابراین یافتن نقاط پرت مهم است.

هنگامی که دلتای بین صدک های 0 و 25 به طور قابل توجهی با دلتای بین صدک های 75 و 100 تفاوت دارد، مجموعه داده احتمالاً حاوی مقادیر پرت است.

پرت ها می توانند در هر یک از دسته های زیر قرار گیرند:

  • پرت ناشی از اشتباه است. به عنوان مثال، ممکن است یک آزمایشگر به اشتباه یک صفر اضافی را وارد کرده باشد، یا شاید ابزاری که داده ها را جمع آوری می کند دچار مشکل شده است. شما به طور کلی نمونه های حاوی خطاهای پرت را حذف خواهید کرد.
  • نقطه پرت یک نقطه داده مشروع است، نه یک اشتباه . در این صورت، آیا مدل آموزش‌دیده شما در نهایت نیاز به استنباط خوب پیش‌بینی‌ها در مورد این نقاط پرت دارد؟
    • اگر بله، این موارد پرت را در مجموعه آموزشی خود نگه دارید. به هر حال، نقاط پرت در برخی ویژگی‌ها، گاهی اوقات منعکس کننده موارد پرت در برچسب هستند، بنابراین نقاط پرت در واقع می‌توانند به مدل شما کمک کنند تا پیش‌بینی‌های بهتری داشته باشد. مراقب باشید، پرت های شدید همچنان می تواند به مدل شما آسیب برساند.
    • اگر نه، نقاط پرت را حذف کنید یا از تکنیک‌های مهندسی ویژگی‌های تهاجمی‌تر مانند بریدن استفاده کنید.