آماده سازی داده ها

این بخش مراحل آماده‌سازی داده‌ها را بررسی می‌کند که بیشترین ارتباط را با خوشه‌بندی از ماژول کار با داده‌های عددی در آموزش ماشینی Crash Course دارد.

در خوشه بندی، شباهت بین دو مثال را با ترکیب تمام داده های ویژگی برای آن نمونه ها در یک مقدار عددی محاسبه می کنید. این امر مستلزم آن است که ویژگی‌ها مقیاس یکسانی داشته باشند، که می‌تواند با عادی‌سازی، تبدیل یا ایجاد چندک انجام شود. اگر می‌خواهید داده‌های خود را بدون بازرسی توزیع آن تغییر دهید، می‌توانید به‌طور پیش‌فرض چندک‌ها را انتخاب کنید.

عادی سازی داده ها

می‌توانید داده‌های چند ویژگی را با نرمال‌سازی داده‌ها به یک مقیاس تبدیل کنید.

نمرات Z

هر زمان که یک مجموعه داده تقریباً شبیه توزیع گاوسی می بینید، باید امتیاز z برای داده ها را محاسبه کنید. نمرات Z تعداد انحرافات استاندارد یک مقدار از میانگین است. هنگامی که مجموعه داده به اندازه کافی برای چندک نیست، می توانید از امتیازهای z استفاده کنید.

برای مرور مراحل به مقیاس Z-score مراجعه کنید.

در اینجا تصویری از دو ویژگی یک مجموعه داده قبل و بعد از مقیاس بندی z-score ارائه شده است:

دو نمودار که داده های ویژگی را قبل و بعد از عادی سازی مقایسه می کند
شکل 1: مقایسه داده های ویژگی قبل و بعد از نرمال سازی.

در مجموعه داده غیرعادی سمت چپ، ویژگی 1 و ویژگی 2، به ترتیب نمودار روی محور x و y، مقیاس یکسانی ندارند. در سمت چپ، مثال قرمز به رنگ آبی نزدیکتر یا بیشتر شبیه به زرد ظاهر می شود. در سمت راست، پس از مقیاس بندی z-score، ویژگی 1 و ویژگی 2 دارای مقیاس یکسانی هستند و مثال قرمز نزدیکتر به مثال زرد ظاهر می شود. مجموعه داده نرمال شده اندازه گیری دقیق تری از شباهت بین نقاط را ارائه می دهد.

ثبت تبدیل می شود

هنگامی که یک مجموعه داده کاملاً با توزیع قانون توان مطابقت دارد، جایی که داده ها به شدت در کمترین مقادیر جمع شده اند، از تبدیل log استفاده کنید. برای مرور مراحل، به مقیاس گذاری گزارش مراجعه کنید.

در اینجا یک تجسم از مجموعه داده قدرت-قانون قبل و بعد از تبدیل گزارش است:

نموداری با اکثریت داده ها در پایین ترین سطح
شکل 2: توزیع قانون توان.
نموداری که توزیع نرمال (گاوسی) را نشان می دهد
شکل 3: تبدیل لاگ شکل 2.

قبل از مقیاس بندی log (شکل 2)، مثال قرمز بیشتر شبیه زرد به نظر می رسد. پس از مقیاس بندی log (شکل 3)، قرمز بیشتر شبیه آبی به نظر می رسد.

کوانتیل ها

زمانی که مجموعه داده با توزیع شناخته شده مطابقت نداشته باشد، پیوند داده ها در چندک به خوبی کار می کند. برای مثال این مجموعه داده را در نظر بگیرید:

نموداری که توزیع داده را قبل از هر گونه پیش پردازش نشان می دهد
شکل 4: توزیع غیرقابل طبقه بندی قبل از هر گونه پیش پردازش.

به طور شهودی، دو مثال اگر تنها چند مثال بین آنها قرار گیرد، صرف نظر از مقادیرشان، شبیه‌تر هستند، و اگر مثال‌های زیادی بین آنها قرار گیرد، متفاوت‌تر هستند. تجسم بالا مشاهده تعداد کل نمونه هایی را که بین قرمز و زرد یا بین قرمز و آبی قرار می گیرند دشوار می کند.

این درک از شباهت را می توان با تقسیم مجموعه داده ها به چندک ها ، یا فواصل زمانی که هر کدام شامل تعداد مساوی مثال است، و اختصاص شاخص کمیت به هر مثال نشان داد. برای مرور مراحل به سطل Quantile مراجعه کنید.

در اینجا توزیع قبلی به چندک تقسیم شده است، که نشان می‌دهد رنگ قرمز یک درصد با زرد و سه چندک با آبی فاصله دارد:

نموداری که داده ها را پس از تبدیل به چندک نشان می دهد. خط نشان دهنده 20 بازه است.]
شکل 5: توزیع در شکل 4 پس از تبدیل به 20 چندک.

شما می توانید هر عدد \(n\) از چندک را انتخاب کنید. با این حال، برای اینکه چندک ها به طور معنی داری داده های زیربنایی را نشان دهند، مجموعه داده شما باید حداقل دارای نمونه های\(10n\) باشد. اگر داده کافی ندارید، به جای آن نرمال کنید.

درک خود را بررسی کنید

برای سؤالات زیر، فرض کنید داده های کافی برای ایجاد چندک دارید.

سوال یک

نموداری که سه توزیع داده را نمایش می دهد
چگونه باید توزیع داده های نشان داده شده در نمودار قبلی را پردازش کنید؟
چندک ایجاد کنید.
درست. از آنجایی که توزیع با توزیع داده های استاندارد مطابقت ندارد، باید به طور پیش فرض چندک ها را ایجاد کنید.
عادی کردن.
شما معمولاً داده ها را عادی می کنید اگر:
  • توزیع داده ها گاوسی است.
  • شما بینشی نسبت به آنچه که داده ها به صورت واقعی نشان می دهند دارید که نشان می دهد داده ها نباید به صورت غیرخطی تبدیل شوند.
هیچ کدام از این موارد در اینجا صدق نمی کند. توزیع داده گاوسی نیست زیرا متقارن نیست. و شما نمی دانید که این ارزش ها در دنیای واقعی چه چیزی را نشان می دهند.
تبدیل لاگ.
این توزیع قانون قدرت کامل نیست، بنابراین از تبدیل log استفاده نکنید.

سوال دو

نموداری که سه توزیع داده را نمایش می دهد
چگونه این توزیع داده را پردازش می کنید؟
عادی کردن.
درست. این یک توزیع گاوسی است.
چندک ایجاد کنید.
غلط. از آنجایی که این یک توزیع گاوسی است، تبدیل ترجیحی نرمال سازی است.
تبدیل لاگ.
غلط. فقط یک تبدیل ورود به سیستم را برای توزیع‌های قانون قدرت اعمال کنید.

داده های از دست رفته

اگر مجموعه داده شما دارای نمونه هایی با مقادیر گمشده برای یک ویژگی خاص است، اما این نمونه ها به ندرت رخ می دهند، می توانید این نمونه ها را حذف کنید. اگر این مثال‌ها مکرراً رخ می‌دهند، می‌توانید آن ویژگی را به طور کلی حذف کنید یا می‌توانید مقادیر گمشده را از نمونه‌های دیگر با استفاده از یک مدل یادگیری ماشینی پیش‌بینی کنید. به عنوان مثال، می‌توانید داده‌های عددی گمشده را با استفاده از یک مدل رگرسیون آموزش‌دیده بر روی داده‌های ویژگی موجود نسبت دهید .