مجموعه داده ها: تبدیل داده ها

مدل‌های یادگیری ماشینی فقط می‌توانند روی مقادیر ممیز شناور آموزش ببینند. با این حال، بسیاری از ویژگی های مجموعه داده ها به طور طبیعی مقادیر ممیز شناور نیستند . بنابراین، یکی از بخش های مهم یادگیری ماشین، تبدیل ویژگی های غیر ممیز شناور به نمایش های ممیز شناور است.

به عنوان مثال، فرض کنید street names یک ویژگی است. اغلب نام‌های خیابان‌ها رشته‌ای هستند، مانند «برادوی» یا «ویلاکازی». مدل شما نمی‌تواند در «برادوی» تمرین کند، بنابراین باید «برادوی» را به یک عدد ممیز شناور تبدیل کنید. ماژول Category Data نحوه انجام این کار را توضیح می دهد.

علاوه بر این، شما حتی باید اکثر ویژگی های ممیز شناور را تغییر دهید. این فرآیند تبدیل که نرمال سازی نامیده می شود، اعداد ممیز شناور را به یک محدوده محدود تبدیل می کند که آموزش مدل را بهبود می بخشد. ماژول داده های عددی نحوه انجام این کار را توضیح می دهد.

زمانی که داده‌های زیادی دارید نمونه بگیرید

برخی از سازمان ها دارای داده های فراوانی هستند.هنگامی که مجموعه داده حاوی نمونه های بسیار زیادی است، باید زیر مجموعه ای از نمونه ها را برای آموزش انتخاب کنید. در صورت امکان، زیرمجموعه ای را انتخاب کنید که بیشترین ارتباط را با پیش بینی های مدل شما دارد.

نمونه های حاوی PII را فیلتر کنید

مجموعه داده های خوب نمونه های حاوی اطلاعات شناسایی شخصی (PII) را حذف نمی کنند. این خط مشی به حفظ حریم خصوصی کمک می کند اما می تواند بر مدل تأثیر بگذارد.

برای اطلاعات بیشتر در مورد این موضوعات، ماژول ایمنی و حریم خصوصی را در ادامه دوره ببینید.