مدلهای یادگیری ماشینی فقط میتوانند روی مقادیر ممیز شناور آموزش ببینند. با این حال، بسیاری از ویژگی های مجموعه داده ها به طور طبیعی مقادیر ممیز شناور نیستند . بنابراین، یکی از بخش های مهم یادگیری ماشین، تبدیل ویژگی های غیر ممیز شناور به نمایش های ممیز شناور است.
به عنوان مثال، فرض کنید street names
یک ویژگی است. اغلب نامهای خیابانها رشتهای هستند، مانند «برادوی» یا «ویلاکازی». مدل شما نمیتواند در «برادوی» تمرین کند، بنابراین باید «برادوی» را به یک عدد ممیز شناور تبدیل کنید. ماژول Category Data نحوه انجام این کار را توضیح می دهد.
علاوه بر این، شما حتی باید اکثر ویژگی های ممیز شناور را تغییر دهید. این فرآیند تبدیل که نرمال سازی نامیده می شود، اعداد ممیز شناور را به یک محدوده محدود تبدیل می کند که آموزش مدل را بهبود می بخشد. ماژول داده های عددی نحوه انجام این کار را توضیح می دهد.
زمانی که دادههای زیادی دارید نمونه بگیرید
برخی از سازمان ها دارای داده های فراوانی هستند.هنگامی که مجموعه داده حاوی مثال های بسیار زیادی است، باید زیر مجموعه ای از نمونه ها را برای آموزش انتخاب کنید. در صورت امکان، زیرمجموعه ای را انتخاب کنید که بیشترین ارتباط را با پیش بینی های مدل شما دارد.
نمونه های حاوی PII را فیلتر کنید
مجموعه داده های خوب نمونه های حاوی اطلاعات شناسایی شخصی (PII) را حذف نمی کنند. این خط مشی به حفظ حریم خصوصی کمک می کند اما می تواند بر مدل تأثیر بگذارد.
برای اطلاعات بیشتر در مورد این موضوعات، ماژول ایمنی و حریم خصوصی را در ادامه دوره ببینید.