اهداف آموزشی
در این ماژول شما یاد خواهید گرفت که:
- مسائل بالقوه زیربنای مجموعه داده های خام یا پردازش شده، از جمله مسائل مربوط به مجموعه و کیفیت را بررسی کنید.
- سوگیری ها، استنتاج های نامعتبر و منطقی سازی ها را شناسایی کنید.
- مسائل متداول را در تجزیه و تحلیل داده ها، از جمله همبستگی، ارتباط و عدم ربط پیدا کنید.
- نموداری را برای مشکلات رایج، برداشت های نادرست و انتخاب های نمایش و طراحی گمراه کننده بررسی کنید.
انگیزه ML
در حالی که به اندازه معماری های مدل و سایر کارهای مدل پایین دستی جذاب نیست، کاوش، مستندسازی و پیش پردازش داده ها برای کار ML حیاتی هستند. تمرینکنندگان ML میتوانند با آنچه نیتیا سامباسیوان و همکارانش مواجه شوند. اگر عمیقاً درک نکنند، در مقاله ACM 2021 خود آبشار داده نامیده می شوند:
- شرایطی که داده های آنها در آن جمع آوری می شود
- کیفیت، ویژگی ها و محدودیت های داده ها
- آنچه داده ها می توانند و نمی توانند نشان دهند
آموزش مدلها روی دادههای بد بسیار گران است و فقط در نقطه خروجیهای با کیفیت پایین متوجه میشوید که مشکلاتی در دادهها وجود دارد. به همین ترتیب، عدم درک محدودیتهای دادهها، سوگیریهای انسانی در جمعآوری دادهها، یا اشتباه گرفتن همبستگی برای علیت، میتواند منجر به نتایج بیش از حد امیدوارکننده و کم ارائه شود که میتواند منجر به از دست دادن اعتماد شود.
این دوره از تله های داده رایج اما ظریفی که متخصصان ML و داده ممکن است در کار خود با آنها مواجه شوند، می گذرد.