تله های داده

اهداف آموزشی

در این ماژول شما یاد خواهید گرفت که:

  • مسائل بالقوه زیربنای مجموعه داده های خام یا پردازش شده، از جمله مسائل مربوط به مجموعه و کیفیت را بررسی کنید.
  • سوگیری ها، استنتاج های نامعتبر و منطقی سازی ها را شناسایی کنید.
  • مسائل متداول را در تجزیه و تحلیل داده ها، از جمله همبستگی، ارتباط و عدم ربط پیدا کنید.
  • نموداری را برای مشکلات رایج، برداشت های نادرست و انتخاب های نمایش و طراحی گمراه کننده بررسی کنید.

انگیزه ML

در حالی که به اندازه معماری های مدل و سایر کارهای مدل پایین دستی جذاب نیست، کاوش، مستندسازی و پیش پردازش داده ها برای کار ML حیاتی هستند. تمرین‌کنندگان ML می‌توانند با آنچه نیتیا سامباسیوان و همکارانش مواجه شوند. اگر عمیقاً درک نکنند، در مقاله ACM 2021 خود آبشار داده نامیده می شوند:

  • شرایطی که داده های آنها در آن جمع آوری می شود
  • کیفیت، ویژگی ها و محدودیت های داده ها
  • آنچه داده ها می توانند و نمی توانند نشان دهند

آموزش مدل‌ها روی داده‌های بد بسیار گران است و فقط در نقطه خروجی‌های با کیفیت پایین متوجه می‌شوید که مشکلاتی در داده‌ها وجود دارد. به همین ترتیب، عدم درک محدودیت‌های داده‌ها، سوگیری‌های انسانی در جمع‌آوری داده‌ها، یا اشتباه گرفتن همبستگی برای علیت، می‌تواند منجر به نتایج بیش از حد امیدوارکننده و کم ارائه شود که می‌تواند منجر به از دست دادن اعتماد شود.

این دوره از تله های داده رایج اما ظریفی که متخصصان ML و داده ممکن است در کار خود با آنها مواجه شوند، می گذرد.