خلاصه

این دوره از طریق بسیاری از تله‌های داده رایج، از کیفیت مجموعه داده گرفته تا تفکر گرفته تا تجسم و تجزیه و تحلیل آماری را طی کرده است.

پزشکان ML باید بپرسند:

  • من چقدر ویژگی های مجموعه داده های خود و شرایطی را که تحت آن داده ها جمع آوری شده است، درک می کنم؟
  • چه کیفیت یا مشکلات سوگیری در داده های من وجود دارد؟ آیا عوامل مخدوش کننده وجود دارد؟
  • چه مشکلات بالقوه پایین دستی می تواند از استفاده از این مجموعه داده های خاص ناشی شود؟
  • هنگام آموزش مدلی که پیش‌بینی یا طبقه‌بندی می‌کند: آیا مجموعه داده‌ای که مدل بر روی آن آموزش داده می‌شود شامل همه متغیرهای مرتبط است؟

یافته‌هایشان هر چه باشد، پزشکان ML باید همیشه خود را از نظر سوگیری تأییدی بررسی کنند، سپس یافته‌های خود را بر اساس شهود و عقل سلیم خود بررسی کنند و هر جا که داده‌ها با آنها در تضاد هستند، تحقیق کنند.

خواندن اضافی

قاهره، آلبرتو نمودارها چگونه دروغ می گویند: هوشمندتر شدن در مورد اطلاعات بصری. نیویورک: WW نورتون، 2019.

هاف، دارل. چگونه با آمار دروغ بگوییم نیویورک: WW نورتون، 1954.

مونمونیر، مارک. چگونه با نقشه ها دروغ بگوییم، ویرایش سوم. شیکاگو: U of Chicago P، 2018.

جونز، بن. اجتناب از دام داده ها هوبوکن، نیوجرسی: وایلی، 2020.

ویلن، چارلز. آمار برهنه: حذف ترس از داده ها. نیویورک: WW نورتون، 2013