تله های تفکر

انسان ها به دلیل انسان بودن در معرض سوگیری های شناختی از جمله سوگیری عقلانی و تاییدی هستند. آلبرتو قاهره می نویسد: "عقلانی کردن حالت پیش فرض مغز انسان است." 1 اغلب، مردم انتظار یا می خواهند نتیجه خاصی داشته باشند، سپس به دنبال داده ها یا شواهدی برای حمایت از آن نتیجه می گردند.

هنگام کار یا ارزیابی داده‌ها و مدل‌ها، که می‌توانند از منابع مختلف به دست آیند، در مورد منابع بالقوه سوگیری بپرسید. به عنوان مثال:

  • چه کسی این مدل یا مطالعه را تامین مالی می کند؟ کاربرد بازار یا تجاری چیست؟
  • چه نوع مشوق هایی برای افراد درگیر در جمع آوری داده ها وجود دارد؟
  • چه نوع انگیزه هایی برای پژوهشگرانی که مدل را آموزش می دهند یا مطالعه را انجام می دهند، از جمله انتشار و دوره تصدی وجود دارد؟
  • چه کسی مجوز مدل یا انتشار مطالعه را صادر می کند و مشوق های آنها چیست؟

آمار توصیفی

میانگین (مجموع مقادیر تقسیم بر تعداد)، میانه (مقدار متوسط، زمانی که مقادیر مرتب می شوند) و حالت (متداول ترین مقدار) اغلب برای درک شکل مجموعه داده فرد مفید هستند. برای مثال، اگر میانه و میانگین از هم دور باشند، ممکن است مقادیر نسبتاً شدید و نامتقارن در مجموعه وجود داشته باشد.

محدوده ، که تفاوت بین بالاترین و کمترین مقدار است، و واریانس ، که میانگین مجذور اختلاف بین هر مقدار و میانگین مجموعه است، همچنین اطلاعات مفیدی در مورد گسترش و شکل مجموعه داده ارائه می دهد.

قبل از آموزش مدلی بر روی داده های خود، همچنین بپرسید که آیا مجموعه داده نامتعادل است و اگر چنین است، آیا این عدم تعادل باید برطرف شود یا خیر.

عدم احتمالات احتمالی و مقادیر p

با توجه به زمان کافی و شانس کافی، وقوع یک رویداد غیر محتمل بسیار محتمل می شود. برای یک مثال احتمالی ، کلاهبرداری نظری کارگزار سهام بالتیمور را ببینید.

با اجماع علمی، زمانی که مقدار p کمتر از 0.05 باشد، نتیجه از نظر آماری معنادار (و بنابراین قابل انتشار) در نظر گرفته می‌شود. این بدان معناست که احتمال کمتر از 5% وجود دارد که همان نتیجه، یا یک افراطی بیشتر، تحت فرضیه صفر - یعنی به عنوان نتیجه شانس - رخ دهد. به صورت محاوره‌ای، محققان تنها در صورتی می‌توانند منتشر کنند که احتمال 1 در 20 یا کمتر وجود داشته باشد که نتایج آنها نتیجه تصادفی باشد. از سوی دیگر، و نگران‌کننده‌تر، حدود یک بار در بیست آزمایش، یک نتیجه جعلی قابل توجه به نظر می‌رسد، اگرچه اینطور نیست، و نوزده نتیجه دیگر منتشر نمی‌شوند. جان یونیدیس در مقاله‌ای در سال 2005 با عنوان «چرا اکثر یافته‌های تحقیقات نادرست هستند» عوامل متعددی از آماری گرفته تا مالی را بیان کرد که در انتشار نتایج جعلی نقش داشتند.

به عنوان مثال، با توجه به انگیزه های قوی برای انتشار، محققان گاهی اوقات مقادیر p را در حدود 0.05 تغییر می دهند تا به زیر آن آستانه سقوط کنند. در مواقع دیگر، نتایج مطالعات منتشر شده، که به طور طبیعی نتایج غیرمنتظره و غیرمعمول را انتخاب می‌کنند، قابل تکرار نیستند (و بنابراین احتمالاً نتیجه تصادفی هستند)، که منجر به بحران اعتماد در زمینه‌های مختلف شده است. همچنین منجر به ایجاد سازمان هایی شده است که به آزمایش تکرارپذیری اختصاص یافته اند.

در زمینه ML، مدل‌ها تنها در صورتی پیشرفته‌تر به حساب می‌آیند که معیارهای ارزیابی اکثر مدل‌های رقابتی دیگر را داشته باشند یا از آنها فراتر رود. ممکن است فشارهای مشابهی در اطراف نمرات ارزیابی مدل ایجاد شود که می تواند به طور مصنوعی با نشت معیار تقویت شود. 2

P-value می تواند در انتخاب ویژگی برای مدل های رگرسیونی مفید باشد. ANOVA (تحلیل واریانس) یک روش آماری است که واریانس درون گروه ها را با واریانس بین گروه ها مقایسه می کند و برای هر ویژگی یک آماره F و مقدار p برمی گرداند. انتخاب مهم‌ترین ویژگی‌ها، با کمترین مقدار p، می‌تواند تعداد ویژگی‌هایی را که یک مدل باید در نظر بگیرد، بدون از دست دادن قدرت پیش‌بینی زیادی کاهش می‌دهد. این کار هم باعث صرفه جویی در محاسبه می شود و هم از مشکل بسیاری از ویژگی ها که در بخش بعدی بحث شده است جلوگیری می کند. برای جزئیات به راهنمای انتخاب ویژگی scikit مراجعه کنید.

مشکل مقایسه چندگانه

مشکل آستانه معنی‌داری به‌ویژه در شرایطی که مقایسه‌های متعدد با فرضیه صفر به طور همزمان انجام می‌شود، شدیدتر است. این یک موضوع خاص برای مطالعات fMRI است.

در fMRI، هر وکسل (واحد حجمی) مغز به طور مستقل برای فعالیت آماری معنی‌دار مورد آزمایش قرار می‌گیرد و اگر چنین است، برجسته می‌شود. این منجر به انجام چیزی در حدود 100000 آزمایش معنی‌داری مستقل در آن واحد می‌شود. در آستانه معنی‌داری 0.05 ap، تئوری آماری انتظار دارد که تقریباً 5000 مثبت کاذب در یک fMRI ظاهر شود. 3

این مشکل احتمالاً توسط بنت و همکاران 2009 به بهترین شکل نشان داده شده است. پوستر " همبستگی های عصبی دیدگاه بین گونه ای در ماهی قزل آلا اقیانوس اطلس پس از مرگ " که برنده جایزه ایگ نوبل شد. محققان 15 عکس از انسان‌ها را در موقعیت‌های بسیار احساسی به یک ماهی آزاد مرده در دستگاه fMRI نشان دادند و از ماهی آزاد مرده خواستند تا مشخص کند انسان‌های تصویر شده چه احساساتی را تجربه می‌کنند. آنها یک خوشه آماری معنی‌دار از وکسل‌های فعال را در حفره مغز ماهی قزل آلا پیدا کردند و با زبان در گونه به این نتیجه رسیدند که ماهی آزاد مرده واقعاً درگیر چشم‌انداز بود. به طور جدی تر، محققان توجه را به مشکل مقایسه های چندگانه در fMRI و موقعیت های تصویربرداری مشابه و نیاز به اقدامات کاهشی جلب کردند.

یک راه حل واضح و درشت دانه، کاهش آستانه p-value است که نشان دهنده اهمیت است. مبادله ذاتی بین حساسیت (به دست آوردن همه موارد مثبت واقعی) و ویژگی (شناسایی همه موارد منفی واقعی) است. بحث در مورد حساسیت، که نرخ مثبت واقعی نیز نامیده می‌شود، را می‌توان در ماژول طبقه‌بندی دوره تصادف یادگیری ماشین یافت.

کاهش دیگر، کنترل نرخ خطای خانوادگی (FWER) است که احتمال حداقل یک مثبت کاذب است. دیگری کنترل نرخ کشف کاذب (FDR) یا نسبت مورد انتظار مثبت کاذب به همه موارد مثبت است. برای توضیح این روش‌ها و چند توضیح ، به راهنمای «شواهد در حکومت و سیاست» برای مسئله مقایسه‌های چندگانه ، و همچنین «ذن و هنر مقایسه‌های چندگانه» لیندکوئیست و مجیا مراجعه کنید. در وضعیت ماهی آزاد مرده، کنترل FDR و FWER نشان داد که هیچ وکسلی در واقع از نظر آماری معنادار نیست.

آموزش مدل‌های ML بر روی اسکن‌های fMRI و سایر روش‌های تصویربرداری هم در حوزه تشخیص پزشکی 4 و هم در بازسازی تصاویر از فعالیت مغز به طور فزاینده‌ای محبوب است. 5 اگر این مدل ها بر روی یک مجموعه داده به اندازه کافی بزرگ آموزش داده شوند، این ممکن است احتمال مشکلات ناشی از مشکل مقایسه های چندگانه را کاهش دهد. با این حال، به‌ویژه در حوزه تشخیص، اگر 20 درصد وکسل‌های «فعال» واقعاً مثبت کاذب باشند، مدل ممکن است استنتاج‌های نادرستی در اسکن‌های فردی جدید ایجاد کند. توجه داشته باشید که مدل‌های طبقه‌بندی تشخیصی fMRI که در Li و Zhao توضیح داده شده‌اند، دقت 70-85٪ دارند.

تعداد زیادی متغیر در تحلیل رگرسیون

مشکل مقایسه چندگانه به تحلیل رگرسیون چندگانه گسترش می یابد. تحلیل رگرسیون یا رگرسیون خطی ، ستون فقرات بسیاری از مدل‌های پیش‌بینی عددی است. تجزیه و تحلیل رگرسیون از یکی از چندین روش، مانند حداقل مربعات معمولی، برای یافتن ضریب رگرسیونی استفاده می کند که به بهترین وجه چگونگی تأثیر یک متغیر بر دیگری را توصیف می کند. محققان می توانند با نشان دادن هر عامل به عنوان یک متغیر در تحلیل رگرسیونی بروز سرطان در افراد سیگاری و غیرسیگاری در سنین مختلف، بپرسند که چگونه سن و سیگار بر میزان سرطان ریه تأثیر می گذارد. یک مدل رگرسیون خطی تقریباً به همان روش کار می کند و بنابراین در مقایسه با انواع دیگر مدل های ML بسیار قابل تفسیر است. یافتن ضرایب رگرسیون این متغیرها، روابط خطی بین این متغیرها و میزان سرطان ریه را توصیف می کند.

گنجاندن همه متغیرهای ممکن در تحلیل رگرسیون می تواند وسوسه انگیز باشد، به ویژه به این دلیل که شامل نکردن یک عامل مهم می تواند منجر به نادیده گرفتن سهم آن شود. با این حال، افزودن متغیرهای بیش از حد به یک تحلیل رگرسیون، احتمال اینکه یک متغیر نامربوط از نظر آماری معنی دار به نظر برسد را افزایش می دهد. اگر هجده متغیر نامربوط دیگر را به تجزیه و تحلیل خود اضافه کنیم، مانند «فیلم‌های تماشا شده» و «مالک سگ‌ها»، احتمالاً یکی از آن متغیرهای نامربوط، به طور کاملاً تصادفی، با نرخ بالاتر سرطان ریه مرتبط است. 6

در زمینه ML، وضعیت مشابه، ویژگی‌های بسیار زیادی را به مدل می‌دهد، که می‌تواند منجر به برازش بیش از حد ، در میان مشکلات دیگر شود.

استنباط و تصمیم گیری

یکی از راه‌های کنار گذاشتن برخی از این تله‌های فکری این است که آمار و مدل‌های ML را که از آمار به دست می‌آیند، به‌عنوان ابزاری برای تصمیم‌گیری به جای پاسخ‌گویی به سؤالات در نظر بگیریم. این موضعی بود که جرزی نیمن و اگون شارپ پیرسون گرفتند. 7

در این چارچوب، داده‌ها، آمار داده‌ها و مشتقات، از جمله مدل‌های ML، برای انجام پیش‌بینی‌های احتمالی، رد عبارات کلی، بهبود و تمرکز پرسش‌های پژوهشی و کمک به تصمیم‌گیری مناسب‌تر هستند. آنها برای طرح ادعاهای مثبت در مورد حقیقت مناسب نیستند.

به گفته دیوید ریتر، تصمیمات مبتنی بر همبستگی حتی مقادیر عظیمی از داده ها باید بر اساس دو عامل باشد:

  • "اطمینان از اینکه همبستگی به طور قابل اعتمادی در آینده تکرار خواهد شد"، که باید بر اساس تعداد دفعات وقوع همبستگی در گذشته و درک دقیق آنچه که باعث آن همبستگی شده است باشد.
  • خطرات و مزایای بازیگری 8

به طور مشابه، ممکن است همه سوالات تحقیق برای هوش مصنوعی مناسب نباشند. Anastassia Fedyk دو معیار برای یک مشکل مناسب با هوش مصنوعی ارائه می دهد:

  • مشکل نیاز به پیش بینی دارد، نه درک روابط علی.
  • داده‌هایی که به هوش مصنوعی داده می‌شوند، حاوی همه چیزهایی هستند که باید در مورد مشکل بدانیم. یعنی مشکل در خود است. 9

مراجع

بنت، کریگ ام.، ابیگیل ای بیرد، مایکل بی. میلر، و جورج ال. وولفورد. " همبستگی های عصبی دیدگاه بین گونه ای در ماهی قزل آلا اقیانوس اطلس پس از مرگ: استدلالی برای اصلاح مقایسه های چندگانه ." تصویر عصبی (2009).

قاهره، آلبرتو نمودارها چگونه دروغ می گویند: هوشمندتر شدن در مورد اطلاعات بصری. نیویورک: WW نورتون، 2019.

Davenport, Thomas H. "A Predictive Analytics Primer." در راهنمای HBR برای مبانی تجزیه و تحلیل داده ها برای مدیران (بوستون: HBR Press، 2018) 81-86.

النبرگ، اردن چگونه اشتباه نکنیم: قدرت تفکر ریاضی نیویورک: پنگوئن، 2014.

فدیک، آناستازیا. "آیا یادگیری ماشینی می تواند مشکل کسب و کار شما را حل کند؟" در راهنمای HBR برای مبانی تجزیه و تحلیل داده ها برای مدیران (بوستون: HBR Press، 2018) 111-119.

گالو، امی. "تجدید نظر در مورد اهمیت آماری." در راهنمای HBR برای مبانی تجزیه و تحلیل داده ها برای مدیران (بوستون: HBR Press، 2018) 121-129.

هاف، دارل. چگونه با آمار دروغ بگوییم نیویورک: WW نورتون، 1954.

Ioannidis، John PA "چرا اکثر یافته های تحقیقاتی منتشر شده نادرست هستند." . در PLoS Med 2 no. 8: e124.

جونز، بن. اجتناب از دام داده ها هوبوکن، نیوجرسی: وایلی، 2020.

لی، جیانگسو و پیزه ژائو. "کاربردهای یادگیری عمیق در fMRI - یک کار مروری" ICBBB 2023 (توکیو، ژاپن، 13 تا 16 ژانویه 2023): 75-80. https://doi.org/10.1145/3586139.3586150

لیندکویست، مارتین آ. و آماندا مجیا. "ذن و هنر مقایسه های متعدد." طب روان تنی 77 شماره. 2 (فوریه-مارس 2015): 114-125. doi: 10.1097/PSY.0000000000000148.

ریتر، دیوید. "چه زمانی باید بر اساس یک همبستگی عمل کرد و چه زمانی نباید". در راهنمای HBR برای مبانی تجزیه و تحلیل داده ها برای مدیران (بوستون: HBR Press، 2018) 103-109.

تاگاکی، یو و شینجی نیشیموتو. "بازسازی تصویر با وضوح بالا با مدل های انتشار پنهان از فعالیت مغز انسان." 2023 کنفرانس IEEE/CVF در مورد دید کامپیوتری و تشخیص الگو (ونکوور، BC، کانادا، 2023): 14453-14463. doi: 10.1109/CVPR52729.2023.01389.

ویلن، چارلز. آمار برهنه: حذف ترس از داده ها. نیویورک: WW نورتون، 2013

ژو، کان، یوتائو ژو، ژیپنگ چن، ونتونگ چن، وین شین ژائو، ژو چن، یانکای لین، جی-رونگ ون و جیاوئی هان. LLM خود را به یک متقلب معیار ارزیابی تبدیل نکنید. arXiv:2311.01964 cs.CL .


  1. قاهره 182.

  2. ژو و همکاران

  3. لیندکوئیست و مجیا.

  4. لی و ژائو 77-78.

  5. تاگاکی و نیشیموتو

  6. Wheelan 221.

  7. النبرگ 159.

  8. ریتر 104.

  9. فدیک 113.