انسان ها به دلیل انسان بودن در معرض سوگیری های شناختی از جمله سوگیری عقلانی و تاییدی هستند. آلبرتو قاهره می نویسد: "عقلانی کردن حالت پیش فرض مغز انسان است." 1 اغلب، مردم انتظار یا می خواهند نتیجه خاصی داشته باشند، سپس به دنبال داده ها یا شواهدی برای حمایت از آن نتیجه می گردند.
هنگام کار یا ارزیابی دادهها و مدلها، که میتوانند از منابع مختلف به دست آیند، در مورد منابع بالقوه سوگیری بپرسید. به عنوان مثال:
- چه کسی این مدل یا مطالعه را تامین مالی می کند؟ کاربرد بازار یا تجاری چیست؟
- چه نوع مشوق هایی برای افراد درگیر در جمع آوری داده ها وجود دارد؟
- چه نوع انگیزه هایی برای پژوهشگرانی که مدل را آموزش می دهند یا مطالعه را انجام می دهند، از جمله انتشار و دوره تصدی وجود دارد؟
- چه کسی مجوز مدل یا انتشار مطالعه را صادر می کند و مشوق های آنها چیست؟
آمار توصیفی
میانگین (مجموع مقادیر تقسیم بر تعداد)، میانه (مقدار متوسط، زمانی که مقادیر مرتب می شوند) و حالت (متداول ترین مقدار) اغلب برای درک شکل مجموعه داده فرد مفید هستند. برای مثال، اگر میانه و میانگین از هم دور باشند، ممکن است مقادیر نسبتاً شدید و نامتقارن در مجموعه وجود داشته باشد.
محدوده ، که تفاوت بین بالاترین و کمترین مقدار است، و واریانس ، که میانگین مجذور اختلاف بین هر مقدار و میانگین مجموعه است، همچنین اطلاعات مفیدی در مورد گسترش و شکل مجموعه داده ارائه می دهد.
قبل از آموزش مدلی بر روی داده های خود، همچنین بپرسید که آیا مجموعه داده نامتعادل است و اگر چنین است، آیا این عدم تعادل باید برطرف شود یا خیر.
عدم احتمالات احتمالی و مقادیر p
با توجه به زمان کافی و شانس کافی، وقوع یک رویداد غیر محتمل بسیار محتمل می شود. برای یک مثال احتمالی ، کلاهبرداری نظری کارگزار سهام بالتیمور را ببینید.
با اجماع علمی، زمانی که مقدار p کمتر از 0.05 باشد، نتیجه از نظر آماری معنادار (و بنابراین قابل انتشار) در نظر گرفته میشود. این بدان معناست که احتمال کمتر از 5% وجود دارد که همان نتیجه، یا یک افراطی بیشتر، تحت فرضیه صفر - یعنی به عنوان نتیجه شانس - رخ دهد. به صورت محاورهای، محققان تنها در صورتی میتوانند منتشر کنند که احتمال 1 در 20 یا کمتر وجود داشته باشد که نتایج آنها نتیجه تصادفی باشد. از سوی دیگر، و نگرانکنندهتر، حدود یک بار در بیست آزمایش، یک نتیجه جعلی قابل توجه به نظر میرسد، اگرچه اینطور نیست، و نوزده نتیجه دیگر منتشر نمیشوند. جان یونیدیس در مقالهای در سال 2005 با عنوان «چرا اکثر یافتههای تحقیقات نادرست هستند» عوامل متعددی از آماری گرفته تا مالی را بیان کرد که در انتشار نتایج جعلی نقش داشتند.
به عنوان مثال، با توجه به انگیزه های قوی برای انتشار، محققان گاهی اوقات مقادیر p را در حدود 0.05 تغییر می دهند تا به زیر آن آستانه سقوط کنند. در مواقع دیگر، نتایج مطالعات منتشر شده، که به طور طبیعی نتایج غیرمنتظره و غیرمعمول را انتخاب میکنند، قابل تکرار نیستند (و بنابراین احتمالاً نتیجه تصادفی هستند)، که منجر به بحران اعتماد در زمینههای مختلف شده است. همچنین منجر به ایجاد سازمان هایی شده است که به آزمایش تکرارپذیری اختصاص یافته اند.
در زمینه ML، مدلها تنها در صورتی پیشرفتهتر به حساب میآیند که معیارهای ارزیابی اکثر مدلهای رقابتی دیگر را داشته باشند یا از آنها فراتر رود. ممکن است فشارهای مشابهی در اطراف نمرات ارزیابی مدل ایجاد شود که می تواند به طور مصنوعی با نشت معیار تقویت شود. 2
P-value می تواند در انتخاب ویژگی برای مدل های رگرسیونی مفید باشد. ANOVA (تحلیل واریانس) یک روش آماری است که واریانس درون گروه ها را با واریانس بین گروه ها مقایسه می کند و برای هر ویژگی یک آماره F و مقدار p برمی گرداند. انتخاب مهمترین ویژگیها، با کمترین مقدار p، میتواند تعداد ویژگیهایی را که یک مدل باید در نظر بگیرد، بدون از دست دادن قدرت پیشبینی زیادی کاهش میدهد. این کار هم باعث صرفه جویی در محاسبه می شود و هم از مشکل بسیاری از ویژگی ها که در بخش بعدی بحث شده است جلوگیری می کند. برای جزئیات به راهنمای انتخاب ویژگی scikit مراجعه کنید.
مشکل مقایسه چندگانه
مشکل آستانه معنیداری بهویژه در شرایطی که مقایسههای متعدد با فرضیه صفر به طور همزمان انجام میشود، شدیدتر است. این یک موضوع خاص برای مطالعات fMRI است.
در fMRI، هر وکسل (واحد حجمی) مغز به طور مستقل برای فعالیت آماری معنیدار مورد آزمایش قرار میگیرد و اگر چنین است، برجسته میشود. این منجر به انجام چیزی در حدود 100000 آزمایش معنیداری مستقل در آن واحد میشود. در آستانه معنیداری 0.05 ap، تئوری آماری انتظار دارد که تقریباً 5000 مثبت کاذب در یک fMRI ظاهر شود. 3
این مشکل احتمالاً توسط بنت و همکاران 2009 به بهترین شکل نشان داده شده است. پوستر " همبستگی های عصبی دیدگاه بین گونه ای در ماهی قزل آلا اقیانوس اطلس پس از مرگ " که برنده جایزه ایگ نوبل شد. محققان 15 عکس از انسانها را در موقعیتهای بسیار احساسی به یک ماهی آزاد مرده در دستگاه fMRI نشان دادند و از ماهی آزاد مرده خواستند تا مشخص کند انسانهای تصویر شده چه احساساتی را تجربه میکنند. آنها یک خوشه آماری معنیدار از وکسلهای فعال را در حفره مغز ماهی قزل آلا پیدا کردند و با زبان در گونه به این نتیجه رسیدند که ماهی آزاد مرده واقعاً درگیر چشمانداز بود. به طور جدی تر، محققان توجه را به مشکل مقایسه های چندگانه در fMRI و موقعیت های تصویربرداری مشابه و نیاز به اقدامات کاهشی جلب کردند.
یک راه حل واضح و درشت دانه، کاهش آستانه p-value است که نشان دهنده اهمیت است. مبادله ذاتی بین حساسیت (به دست آوردن همه موارد مثبت واقعی) و ویژگی (شناسایی همه موارد منفی واقعی) است. بحث در مورد حساسیت، که نرخ مثبت واقعی نیز نامیده میشود، را میتوان در ماژول طبقهبندی دوره تصادف یادگیری ماشین یافت.
کاهش دیگر، کنترل نرخ خطای خانوادگی (FWER) است که احتمال حداقل یک مثبت کاذب است. دیگری کنترل نرخ کشف کاذب (FDR) یا نسبت مورد انتظار مثبت کاذب به همه موارد مثبت است. برای توضیح این روشها و چند توضیح ، به راهنمای «شواهد در حکومت و سیاست» برای مسئله مقایسههای چندگانه ، و همچنین «ذن و هنر مقایسههای چندگانه» لیندکوئیست و مجیا مراجعه کنید. در وضعیت ماهی آزاد مرده، کنترل FDR و FWER نشان داد که هیچ وکسلی در واقع از نظر آماری معنادار نیست.
آموزش مدلهای ML بر روی اسکنهای fMRI و سایر روشهای تصویربرداری هم در حوزه تشخیص پزشکی 4 و هم در بازسازی تصاویر از فعالیت مغز به طور فزایندهای محبوب است. 5 اگر این مدل ها بر روی یک مجموعه داده به اندازه کافی بزرگ آموزش داده شوند، این ممکن است احتمال مشکلات ناشی از مشکل مقایسه های چندگانه را کاهش دهد. با این حال، بهویژه در حوزه تشخیص، اگر 20 درصد وکسلهای «فعال» واقعاً مثبت کاذب باشند، مدل ممکن است استنتاجهای نادرستی در اسکنهای فردی جدید ایجاد کند. توجه داشته باشید که مدلهای طبقهبندی تشخیصی fMRI که در Li و Zhao توضیح داده شدهاند، دقت 70-85٪ دارند.
تعداد زیادی متغیر در تحلیل رگرسیون
مشکل مقایسه چندگانه به تحلیل رگرسیون چندگانه گسترش می یابد. تحلیل رگرسیون یا رگرسیون خطی ، ستون فقرات بسیاری از مدلهای پیشبینی عددی است. تجزیه و تحلیل رگرسیون از یکی از چندین روش، مانند حداقل مربعات معمولی، برای یافتن ضریب رگرسیونی استفاده می کند که به بهترین وجه چگونگی تأثیر یک متغیر بر دیگری را توصیف می کند. محققان می توانند با نشان دادن هر عامل به عنوان یک متغیر در تحلیل رگرسیونی بروز سرطان در افراد سیگاری و غیرسیگاری در سنین مختلف، بپرسند که چگونه سن و سیگار بر میزان سرطان ریه تأثیر می گذارد. یک مدل رگرسیون خطی تقریباً به همان روش کار می کند و بنابراین در مقایسه با انواع دیگر مدل های ML بسیار قابل تفسیر است. یافتن ضرایب رگرسیون این متغیرها، روابط خطی بین این متغیرها و میزان سرطان ریه را توصیف می کند.
گنجاندن همه متغیرهای ممکن در تحلیل رگرسیون می تواند وسوسه انگیز باشد، به ویژه به این دلیل که شامل نکردن یک عامل مهم می تواند منجر به نادیده گرفتن سهم آن شود. با این حال، افزودن متغیرهای بیش از حد به یک تحلیل رگرسیون، احتمال اینکه یک متغیر نامربوط از نظر آماری معنی دار به نظر برسد را افزایش می دهد. اگر هجده متغیر نامربوط دیگر را به تجزیه و تحلیل خود اضافه کنیم، مانند «فیلمهای تماشا شده» و «مالک سگها»، احتمالاً یکی از آن متغیرهای نامربوط، به طور کاملاً تصادفی، با نرخ بالاتر سرطان ریه مرتبط است. 6
در زمینه ML، وضعیت مشابه، ویژگیهای بسیار زیادی را به مدل میدهد، که میتواند منجر به برازش بیش از حد ، در میان مشکلات دیگر شود.
استنباط و تصمیم گیری
یکی از راههای کنار گذاشتن برخی از این تلههای فکری این است که آمار و مدلهای ML را که از آمار به دست میآیند، بهعنوان ابزاری برای تصمیمگیری به جای پاسخگویی به سؤالات در نظر بگیریم. این موضعی بود که جرزی نیمن و اگون شارپ پیرسون گرفتند. 7
در این چارچوب، دادهها، آمار دادهها و مشتقات، از جمله مدلهای ML، برای انجام پیشبینیهای احتمالی، رد عبارات کلی، بهبود و تمرکز پرسشهای پژوهشی و کمک به تصمیمگیری مناسبتر هستند. آنها برای طرح ادعاهای مثبت در مورد حقیقت مناسب نیستند.
به گفته دیوید ریتر، تصمیمات مبتنی بر همبستگی حتی مقادیر عظیمی از داده ها باید بر اساس دو عامل باشد:
- "اطمینان از اینکه همبستگی به طور قابل اعتمادی در آینده تکرار خواهد شد"، که باید بر اساس تعداد دفعات وقوع همبستگی در گذشته و درک دقیق آنچه که باعث آن همبستگی شده است باشد.
- خطرات و مزایای بازیگری 8
به طور مشابه، ممکن است همه سوالات تحقیق برای هوش مصنوعی مناسب نباشند. Anastassia Fedyk دو معیار برای یک مشکل مناسب با هوش مصنوعی ارائه می دهد:
- مشکل نیاز به پیش بینی دارد، نه درک روابط علی.
- دادههایی که به هوش مصنوعی داده میشوند، حاوی همه چیزهایی هستند که باید در مورد مشکل بدانیم. یعنی مشکل در خود است. 9
مراجع
بنت، کریگ ام.، ابیگیل ای بیرد، مایکل بی. میلر، و جورج ال. وولفورد. " همبستگی های عصبی دیدگاه بین گونه ای در ماهی قزل آلا اقیانوس اطلس پس از مرگ: استدلالی برای اصلاح مقایسه های چندگانه ." تصویر عصبی (2009).
قاهره، آلبرتو نمودارها چگونه دروغ می گویند: هوشمندتر شدن در مورد اطلاعات بصری. نیویورک: WW نورتون، 2019.
Davenport, Thomas H. "A Predictive Analytics Primer." در راهنمای HBR برای مبانی تجزیه و تحلیل داده ها برای مدیران (بوستون: HBR Press، 2018) 81-86.
النبرگ، اردن چگونه اشتباه نکنیم: قدرت تفکر ریاضی نیویورک: پنگوئن، 2014.
فدیک، آناستازیا. "آیا یادگیری ماشینی می تواند مشکل کسب و کار شما را حل کند؟" در راهنمای HBR برای مبانی تجزیه و تحلیل داده ها برای مدیران (بوستون: HBR Press، 2018) 111-119.
گالو، امی. "تجدید نظر در مورد اهمیت آماری." در راهنمای HBR برای مبانی تجزیه و تحلیل داده ها برای مدیران (بوستون: HBR Press، 2018) 121-129.
هاف، دارل. چگونه با آمار دروغ بگوییم نیویورک: WW نورتون، 1954.
Ioannidis، John PA "چرا اکثر یافته های تحقیقاتی منتشر شده نادرست هستند." . در PLoS Med 2 no. 8: e124.
جونز، بن. اجتناب از دام داده ها هوبوکن، نیوجرسی: وایلی، 2020.
لی، جیانگسو و پیزه ژائو. "کاربردهای یادگیری عمیق در fMRI - یک کار مروری" ICBBB 2023 (توکیو، ژاپن، 13 تا 16 ژانویه 2023): 75-80. https://doi.org/10.1145/3586139.3586150
لیندکویست، مارتین آ. و آماندا مجیا. "ذن و هنر مقایسه های متعدد." طب روان تنی 77 شماره. 2 (فوریه-مارس 2015): 114-125. doi: 10.1097/PSY.0000000000000148.
ریتر، دیوید. "چه زمانی باید بر اساس یک همبستگی عمل کرد و چه زمانی نباید". در راهنمای HBR برای مبانی تجزیه و تحلیل داده ها برای مدیران (بوستون: HBR Press، 2018) 103-109.
تاگاکی، یو و شینجی نیشیموتو. "بازسازی تصویر با وضوح بالا با مدل های انتشار پنهان از فعالیت مغز انسان." 2023 کنفرانس IEEE/CVF در مورد دید کامپیوتری و تشخیص الگو (ونکوور، BC، کانادا، 2023): 14453-14463. doi: 10.1109/CVPR52729.2023.01389.
ویلن، چارلز. آمار برهنه: حذف ترس از داده ها. نیویورک: WW نورتون، 2013
ژو، کان، یوتائو ژو، ژیپنگ چن، ونتونگ چن، وین شین ژائو، ژو چن، یانکای لین، جی-رونگ ون و جیاوئی هان. LLM خود را به یک متقلب معیار ارزیابی تبدیل نکنید. arXiv:2311.01964 cs.CL .