กับดักความคิด

มนุษย์อาจพบกับอคติทางความคิดที่เกิดจากความเป็นมนุษย์ ซึ่งรวมถึง การให้เหตุผลและอคติในการยืนยัน Alberto Cairo เขียนว่า "การให้เหตุผล ซึ่งเป็นโหมดเริ่มต้นของสมองมนุษย์"1 บ่อยครั้งที่ผู้คนคาดหวังหรืออยากได้ ผลลัพธ์หนึ่งๆ แล้วมองหาข้อมูลหรือหลักฐานที่จะสนับสนุนผลลัพธ์นั้น

เมื่อทำงานหรือประเมินข้อมูลและรูปแบบ ซึ่งอาจมาจาก แหล่งข้อมูลต่างๆ ให้ถามเกี่ยวกับแหล่งที่มาของอคติที่อาจเกิดขึ้น เช่น

  • ใครเป็นผู้ให้เงินทุนแก่โมเดลหรือการศึกษานี้ ตลาดหรือเชิงพาณิชย์คืออะไร แอปพลิเคชันของคุณ
  • ผู้ที่เกี่ยวข้องในการรวบรวมข้อมูลมีสิ่งจูงใจประเภทใดบ้าง
  • มีสิ่งจูงใจประเภทใดบ้างสำหรับนักวิจัยที่ฝึกโมเดล หรือทำการศึกษา รวมถึงการเผยแพร่และระยะเวลา
  • ใครคือผู้ออกใบอนุญาตสำหรับโมเดลหรือเผยแพร่การศึกษา และใครคือผู้ออกใบอนุญาต มีสิ่งจูงใจอะไรบ้าง

สถิติเชิงพรรณนา

ค่าเฉลี่ย (ผลรวมของค่าหารด้วยจำนวน) ค่ามัธยฐาน (ค่าตรงกลาง เมื่อ ตามลำดับ) และ mode (ค่าที่พบมากที่สุด) มักมีประโยชน์ในกรณี รู้สึกถึงรูปร่างของชุดข้อมูลหนึ่ง หากค่ามัธยฐานและค่าเฉลี่ยอยู่ไกล เช่น อาจมีค่าที่สูงมากและไม่สมมาตรใน ตั้งค่า

ช่วง ซึ่งเป็นความแตกต่างระหว่างค่าสูงสุดและต่ำสุด และความแปรปรวน ซึ่งเป็นผลต่างค่าเฉลี่ยกำลังสอง ระหว่างแต่ละค่าและค่าเฉลี่ยของเซต รวมทั้งให้ข้อมูลที่มีประโยชน์เกี่ยวกับ การกระจายและรูปร่างของชุดข้อมูล

ก่อนที่จะฝึกโมเดลกับข้อมูล ให้ถามด้วยว่าชุดข้อมูลนั้น ไม่สมดุล และหากมี ปัญหาความไม่สมดุลนั้นควรได้รับการแก้ไขหรือไม่

ความไม่น่าจะเป็นไปได้และค่า P-Value

เมื่อมีเวลาและโอกาสเพียงพอ การเกิด เหตุการณ์ที่ไม่น่าจะเป็นไปได้ก็เป็นไปได้อย่างมาก ดูทฤษฎี กลโกงเกี่ยวกับนักขายหุ้นของ Baltimore สำหรับตัวอย่างได้ 1 ตัวอย่าง

ตามความเห็นพ้องทางวิทยาศาสตร์ ผลลัพธ์ถือว่ามีนัยสำคัญทางสถิติ (และ ซึ่งทำให้เผยแพร่ได้) เมื่อค่า P-Value น้อยกว่า .05 ซึ่งหมายความว่าจะมี มีโอกาส <5% ที่ผลลัพธ์เดียวกันหรือสูงสุดอีก 1 รายการจะเกิดขึ้นภายใต้ สมมติฐานว่างที่เกิดจากความบังเอิญ พูดง่ายขึ้น นักวิจัยจะสามารถเผยแพร่ต่อเมื่อมีโอกาส 1 ใน 20 หรือน้อยกว่านั้น ผลลัพธ์ก็คือผลลัพธ์ของการสุ่ม แต่ที่น่าตกใจกว่านั้น ประมาณ 1 ครั้งใน 20 การทดลอง จะมีผลลัพธ์ที่ไม่เป็นความจริงเกิดขึ้น มีความสำคัญ แม้ว่าจะไม่ใช่ และผลลัพธ์อีก 19 รายการจะไม่ และเผยแพร่แล้ว ในบทความปี 2005 "เหตุใดผลการวิจัยส่วนใหญ่จึงเป็นเท็จ" John Ioannidis ได้วางปัจจัยหลายอย่าง ตั้งแต่สถิติไปจนถึง ด้านการเงิน ซึ่งมีส่วนทำให้มีการเผยแพร่ผลลัพธ์ที่ไม่เป็นความจริง

ตัวอย่างเช่น เพราะมีสิ่งจูงใจอย่างแรงกล้าในการเผยแพร่ นักวิจัยบางครั้งก็ฟัดจ์ ค่า P-Value ประมาณ .05 ให้ต่ำกว่าเกณฑ์ดังกล่าว เวลาอื่น การศึกษาที่เผยแพร่แล้ว ที่โดยปกติจะเลือกผลลัพธ์ที่ไม่คาดคิดและผิดปกติแสดง ไม่สามารถทำซ้ำได้ (และนั่นอาจเป็นผลลัพธ์ของความบังเอิญ) ซึ่งทำให้ ต่อวิกฤตความเชื่อมั่น ในหลายช่อง และยังนำไปสู่การสร้าง องค์กรที่อุทิศให้กับการทดสอบการทำซ้ำ

ในด้านของ ML โมเดลต่างๆ จะได้รับการพิจารณาว่ามีความทันสมัยเท่านั้นหากเป็นไปตามหรือ สูงกว่าเกณฑ์มาตรฐานการประเมินของโมเดลการแข่งขันอื่นๆ ส่วนใหญ่ ตอนนี้ อาจมีความกดดันที่คล้ายกันเกี่ยวกับคะแนนการประเมินโมเดล อาจมีประสิทธิภาพสูงขึ้นจากการรั่วไหลของข้อมูลเปรียบเทียบ2

ค่า P-Value จะมีประโยชน์ในการเลือกฟีเจอร์สำหรับโมเดลการถดถอย ANOVA (การวิเคราะห์ความแปรปรวน) เป็นวิธีทางสถิติที่เปรียบเทียบ ความแปรปรวนภายในกลุ่มเป็นความแปรปรวนระหว่างกลุ่ม โดยแสดงผล F-statistic และ P-Value สำหรับแต่ละฟีเจอร์ การเลือกฟีเจอร์ที่สำคัญที่สุดซึ่งมีค่า P-Value ต่ำสุดจะลดได้ จำนวนของฟีเจอร์ที่โมเดลจะต้องพิจารณา โดยไม่สูญเสียการคาดการณ์มากนัก ขั้นสูง ทั้ง 2 วิธีนี้ช่วยประหยัดการประมวลผลและหลีกเลี่ยงปัญหาฟีเจอร์มากเกินไป ซึ่งเราจะอธิบายในหัวข้อถัดไป ดู Scikit ดูรายละเอียดได้ที่คู่มือการเลือกฟีเจอร์

ปัญหาการเปรียบเทียบหลายรายการ

ปัญหาลำดับความสำคัญสูงจะร้ายแรงมากในกรณีที่ การเปรียบเทียบหลายรายการกับสมมติฐานว่างจะดำเนินการพร้อมกัน นี่เป็นปัญหาเฉพาะสำหรับการศึกษา fMRI

ใน fMRI ว็อกเซลแต่ละ (หน่วยวัด) ของสมองได้รับการทดสอบนัยสำคัญทางสถิติอย่างอิสระ กิจกรรม และไฮไลต์ไว้หากเป็นเช่นนั้น ซึ่งนำไปสู่บางสิ่งตามลำดับของ มีการทดสอบความสำคัญโดยอิสระ 100,000 ครั้งในเวลาเดียวกัน ที่ p=.05 เกณฑ์นัยสำคัญ ทฤษฎีทางสถิติคาดไว้ว่าจะเป็นเท็จประมาณ 5,000 ค่า เชิงบวกที่ปรากฏใน fMRI เดียว3

ปัญหาน่าจะอธิบายได้ดีที่สุดเมื่อ Bennett และคณะในปี 2009 โปสเตอร์ "ความสัมพันธ์ทางประสาทของมุมมองของกลุ่มคนที่อาศัยในแซลมอนแอตแลนติกหลังเกิดวิกฤต" ซึ่งชนะ Ig รางวัลโนเบล นักวิจัยแสดงภาพถ่าย 15 ภาพของ มนุษย์ตกอยู่ในสถานการณ์ที่สะเทือนอารมณ์กับปลาแซลมอนที่ตาย ในเครื่อง fMRI ขอให้ปลาแซลมอนตายค้นหาอารมณ์ของมนุษย์ในรูปภาพ ได้สัมผัสมาแล้ว พวกเขาได้ค้นหาคลัสเตอร์ที่มีนัยสำคัญทางสถิติ ของวอกเซลที่แอ็กทีฟในโพรงสมองของแซลมอนและสรุป ลิ้นที่แก้ม ว่าปลาแซลมอนที่ตาย มีส่วนในการมองมุมมองจริงๆ ยิ่งไปกว่านั้น ผู้วิจัยดึงดูดความสนใจไปที่ปัญหาการเปรียบเทียบหลายแบบใน fMRI และสถานการณ์ด้านภาพที่คล้ายกัน รวมถึงความจำเป็นในการบรรเทาอาการ

วิธีแก้ปัญหาแบบละเอียดและชัดเจนวิธีหนึ่ง คือการลดค่า P-Value ที่เป็นเกณฑ์ที่ระบุความสำคัญ องค์ประกอบตามธรรมชาติ ข้อดีคือระหว่างความละเอียดอ่อน (จับผลบวกจริงทั้งหมด) และความจำเพาะ (ระบุผลลบจริงทั้งหมด) การแลกเปลี่ยนความคิดเห็นเกี่ยวกับความละเอียดอ่อนหรือเรียกอีกอย่างว่า อัตราผลบวกจริง อยู่ในโมดูลการจัดประเภท Machine Learning Crash Course

การบรรเทาปัญหาอีกอย่างหนึ่งคือการควบคุมอัตราข้อผิดพลาดสำหรับครอบครัว (FWER) ซึ่ง คือความน่าจะเป็นของผลบวกลวงอย่างน้อย 1 ข้อ อีกวิธีหนึ่งคือการควบคุม อัตราการค้นพบเท็จ (FDR) หรือสัดส่วนที่คาดไว้ของผลบวกลวง ไปเป็นเชิงบวกทั้งหมด ดูหลักฐานด้านการกำกับดูแลและการเมือง ของโจทย์การเปรียบเทียบที่หลากหลาย รวมถึง Lindquist และ Mejia's "Zen กับการเปรียบเทียบหลายๆ อย่าง" เพื่อดูคำอธิบายของวิธีการเหล่านี้และคำแนะนำเล็กๆ น้อยๆ ในสถานการณ์ กับแซลมอนเดือด การควบคุม FDR และ FWER แสดงให้เห็นว่าไม่มีว็อกเซล มีนัยสำคัญทางสถิติแล้ว

การฝึกโมเดล ML ด้วยการสแกนจาก fMRI และวิธีการสร้างภาพอื่นๆ เพิ่มขึ้นเรื่อยๆ ได้รับความนิยมทั้งในด้านการวินิจฉัยทางการแพทย์4และการสร้างรูปภาพขึ้นมาใหม่ จากการทำงานของสมอง5 หากโมเดลเหล่านี้ได้รับการฝึกด้วยโมเดลขนาดใหญ่พอ ชุดข้อมูลนี้อาจลดโอกาสในการเกิดปัญหาจาก การเปรียบเทียบกันเอง อย่างไรก็ตาม โดยเฉพาะอย่างยิ่งในขอบเขตการวิเคราะห์ โมเดลนี้ อาจทำให้เกิดการอนุมานที่ไม่ถูกต้องในการสแกนแต่ละครั้ง หาก 20% ของคำว่า "ใช้งานอยู่" ว็อกเซล เป็นผลบวกลวง โปรดทราบว่าการแยกประเภท fMRI สำหรับการวินิจฉัย แบบจำลองที่อธิบายไว้ใน Li และ Zhao มีความแม่นยำประมาณ 70-85%

มีตัวแปรมากเกินไปในการวิเคราะห์การถดถอย

ปัญหาการเปรียบเทียบหลายแบบยังครอบคลุมถึงการวิเคราะห์การถดถอยหลายเท่า การวิเคราะห์การถดถอย หรือ การถดถอยเชิงเส้น เป็นกระดูกสันหลังของโมเดลการคาดการณ์เชิงตัวเลขมากมาย การวิเคราะห์การถดถอยจะใช้วิธีใดวิธีหนึ่ง เช่น จำนวนกำลังสองอย่างน้อยสามัญ เพื่อหาค่าสัมประสิทธิ์การถดถอยที่อธิบายผลที่ตัวแปรหนึ่งมีผลได้ดีที่สุด อีกรายการ นักวิจัยสามารถสอบถามว่าอายุและการสูบบุหรี่ส่งผลต่ออัตรามะเร็งปอดอย่างไร จะแสดงปัจจัยแต่ละตัวเป็นตัวแปรในการวิเคราะห์การถดถอยของมะเร็ง อุบัติการณ์ของผู้สูบบุหรี่และผู้ไม่สูบบุหรี่อายุหลายช่วง โมเดลการถดถอยเชิงเส้น ทำงานในลักษณะเดียวกันอย่างมาก ดังนั้น ที่ตีความได้ เมื่อเทียบกับโมเดล ML ประเภทอื่นๆ การหาการถดถอย สัมประสิทธิ์ของตัวแปรเหล่านั้นจะอธิบายความสัมพันธ์เชิงเส้นระหว่าง ตัวแปรเหล่านี้กับอัตรามะเร็งปอด

คุณอาจอยากรวมตัวแปรทั้งหมดที่เป็นไปได้ในการวิเคราะห์การถดถอย เพราะไม่ได้รวมปัจจัยสำคัญไว้อาจนำไปสู่การมีส่วนร่วม ถูกมองข้าม อย่างไรก็ตาม การเพิ่มตัวแปรมากเกินไปในการวิเคราะห์การถดถอย เพิ่มโอกาสที่ตัวแปรที่ไม่เกี่ยวข้องจะปรากฏทางสถิติ มีนัยสำคัญ หากเราเพิ่มตัวแปรที่ไม่เกี่ยวข้องลงในการวิเคราะห์อีก 18 รายการ เช่น "ภาพยนตร์ที่ดู" และ "มีเจ้าของสุนัข" ก็น่าจะเป็นไปได้ว่า ตัวแปรที่ไม่เกี่ยวข้อง จะมีความเกี่ยวข้องกับ ให้มีอัตรามะเร็งปอดสูงขึ้น6

ในบริบทของ ML สถานการณ์ในเชิงเปรียบเทียบจะให้ฟีเจอร์จำนวนมากเกินไปแก่ ซึ่งสามารถส่งผลให้เกิด มากเกินไป และปัญหาอื่นๆ

การอนุมานและการตัดสินใจ

วิธีหนึ่งที่จะเลี่ยงกับดักทางความคิดบางอย่างคือการใช้สถิติและแมชชีนเลิร์นนิง ซึ่งได้มาจากสถิติ เป็นเครื่องมือการตัดสินใจ แทนที่จะตอบคำถาม นี่คือ ตำแหน่งที่ Jerzy Neyman และ Egon Sharpe Pearson ได้7

ในเฟรมเวิร์กนี้ ข้อมูล สถิติข้อมูล และอนุพันธ์ รวมถึงโมเดล ML เหมาะที่สุดสำหรับการทำนายความเป็นไปได้ การขัดเกลาข้อความสากล การปรับปรุงและการมุ่งเน้น คำถามค้นคว้าวิจัย และช่วยในการตัดสินใจ ไม่เหมาะกับธุรกิจ สำหรับการกล่าวอ้างที่ยืนยันว่าเป็นจริง

David Ritter กล่าวว่าการตัดสินใจบนพื้นฐานของความสัมพันธ์แบบ แม้แต่ขนาดมหึมา ปริมาณข้อมูลควรขึ้นอยู่กับ 2 ปัจจัย ได้แก่

  • "ความมั่นใจว่าความสัมพันธ์จะยังคงเกิดขึ้นซ้ำได้ในอนาคต" ไหน ควรขึ้นอยู่กับความถี่ที่ความสัมพันธ์นั้นเกิดขึ้นใน ความเข้าใจที่ถูกต้องเกี่ยวกับสาเหตุของความสัมพันธ์นั้น
  • ความเสี่ยงและรางวัลจากการแสดง8

ในทำนองเดียวกัน คำถามเพื่อการวิจัยบางข้ออาจไม่เหมาะกับ AI อนาสเตสเซีย Fedyk เสนอ 2 เกณฑ์สำหรับปัญหาที่เหมาะสมกับ AI ดังนี้

  • โจทย์นี้ต้องมีการคาดการณ์ ไม่ใช่การทำความเข้าใจความสัมพันธ์ทั่วไป
  • ข้อมูลที่ส่งไปยัง AI มีสิ่งที่ต้องรู้เกี่ยวกับ ปัญหา กล่าวคือ ปัญหาเกิดขึ้นได้จากตัวเอง9

ข้อมูลอ้างอิง

Bennett, Craig M. Abigail A. Baird, Michael B. Miller และ George L. Wolford "ความสัมพันธ์ทางประสาทของมุมมองระหว่างสูญพันธุ์ซึ่งดำเนินการหลังจบการศึกษา แซลมอนแอตแลนติก: อาร์กิวเมนต์สำหรับการแก้ไขการเปรียบเทียบหลายรายการ" Neuroimage (2009)

ไคโร อัลแบร์โต หลักการทำงานของแผนภูมิ: ทำความเข้าใจข้อมูลภาพอย่างชาญฉลาดขึ้น นิวยอร์ก: ดับเบิลยู. Norton, 2019

ดาเวนพอร์ต, Thomas H. "แอป Analytics ที่คาดการณ์" ในคู่มือ HBR เกี่ยวกับข้อมูล ข้อมูลพื้นฐานเกี่ยวกับ Analytics สำหรับผู้จัดการ (บอสตัน: HBR Press 2018) 81-86

เอลเลนเบิร์ก จอร์แดน ไม่ควรถูกอย่างไร: พลังของการคิดเชิงคณิตศาสตร์ นิวยอร์ก: เพนกวิน, 2014

Fedyk, Anastassia "แมชชีนเลิร์นนิงช่วยแก้ปัญหาทางธุรกิจได้ไหม" ใน HBR คู่มือพื้นฐานการวิเคราะห์ข้อมูลสำหรับผู้จัดการ (บอสตัน: HBR Press, 2018) 111-119.

กัลโล เอมี่ "การทบทวนความรู้เกี่ยวกับนัยสำคัญทางสถิติ" ในคู่มือ HBR เกี่ยวกับข้อมูล ข้อมูลพื้นฐานเกี่ยวกับ Analytics สำหรับผู้จัดการ (บอสตัน: HBR Press 2018) 121-129

ฮัฟฟ์ ดาร์เรลล์ วิธีโกหกกับสถิติ นิวยอร์ก: W.W. Norton, 1954

ไอโออันนิดิส, จอห์น พี.เอ. "เหตุใดผลการวิจัยที่เผยแพร่ส่วนใหญ่จึงเป็นเท็จ" PLoS Med 2 หมายเลข 8: e124

โจนส์, เบน การหลีกเลี่ยงข้อผิดพลาดด้านข้อมูล โฮโบเคน, นิวเจอร์ซีย์: Wiley, 2020

Li, Jiangxue และ Peize Zhao "แอปพลิเคชันการเรียนรู้เชิงลึกใน fMRI – การทบทวนผลงาน" ICBBB 2023 (โตเกียว ญี่ปุ่น วันที่ 13-16 มกราคม 2023): 75-80 ปี https://doi.org/10.1145/3586139.3586150

Lindquist, Martin A. และ Amanda Mejia "Zen และศิลปะในการเปรียบเทียบ" Psychosomatic Medicine 77 ไม่ 2 (ก.พ. - มี.ค. 2015): 114-125. ดอย: 10.1097/PSY.0000000000000148

ชื่อบุคคล, เดวิด "เมื่อใดควรดำเนินการสหสัมพันธ์และเมื่อใดควรปฏิบัติ" ในคู่มือ HBR เกี่ยวกับ ข้อมูลพื้นฐานเกี่ยวกับการวิเคราะห์ข้อมูลสำหรับผู้จัดการ (บอสตัน: HBR Press 2018) 103-109

ทากากิ, ยู และชินจิ นิชิโมโตะ "การสร้างภาพความละเอียดสูงใหม่ด้วยโมเดลการกระจายแฝงจากกิจกรรมของสมองของมนุษย์" การประชุม IEEE/CVF ปี 2023 ในวันที่ Computer Vision and Pattern Recognition (แวนคูเวอร์, บริติชโคลัมเบีย, แคนาดา, 2023): 14453-14463 doi: 10.1109/CVPR52729.2023.01389

วีลลัน, ชาร์ลส สถิติเปล่า: กำจัดความน่ากลัวออกจากข้อมูล นิวยอร์ก: ดับเบิลยู. Norton, 2013

Zhou, Kun, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao, Xu Chen Yankai Lin, Ji-Rong Wen และ Jiawei Han "อย่าทำให้ LLM ของคุณเป็นคู่แข่งของการเปรียบเทียบการประเมิน" arXiv:2311.01964 cs.CL


  1. Cairo 182

  2. Zhou และคณะ

  3. Lindquist และ Mejia

  4. Li และ Zhao 77-78

  5. ทากากิและนิชิโมโตะ

  6. Wheelan 221

  7. Ellenberg 159

  8. Ritter 104

  9. Fedyk 113