กับดักการวิเคราะห์

"โมเดลทั้งหมดผิดรูปแบบ แต่บางโมเดลก็มีประโยชน์" — George Box, 1978

แม้ว่าเทคนิคเชิงสถิติที่มีประสิทธิภาพจะมีข้อจำกัดอยู่บ้าง ความเข้าใจ ข้อจำกัดเหล่านี้ช่วยให้นักวิจัยหลีกเลี่ยงพฤติกรรมแย่ๆ และการกล่าวอ้างที่ไม่ถูกต้องได้ เช่น คำยืนยันของ BF Skner ว่า Shakespeare ไม่ได้ใช้การสัมผัสอักษรมากกว่า ที่ไม่มีใครคาดคิดได้ (การศึกษาของ Skner คือ ประสิทธิภาพต่ำ1)

แถบความไม่แน่นอนและข้อผิดพลาด

สิ่งสำคัญคือการระบุความไม่แน่นอนในการวิเคราะห์ของคุณ มีความสำคัญเท่ากัน เพื่อวัดความไม่แน่นอนในการวิเคราะห์ของผู้ใช้คนอื่นๆ จุดข้อมูลที่ปรากฏ เพื่อพล็อตแนวโน้มบนกราฟ แต่มีแถบข้อผิดพลาดทับซ้อนกัน อาจไม่แสดง รูปแบบใดๆ ทั้งสิ้น ความไม่แน่นอนอาจสูงเกินกว่าที่จะแสดงข้อมูลที่เป็นประโยชน์ได้ ผลสรุปจากการศึกษาหรือการทดสอบทางสถิติที่เฉพาะเจาะจง หากการศึกษาวิจัย ต้องการความแม่นยําในระดับที่มาก ชุดข้อมูลเชิงพื้นที่ที่มีความไม่แน่นอน +/- 500 ม. มีความไม่แน่นอนมากเกินกว่าที่จะใช้งานได้

นอกจากนี้ ระดับความไม่แน่นอนอาจเป็นประโยชน์ในระหว่างการตัดสินใจ กระบวนการ ข้อมูลที่สนับสนุนการบำบัดน้ำบางอย่างที่มีความไม่แน่นอน 20% ใน ผลลัพธ์อาจจะนำไปสู่คำแนะนำการใช้น้ำ ด้วยการตรวจสอบโปรแกรมอย่างต่อเนื่องเพื่อจัดการกับความไม่แน่นอนนั้น

โครงข่ายประสาทแบบเบเยส (Bayesian Neural Network) สามารถระบุปริมาณของความไม่แน่นอนโดยการคาดการณ์การกระจายของค่าแทนที่จะเป็นการแจกแจงค่า

ไม่เกี่ยวข้อง

อย่างที่กล่าวไปแล้วในบทนำ อย่างน้อยก็มีช่องว่างเล็กๆ น้อยๆ เสมอระหว่าง และข้อมูลที่เป็นความจริง ผู้ปฏิบัติงาน ML ที่มีความเชี่ยวชาญควรระบุว่า ชุดข้อมูลนั้นเกี่ยวข้องกับคำถามที่ถาม

Huff อธิบายถึงการศึกษาความคิดเห็นสาธารณะในยุคแรกๆ ที่พบว่าคนผิวขาวชาวอเมริกัน ในการตอบคำถามว่าชาวอเมริกันผิวดำสามารถสร้างสิ่งดีๆ ได้อย่างง่ายดายเพียงใด มีความสัมพันธ์โดยตรงและผกผันกับระดับ ความเห็นอกเห็นใจต่อคนผิวดำ เมื่อสัตว์ทางเชื้อชาติเพิ่มขึ้น การตอบสนองเกี่ยวกับโอกาสทางเศรษฐกิจที่คาดการณ์ไว้มีมากขึ้นเรื่อยๆ มองโลกในแง่ดี ผู้คนอาจเข้าใจผิดว่าเป็นสัญญาณของความคืบหน้า อย่างไรก็ตาม การศึกษาไม่มีอะไรเลยเกี่ยวกับ โอกาสทางเศรษฐกิจที่มีให้สำหรับชาวอเมริกันผิวดำในเวลานั้น และไม่ใช่ เหมาะสำหรับการหาข้อสรุปเกี่ยวกับความเป็นจริงของตลาดงาน ความคิดเห็นของผู้ตอบแบบสำรวจ ข้อมูลที่รวบรวม ที่จริงแล้วไม่เกี่ยวข้องกับสถานะของตลาดงาน2

คุณสามารถฝึกโมเดลด้วยข้อมูลแบบสำรวจดังที่อธิบายข้างต้น โดยที่ จริงๆ แล้วจะวัดการเพิ่มประสิทธิภาพแทนที่จะเป็นโอกาส แต่เนื่องจาก โอกาสที่คาดการณ์ไว้จะไม่เกี่ยวข้องกับโอกาสจริง หาก อ้างว่าโมเดลกำลังคาดการณ์โอกาสที่แท้จริง โดยนำเสนอสิ่งที่โมเดลคาดการณ์ผิด

งง

ตัวแปรที่ทำให้เกิดความสับสน สับสน หรือโคแฟกเตอร์คือตัวแปร ไม่ได้อยู่ระหว่างการศึกษา ส่งผลต่อตัวแปรที่อยู่ระหว่างการศึกษาและอาจทําให้ผลลัพธ์บิดเบี้ยว เช่น ลองพิจารณาโมเดล ML ที่คาดการณ์อัตราการเสียชีวิตสำหรับข้อมูล ตามประเทศโดยอิงตามฟีเจอร์นโยบายด้านสาธารณสุข สมมติว่าค่ามัธยฐาน อายุไม่ใช่ฟีเจอร์ นอกจากนี้ สมมติว่าบางประเทศมีชื่อ จำนวนประชากรมากกว่ากลุ่มอื่นๆ การไม่สนใจตัวแปรที่น่าสับสนของอายุมัธยฐาน โมเดลนี้อาจคาดการณ์อัตราการเสียชีวิตที่ผิดพลาด

ในสหรัฐอเมริกา เชื้อชาติมักสัมพันธ์กับเศรษฐกิจและสังคมอย่างมาก แม้ว่าจะเป็นเพียงเชื้อชาติ ไม่ใช่เชื้อชาติ แต่มีการบันทึกด้วยข้อมูลการเสียชีวิต ความสับสนที่เกี่ยวข้องกับชั้นเรียน เช่น การเข้าถึงการดูแลสุขภาพ โภชนาการ งานที่เป็นอันตราย และที่อยู่อาศัยที่ปลอดภัย อาจมีอิทธิพลต่ออัตราการเสียชีวิตมากกว่าเชื้อชาติ แต่ก็ถูกละเลยเนื่องจากไม่ได้รวมอยู่ในชุดข้อมูล3 การระบุ และการควบคุมความวุ่นวายเหล่านี้จึงสำคัญมาก สำหรับการสร้างโมเดลที่มีประโยชน์และ เพื่อหาข้อสรุปที่มีความหมายและถูกต้อง

หากโมเดลได้รับการฝึกจากข้อมูลการเสียชีวิตที่มีอยู่ ซึ่งรวมถึงเชื้อชาติ แต่ไม่ใช่ แต่ก็อาจคาดการณ์การเสียชีวิตจากเชื้อชาติ แม้ว่าชนชั้นจะแข็งแกร่งกว่า ของผู้เสียชีวิต ซึ่งอาจทำให้มีสมมติฐานเกี่ยวกับ ความสัมพันธ์ระหว่างเหตุและผล และการคาดคะเนที่ไม่ถูกต้องเกี่ยวกับการเสียชีวิตของผู้ป่วย ผู้ปฏิบัติงาน ML ควรถามว่ามีข้อสรุปอยู่ในข้อมูลหรือไม่ รวมทั้งสิ่งที่มีความหมาย ตัวแปรอาจหายไปจากชุดข้อมูล

ในปี 1985 พยาบาล Health Study การศึกษากลุ่มประชากรตามรุ่นในเชิงสังเกตการณ์จากฮาร์วาร์ด โรงเรียนแพทย์และสถาบันสาธารณสุขแห่งฮาร์วาร์ดพบว่าสมาชิกในกลุ่มประชากรตามรุ่น การบำบัดแทนที่เอสโตรเจนมีอุบัติการณ์ของหัวใจวายลดลง เทียบกับสมาชิกของกลุ่มประชากรตามรุ่นที่ไม่เคยใช้ เอสโทรเจน ผลที่ได้คือแพทย์จึงสั่งยาเอสโตรเจนให้ ผู้ป่วยในวัยหมดประจำเดือนและวัยหมดประจำเดือนมาหลายสิบปีจนถึงการศึกษาทางคลินิกใน ปี 2002 ระบุความเสี่ยงด้านสุขภาพที่เกิดจากการบำบัดด้วยเอสโตรเจนในระยะยาว แนวทางปฏิบัติ ของการสั่งยาเอสโตรเจนให้กับผู้หญิงที่หมดประจำเดือนไปแล้ว แต่ไม่ได้ทำให้เกิดขึ้นก่อน การเสียชีวิตก่อนวัยอันควรประมาณหลายหมื่นคน

และอาจทำให้เกิดความสับสนหลายประการ พบนักระบาดวิทยา ผู้หญิงที่รับการรักษาด้วยฮอร์โมนทดแทน เทียบกับผู้หญิงที่ไม่ได้รักษา มีแนวโน้มที่จะผอมบาง มีการศึกษามากขึ้น ร่ำรวยขึ้น มีใส่ใจเรื่องสุขภาพมากกว่า และมีแนวโน้มที่จะออกกำลังกายมากขึ้น ผลการศึกษาต่างๆ พบว่าการศึกษาและความมั่งคั่ง ที่พบว่าลดความเสี่ยงของโรคหัวใจได้ ผลกระทบเหล่านั้นอาจสร้างความสับสน ความสัมพันธ์ที่ชัดเจนระหว่างการบำบัดด้วยเอสโตรเจนกับภาวะหัวใจวาย4

เปอร์เซ็นต์ที่มีตัวเลขเป็นค่าลบ

หลีกเลี่ยงการใช้เปอร์เซ็นต์เมื่อมีจำนวนลบอยู่ 5 เป็น กำไรและการสูญเสียที่มีความหมายอาจถูกบดบังได้ สมมติว่า คำนวณได้ว่าอุตสาหกรรมร้านอาหารมีงาน 2 ล้านตำแหน่ง หากอุตสาหกรรมแพ้ 1 ครั้ง จำนวนงานดังกล่าวในช่วงปลายเดือนมีนาคม 2020 และพบว่าไม่มีการเปลี่ยนแปลงสุทธิถึง 10 ตำแหน่ง และรับงาน 900,000 งานอีกครั้งในช่วงต้นเดือนกุมภาพันธ์ 2021 เมื่อเทียบกับปีก่อน การเปรียบเทียบในช่วงต้นเดือนมีนาคม 2021 ชี้ให้เห็นว่าการลางานในร้านอาหารเพิ่มขึ้นเพียง 5% สมมติว่าไม่มีการเปลี่ยนแปลงอื่นๆ เปรียบเทียบแบบปีต่อปีตอนสิ้นเดือนกุมภาพันธ์ ปี 2022 บ่งบอกว่ามีงานร้านอาหารเพิ่มขึ้น 90% ซึ่งต่างออกไปมาก ภาพของความเป็นจริง

ต้องการใช้จำนวนจริง โดยปรับให้เป็นมาตรฐานตามความเหมาะสม ดูการทำงานกับตัวเลข Cata สำหรับข้อมูลเพิ่มเติม

ความเข้าใจผิดเกี่ยวกับเหตุการณ์ที่เกิดขึ้นภายหลังและความสัมพันธ์ที่ใช้ไม่ได้

การบิดเบือนความจริงเป็นสมมติฐานที่ว่า เนื่องจากเหตุการณ์ A ตามด้วยเหตุการณ์ A เหตุการณ์ B, เหตุการณ์ A ทำให้เกิดเหตุการณ์ B พูดง่ายๆ คือสมมติว่า ความสัมพันธ์ที่เป็นเหตุและผลซึ่งไม่มีอยู่ เรียบง่ายกว่าเดิม สหสัมพันธ์ไม่ได้พิสูจน์ให้เห็นถึงความเป็นเหตุเป็นผล

นอกจากความสัมพันธ์ที่เป็นสาเหตุและผลกระทบที่ชัดเจนแล้ว ความสัมพันธ์ยังอาจทำให้เกิด เกิดจาก

  • โอกาสอย่างแท้จริง (ดู Tyler Vigen's ความสัมพันธ์ที่ไม่ได้เกิดขึ้นจริง เพื่อเป็นภาพประกอบ รวมถึงความสัมพันธ์ที่ชัดเจนระหว่างอัตราการหย่าร้าง ในการบริโภคเมนและมาร์การีน)
  • ความสัมพันธ์ที่แท้จริงระหว่างตัวแปร 2 ตัว แต่ยังไม่ชัดเจนว่าตัวแปรใด ตัวแปรนี้เป็นสาเหตุและมีตัวแปรใดที่ได้รับผลกระทบ
  • สาเหตุที่ 3 ที่แยกจากกันซึ่งมีอิทธิพลต่อตัวแปรทั้งสอง แม้ว่า ตัวแปรสหสัมพันธ์ไม่มีความเกี่ยวข้องกัน ภาวะเงินเฟ้อทั่วโลกสำหรับ เช่น อาจขึ้นราคาทั้งของเรือยอชต์และคึ่นช่าย6

นอกจากนี้ ยังเสี่ยงที่จะคาดการณ์ความสัมพันธ์ที่ผ่านข้อมูลที่มีอยู่ ลมกระโชกแรงชี้ให้เห็นว่าฝนบางส่วนจะทำให้พืชผลดีขึ้น แต่ฝนตกมากเกินไปจะก่อให้เกิดความเสียหาย พวกเขา ความสัมพันธ์ระหว่างผลลัพธ์ของฝนและพืชจะไม่เป็นเส้นตรง7 (ดู สองส่วนถัดไปสำหรับข้อมูลเพิ่มเติมเกี่ยวกับความสัมพันธ์ที่ไม่ใช่เชิงเส้น) โจนส์ โลกนี้เต็มไปด้วยเหตุการณ์ที่คาดเดาไม่ได้ เช่น สงครามและความอดอยาก ทำให้มีการคาดการณ์ข้อมูลอนุกรมเวลาในอนาคต ความไม่แน่นอนอย่างมาก8

นอกจากนี้ แม้แต่ความสัมพันธ์ที่แท้จริงที่มาจากสาเหตุและผลกระทบ เป็นประโยชน์ในการตัดสินใจ ตัวอย่างเช่น Huff จะยกตัวอย่างความสัมพันธ์ระหว่าง ความสามารถในการแต่งงานและการศึกษาระดับวิทยาลัยในทศวรรษ 1950 ผู้หญิงที่เคยไปที่ มหาวิทยาลัยมีแนวโน้มน้อยกว่าที่จะแต่งงาน แต่กรณีนี้ก็อาจจะเป็นเช่นนั้น ผู้หญิงที่เข้าเรียนมหาวิทยาลัยมีแนวโน้มน้อยที่จะแต่งงานในตอนแรก ในกรณีนี้ การศึกษาระดับวิทยาลัยไม่ได้เปลี่ยนแนวโน้มของพวกเขา เรื่องการแต่งงาน9

หากการวิเคราะห์ตรวจพบความสัมพันธ์ระหว่างตัวแปร 2 ตัวในชุดข้อมูล ให้ถามคำถามต่อไปนี้

  • ความสัมพันธ์นี้เป็นความสัมพันธ์ประเภทใด: สาเหตุและผลกระทบ หลอกลวง ไม่ทราบ หรือเกิดจากตัวแปรที่สาม
  • การคาดการณ์จากข้อมูลมีความเสี่ยงเพียงใด การคาดการณ์โมเดลทุกรายการกับข้อมูล ไม่ได้อยู่ในชุดข้อมูลการฝึก อยู่ในระหว่างการประมาณค่า หรือ ค่าประมาณจากข้อมูลได้
  • สามารถใช้ความสัมพันธ์เพื่อทำการตัดสินใจที่มีประโยชน์หรือไม่ ตัวอย่างเช่น การมองโลกในแง่ดีอาจสัมพันธ์อย่างมากกับการเพิ่มค่าจ้าง การวิเคราะห์ความเห็นของกลุ่มข้อมูลข้อความขนาดใหญ่ เช่น โซเชียลมีเดีย ข้อความจากผู้ใช้ในประเทศใดประเทศหนึ่ง เป็นการไม่มีประโยชน์ต่อการคาดเดา ค่าจ้างในประเทศนั้นเพิ่มขึ้น

เมื่อฝึกโมเดล โดยทั่วไปแล้วผู้ปฏิบัติงาน ML จะมองหาฟีเจอร์ที่ มีความสัมพันธ์อย่างมากกับป้ายกำกับ หากความสัมพันธ์ระหว่างคุณลักษณะ รวมทั้งไม่เข้าใจป้ายกำกับ อาจนำไปสู่ปัญหาที่อธิบายไว้ ในส่วนนี้ รวมถึงโมเดลที่อ้างอิงความสัมพันธ์และรูปแบบที่ไม่เป็นจริง ที่สันนิษฐานว่าแนวโน้มในอดีตจะดำเนินต่อไปในอนาคต เมื่อในความเป็นจริงแล้ว สิ่งที่ไม่ควรทำ

ความลำเอียงเชิงเส้น

ใน "การคิดแบบเชิงเส้นในโลกที่ไม่ใช่เชิงเส้น" Bart de Langhe, Stefano Putoni และ Richard Larrick อธิบายอคติเชิงเส้นว่า สมองมนุษย์มีแนวโน้มที่จะคาดหวังและมองหาความสัมพันธ์แบบเชิงเส้น ปรากฏการณ์หลายอย่างกลับไม่เป็นเชิงเส้น ความสัมพันธ์ระหว่างทัศนคติของมนุษย์กับ พฤติกรรม เช่น คือเส้นโค้งนูน ไม่ใช่เส้น ในวารสารปี 2007 บทความจากนโยบายผู้บริโภค อ้างอิงจาก de Langhe และคณะ, Jenny van Doorn และคณะ จำลองความสัมพันธ์ระหว่างผู้ตอบแบบสำรวจ เกี่ยวกับ และผู้ตอบแบบสอบถาม การซื้อผลิตภัณฑ์ออร์แกนิก ธุรกิจที่มี ความกังวลที่มากที่สุดเกี่ยวกับสิ่งแวดล้อมจะซื้อผลิตภัณฑ์ออร์แกนิกมากขึ้น แต่มี แตกต่างกันเพียงเล็กน้อยระหว่างผู้ตอบรายอื่นๆ ทั้งหมด

วันที่ การซื้อผลิตภัณฑ์ออร์แกนิกเทียบกับคะแนนความกังวลด้านสิ่งแวดล้อม
  แสดงเส้นแบนเป็นส่วนใหญ่โดยมีเส้นโค้งนูนคมขึ้นทางด้านขวาสุด
กราฟการซื้อแบบออร์แกนิกเทียบกับคะแนนข้อกังวลด้านสิ่งแวดล้อมมีการปรับให้ง่ายขึ้นและดัดแปลงมาจาก van Doorn และคณะ กระดาษ

เมื่อออกแบบโมเดลหรือการศึกษา ให้นึกถึงความเป็นไปได้ของการไม่เป็นเชิงเส้น ความสัมพันธ์ เนื่องจากการทดสอบ A/B อาจขาดความสัมพันธ์ที่ไม่ใช่แบบเชิงเส้น ลองทดสอบความสัมพันธ์ที่สามซึ่งเป็นระดับกลางเช่นกัน เงื่อนไข C พิจารณาด้วยว่าลักษณะการทำงานเริ่มต้นที่ปรากฏหรือไม่ จะเป็นเส้นตรงต่อไป หรือข้อมูลในอนาคต แสดงลอการิทึมมากขึ้นหรือพฤติกรรมที่ไม่เป็นเชิงเส้นอื่นๆ

วันที่ เส้นตรงสำหรับข้อมูลลอการิทึมที่แสดงความพอดีสำหรับ
  ของข้อมูลครึ่งหนึ่ง และ
สถานการณ์ดังกล่าวไม่เหมาะสมมากขึ้นเรื่อยๆ
ตัวอย่างการจับคู่เชิงเส้นกับข้อมูลลอการิทึมไม่ดี

ตัวอย่างสมมตินี้แสดงความพอดีแบบเชิงเส้นที่ไม่ถูกต้องสำหรับข้อมูลลอการิทึม หากมีจุดข้อมูลเพียง 2-3 จุดแรกเท่านั้น ก็คงจะห้ามใจไม่ได้ และไม่ถูกต้องสำหรับสมมติฐานเกี่ยวกับความสัมพันธ์เชิงเส้นแบบต่อเนื่องระหว่างตัวแปร

การประมาณค่าเชิงเส้น

ตรวจสอบการประมาณค่าในช่วงระหว่างจุดข้อมูล เนื่องจากการประมาณค่าในช่วง จะแนะนำจุดสมมติและช่วงเวลาระหว่างการวัดจริงอาจ มีความผันผวนอย่างมีนัยสำคัญ ลองดูตัวอย่างต่อไปนี้ การนำเสนอจุดข้อมูล 4 จุดที่เชื่อมต่อกับการประมาณค่าในช่วงเชิงเส้น

วันที่ แอมพลิจูดตลอดช่วงที่ผ่านมาแสดงจุด 4 จุดเชื่อมต่อกับเส้นตรง
ตัวอย่างการประมาณค่าในช่วงเชิงเส้น

จากนั้นพิจารณาตัวอย่างของความผันผวนระหว่างจุดข้อมูลเหล่านี้ ลบด้วยการประมาณค่าในช่วงเชิงเส้น:

วันที่ เหมือนเช่นเคย แต่มีความผันผวนอย่างมากระหว่างจุดที่ 2 และ 3
ตัวอย่างความผันผวนอย่างมีนัยสำคัญ (แผ่นดินไหว) ระหว่างจุดข้อมูล

ตัวอย่างนี้สามารถนำมาใช้ได้เนื่องจากการสแกนคลื่นไหวสะเทือนจะรวบรวมข้อมูลที่ต่อเนื่อง และดังนั้น ก็ไม่ควรพลาดเหตุแผ่นดินไหวครั้งนี้ แต่ก็มีประโยชน์ในการแสดงให้เห็น จากการประมาณค่าในช่วง และปรากฏการณ์จริงที่ข้อมูล ผู้ชำนาญการอาจมองข้าม

ปรากฏการณ์ของ Runge

ปรากฏการณ์ของรันจ์ ที่เรียกกันว่า "การขยับพหุนาม" เป็นปัญหาที่ตรงข้ามกับ สเปกตรัมจากการประมาณค่าในช่วงเชิงเส้นและอคติเชิงเส้น เมื่อปรับพหุนามให้พอดี การประมาณค่าในช่วงกับข้อมูล อาจใช้พหุนามที่มีดีกรีสูงเกินไป (องศาหรือลำดับ เป็นเลขชี้กำลังสูงสุดในสมการพหุนาม) ช่วงเวลานี้ ทำให้เกิดการเด้งตัวขึ้นแบบแปลกๆ ที่ขอบ ตัวอย่างเช่น การใช้ การประมาณค่าพหุนามของดีกรี 11 หมายความว่าศัพท์ที่มีลำดับสูงสุดใน สมการพหุนามมี \(x^{11}\)เพื่อให้ข้อมูลเชิงเส้นแบบคร่าวๆ ได้ผลลัพธ์เป็น การคาดคะเนที่แย่อย่างเห็นได้ชัดในช่วงต้นและช่วงท้ายของ ช่วงข้อมูล:

วันที่ เชิงเส้นคร่าวๆ
  ที่ใช้กับการประมาณค่าพหุนามของดีกรี 11
  การเพิ่มขึ้นอย่างมากระหว่างจุดข้อมูล 2 จุดแรกกับช่วงที่เพิ่มขึ้นอย่างรวดเร็ว
  ระหว่างจุดข้อมูล 2 จุดสุดท้าย
ตัวอย่างการขยับพหุนาม

ในบริบทของ ML ปรากฏการณ์ที่คล้ายกันคือ มากเกินไป

ความล้มเหลวทางสถิติในการตรวจจับ

บางครั้งการทดสอบทางสถิติอาจมีประสิทธิภาพต่ำเกินกว่าที่จะตรวจพบ ผลกระทบเล็กๆ น้อยๆ หากขาดการวิเคราะห์เชิงสถิติ ก็มีโอกาสน้อยที่จะสามารถ การระบุเหตุการณ์จริง จึงมีโอกาสสูงที่จะเกิดผลลบลวง Katherine Button และคณะ เขียนในธรรมชาติว่า "เมื่อการศึกษาในสาขาวิชาหนึ่งๆ ออกแบบมาโดยมีกำลัง 20% หมายความว่าถ้ามีค่าที่ไม่เป็นค่าว่างจริง 100 รายการ ที่จะค้นพบในพื้นที่นั้น งานวิจัยเหล่านี้คาดว่าจะค้นพบ เพียง 20 ครั้งเท่านั้น" บางครั้งการเพิ่มขนาดการสุ่มตัวอย่างอาจช่วยได้ แต่ควรระวัง การออกแบบการศึกษา

สถานการณ์ที่คล้ายกันใน ML เป็นปัญหาของ classification และ เกณฑ์การจัดประเภทได้ด้วย ตัวเลือกเกณฑ์ที่สูงขึ้นจะส่งผลให้ ผลบวกลวงน้อยลงและผลลบลวงมากขึ้น ขณะที่ผลลัพธ์เกณฑ์ที่ต่ำลง ทำให้เกิดผลบวกลวงมากขึ้นและผลลบลวงน้อยลง

นอกจากปัญหาเรื่องประสิทธิภาพทางสถิติแล้ว เนื่องจากความสัมพันธ์ ออกแบบมาเพื่อตรวจจับความสัมพันธ์เชิงเส้น ความสัมพันธ์ที่ไม่เป็นเชิงเส้นระหว่าง ตัวแปรจึงอาจพลาดไป ในทำนองเดียวกัน ตัวแปรอาจเกี่ยวข้องกับ อื่นๆ แต่ไม่มีความสัมพันธ์ทางสถิติ ตัวแปรสามารถเป็น มีสหสัมพันธ์เชิงลบแต่ไม่เกี่ยวข้องกันเลยในสิ่งที่เรียกว่า การบิดเบือนของเบิร์คสันหรือการบิดเบือนความจริงของเบิร์คสัน ตัวอย่างสุดคลาสสิกของ Berkson การเข้าใจผิดคือความสัมพันธ์เชิงลบที่ไม่เป็นความจริงระหว่างความเสี่ยงใดๆ และโรคที่รุนแรง เมื่อดูข้อมูลผู้ป่วยในโรงพยาบาล (เป็น เมื่อเทียบกับประชากรทั่วไป) ซึ่งเกิดขึ้นจากกระบวนการคัดเลือก ( ภาวะรุนแรงพอที่จะต้องเข้ารับการรักษาที่โรงพยาบาล)

ลองพิจารณาว่าตรงกับกรณีใดต่อไปนี้

โมเดลที่ล้าสมัยและสมมติฐานที่ไม่ถูกต้อง

แม้แต่โมเดลที่ดีก็อาจมีประสิทธิภาพแย่ลงได้เมื่อเวลาผ่านไปเพราะพฤติกรรม (และ ที่สำคัญ) อาจเปลี่ยนแปลงไป ต้องเลิกใช้โมเดลการคาดการณ์รุ่นแรกๆ ของ Netflix เนื่องจาก ฐานลูกค้าของพวกเขาได้เปลี่ยนจากผู้ใช้อายุน้อย ที่เชี่ยวชาญเทคโนโลยีเป็นผู้ใช้ทั่วไป ประชากร10

โมเดลอาจมีข้อสันนิษฐานที่เงียบและไม่ถูกต้องซึ่งอาจยังคงซ่อนอยู่ จนกระทั่งเกิดความล้มเหลวครั้งใหญ่ของโมเดลนี้ ดังเช่นในการขัดข้องของตลาดในปี 2008 โมเดลมูลค่าความเสี่ยง (VaR) ของอุตสาหกรรมการเงินที่อ้างว่าสามารถประมาณการได้อย่างแม่นยำ กำไรสูงสุดในพอร์ตโฟลิโอของเทรดเดอร์ เช่น การสูญเสียสูงสุด $100,000 คาดไว้ว่า 99% ของเวลาทั้งหมด แต่ในสภาวะที่ไม่ปกติ ซึ่งเป็นพอร์ตโฟลิโอที่คาดว่าจะมีการสูญเสียสูงสุด $100,000 บาท แพ้บางครั้ง $1,000,000 ขึ้นไป

โมเดล VaR อิงตามสมมติฐานที่ผิดพลาด ซึ่งรวมถึงสิ่งต่อไปนี้

  • การเปลี่ยนแปลงของตลาดที่ผ่านมาเป็นการคาดการณ์ถึงการเปลี่ยนแปลงของตลาดในอนาคต
  • การกระจายแบบปกติ (แบบเฉพาะเจาะจงและคาดการณ์ได้) คือ ซึ่งกำหนดให้กับผลตอบแทนที่คาดการณ์
การแจกแจง von Mises ที่มี k=5 มีลักษณะคล้ายกับการแจกแจงแบบเกาส์เชียน และ k=1 และ k=.2 ที่ราบเรียบกว่า
กราฟของการแจกแจง von Mises ซึ่งมีหางบางที่ K สูงและหางไขมันที่ K ต่ำ

จริงๆ แล้ว การแจกแจงพื้นฐานเป็นเรื่องของไขมัน หรือแฟร็กทัล ซึ่งหมายความว่ามีความเสี่ยงสูงกว่ามากสำหรับ เหตุการณ์ที่ไม่ค่อยเกิดขึ้น เมื่อเทียบกับการกระจายปกติที่คาดการณ์ ธรรมชาติหางอ้วนของ การกระจายจริงเป็นที่รู้จักดี แต่ไม่ค่อยมีการดำเนินการ สิ่งที่ไม่ค่อยมีประสิทธิภาพ เป็นที่ทราบกันดีว่า ปรากฏการณ์ต่างๆ ที่ซับซ้อนและเชื่อมโยงกันอย่างเหนียวแน่นเพียงใด รวมถึง การซื้อขายบนคอมพิวเตอร์ด้วยการขายอัตโนมัติ11

ปัญหาการรวม

ข้อมูลที่รวบรวมซึ่งรวมถึงข้อมูลประชากรและระบาดวิทยาส่วนใหญ่ จะขึ้นอยู่กับชุดของกับดักบางอย่าง Simpson's paradox หรือ amalgamation paradox จะเกิดขึ้นในข้อมูลรวมที่แสดงแนวโน้มที่ชัดเจน หายไปหรือย้อนกลับเมื่อรวบรวมข้อมูลในระดับอื่น เนื่องจาก และก่อให้เกิดความเข้าใจผิดเกี่ยวกับการเป็นเหตุเป็นผล

การเข้าใจผิดเกี่ยวกับระบบนิเวศเกี่ยวข้องกับการประมาณข้อมูลด้วยการประมาณที่ไม่ถูกต้องเกี่ยวกับ ประชากรในระดับการรวมข้อมูลหนึ่งไปยังอีกระดับการรวมข้อมูล โดยที่ การอ้างสิทธิ์อาจไม่ถูกต้อง โรคนี้ส่งผลกระทบต่อคนงานเกษตรกรรม 40% จังหวัดหนึ่งอาจไม่ได้อยู่ในที่แพร่หลายเหมือนใน ประชากร และยังมีแนวโน้มสูงที่จะมีฟาร์มเดี่ยวๆ หรือ เมืองทางการเกษตรในจังหวัดนั้นซึ่งไม่มีอุณหภูมิสูงใกล้เคียงกัน ความแพร่หลายของโรคนั้นได้ คาดการณ์ความแพร่หลายของที่ที่ไม่ค่อยส่งผล 40% สถานที่บางแห่ง จะทำให้คุณหลงเชื่อ

ปัญหายูนิตที่แก้ไขได้ (MAUP) เป็นปัญหาที่รู้จักกันดีใน ข้อมูลเชิงพื้นที่ อธิบายโดย Stan Openshaw ในปี 1984 ใน CATMOG 38 ขึ้นอยู่กับรูปร่างและขนาดของพื้นที่ที่ใช้ในการ ข้อมูลรวม ผู้ชำนาญด้านข้อมูลภูมิสารสนเทศสามารถสร้าง ความสัมพันธ์ระหว่างตัวแปรในข้อมูล การลงคะแนนเสียงเลือกตั้ง เขตที่โปรดปรานฝ่ายใดฝ่ายหนึ่งเป็นตัวอย่างของ MAUP

สถานการณ์ทั้งหมดนี้มีการประมาณที่ไม่เหมาะสมจาก การรวมข้อมูลเป็นอีกระดับหนึ่ง การวิเคราะห์ระดับต่างๆ อาจต้องใช้เกณฑ์ที่ต่างกัน การรวมข้อมูลหรือแม้แต่ชุดข้อมูลที่แตกต่างกันโดยสิ้นเชิง12

โปรดทราบว่าข้อมูลสำมะโนประชากร ข้อมูลประชากร และระบาดวิทยามัก ตามโซนด้วยเหตุผลด้านความเป็นส่วนตัว และโซนเหล่านี้มักจะ กฎเกณฑ์ต่างๆ กล่าวคือ ไม่ได้ขึ้นอยู่กับขอบเขตที่มีความหมายในโลกแห่งความเป็นจริง วันและเวลา ในการทำงานกับข้อมูลประเภทเหล่านี้ ผู้ปฏิบัติงาน ML ควรตรวจสอบว่าโมเดล ประสิทธิภาพและการคาดการณ์จะเปลี่ยนไปตามขนาดและรูปร่างของโซน หรือระดับการรวม หากใช่ การคาดการณ์โมเดล ได้รับผลกระทบจากปัญหาการรวมเหล่านี้อย่างใดอย่างหนึ่ง

ข้อมูลอ้างอิง

Button, Katharine และคณะ "ไฟฟ้าล้มเหลว: ทำไมตัวอย่างขนาดเล็กจึงบ่อนทำลาย ของประสาทวิทยาศาสตร์ได้ด้วย" ธรรมชาติ Reviews Neuroscience vol 14 (2013), 365–376 ข้อมูล DOI: https://doi.org/10.1038/nrn3475

ไคโร อัลแบร์โต หลักการทำงานของแผนภูมิ: ทำความเข้าใจข้อมูลภาพอย่างชาญฉลาดขึ้น นิวยอร์ก: ดับเบิลยู. Norton, 2019

ดาเวนพอร์ต, Thomas H. "แอป Analytics ที่คาดการณ์" ในคู่มือ HBR เกี่ยวกับข้อมูล ข้อมูลพื้นฐานเกี่ยวกับ Analytics สำหรับผู้จัดการ (บอสตัน: HBR Press 2018) 81-86

De Langhe, Bart, Stefano Putoni และ Richard Larrick "การคิดแบบเชิงเส้นในโลกที่ไม่ใช่เชิงเส้น" ในคู่มือ HBR พื้นฐานการวิเคราะห์ข้อมูลสำหรับผู้จัดการ (บอสตัน: HBR Press, 2018) 131-154

เอลเลนเบิร์ก จอร์แดน ไม่ควรถูกอย่างไร: พลังของการคิดเชิงคณิตศาสตร์ นิวยอร์ก: เพนกวิน, 2014

ฮัฟฟ์ ดาร์เรลล์ วิธีโกหกกับสถิติ นิวยอร์ก: W.W. Norton, 1954

โจนส์, เบน การหลีกเลี่ยงข้อผิดพลาดด้านข้อมูล โฮโบเคน, นิวเจอร์ซีย์: Wiley, 2020

Openshaw, Stan "โจทย์ยูนิตที่แก้ไขได้" CATMOG 38 (นอร์วิช อังกฤษ: Geo Books 1984) 37.

ความเสี่ยงในการจัดทำรูปแบบทางการเงิน: VaR และภาวะเศรษฐกิจที่ล่มลง, รัฐสภาแห่งที่ 111 (2009) (คำรับรองของ Nassim N. Taleb และ Richard Bookstaber)

ชื่อบุคคล, เดวิด "เมื่อใดควรดำเนินการสหสัมพันธ์และเมื่อใดควรปฏิบัติ" ในคู่มือ HBR เกี่ยวกับ ข้อมูลพื้นฐานเกี่ยวกับการวิเคราะห์ข้อมูลสำหรับผู้จัดการ (บอสตัน: HBR Press 2018) 103-109

Tulchinsky, Theodore H. และ Elena A. Varavikova "บทที่ 3: การวัด เฝ้าติดตาม และประเมินสุขภาพของประชากร" ใน The New Public Health ฉบับที่ 3 ซานดิเอโก: Academic Press, 2014, หน้า 91-147 DOI: https://doi.org/10.1016/B978-0-12-415766-8.00003-3

แวน ดอร์น, เจนนี่, ปีเตอร์ ซี. Verhoef และ Tammo H. A. Bijmolt "ความสำคัญของ ความสัมพันธ์ที่ไม่ใช่เชิงเส้นระหว่างทัศนคติและพฤติกรรมในนโยบาย การวิจัย" Journal of Consumer Policy 30 (2007) 75–90. DOI: https://doi.org/10.1007/s10603-007-9028-3

การอ้างอิงรูปภาพ

อิงตาม "Von Mises Distribution" Rainald62, 2018 แหล่งที่มา


  1. Ellenberg 125

  2. Huff 77-79 Huff อ้างถึงสำนักงานวิจัยความคิดเห็นสาธารณะของพรินซ์ตัน แต่ เขาอาจคิดถึง รายงานเดือนเมษายน 1944 โดย National Opinion Research Center แห่ง University of Denver

  3. Tulchinsky และ Varavikova

  4. Gary Taubes เรารู้จริงไหมที่จะทำให้เรามีสุขภาพดี" ใน The New York Times Magazine 16 ก.ย. 2007

  5. Ellenberg 78

  6. Huff 91-92

  7. Huff 93.

  8. Jones 157-167

  9. Huff 95.

  10. Davenport 84

  11. ดูคำให้การของรัฐสภาสหรัฐฯ ของ Nassim N. Taleb and Richard Bookstaber ใน The Risks of Financial Modeling: VaR and the Economic Meltdown, 111th Congress (2009) 11-67

  12. Cairo 155, 162