โอเวอร์ฟิต

Overfitting หมายถึงการสร้างรูปแบบ ที่ตรงกับ (จดจำ) ชุดการฝึก อย่างใกล้ชิดว่าโมเดล ไม่สามารถคาดการณ์ข้อมูลใหม่ได้อย่างถูกต้อง โมเดลโอเวอร์พอลคล้ายกับสิ่งประดิษฐ์ที่มีประสิทธิภาพดีในห้องทดลอง ก็ไร้ค่าในโลกจริง

ในรูปที่ 11 สมมติว่ารูปทรงเรขาคณิตแต่ละรูปแสดงถึงตำแหน่งของต้นไม้ ในป่ารูปสี่เหลี่ยม เพชรสีฟ้าจะแสดงตำแหน่งของต้นไม้ที่มีสุขภาพดี ขณะที่วงกลมสีส้มจะระบุตำแหน่งของต้นไม้ที่ป่วย

วันที่ รูปที่ 11 รูปนี้มีจุดประมาณ 60 จุด โดยครึ่งหนึ่งเป็นจุด
            ต้นไม้ที่แข็งแรงและต้นไม้ที่ป่วยอีกครึ่งหนึ่ง
            ต้นไม้ส่วนใหญ่มักอยู่ในจตุภาคตะวันออกเฉียงเหนือ แต่มีไม่กี่ต้น
            ต้นไม้ที่มีสุขภาพดีแอบแฝงเข้าไปในจตุภาคตะวันตกเฉียงเหนือ ต้นไม้ป่วย
            ส่วนใหญ่อยู่ในจตุภาคตะวันออกเฉียงใต้ แต่มีต้นไม้ที่ป่วยอยู่ไม่กี่ต้น
            เข้าไปในพื้นที่อื่นๆ
รูปที่ 11 ชุดการฝึก: ตำแหน่งของต้นไม้ที่แข็งแรงและป่วยในป่าสี่เหลี่ยม

 

ต้องวาดรูปร่างต่างๆ ไม่ว่าจะเป็นเส้น เส้นโค้ง วงรี หรืออะไรก็ตาม เพื่อแยกออกจาก ต้นไม้ที่มีสุขภาพดีจากต้นไม้ที่ป่วย จากนั้นขยายบรรทัดถัดไปเพื่อตรวจสอบ การแยกที่เป็นไปได้

รูปทรงที่ซับซ้อนที่แสดงในรูปที่ 12 จัดหมวดหมู่ข้อมูลทั้งหมด ต้นไม้ ถ้าเรามองว่ารูปทรงเป็นต้นแบบ ต้องดีมากเลย โมเดล

หรืออาจจะยังมีหวังอยู่กันแน่นะ โมเดลที่ยอดเยี่ยมอย่างแท้จริงจัดหมวดหมู่ตัวอย่างใหม่ได้สำเร็จ รูปที่ 13 แสดงสิ่งที่เกิดขึ้นเมื่อโมเดลเดียวกันนั้นทำการคาดการณ์ใน ตัวอย่างจากชุดทดสอบ

วันที่ รูปที่ 13 ต้นไม้สุขภาพและป่วยกลุ่มใหม่วางทับบน
            แสดงในรูปที่ 12 โมเดลนี้แยกหมวดหมู่การทดสอบ
            ต้นไม้
รูปที่ 13 ชุดทดสอบ: โมเดลที่ซับซ้อนในการแยกต้นไม้ที่ป่วยออกจากต้นไม้ที่มีสุขภาพดี

 

ดังนั้น โมเดลที่ซับซ้อนที่แสดงในรูปที่ 12 ทำงานได้ดีในชุดการฝึก แต่ทำได้ไม่ดีพอในชุดการทดสอบ นี่เป็นกรณีคลาสสิกของโมเดล ปรับมากเกินไปให้กับข้อมูลชุดการฝึก

การปรับให้พอดี การตัดมากเกินไป และการตัดให้พอดี

โมเดลต้องคาดการณ์ข้อมูลใหม่ได้ดี กล่าวคือ คุณตั้งเป้าที่จะสร้างโมเดลที่ "เหมาะสม" ข้อมูลใหม่

จากที่เห็น โมเดลโอเวอร์ฟิตคาดการณ์ได้อย่างดีเยี่ยมในการฝึก ตั้งค่าแต่มีการคาดการณ์ได้ไม่ดีในข้อมูลใหม่ CANNOT TRANSLATE รูปแบบชุดชั้นใน ไม่ได้คาดการณ์ข้อมูลการฝึกได้ดี หากรูปแบบโอเวอร์เอนด์คือ เช่น ผลิตภัณฑ์ที่มีประสิทธิภาพดีในห้องทดลอง แต่ไม่ดีในโลกแห่งความเป็นจริง แบบที่ใส่เสื้อผ้าต่ำกว่าเกณฑ์ก็เหมือนผลิตภัณฑ์ ที่ประสิทธิภาพไม่ดี Lab

วันที่ รูปที่ 14 พล็อตคาร์ทีเซียน แกน X จะมีป้ายกำกับเป็น "คุณภาพของการคาดการณ์
            เกี่ยวกับชุดการฝึก" แกน Y มีป้ายกำกับว่า "คุณภาพของการคาดการณ์ใน
            ข้อมูลในชีวิตจริง" เส้นโค้งจะเริ่มต้นที่จุดเริ่มต้น แล้วค่อยๆ เพิ่มขึ้น
            แต่กลับลดลงอย่างรวดเร็ว ส่วนซ้ายล่างของเส้นโค้ง
            (การคาดการณ์จากข้อมูลจริงมีคุณภาพต่ำและมีคุณภาพต่ำของ
            การคาดคะเนในชุดการฝึก) จะมีข้อความว่า "โมเดลการออกกำลังกายแบบต่ำกว่าเกณฑ์" 
            ส่วนขวาล่างของเส้นโค้ง (คุณภาพต่ำของการคาดการณ์ใน
            ข้อมูลในชีวิตจริง แต่มีการคาดการณ์คุณภาพสูงในชุดการฝึก)
            มีป้ายกำกับ 'รูปแบบที่มากเกินไป' จุดสูงสุดของเส้นโค้ง (คุณภาพสูง
            ของการคาดการณ์จากข้อมูลจริงและคุณภาพปานกลางของการคาดการณ์
            ในชุดการฝึก) มีป้ายกำกับว่า "รุ่นที่เหมาะสม"
รูปที่ 14 นายแบบ:

 

การจำแนกประเภทคือ ตรงข้ามกับการปรับมากเกินไป กล่าวคือ โมเดลที่มีความครอบคลุมดีจะทำให้ดี การคาดคะเนเกี่ยวกับข้อมูลใหม่ เป้าหมายของคุณคือการสร้างโมเดลที่ทำให้ทุกคนเข้าใจ กับข้อมูลใหม่

กำลังตรวจจับเกินขนาด

เส้นโค้งต่อไปนี้จะช่วยให้คุณตรวจพบความพอดีที่มากเกินไป

  • กราฟแบบสูญเสียบางส่วน
  • เส้นโค้งทั่วไป

กราฟ Loss แสดงการสูญเสียของโมเดล กับจำนวนการทำซ้ำการฝึก กราฟที่แสดงเส้นโค้งการสูญเสียตั้งแต่ 2 เส้นขึ้นไปเรียกว่าการอ้างอิงทั่วไป เส้นโค้ง ดังต่อไปนี้ เส้นโค้งทั่วไปแสดงเส้นโค้งการสูญเสีย 2 เส้น ได้แก่

วันที่ รูปที่ 15 ฟังก์ชันการขาดหายของชุดการฝึกจะค่อยๆ
            การปฏิเสธ ฟังก์ชันการสูญหายสำหรับชุดการตรวจสอบก็จะปฏิเสธเช่นกัน
            แต่จากนั้น ราคาก็จะเริ่มเพิ่มขึ้นหลังจากทำการปรับปรุงมาระยะหนึ่งแล้ว
รูปที่ 15 กราฟทั่วไปที่แสดงนัยของการปรับค่ามากเกินไป

 

โปรดสังเกตว่าเส้นโค้งการสูญเสียทั้ง 2 เส้นโค้งทำงานคล้ายกันในตอนแรก จากนั้นจะเบี่ยงเบนกัน กล่าวคือ หลังจากมีการปรับปรุงแก้ไข ลดลง หรือ คง (รูปแบบ) ของชุดการฝึก แต่เพิ่มขึ้น สำหรับชุดการตรวจสอบ ซึ่งหมายถึงการปรับมากเกินไป

ในทางตรงกันข้าม เส้นโค้งการสรุปโดยทั่วไปสำหรับโมเดลที่เหมาะสมจะแสดงเส้นโค้งการสูญเสีย 2 เส้น ที่มีรูปทรงคล้ายกัน

อะไรเป็นสาเหตุของการปรับมากเกินไป

กล่าวอย่างกว้างๆ ก็คือ การปรับมากเกินไปอาจเกิดจากสาเหตุหนึ่งหรือทั้ง 2 อย่างต่อไปนี้ ปัญหา:

  • ชุดการฝึกไม่ได้แสดงข้อมูลในชีวิตจริงอย่างเพียงพอ (หรือ ชุดการตรวจสอบหรือชุดทดสอบ)
  • โมเดลซับซ้อนเกินไป

เงื่อนไขทั่วไป

โมเดลจะฝึกในชุดการฝึก แต่การทดสอบจริงๆ ของคุณค่าของโมเดลคือ ทำให้สามารถคาดการณ์ตัวอย่างใหม่ๆ โดยเฉพาะข้อมูลในชีวิตจริง ขณะพัฒนาโมเดล ชุดทดสอบของคุณทำหน้าที่เป็นพร็อกซีสำหรับข้อมูลจริง การฝึกโมเดลที่รวมโดยทั่วไปจะสื่อถึงเงื่อนไขชุดข้อมูลต่อไปนี้

  • ตัวอย่างต้องเป็น เผยแพร่โดยอิสระและเหมือนกันทุกประการ ซึ่งเป็นวิธีพูดที่งดงามในการบอกว่า ตัวอย่างต่างๆ จะไม่สามารถโน้มน้าวกัน
  • ชุดข้อมูลคือ คงที่ ซึ่งหมายความว่า จะไม่มีการเปลี่ยนแปลงอย่างมีนัยสำคัญเมื่อเวลาผ่านไป
  • พาร์ติชันชุดข้อมูลมีการกระจายเดียวกัน กล่าวคือ ตัวอย่างในชุดการฝึกมีสถิติคล้ายคลึงกับ ตัวอย่างในชุดการตรวจสอบ ชุดทดสอบ และข้อมูลการใช้งานจริง

ศึกษาสภาวะก่อนหน้านี้ผ่านแบบฝึกหัดต่อไปนี้

แบบฝึกหัด: ตรวจสอบความเข้าใจ

พิจารณาพาร์ติชันชุดข้อมูลต่อไปนี้
วันที่ แท่งแนวนอนที่แบ่งออกเป็น 3 ส่วน ได้แก่ 70% ของแท่ง
                     คือชุดการฝึก, 15% ชุดการตรวจสอบ และ 15%
                     ชุดทดสอบ
คุณควรทำอย่างไรเพื่อให้ตัวอย่างในชุดการฝึก มีการกระจายทางสถิติที่คล้ายคลึงกับตัวอย่างใน ชุดการตรวจสอบ และชุดทดสอบได้อย่างไร
สุ่มลำดับตัวอย่างในชุดข้อมูลก่อน เพื่อแบ่งพาร์ติชัน
ได้ การสับเปลี่ยนตัวอย่างที่ดีจะทำให้พาร์ติชันมีประสิทธิภาพขึ้นมาก ที่มีแนวโน้มว่าจะคล้ายคลึงกันทางสถิติ
จัดเรียงตัวอย่างจากเก่าสุดไปใหม่สุด
หากตัวอย่างในชุดข้อมูลไม่ได้อยู่นิ่ง การจัดเรียงทำให้พาร์ติชันน้อยลง คล้ายกัน
ไม่ดำเนินการใดๆ หากยกตัวอย่างที่เพียงพอ กฎของค่าเฉลี่ย จะช่วยให้แน่ใจได้ว่าการกระจาย ในเชิงสถิติที่คล้ายกัน
แต่ไม่เป็นเช่นนั้นจริง ตัวอย่าง ในบางส่วนของชุดข้อมูลอาจแตกต่างจากนี้
บริการสตรีมมิงกำลังพัฒนาโมเดลเพื่อคาดการณ์ความนิยม ของรายการทีวีใหม่ๆ ที่เป็นไปได้สำหรับ 3 ปีข้างหน้า แพ็กเกจบริการสตรีมมิงเพื่อฝึกโมเดลบนชุดข้อมูล ที่มีตัวอย่างหลายร้อยล้านตัวอย่าง จากตัวอย่างก่อนหน้านี้ 10 ปี โมเดลนี้จะพบปัญหาหรือไม่
อาจจะ ของผู้ชม รสนิยมเปลี่ยนไปในแบบที่พฤติกรรมที่ผ่านมาไม่อาจทำได้ คาดการณ์
ได้ รสนิยมของผู้ชมไม่ได้อยู่นิ่งกับที่ เพราะมีการเปลี่ยนแปลงอยู่ตลอดเวลา
ไม่ใช่แน่นอน ชุดข้อมูลมีขนาดใหญ่พอที่จะกำหนดค่า การคาดการณ์
แต่น่าเสียดายที่ รสนิยมนั้นไม่คงเส้นคงวา
อาจจะไม่ ของผู้ชม รสนิยมเปลี่ยนไปเป็นวงจรและคาดการณ์ได้ ข้อมูลในช่วงเวลา 10 ปีจะช่วยให้โมเดลคาดการณ์ได้ดี เกี่ยวกับเทรนด์ในอนาคต
แม้ว่าความบันเทิงบางด้าน จะมีลักษณะเป็นวงจร นายแบบ/นางแบบที่ได้รับการฝึกจากประวัติศาสตร์ความบันเทิงที่ผ่านมา มีปัญหาในการคาดการณ์ในอีก 2-3 ปีข้างหน้า
โมเดลมีเป้าหมายเพื่อคาดการณ์เวลาที่ผู้คนใช้ในการเดิน 1 ไมล์ ตามข้อมูลสภาพอากาศ (อุณหภูมิ จุดน้ำค้าง และ การเกิดฝน) ที่เก็บรวบรวมนานกว่า 1 ปีในเมืองที่มีสภาพอากาศแปรผัน อย่างมากตามฤดูกาล คุณสามารถสร้างและทดสอบโมเดลจาก ถึงแม้ว่าค่าที่อ่านได้ จากสภาพอากาศจะเปลี่ยนไปอย่างมาก ซีซัน
ใช่
ได้ คุณสร้างและทดสอบโมเดลจากชุดข้อมูลนี้ได้ คุณเพียงแค่ต้องแน่ใจว่าข้อมูลได้รับการแบ่งพาร์ติชันเท่าๆ กัน ดังนั้น ว่าข้อมูลจากทั้ง 4 ฤดูกาลจะกระจายไปยัง พาร์ติชันต่างๆ
ไม่ได้
สมมติว่าชุดข้อมูลนี้มีตัวอย่างเพียงพอของอุณหภูมิและน้ำค้าง จุด และการเกิดฝน จากนั้นคุณสามารถสร้างและทดสอบโมเดลจาก ชุดข้อมูลนี้ คุณเพียงแค่ต้องแน่ใจว่าข้อมูลได้รับการแบ่งพาร์ติชันแล้ว เพื่อให้ข้อมูลจากทั้ง 4 ฤดูกาลกระจายเท่าๆ กัน ลงในพาร์ติชันต่างๆ

การออกกำลังกายแบบชาเลนจ์

คุณกำลังสร้างโมเดลที่คาดการณ์วันไหนที่เหมาะที่สุดสำหรับไรเดอร์ ตั๋วรถไฟสำหรับเส้นทางนั้นๆ โดยเฉพาะ ตัวอย่างเช่น โมเดลอาจแนะนำ ที่ผู้ใช้ซื้อตั๋วในวันที่ 8 กรกฎาคมสำหรับรถไฟที่ออกเดินทางวันที่ 23 กรกฎาคม บริษัทรถไฟจะอัปเดตราคาเป็นรายชั่วโมงตามข้อมูลอัปเดตจากปัจจัยต่างๆ แต่จะขึ้นอยู่กับจำนวน ที่นั่งว่างในปัจจุบันเป็นหลัก โดยการ

  • หากมีที่นั่งจำนวนมาก โดยปกติแล้วราคาตั๋วจะต่ำกว่านี้
  • โดยปกติแล้ว หากมีที่นั่งน้อยเกินไป ราคาตั๋วก็จะสูง
โมเดลของคุณอยู่ในระดับต่ำ ทั้งในชุดการตรวจสอบความถูกต้องและชุดทดสอบ แต่บางครั้งอาจทำให้ การคาดคะเนที่น่ากลัวจากข้อมูลในชีวิตจริง เหตุผล
คลิกที่นี่เพื่อดูคำตอบ