เป้าหมายของการปรับให้เป็นมาตรฐานคือการเปลี่ยนฟีเจอร์ต่างๆ ให้อยู่ในระดับที่คล้ายกัน การดําเนินการนี้จะช่วยปรับปรุงประสิทธิภาพและความเสถียรของการฝึกโมเดล
เทคนิคการปรับข้อมูลโดยย่อ
เทคนิคการปรับให้สอดคล้องตามมาตรฐาน 4 ข้ออาจมีประโยชน์ ดังนี้
- การปรับขนาดเป็นช่วง
- การตัดเก็บ
- การปรับขนาดบันทึก
- ค่ามาตรฐาน
แผนภูมิต่อไปนี้แสดงเทคนิคของเทคนิคการปรับให้สอดคล้องตามมาตรฐานแต่ละแบบต่อ การเผยแพร่ฟีเจอร์ดิบ (ราคา) ทางด้านซ้าย แผนภูมินี้อิงจากชุดข้อมูลของ Automotive Yearbook ของ Ward' ในปี 1985 ซึ่งเป็นส่วนหนึ่งของที่เก็บข้อมูลแมชชีนเลิร์นนิงของ UCI ภายใต้ชุดข้อมูล รถยนต์
รูปที่ 1 สรุปเทคนิคของการปรับให้สอดคล้องตามมาตรฐาน
การปรับขนาดเป็นช่วง
การเรียกคืนจาก MLCC ที่การปรับขนาด หมายถึงการแปลงค่าฟีเจอร์จุดลอยตัวจากช่วงตามปกติ (เช่น 100 ถึง 900) เป็นช่วงมาตรฐาน ซึ่งโดยทั่วไปจะเป็น 0 และ 1 (หรือบางครั้ง -1 ถึง +1) ใช้สูตรง่ายๆ ต่อไปนี้เพื่อปรับขนาดเป็นช่วง
\[ x' = (x - x_{min}) / (x_{max} - x_{min}) \]
การปรับขนาดเป็นช่วงจะเป็นทางเลือกที่ดีเมื่อเป็นไปตามเงื่อนไขทั้ง 2 ข้อต่อไปนี้
- คุณรู้ขอบเขตบนและล่างของข้อมูลแบบคร่าวๆ หรือไม่มีค่าผิดปกติเลย
- ข้อมูลจะเผยแพร่อย่างสม่ําเสมอทั่วทั้งช่วงดังกล่าว
ตัวอย่างที่ดีคืออายุ ค่าอายุส่วนใหญ่อยู่ในช่วง 0 ถึง 90 และทุกช่วงของช่วงมีผู้ใช้เป็นจํานวนมาก
ในทางตรงกันข้าม คุณจะไม่ใช้การปรับขนาดรายได้ เนื่องจากมีเพียงไม่กี่คนที่มีรายได้สูงมาก ขอบเขตระดับบนของรายได้เชิงเส้นจะสูงมาก และผู้คนส่วนใหญ่จะถูกหักเป็นส่วนเล็กๆ ในสเกล
การตัดคลิปฟีเจอร์
หากชุดข้อมูลของคุณมีค่าที่ผิดปกติอย่างมาก ให้ลองตัดคลิปของฟีเจอร์ ซึ่งจะจํากัดค่าของฟีเจอร์ทั้งหมดที่ด้านบน (หรือด้านล่าง) ของค่าที่ต้องการไว้ในค่าคงที่ เช่น คุณอาจตัดค่าอุณหภูมิทั้งหมด เกิน 40 ให้เท่ากับ 40
คุณอาจใช้การตัดฟีเจอร์ก่อนหรือหลังจากการทํามาตรฐานอื่นๆ
สูตร: ตั้งค่าขั้นต่ํา/สูงสุดเพื่อหลีกเลี่ยงค่าที่ผิดปกติ
รูปที่ 2 การเปรียบเทียบการเผยแพร่ไฟล์ RAW กับเวอร์ชันที่ถูกตัดออก
กลยุทธ์การตัดธรรมดาอีกอย่างคือคลิปตามหลักการ Z ด้วยคะแนน +-Nī (เช่น จํากัดให้อยู่ที่ +-3ī) โปรดทราบว่า ī คือค่าเบี่ยงเบนมาตรฐาน
การปรับขนาดบันทึก
การปรับขนาดบันทึกจะคํานวณบันทึกของค่าเพื่อบีบอัดช่วงแบบกว้างให้เป็นช่วงแคบ
\[ x' = log(x) \]
การปรับขนาดบันทึกจะมีประโยชน์เมื่อค่าจํานวนหนึ่งมีหลายจุด ในขณะที่ค่าอื่นๆ ส่วนใหญ่มีจุดน้อย การกระจายข้อมูลนี้เรียกว่าการกระจายพลังงาน การให้คะแนนภาพยนตร์เป็นตัวอย่างที่ดี ในแผนภูมิด้านล่าง ภาพยนตร์ส่วนใหญ่มีการจัดระดับน้อยมาก (ข้อมูลในการค้นหา) ขณะที่บางเรื่องมีการจัดระดับจํานวนมาก (ข้อมูลในหัว) การปรับขนาดบันทึกจะเปลี่ยนแปลงการกระจาย ซึ่งช่วยปรับปรุงประสิทธิภาพของโมเดลเชิงเส้น
รูปที่ 3 เปรียบเทียบการเผยแพร่ไฟล์ดิบกับบันทึก
แกน Z
Z-score เป็นการปรับสเกลที่แสดงถึงจํานวนความคลาดเคลื่อนมาตรฐานจากค่าเฉลี่ย คุณจะใช้ค่า z คะแนนเพื่อให้แน่ใจว่าการกระจาย ฟีเจอร์ของคุณมีค่าเฉลี่ย = 0 และ std = 1 ซึ่งมีประโยชน์เมื่อค่าผิดปกติ 2-3 รายการ แต่ไม่มากเกินไปจนคุณต้องตัดคลิป
สูตรการคํานวณค่าคะแนน z ของจุด x มีดังนี้
\[ x' = (x - μ) / σ \]
รูปที่ 4 เปรียบเทียบการแจกแจงแบบดิบกับการกระจายแบบ Z-score
โปรดสังเกตว่าค่ามาตรฐานจะบีบค่าดิบที่มีช่วงประมาณ 40,000 ไปจนถึงช่วงตั้งแต่ประมาณ -1 ถึง +4
สมมติว่าคุณไม่แน่ใจเกี่ยวกับค่าที่ผิดปกติสุดโต่ง ในกรณีนี้ ให้เริ่มต้นด้วยคะแนน z เว้นแต่คุณจะมีค่าของฟีเจอร์ที่คุณไม่ต้องการ และไม่ต้องการให้โมเดลเรียนรู้ เช่น ค่านั้นเป็นผลมาจากข้อผิดพลาดในการวัดหรือการทํางานที่ผิดปกติ
สรุป
เทคนิคการปรับให้สอดคล้องตามมาตรฐาน | สูตร | กรณีที่ควรใช้ |
---|---|---|
การปรับขนาดเชิงเส้น | $$ x' = (x - x_{min}) / (x_{max} - x_{min}) $$ | เมื่อฟีเจอร์เผยแพร่อย่างสม่ําเสมอมากขึ้นหรือน้อยลงในช่วงที่กําหนด |
เสียงขาดๆ หายๆ | if x > max, x' = max. if x < min ตามด้วย x' = นาที | เมื่อฟีเจอร์มีข้อมูลที่ผิดปกติสุดโต่ง |
การปรับขนาดบันทึก | x' = บันทึก(x) | เมื่อฟีเจอร์นี้เป็นไปตามกฎหมายพลังงาน |
ฮ | x' = (x - μ) / ̈ | เมื่อการกระจายฟีเจอร์ไม่มีค่าที่ผิดปกติอย่างมาก |