ขณะที่หลักสูตรการเตรียมความพร้อมข้อมูลและวิศวกรรมฟีเจอร์สําหรับแมชชีนเลิร์นนิงครอบคลุมการเตรียมข้อมูลทั่วไป แต่หลักสูตรนี้จะมุ่งเน้นที่การเตรียมพร้อมสําหรับการจัดกลุ่มโดยเฉพาะ
ในการจัดกลุ่ม คุณจะคํานวณความคล้ายคลึงระหว่างตัวอย่าง 2 รายการโดยการรวมข้อมูลฟีเจอร์ทั้งหมดสําหรับตัวอย่างเหล่านั้นเป็นค่าตัวเลข การรวมข้อมูลฟีเจอร์กําหนดให้ข้อมูลมีอัตราส่วนเท่ากัน ที่ส่วนนี้ จะพูดถึงการปรับค่า ให้เป็นมาตรฐาน เปลี่ยนรูปแบบ และสร้างปริมาณ แล้วอธิบายว่าเหตุใดปริมาณจึงเป็นทางเลือกเริ่มต้นที่ดีที่สุดสําหรับการเปลี่ยนการกระจายข้อมูล การมีตัวเลือกเริ่มต้นช่วยให้คุณเปลี่ยนรูปแบบข้อมูลได้โดยไม่ต้องตรวจสอบการกระจายข้อมูล
การทําให้ข้อมูลเป็นมาตรฐาน
คุณสามารถเปลี่ยนรูปแบบข้อมูลสําหรับฟีเจอร์หลายรายการเป็นระดับเดียวกันได้โดยทําให้ข้อมูลเป็นมาตรฐาน โดยเฉพาะอย่างยิ่งการปรับให้สอดคล้องตามมาตรฐานจะเหมาะกับการประมวลผลการกระจายข้อมูลที่พบบ่อยที่สุด ซึ่งก็คือการเผยแพร่แบบเกาส์ เมื่อเทียบกับเชิงปริมาณ การปรับให้สอดคล้องตามมาตรฐานจะต้องใช้ข้อมูลน้อยลงอย่างมาก ทําให้ข้อมูลเป็นมาตรฐานโดยการคํานวณ z-score ดังนี้
\[x'=(x-\mu)/\sigma\\ \begin{align*} \text{where:}\quad \mu &= \text{mean}\\ \sigma &= \text{standard deviation}\\ \end{align*} \]
มาดูตัวอย่างความคล้ายคลึงกันระหว่างตัวอย่างที่มีและไม่มีการปรับมาตรฐานกัน ในรูปที่ 1 คุณพบว่าสีแดงดูคล้ายกับสีน้ําเงินมากกว่าสีเหลือง อย่างไรก็ตาม ฟีเจอร์บนแกน x และ y มีขนาดเท่ากัน ดังนั้น ความคล้ายคลึงกันที่สังเกตได้อาจเป็นอาร์ติแฟกต์ของข้อมูลที่ไม่มีการปรับขนาด หลังจากปรับให้เป็นมาตรฐานโดยใช้ z-score แล้ว ฟีเจอร์ทั้งหมดจะมีระดับเท่ากัน ตอนนี้คุณพบว่าสีแดง คล้ายกับสีเหลืองมากกว่า เพราะหลังจากทําให้ข้อมูลเป็นมาตรฐานแล้ว คุณสามารถคํานวณความคล้ายคลึงกันได้อย่างแม่นยํายิ่งขึ้น
สรุปคือใช้การปรับให้สอดคล้องตามมาตรฐานเมื่อเงื่อนไขข้อใดข้อหนึ่งต่อไปนี้เป็นจริง
- ข้อมูลมีการกระจายแบบเกาส์เชียน
- ชุดข้อมูลของคุณมีข้อมูลไม่เพียงพอที่จะสร้างปริมาณ
การใช้การเปลี่ยนรูปแบบบันทึก
บางครั้งชุดข้อมูลก็เป็นไปตามการกระจายกฎหมายพลังงานที่จะรวมข้อมูลที่อยู่ปลายล่าง ในรูปที่ 2 สีแดงใกล้เคียงกับสีเหลืองมากกว่าสีน้ําเงิน
ดําเนินการจัดสรรกฎหมายโดยใช้การเปลี่ยนรูปแบบบันทึก ในรูปที่ 3 การเปลี่ยนรูปแบบของบันทึกจะสร้างการกระจายที่ลื่นไหล และสีแดงจะใกล้เคียงกับสีน้ําเงินมากที่สุด
การใช้ Quantiles
การปรับให้เป็นมาตรฐานและบันทึกการเปลี่ยนแปลงจะระบุการกระจายข้อมูลที่เฉพาะเจาะจง จะเกิดอะไรขึ้นหากข้อมูล ไม่สอดคล้องกับการแจกจ่ายเกาส์เชียนหรือกฎหมายพลังงาน มีแนวทางทั่วไปที่ใช้กับการกระจายข้อมูลไหม
ลองประมวลผลการกระจายนี้ล่วงหน้า
ตัวอย่างที่เห็นได้ชัดคือหากทั้ง 2 ตัวอย่างมีแค่ตัวอย่าง 2-3 รายการ ตัวอย่าง 2 แบบนี้ก็คล้ายกันโดยไม่คํานึงถึงค่า ในทางกลับกัน หากทั้ง 2 ตัวอย่างมีตัวอย่างจํานวนมาก ตัวอย่างก็คล้ายกัน ดังนั้น ความคล้ายคลึงระหว่างตัวอย่าง 2 รายการจะลดลงตามจํานวนตัวอย่างที่เพิ่มขึ้น
การปรับข้อมูลให้สอดคล้องตามมาตรฐานเป็นเพียงการจําลองการกระจายข้อมูลเพราะการปรับรูปแบบเป็นการแปลงเชิงเส้น การใช้การเปลี่ยนรูปแบบไม่ได้สะท้อนถึงสัญชาตญาณการทํางานของความคล้ายคลึงกันดังที่แสดงในรูปที่ 5 ด้านล่าง
แต่ให้แบ่งข้อมูลออกเป็นช่วงเวลาที่แต่ละช่วงเวลามีจํานวนตัวอย่างเท่ากัน ขอบเขตช่วงเวลาเหล่านี้เรียกว่าปริมาณ
แปลงข้อมูลเป็นปริมาณโดยปฏิบัติตามขั้นตอนต่อไปนี้
- กําหนดจํานวนรอบ
- กําหนดช่วงเวลาเพื่อให้แต่ละช่วงเวลามีจํานวนตัวอย่างเท่ากัน
- แทนที่แต่ละตัวอย่างด้วยดัชนีตามช่วงของระยะเวลา
- ทําให้ดัชนีอยู่ในช่วงเดียวกับข้อมูลฟีเจอร์อื่นๆ ด้วยการปรับขนาดค่าดัชนีเป็น [0,1]
หลังจากแปลงข้อมูลให้เท่ากับปริมาณแล้ว ความคล้ายคลึงระหว่างตัวอย่าง 2 ตัวอย่างนี้สัดส่วนกับจํานวนตัวอย่างระหว่างตัวอย่าง 2 ประเภทนี้ต่างกันมาก หรือในทางคณิตศาสตร์ โดยแทนที่ "x" ในชุดข้อมูล ดังนี้
- \(sim(A,B) \approx 1 − | \text{prob}[x > A] − \text{prob}[x > B] |\)
- \(sim(A,B) \approx 1 − | \text{quantile}(A) − \text{quantile}(B) |\)
Quantles เป็นตัวเลือกเริ่มต้นที่ดีที่สุดในการแปลงข้อมูล อย่างไรก็ตาม ในการสร้างปริมาณที่เป็นตัวชี้วัดที่เชื่อถือได้สําหรับการกระจายข้อมูลที่ต้องใช้ คุณจําเป็นต้องมีข้อมูลจํานวนมาก หลักการง่ายๆ ก็คือ \(n\) ควรมีข้อมูลอย่างน้อย \(10n\) ตัวอย่าง หากคุณมีข้อมูลไม่เพียงพอ อย่าลืมยึดตามมาตรฐาน
ทดสอบความเข้าใจ
สําหรับคําถามต่อไปนี้ ให้สมมติว่าคุณมีข้อมูลเพียงพอที่จะสร้างปริมาณ
คําถามที่ 1
- การกระจายข้อมูลคือเกาส์เซียน
- คุณมีข้อมูลเชิงลึกเกี่ยวกับสิ่งที่นําเสนอ ซึ่งบอกให้ทราบว่าข้อมูลไม่ควรเปลี่ยนรูปแบบเป็นแบบเชิงเส้น ดังนั้น คุณต้องหลีกเลี่ยงเชิงปริมาณและเลือกทําให้เป็นมาตรฐานแทน
คําถามที่ 2
ข้อมูลขาดหาย
หากชุดข้อมูลมีตัวอย่างที่มีค่าขาดหายไปสําหรับฟีเจอร์บางอย่าง แต่ตัวอย่างดังกล่าวเกิดขึ้นไม่บ่อยนัก คุณสามารถนําตัวอย่างเหล่านี้ออกได้ หากตัวอย่างลักษณะนี้เกิดขึ้นบ่อย เรามีตัวเลือกที่จะนําฟีเจอร์นี้ออกทั้งหมดหรือคาดการณ์ค่าที่ขาดหายไปจากตัวอย่างอื่นๆ โดยใช้โมเดลแมชชีนเลิร์นนิง ตัวอย่างเช่น ในการอนุมานข้อมูลตัวเลขที่ขาดหายไปโดยใช้โมเดลการถดถอยซึ่งได้รับการฝึกให้มีข้อมูลฟีเจอร์ที่มีอยู่