เตรียมข้อมูล

ขณะที่หลักสูตรการเตรียมความพร้อมข้อมูลและวิศวกรรมฟีเจอร์สําหรับแมชชีนเลิร์นนิงครอบคลุมการเตรียมข้อมูลทั่วไป แต่หลักสูตรนี้จะมุ่งเน้นที่การเตรียมพร้อมสําหรับการจัดกลุ่มโดยเฉพาะ

ในการจัดกลุ่ม คุณจะคํานวณความคล้ายคลึงระหว่างตัวอย่าง 2 รายการโดยการรวมข้อมูลฟีเจอร์ทั้งหมดสําหรับตัวอย่างเหล่านั้นเป็นค่าตัวเลข การรวมข้อมูลฟีเจอร์กําหนดให้ข้อมูลมีอัตราส่วนเท่ากัน ที่ส่วนนี้ จะพูดถึงการปรับค่า ให้เป็นมาตรฐาน เปลี่ยนรูปแบบ และสร้างปริมาณ แล้วอธิบายว่าเหตุใดปริมาณจึงเป็นทางเลือกเริ่มต้นที่ดีที่สุดสําหรับการเปลี่ยนการกระจายข้อมูล การมีตัวเลือกเริ่มต้นช่วยให้คุณเปลี่ยนรูปแบบข้อมูลได้โดยไม่ต้องตรวจสอบการกระจายข้อมูล

การทําให้ข้อมูลเป็นมาตรฐาน

คุณสามารถเปลี่ยนรูปแบบข้อมูลสําหรับฟีเจอร์หลายรายการเป็นระดับเดียวกันได้โดยทําให้ข้อมูลเป็นมาตรฐาน โดยเฉพาะอย่างยิ่งการปรับให้สอดคล้องตามมาตรฐานจะเหมาะกับการประมวลผลการกระจายข้อมูลที่พบบ่อยที่สุด ซึ่งก็คือการเผยแพร่แบบเกาส์ เมื่อเทียบกับเชิงปริมาณ การปรับให้สอดคล้องตามมาตรฐานจะต้องใช้ข้อมูลน้อยลงอย่างมาก ทําให้ข้อมูลเป็นมาตรฐานโดยการคํานวณ z-score ดังนี้

\[x'=(x-\mu)/\sigma\\ \begin{align*} \text{where:}\quad \mu &= \text{mean}\\ \sigma &= \text{standard deviation}\\ \end{align*} \]

มาดูตัวอย่างความคล้ายคลึงกันระหว่างตัวอย่างที่มีและไม่มีการปรับมาตรฐานกัน ในรูปที่ 1 คุณพบว่าสีแดงดูคล้ายกับสีน้ําเงินมากกว่าสีเหลือง อย่างไรก็ตาม ฟีเจอร์บนแกน x และ y มีขนาดเท่ากัน ดังนั้น ความคล้ายคลึงกันที่สังเกตได้อาจเป็นอาร์ติแฟกต์ของข้อมูลที่ไม่มีการปรับขนาด หลังจากปรับให้เป็นมาตรฐานโดยใช้ z-score แล้ว ฟีเจอร์ทั้งหมดจะมีระดับเท่ากัน ตอนนี้คุณพบว่าสีแดง คล้ายกับสีเหลืองมากกว่า เพราะหลังจากทําให้ข้อมูลเป็นมาตรฐานแล้ว คุณสามารถคํานวณความคล้ายคลึงกันได้อย่างแม่นยํายิ่งขึ้น

กราฟ 2 รายการที่เปรียบเทียบข้อมูลฟีเจอร์ก่อนและหลังการปรับให้เป็นมาตรฐาน
รูปที่ 1: การเปรียบเทียบข้อมูลฟีเจอร์ก่อนและหลังการปรับให้สอดคล้องตามมาตรฐาน

สรุปคือใช้การปรับให้สอดคล้องตามมาตรฐานเมื่อเงื่อนไขข้อใดข้อหนึ่งต่อไปนี้เป็นจริง

  • ข้อมูลมีการกระจายแบบเกาส์เชียน
  • ชุดข้อมูลของคุณมีข้อมูลไม่เพียงพอที่จะสร้างปริมาณ

การใช้การเปลี่ยนรูปแบบบันทึก

บางครั้งชุดข้อมูลก็เป็นไปตามการกระจายกฎหมายพลังงานที่จะรวมข้อมูลที่อยู่ปลายล่าง ในรูปที่ 2 สีแดงใกล้เคียงกับสีเหลืองมากกว่าสีน้ําเงิน

แผนภูมิแท่งที่มีข้อมูลส่วนใหญ่อยู่ในระดับต่ํา
รูปที่ 2: การกระจายอํานาจตามกฎหมาย

ดําเนินการจัดสรรกฎหมายโดยใช้การเปลี่ยนรูปแบบบันทึก ในรูปที่ 3 การเปลี่ยนรูปแบบของบันทึกจะสร้างการกระจายที่ลื่นไหล และสีแดงจะใกล้เคียงกับสีน้ําเงินมากที่สุด

กราฟแสดงการกระจายปกติ (เกาส์)
ภาพที่ 3: การกระจายปกติ (เกาส์)

การใช้ Quantiles

การปรับให้เป็นมาตรฐานและบันทึกการเปลี่ยนแปลงจะระบุการกระจายข้อมูลที่เฉพาะเจาะจง จะเกิดอะไรขึ้นหากข้อมูล ไม่สอดคล้องกับการแจกจ่ายเกาส์เชียนหรือกฎหมายพลังงาน มีแนวทางทั่วไปที่ใช้กับการกระจายข้อมูลไหม

ลองประมวลผลการกระจายนี้ล่วงหน้า

กราฟแสดงการกระจายข้อมูลก่อนการประมวลผลล่วงหน้า
ภาพที่ 4: การกระจายที่จัดหมวดหมู่ไม่ได้ก่อนการประมวลผลล่วงหน้า

ตัวอย่างที่เห็นได้ชัดคือหากทั้ง 2 ตัวอย่างมีแค่ตัวอย่าง 2-3 รายการ ตัวอย่าง 2 แบบนี้ก็คล้ายกันโดยไม่คํานึงถึงค่า ในทางกลับกัน หากทั้ง 2 ตัวอย่างมีตัวอย่างจํานวนมาก ตัวอย่างก็คล้ายกัน ดังนั้น ความคล้ายคลึงระหว่างตัวอย่าง 2 รายการจะลดลงตามจํานวนตัวอย่างที่เพิ่มขึ้น

การปรับข้อมูลให้สอดคล้องตามมาตรฐานเป็นเพียงการจําลองการกระจายข้อมูลเพราะการปรับรูปแบบเป็นการแปลงเชิงเส้น การใช้การเปลี่ยนรูปแบบไม่ได้สะท้อนถึงสัญชาตญาณการทํางานของความคล้ายคลึงกันดังที่แสดงในรูปที่ 5 ด้านล่าง

กราฟแสดงการกระจายข้อมูลหลังจากการเปลี่ยนรูปแบบบันทึก
ภาพที่ 5: การกระจายที่ตามการเปลี่ยนรูปแบบบันทึก

แต่ให้แบ่งข้อมูลออกเป็นช่วงเวลาที่แต่ละช่วงเวลามีจํานวนตัวอย่างเท่ากัน ขอบเขตช่วงเวลาเหล่านี้เรียกว่าปริมาณ

แปลงข้อมูลเป็นปริมาณโดยปฏิบัติตามขั้นตอนต่อไปนี้

  1. กําหนดจํานวนรอบ
  2. กําหนดช่วงเวลาเพื่อให้แต่ละช่วงเวลามีจํานวนตัวอย่างเท่ากัน
  3. แทนที่แต่ละตัวอย่างด้วยดัชนีตามช่วงของระยะเวลา
  4. ทําให้ดัชนีอยู่ในช่วงเดียวกับข้อมูลฟีเจอร์อื่นๆ ด้วยการปรับขนาดค่าดัชนีเป็น [0,1]
กราฟแสดงข้อมูลหลังแปลงเป็นปริมาณ เส้นนี้จะแสดง 20 ช่วง]
รูปที่ 6: การแจกแจงหลังแปลงเป็นปริมาณ

หลังจากแปลงข้อมูลให้เท่ากับปริมาณแล้ว ความคล้ายคลึงระหว่างตัวอย่าง 2 ตัวอย่างนี้สัดส่วนกับจํานวนตัวอย่างระหว่างตัวอย่าง 2 ประเภทนี้ต่างกันมาก หรือในทางคณิตศาสตร์ โดยแทนที่ "x" ในชุดข้อมูล ดังนี้

  • \(sim(A,B) \approx 1 − | \text{prob}[x > A] − \text{prob}[x > B] |\)
  • \(sim(A,B) \approx 1 − | \text{quantile}(A) − \text{quantile}(B) |\)

Quantles เป็นตัวเลือกเริ่มต้นที่ดีที่สุดในการแปลงข้อมูล อย่างไรก็ตาม ในการสร้างปริมาณที่เป็นตัวชี้วัดที่เชื่อถือได้สําหรับการกระจายข้อมูลที่ต้องใช้ คุณจําเป็นต้องมีข้อมูลจํานวนมาก หลักการง่ายๆ ก็คือ \(n\) ควรมีข้อมูลอย่างน้อย \(10n\) ตัวอย่าง หากคุณมีข้อมูลไม่เพียงพอ อย่าลืมยึดตามมาตรฐาน

ทดสอบความเข้าใจ

สําหรับคําถามต่อไปนี้ ให้สมมติว่าคุณมีข้อมูลเพียงพอที่จะสร้างปริมาณ

คําถามที่ 1

พล็อตที่แสดงการกระจายข้อมูล 3 แบบ
คุณจะประมวลผลข้อมูลการเผยแพร่นี้อย่างไร
สร้างปริมาณ
ถูกต้อง เนื่องจากการกระจายไม่ตรงกับการกระจายข้อมูลมาตรฐาน คุณควรเปลี่ยนกลับไปใช้การสร้างปริมาณ
ปรับให้เป็นมาตรฐาน
โดยปกติคุณจะปรับข้อมูลให้เป็นมาตรฐานในกรณีต่อไปนี้
  • การกระจายข้อมูลคือเกาส์เซียน
  • คุณมีข้อมูลเชิงลึกเกี่ยวกับสิ่งที่นําเสนอ ซึ่งบอกให้ทราบว่าข้อมูลไม่ควรเปลี่ยนรูปแบบเป็นแบบเชิงเส้น ดังนั้น คุณต้องหลีกเลี่ยงเชิงปริมาณและเลือกทําให้เป็นมาตรฐานแทน
ทั้ง 2 กรณีนี้จะไม่มีผล การกระจายข้อมูลไม่ใช่ Gaussian เนื่องจากไม่สมมาตร และคุณไม่มีข้อมูลเชิงลึกเกี่ยวกับค่าเหล่านี้ในชีวิตจริง
เปลี่ยนรูปแบบการแปลง
ไม่ใช่ตัวเลือกที่ดีที่สุดเนื่องจากวิธีนี้ไม่ใช่การกระจายตัวกฎหมายอย่างสมบูรณ์แบบ

คําถามที่ 2

พล็อตที่แสดงการกระจายข้อมูล 3 แบบ
คุณจะประมวลผลข้อมูลการเผยแพร่นี้อย่างไร
ปรับให้เป็นมาตรฐาน
ถูกต้อง นี่คือการกระจายของเกาส์เชียน
สร้างปริมาณ
ผิด เนื่องจากนี่เป็นการกระจายแบบเกาส์เชียน การแปลงที่ต้องการจึงเป็นการทําให้เป็นมาตรฐาน
เปลี่ยนรูปแบบการแปลง
ผิด ใช้การแปลงบันทึกกับการกระจายพลังงานเท่านั้น

ข้อมูลขาดหาย

หากชุดข้อมูลมีตัวอย่างที่มีค่าขาดหายไปสําหรับฟีเจอร์บางอย่าง แต่ตัวอย่างดังกล่าวเกิดขึ้นไม่บ่อยนัก คุณสามารถนําตัวอย่างเหล่านี้ออกได้ หากตัวอย่างลักษณะนี้เกิดขึ้นบ่อย เรามีตัวเลือกที่จะนําฟีเจอร์นี้ออกทั้งหมดหรือคาดการณ์ค่าที่ขาดหายไปจากตัวอย่างอื่นๆ โดยใช้โมเดลแมชชีนเลิร์นนิง ตัวอย่างเช่น ในการอนุมานข้อมูลตัวเลขที่ขาดหายไปโดยใช้โมเดลการถดถอยซึ่งได้รับการฝึกให้มีข้อมูลฟีเจอร์ที่มีอยู่