ข้อมูลเบื้องต้นเกี่ยวกับการสร้างชุดข้อมูล

ขั้นตอนการสร้างชุดข้อมูล

หากต้องการสร้างชุดข้อมูล (และก่อนแปลงข้อมูล) คุณควรทําดังนี้

  1. รวบรวมข้อมูลดิบ
  2. ระบุแหล่งที่มาของฟีเจอร์และป้ายกํากับ
  3. เลือกกลยุทธ์การสุ่มตัวอย่าง
  4. แยกข้อมูล

ขั้นตอนเหล่านี้ขึ้นอยู่กับวิธีที่คุณกําหนดปัญหา ML ไว้อย่างมาก ใช้การตรวจสอบด้วยตนเองด้านล่างเพื่อทบทวนความทรงจําเกี่ยวกับการจัดกรอบปัญหา และเพื่อตรวจสอบสมมติฐานเกี่ยวกับการรวบรวมข้อมูล

ตรวจสอบกรอบความคิดปัญหาและการรวบรวมข้อมูลด้วยตนเอง

สําหรับคําถามต่อไปนี้ ให้คลิกลูกศรที่ต้องการเพื่อตรวจคําตอบ

คุณกําลังสร้างโปรเจ็กต์แมชชีนเลิร์นนิงใหม่ซึ่งจะเลือกฟีเจอร์แรกก่อน คุณควรเลือกฟีเจอร์กี่รายการ
เลือกฟีเจอร์ 1-3 รายการที่ดูเหมือนจะมีประสิทธิภาพการคาดการณ์ในระดับดี
การเริ่มรวบรวมข้อมูลที่ดีที่สุดควรเริ่มต้นด้วยฟีเจอร์เพียง 1 หรือ 2 รายการเท่านั้น ซึ่งจะช่วยยืนยันว่าโมเดล ML ทํางานได้ตามที่ต้องการ นอกจากนี้ การสร้างฐานจากฟีเจอร์ 2-3 ฟีเจอร์จะทําให้คุณรู้สึกเหมือนกําลังพัฒนา
เลือกฟีเจอร์ 4-6 รายการที่มีประสิทธิภาพได้โดยใช้การคาดการณ์อย่างมาก
ท้ายที่สุดคุณอาจใช้ฟีเจอร์มากมายนี้ แต่ก็เป็นการดีกว่าที่จะเริ่มต้นด้วยจํานวนที่น้อยกว่า ยิ่งใช้ฟีเจอร์น้อย ก็จะยิ่งช่วยลดความซับซ้อนให้ไม่จําเป็น
เลือกฟีเจอร์ให้มากที่สุดเท่าที่จะทําได้เพื่อให้คุณสามารถเริ่มสังเกตว่าฟีเจอร์ใดมีการคาดการณ์ที่มีประสิทธิภาพที่สุด
เริ่มเล็กลง ทุกฟีเจอร์ใหม่จะเพิ่มมิติข้อมูลใหม่ลงในชุดข้อมูลการฝึก เมื่อมิติข้อมูลเพิ่มขึ้น ปริมาณพื้นที่ก็จะเพิ่มขึ้นอย่างรวดเร็วจนทําให้ข้อมูลการฝึกที่มีอยู่ที่มีอยู่เหลือน้อยลง ยิ่งมีข้อมูลน้อย โมเดลก็จะยิ่งเรียนรู้ความสัมพันธ์ระหว่างฟีเจอร์ที่สําคัญกับป้ายกํากับได้ยากขึ้น ปรากฏการณ์นี้เรียกว่า " การสาปแช่งของมิติข้อมูล"
เพื่อนของคุณแซมตื่นเต้นกับผลลัพธ์เบื้องต้นของการวิเคราะห์ทางสถิติ เขาบอกว่าข้อมูลแสดงความสัมพันธ์เชิงบวกระหว่างจํานวนการดาวน์โหลดแอปกับจํานวนการแสดงผลรีวิวแอป แต่ไม่แน่ใจว่าควรจะดาวน์โหลดมาโดยตลอดหรือไม่ว่าเห็นรีวิว คําตอบใดจะเป็นประโยชน์แก่แซมมากที่สุด
คุณทําการทดสอบเพื่อเปรียบเทียบพฤติกรรมของผู้ใช้ที่ไม่ได้เห็นรีวิวที่คล้ายกันกับผู้ใช้ที่คล้ายคลึงกันได้
ถูกต้อง หากสุขสันต์พบว่าผู้ใช้ที่เห็นรีวิวในแง่บวกมีแนวโน้มที่จะดาวน์โหลดแอปมากกว่าผู้ที่ไม่ได้อ่าน เขาก็มีหลักฐานที่สมเหตุสมผลในการแสดงให้เห็นว่ารีวิวในเชิงบวกกระตุ้นให้ผู้ใช้ดาวน์โหลดแอป
เชื่อถือข้อมูล เห็นได้ชัดว่ารีวิวที่ยอดเยี่ยมนั้นคือเหตุผลที่ผู้ใช้ดาวน์โหลดแอป
ผิด คําตอบนี้ไม่นําพาแซมไปในทิศทางที่ถูกต้อง คุณไม่สามารถกําหนดสาเหตุจากเฉพาะข้อมูลการสังเกตการณ์เท่านั้น แซมเห็นความสัมพันธ์ (ซึ่งก็คือการพึ่งพากันทางสถิติระหว่างตัวเลข) ที่อาจระบุหรือไม่แสดงถึงสาเหตุ อย่าปล่อยให้การวิเคราะห์วิเคราะห์รวมกันในอันดับของความสัมพันธ์ที่ไม่ถูกต้อง