"เก็บขยะ เก็บขยะ"
คําอธิบายก่อนหน้าใช้กับแมชชีนเลิร์นนิง อีกนัยหนึ่งคือ โมเดลจะมีคุณภาพ ดีเท่าข้อมูลของคุณเท่านั้น แต่คุณจะวัดคุณภาพของชุดข้อมูล และปรับปรุงคุณภาพได้อย่างไร และต้องใช้ข้อมูลมากน้อยแค่ไหนเพื่อให้ได้ผลลัพธ์ที่เป็นประโยชน์ คําตอบจะขึ้นอยู่กับประเภทของปัญหาที่คุณแก้ไขได้
ขนาดของชุดข้อมูล
ตามหลักการทั่วไป โมเดลควรฝึกด้วยขนาดที่กว้างกว่าตัวอย่างเมื่อเทียบกับพารามิเตอร์ที่ฝึกได้ โดยทั่วไป โมเดลง่ายๆ ในชุดข้อมูลขนาดใหญ่มักจะชนะโมเดลที่สวยหรูในชุดข้อมูลขนาดเล็ก Google ประสบความสําเร็จในการฝึกโมเดลการถดถอยเชิงเส้นแบบง่ายกับชุดข้อมูลขนาดใหญ่
รายการที่นับเป็นข้อมูล &" จํานวนมาก ขึ้นอยู่กับโปรเจ็กต์ ลองพิจารณาขนาดที่เกี่ยวข้องของชุดข้อมูลต่อไปนี้
ชุดข้อมูล | ขนาด (จํานวนตัวอย่าง) |
---|---|
ชุดข้อมูลดอกไม้รูปดอกไอริส | 150 (ชุดทั้งหมด) |
MoviesLens (ชุดข้อมูล 20M) | 20,000,263 (ชุดทั้งหมด) |
สมาร์ทรีพลายใน Google Gmail | 238,000,000 (ชุดการฝึก) |
Google Books Ngram | 468,000,000,000 (จํานวนรวม) |
Google แปลภาษา | ล้านล้าน |
คุณจะเห็นว่าชุดข้อมูลมีหลายขนาด
คุณภาพของชุดข้อมูล
เราไม่ได้ใช้ข้อมูลจํานวนมากหากข้อมูลไม่ถูกต้อง เพราะสําคัญก็สําคัญเช่นกัน แต่รายการที่นับเป็น "quality"? มันเป็นคําที่ไม่ชัดเจน พิจารณาวิธีการที่จะให้ผลลัพธ์ดีกว่า โดยเลือกตัวเลือกที่ให้ผลลัพธ์ดีที่สุด แนวคิดก็คือ ชุดข้อมูลที่มีคุณภาพคือชุดที่ ช่วยให้คุณประสบความสําเร็จเกี่ยวกับปัญหาทางธุรกิจที่คุณสนใจ กล่าวคือ ข้อมูลจะดีหากทํางานที่ตั้งใจไว้สําเร็จ
อย่างไรก็ตาม ขณะรวบรวมข้อมูล คุณควรมีคําจํากัดความของคุณภาพที่เป็นรูปธรรมมากขึ้น คุณภาพบางอย่างก็มักสอดคล้องกับ โมเดลที่ทํางานได้ดีกว่า ดังนี้
- ความน่าเชื่อถือ
- การนําเสนอฟีเจอร์
- ลดการบิดเบี้ยว
ความเสถียร
ความเชื่อถือได้หมายถึงระดับข้อมูลที่คุณเชื่อถือข้อมูลได้ โมเดลที่ฝึกบนชุดข้อมูลที่เชื่อถือได้มีแนวโน้มที่จะสร้างการคาดการณ์ที่มีประโยชน์มากกว่าโมเดลที่ฝึกกับข้อมูลที่เชื่อถือได้ ในการวัดความเชื่อถือได้ คุณต้องพิจารณาสิ่งต่อไปนี้
- ข้อผิดพลาดของป้ายกํากับพบได้บ่อยเพียงใด เช่น หากมนุษย์ติดป้ายกํากับข้อมูลของคุณ บางครั้งมนุษย์ก็อาจทําผิดพลาด
- ฟีเจอร์ของคุณมีเสียงดังไหม เช่น การวัด GPS ผันผวน การใช้เสียงบางส่วนก็ไม่เป็นไร คุณจะไม่ลบชุดข้อมูลทั้งหมดออกโดยเด็ดขาด และยังรวบรวมตัวอย่างเพิ่มเติมได้
- ข้อมูลได้รับการกรองออกจากปัญหาของคุณอย่างถูกต้องไหม ตัวอย่างเช่น ชุดข้อมูลของคุณควรรวมคําค้นหาจากบ็อตไหม หากคุณกําลังสร้างระบบตรวจจับสแปม คําตอบคือใช่ แต่ถ้าคุณพยายามปรับปรุงผลการค้นหาสําหรับมนุษย์ ก็อาจไม่ใช่
สาเหตุที่ทําให้ข้อมูลไม่น่าเชื่อถือ จดจําจากหลักสูตรข้อขัดข้องของแมชชีนเลิร์นนิงว่าตัวอย่างจํานวนมากในชุดข้อมูลไม่น่าเชื่อถือเนื่องจากสาเหตุต่อไปนี้อย่างน้อย 1 รายการ
- ค่าที่ละเว้น เช่น ผู้ใช้ลืมป้อนค่าสําหรับ อายุของบ้าน
- ตัวอย่างที่ซ้ํากัน เช่น เซิร์ฟเวอร์อัปโหลดบันทึก เดียวกันซ้ํา 2 ครั้ง
- ป้ายกํากับไม่ถูกต้อง เช่น คนคนหนึ่งติดป้ายกํากับรูปต้นโอ๊กผิดว่าต้นเมเปิล
- ค่าสถานที่ไม่ถูกต้อง เช่น ผู้ใช้พิมพ์ตัวเลขเพิ่มเติมหรือใส่เครื่องวัดอุณหภูมิทิ้งไว้ในดวงอาทิตย์
Google แปลภาษาให้ความสําคัญกับความเชื่อถือได้ในการเลือก "ส่วนย่อยที่ดีที่สุด และข้อมูลของตน นั่นคือ บางข้อมูลจะมีป้ายกํากับที่มีคุณภาพสูงกว่าส่วนอื่น
การแสดงฟีเจอร์
จดจําจากหลักสูตรข้อขัดข้องของแมชชีนเลิร์นนิงซึ่งแสดงถึงการแมปข้อมูลกับฟีเจอร์ที่มีประโยชน์ คุณควรคํานึงถึงคําถามต่อไปนี้
- ข้อมูลจะแสดงต่อโมเดลอย่างไร
- คุณควรทําให้ค่าตัวเลขเป็นมาตรฐานหรือไม่
- คุณควรจัดการกับค่าที่ผิดปกติอย่างไร
หัวข้อเปลี่ยนรูปแบบข้อมูลของหลักสูตรนี้จะมุ่งเน้นไปที่การแสดงฟีเจอร์
การฝึกและการคาดการณ์
สมมติว่าคุณจะได้รับผลลัพธ์ที่ยอดเยี่ยมแบบออฟไลน์ จากนั้น ในการทดลองสดของคุณ ผลลัพธ์เหล่านั้นจะไม่ยอมแพ้ สิ่งที่จะเกิดขึ้น
ปัญหานี้อาจบ่งชี้ว่าการฝึกบิด/แสดงผล กล่าวคือ ผลลัพธ์ที่ต่างกันจะคํานวณสําหรับเมตริกในเวลาการฝึกเทียบกับเวลาการแสดงผล สาเหตุที่ทําให้ข้อมูลบิดเบี้ยวอาจเล็กน้อย แต่มีผลเสียร้ายแรงต่อผลลัพธ์ พิจารณาข้อมูลที่โมเดลของคุณใช้ได้ในเวลาการคาดการณ์เสมอ ในระหว่างการฝึกอบรม ให้ใช้เฉพาะฟีเจอร์ที่คุณมีสิทธิ์ใช้งานเท่านั้น และตรวจสอบให้แน่ใจว่าชุดการฝึกของคุณแสดงถึงการเข้าชมที่ให้บริการ