ขนาดและคุณภาพของชุดข้อมูล

"เก็บขยะ เก็บขยะ"

คําอธิบายก่อนหน้าใช้กับแมชชีนเลิร์นนิง อีกนัยหนึ่งคือ โมเดลจะมีคุณภาพ ดีเท่าข้อมูลของคุณเท่านั้น แต่คุณจะวัดคุณภาพของชุดข้อมูล และปรับปรุงคุณภาพได้อย่างไร และต้องใช้ข้อมูลมากน้อยแค่ไหนเพื่อให้ได้ผลลัพธ์ที่เป็นประโยชน์ คําตอบจะขึ้นอยู่กับประเภทของปัญหาที่คุณแก้ไขได้

ขนาดของชุดข้อมูล

ตามหลักการทั่วไป โมเดลควรฝึกด้วยขนาดที่กว้างกว่าตัวอย่างเมื่อเทียบกับพารามิเตอร์ที่ฝึกได้ โดยทั่วไป โมเดลง่ายๆ ในชุดข้อมูลขนาดใหญ่มักจะชนะโมเดลที่สวยหรูในชุดข้อมูลขนาดเล็ก Google ประสบความสําเร็จในการฝึกโมเดลการถดถอยเชิงเส้นแบบง่ายกับชุดข้อมูลขนาดใหญ่

รายการที่นับเป็นข้อมูล &" จํานวนมาก ขึ้นอยู่กับโปรเจ็กต์ ลองพิจารณาขนาดที่เกี่ยวข้องของชุดข้อมูลต่อไปนี้

ชุดข้อมูล ขนาด (จํานวนตัวอย่าง)
ชุดข้อมูลดอกไม้รูปดอกไอริส 150 (ชุดทั้งหมด)
MoviesLens (ชุดข้อมูล 20M) 20,000,263 (ชุดทั้งหมด)
สมาร์ทรีพลายใน Google Gmail 238,000,000 (ชุดการฝึก)
Google Books Ngram 468,000,000,000 (จํานวนรวม)
Google แปลภาษา ล้านล้าน

คุณจะเห็นว่าชุดข้อมูลมีหลายขนาด

คุณภาพของชุดข้อมูล

เราไม่ได้ใช้ข้อมูลจํานวนมากหากข้อมูลไม่ถูกต้อง เพราะสําคัญก็สําคัญเช่นกัน แต่รายการที่นับเป็น "quality"? มันเป็นคําที่ไม่ชัดเจน พิจารณาวิธีการที่จะให้ผลลัพธ์ดีกว่า โดยเลือกตัวเลือกที่ให้ผลลัพธ์ดีที่สุด แนวคิดก็คือ ชุดข้อมูลที่มีคุณภาพคือชุดที่ ช่วยให้คุณประสบความสําเร็จเกี่ยวกับปัญหาทางธุรกิจที่คุณสนใจ กล่าวคือ ข้อมูลจะดีหากทํางานที่ตั้งใจไว้สําเร็จ

อย่างไรก็ตาม ขณะรวบรวมข้อมูล คุณควรมีคําจํากัดความของคุณภาพที่เป็นรูปธรรมมากขึ้น คุณภาพบางอย่างก็มักสอดคล้องกับ โมเดลที่ทํางานได้ดีกว่า ดังนี้

  • ความน่าเชื่อถือ
  • การนําเสนอฟีเจอร์
  • ลดการบิดเบี้ยว

ความเสถียร

ความเชื่อถือได้หมายถึงระดับข้อมูลที่คุณเชื่อถือข้อมูลได้ โมเดลที่ฝึกบนชุดข้อมูลที่เชื่อถือได้มีแนวโน้มที่จะสร้างการคาดการณ์ที่มีประโยชน์มากกว่าโมเดลที่ฝึกกับข้อมูลที่เชื่อถือได้ ในการวัดความเชื่อถือได้ คุณต้องพิจารณาสิ่งต่อไปนี้

  • ข้อผิดพลาดของป้ายกํากับพบได้บ่อยเพียงใด เช่น หากมนุษย์ติดป้ายกํากับข้อมูลของคุณ บางครั้งมนุษย์ก็อาจทําผิดพลาด
  • ฟีเจอร์ของคุณมีเสียงดังไหม เช่น การวัด GPS ผันผวน การใช้เสียงบางส่วนก็ไม่เป็นไร คุณจะไม่ลบชุดข้อมูลทั้งหมดออกโดยเด็ดขาด และยังรวบรวมตัวอย่างเพิ่มเติมได้
  • ข้อมูลได้รับการกรองออกจากปัญหาของคุณอย่างถูกต้องไหม ตัวอย่างเช่น ชุดข้อมูลของคุณควรรวมคําค้นหาจากบ็อตไหม หากคุณกําลังสร้างระบบตรวจจับสแปม คําตอบคือใช่ แต่ถ้าคุณพยายามปรับปรุงผลการค้นหาสําหรับมนุษย์ ก็อาจไม่ใช่

สาเหตุที่ทําให้ข้อมูลไม่น่าเชื่อถือ จดจําจากหลักสูตรข้อขัดข้องของแมชชีนเลิร์นนิงว่าตัวอย่างจํานวนมากในชุดข้อมูลไม่น่าเชื่อถือเนื่องจากสาเหตุต่อไปนี้อย่างน้อย 1 รายการ

  • ค่าที่ละเว้น เช่น ผู้ใช้ลืมป้อนค่าสําหรับ อายุของบ้าน
  • ตัวอย่างที่ซ้ํากัน เช่น เซิร์ฟเวอร์อัปโหลดบันทึก เดียวกันซ้ํา 2 ครั้ง
  • ป้ายกํากับไม่ถูกต้อง เช่น คนคนหนึ่งติดป้ายกํากับรูปต้นโอ๊กผิดว่าต้นเมเปิล
  • ค่าสถานที่ไม่ถูกต้อง เช่น ผู้ใช้พิมพ์ตัวเลขเพิ่มเติมหรือใส่เครื่องวัดอุณหภูมิทิ้งไว้ในดวงอาทิตย์

Google แปลภาษาให้ความสําคัญกับความเชื่อถือได้ในการเลือก "ส่วนย่อยที่ดีที่สุด และข้อมูลของตน นั่นคือ บางข้อมูลจะมีป้ายกํากับที่มีคุณภาพสูงกว่าส่วนอื่น

การแสดงฟีเจอร์

จดจําจากหลักสูตรข้อขัดข้องของแมชชีนเลิร์นนิงซึ่งแสดงถึงการแมปข้อมูลกับฟีเจอร์ที่มีประโยชน์ คุณควรคํานึงถึงคําถามต่อไปนี้

  • ข้อมูลจะแสดงต่อโมเดลอย่างไร
  • คุณควรทําให้ค่าตัวเลขเป็นมาตรฐานหรือไม่
  • คุณควรจัดการกับค่าที่ผิดปกติอย่างไร

หัวข้อเปลี่ยนรูปแบบข้อมูลของหลักสูตรนี้จะมุ่งเน้นไปที่การแสดงฟีเจอร์

การฝึกและการคาดการณ์

สมมติว่าคุณจะได้รับผลลัพธ์ที่ยอดเยี่ยมแบบออฟไลน์ จากนั้น ในการทดลองสดของคุณ ผลลัพธ์เหล่านั้นจะไม่ยอมแพ้ สิ่งที่จะเกิดขึ้น

ปัญหานี้อาจบ่งชี้ว่าการฝึกบิด/แสดงผล กล่าวคือ ผลลัพธ์ที่ต่างกันจะคํานวณสําหรับเมตริกในเวลาการฝึกเทียบกับเวลาการแสดงผล สาเหตุที่ทําให้ข้อมูลบิดเบี้ยวอาจเล็กน้อย แต่มีผลเสียร้ายแรงต่อผลลัพธ์ พิจารณาข้อมูลที่โมเดลของคุณใช้ได้ในเวลาการคาดการณ์เสมอ ในระหว่างการฝึกอบรม ให้ใช้เฉพาะฟีเจอร์ที่คุณมีสิทธิ์ใช้งานเท่านั้น และตรวจสอบให้แน่ใจว่าชุดการฝึกของคุณแสดงถึงการเข้าชมที่ให้บริการ