ทดสอบความเข้าใจ

คำถามต่อไปนี้จะช่วยให้คุณเข้าใจแนวคิดหลักของ ML ได้อย่างมั่นคง

ความสามารถในการคาดการณ์

โมเดล ML ที่มีการควบคุมดูแลจะได้รับการฝึกโดยใช้ชุดข้อมูลที่มีตัวอย่างที่ติดป้ายกำกับ โมเดล เรียนรู้วิธีคาดการณ์ป้ายกำกับจากฟีเจอร์ อย่างไรก็ตาม ฟีเจอร์บางอย่างในชุดข้อมูลอาจไม่มีความสามารถในการคาดการณ์ ในบางกรณี มีเพียงไม่กี่ฟีเจอร์เท่านั้นที่ทำหน้าที่เป็น ตัวทำนายป้ายกำกับ ในชุดข้อมูลด้านล่าง ให้ใช้ราคาเป็นป้ายกำกับ และใช้คอลัมน์ที่เหลือเป็นฟีเจอร์

ตัวอย่างแอตทริบิวต์ของรถยนต์ที่มีป้ายกำกับ

คุณคิดว่าฟีเจอร์ 3 อย่างใดต่อไปนี้มีแนวโน้มที่จะเป็นตัวทำนายราคาของรถยนต์ได้ดีที่สุด
ยี่ห้อ_รุ่น ปี ไมล์
ยี่ห้อ/รุ่น ปี และระยะทางของรถยนต์มักจะเป็นตัวบ่งชี้ที่แม่นยำที่สุดสำหรับราคา
สี ความสูง make_model
ความสูงและสีของรถยนต์ไม่ใช่ตัวบ่งชี้ที่แม่นยำสำหรับราคาของรถยนต์
ไมล์ เกียร์ ยี่ห้อ_รุ่น
เกียร์ไม่ใช่ปัจจัยหลักที่ใช้คาดการณ์ราคา
Tire_size, wheel_base, year
ขนาดยางและฐานล้อไม่ใช่ตัวบ่งชี้ที่แม่นยำสำหรับราคาของรถยนต์

การเรียนรู้ที่มีการควบคุมดูแลและการเรียนรู้ที่ไม่มีการควบคุมดูแล

คุณจะใช้วิธีการที่มีการควบคุมดูแลหรือไม่มีการควบคุมดูแลก็ได้ ขึ้นอยู่กับปัญหา เช่น หากทราบล่วงหน้าว่าต้องการคาดการณ์ค่าหรือหมวดหมู่ใด คุณจะต้องใช้การเรียนรู้แบบมีผู้สอน อย่างไรก็ตาม หากต้องการทราบว่าชุดข้อมูลมีกลุ่มหรือการจัดกลุ่มตัวอย่างที่เกี่ยวข้องหรือไม่ คุณจะต้องใช้การเรียนรู้แบบไม่มีผู้ดูแล

สมมติว่าคุณมีชุดข้อมูลผู้ใช้สำหรับเว็บไซต์ช็อปปิ้งออนไลน์ และชุดข้อมูลนั้น มีคอลัมน์ต่อไปนี้

รูปภาพแถวของแอตทริบิวต์ลูกค้า

หากต้องการทำความเข้าใจประเภทของผู้ใช้ที่เข้าชมเว็บไซต์ คุณจะใช้การเรียนรู้แบบมีผู้ดูแลหรือแบบไม่มีผู้ดูแล
การเรียนรู้ที่ไม่มีการควบคุมดูแล
เนื่องจากเราต้องการให้โมเดลจัดกลุ่มลูกค้าที่เกี่ยวข้อง เราจึงใช้การเรียนรู้แบบไม่มีการกำกับดูแล หลังจากที่โมเดลจัดกลุ่มผู้ใช้แล้ว เราจะตั้งชื่อกลุ่มแต่ละกลุ่มเอง เช่น "ผู้ที่มองหาส่วนลด" "ผู้ที่มองหาดีล" "ผู้ที่ท่องเว็บ" "ผู้ที่ภักดี" และ "ผู้ที่ชอบสำรวจ"
การเรียนรู้แบบมีผู้สอนเนื่องจากฉันพยายามคาดการณ์ว่าผู้ใช้จะอยู่ในคลาสใด
ในการเรียนรู้แบบมีผู้ดูแล ชุดข้อมูลต้องมีป้ายกำกับที่คุณ พยายามคาดการณ์ ในชุดข้อมูล ไม่มีป้ายกำกับที่อ้างอิงถึงหมวดหมู่ผู้ใช้

สมมติว่าคุณมีชุดข้อมูลการใช้พลังงานสำหรับบ้านที่มีคอลัมน์ต่อไปนี้

รูปภาพแถวของแอตทริบิวต์บ้าน

คุณจะใช้ ML ประเภทใดเพื่อคาดการณ์กิโลวัตต์ชั่วโมงที่ใช้ต่อปีสำหรับบ้านที่สร้างใหม่
การเรียนรู้ที่มีการควบคุมดูแล
การเรียนรู้แบบมีผู้ดูแลจะฝึกจากตัวอย่างที่ติดป้ายกำกับ ในชุดข้อมูลนี้ "กิโลวัตต์ชั่วโมงที่ใช้ต่อปี" จะเป็นป้ายกำกับ เนื่องจากเป็น ค่าที่คุณต้องการให้โมเดลคาดการณ์ ฟีเจอร์ดังกล่าว ได้แก่ "พื้นที่ใช้สอย" "ทำเลที่ตั้ง" และ "ปีที่สร้าง"
การเรียนรู้ที่ไม่มีการควบคุมดูแล
การเรียนรู้ที่ไม่มีการควบคุมดูแลใช้ตัวอย่างที่ไม่มีป้ายกำกับ ในตัวอย่างนี้ "กิโลวัตต์ชั่วโมงที่ใช้ต่อปี" จะเป็นป้ายกำกับ เนื่องจากเป็นค่าที่คุณต้องการให้โมเดล คาดการณ์

สมมติว่าคุณมีชุดข้อมูลเที่ยวบินที่มีคอลัมน์ต่อไปนี้

รูปภาพแถวของข้อมูลเที่ยวบิน

หากต้องการคาดการณ์ค่าตั๋วเครื่องบิน คุณจะใช้การถดถอยหรือการจัดประเภท
การถดถอย
เอาต์พุตของโมเดลการถดถอยคือค่าตัวเลข
การจัดประเภท
เอาต์พุตของโมเดลการจัดประเภทคือค่าที่ไม่ต่อเนื่อง โดยปกติจะเป็นคำ ในกรณีนี้ ค่าตั๋วเครื่องบินคือ ค่าตัวเลข
จากชุดข้อมูล คุณฝึกโมเดลการจัดประเภทเพื่อจัดประเภทค่าตั๋วเครื่องบินเป็น "สูง" "ปานกลาง" หรือ "ต่ำ" ได้ไหม
ได้ แต่ก่อนอื่นเราต้องแปลงค่าตัวเลขในคอลัมน์ airplane_ticket_cost เป็นค่าเชิงหมวดหมู่
คุณสร้างโมเดลการแยกประเภทจากชุดข้อมูลได้ คุณจะทำสิ่งต่างๆ เช่น
  1. ค้นหาราคาตั๋วโดยเฉลี่ยจากสนามบินต้นทางไปยัง สนามบินปลายทาง
  2. กำหนดเกณฑ์ที่จะถือว่าเป็น "สูง" "ปานกลาง" และ "ต่ำ"
  3. เปรียบเทียบต้นทุนที่คาดการณ์กับเกณฑ์และแสดงหมวดหมู่ที่ค่าอยู่
ไม่ได้ คุณสร้างโมเดลการแยกประเภทไม่ได้ ค่า airplane_ticket_cost เป็นตัวเลข ไม่ใช่หมวดหมู่
คุณสร้างโมเดลการจัดประเภทได้โดยใช้ความพยายามเพียงเล็กน้อย
ไม่ได้ โมเดลการจัดประเภทจะคาดการณ์ได้เพียง 2 หมวดหมู่ เช่น spam หรือ not_spam โมเดลนี้จะต้องคาดการณ์ 3 หมวดหมู่
โมเดลการจัดประเภทสามารถคาดการณ์ได้หลายหมวดหมู่ ซึ่งเรียกว่าโมเดลการจัดประเภทแบบหลายคลาส

การฝึกและการประเมิน

หลังจากฝึกโมเดลแล้ว เราจะประเมินโดยใช้ชุดข้อมูลที่มี ตัวอย่างที่ติดป้ายกำกับ และเปรียบเทียบค่าที่โมเดลคาดการณ์กับค่าจริงของป้ายกำกับ

เลือก 2 คำตอบที่ดีที่สุดสำหรับคำถาม

หากการคาดการณ์ของโมเดลไม่ถูกต้อง คุณอาจทำอะไรได้บ้างเพื่อปรับปรุงการคาดการณ์
ฝึกโมเดลอีกครั้ง แต่ใช้เฉพาะฟีเจอร์ที่คุณเชื่อว่ามี ความสามารถในการคาดการณ์ที่แข็งแกร่งที่สุดสำหรับป้ายกำกับ
การฝึกโมเดลอีกครั้งโดยใช้ฟีเจอร์น้อยลงแต่มี ความสามารถในการคาดการณ์มากขึ้นจะช่วยให้ได้โมเดลที่คาดการณ์ได้ดีขึ้น
คุณแก้ไขโมเดลที่มีการคาดการณ์ที่คลาดเคลื่อนมากไม่ได้
คุณสามารถแก้ไขโมเดลที่มีการคาดการณ์ไม่ถูกต้องได้ โมเดลส่วนใหญ่ ต้องผ่านการฝึกหลายรอบจนกว่าจะคาดการณ์ ได้อย่างมีประโยชน์
ฝึกโมเดลอีกครั้งโดยใช้ชุดข้อมูลที่ใหญ่ขึ้นและมีความหลากหลายมากขึ้น
โมเดลที่ฝึกในชุดข้อมูลที่มีตัวอย่างมากขึ้นและค่าที่หลากหลายมากขึ้นจะสร้างการคาดการณ์ได้ดีกว่า เนื่องจากโมเดลมีโซลูชันทั่วไปที่ดีกว่าสำหรับความสัมพันธ์ระหว่างฟีเจอร์กับป้ายกำกับ
ลองใช้วิธีการฝึกแบบอื่น เช่น หากคุณใช้ วิธีการที่มีการกำกับดูแล ให้ลองใช้วิธีการที่ไม่มีการกำกับดูแล
การฝึกรูปแบบอื่นจะไม่ทำให้การคาดการณ์ดีขึ้น

ตอนนี้คุณพร้อมที่จะก้าวไปอีกขั้นในเส้นทาง ML แล้ว โดยทำดังนี้