ทําความเข้าใจปัญหา

โปรดทำดังต่อไปนี้เพื่อทำความเข้าใจปัญหา

  • ระบุเป้าหมายสำหรับผลิตภัณฑ์ที่คุณกำลังพัฒนาหรือเปลี่ยนโครงสร้างภายในโค้ด
  • พิจารณาว่าเป้าหมายจะได้รับการแก้ไขได้ดีที่สุดโดยใช้ ML การคาดการณ์หรือไม่ Generative AI หรือโซลูชันที่ไม่ใช่ ML
  • ยืนยันว่าคุณมีข้อมูลที่จำเป็นต่อการฝึกโมเดลหากคุณใช้ ML การคาดการณ์

ระบุเป้าหมาย

เริ่มต้นด้วยการระบุเป้าหมายในข้อความที่ไม่ใช่ ML เป้าหมายคือคำตอบของ คำถามที่ว่า "ฉันกำลังพยายามทำอะไร"

ตารางต่อไปนี้ระบุเป้าหมายของแอปสมมติอย่างชัดเจน

แอปพลิเคชัน เป้าหมาย
แอปสภาพอากาศ คำนวณปริมาณน้ำฝนที่เพิ่มขึ้นทีละ 6 ชั่วโมงสำหรับพื้นที่ทางภูมิศาสตร์หนึ่งๆ
แอปแฟชั่น สร้างเสื้อเชิ้ตหลากสไตล์
แอปวิดีโอ แนะนำวิดีโอที่มีประโยชน์
แอปอีเมล ตรวจหาสแปม
แอปการเงิน สรุปข้อมูลทางการเงินจากแหล่งข่าวหลายแห่ง
แอปแผนที่ คำนวณเวลาเดินทาง
แอปธนาคาร ระบุธุรกรรมที่เป็นการฉ้อโกง
แอปรับประทานอาหาร ระบุอาหารจากเมนูของร้านอาหาร
แอปอีคอมเมิร์ซ ตอบรีวิวพร้อมคำตอบที่เป็นประโยชน์

ล้างกรณีการใช้งานสำหรับ ML

บางคนมองว่า ML เป็นเครื่องมือสากลที่นำไปใช้ได้กับทุกโจทย์ ใน ในความเป็นจริง ML เป็นเครื่องมือพิเศษที่เหมาะกับปัญหาเฉพาะบางอย่างเท่านั้น คุณ ไม่ต้องการนำโซลูชัน ML ที่ซับซ้อนไปใช้ ในกรณีของโซลูชันที่ไม่ใช่ ML ที่ง่ายกว่า จึงจะใช้งานได้

ระบบ ML แบ่งออกได้เป็น 2 หมวดหมู่กว้างๆ ดังนี้ ML ที่คาดการณ์และ Generative AI ดังต่อไปนี้ ตารางนี้จะแสดงลักษณะเฉพาะดังต่อไปนี้

อินพุต เอาต์พุต เทคนิคการฝึก
ML การคาดการณ์ ข้อความ
รูปภาพ
เสียง
วิดีโอ
ตัวเลข
ทำการคาดการณ์ เช่น การแยกประเภท ส่งอีเมลว่าเป็นสแปมหรือไม่ใช่สแปม คาดเดาปริมาณฝนของพรุ่งนี้ หรือ การคาดการณ์ราคาหุ้น โดยทั่วไปแล้ว เอาต์พุตสามารถตรวจสอบเทียบกับความเป็นจริงได้ มักใช้ข้อมูลจำนวนมากในการฝึกให้ผู้ควบคุมดูแล ไม่มีการควบคุมดูแล หรือการเสริมโมเดลการเรียนรู้แบบเสริม งานที่เฉพาะเจาะจง
Generative AI ข้อความ
รูปภาพ
เสียง
วิดีโอ
ตัวเลข
สร้างเอาต์พุตตามความตั้งใจของผู้ใช้ เช่น สรุปบทความ หรือจัดทำคลิปเสียงหรือวิดีโอสั้นๆ โดยปกติจะใช้ข้อมูลที่ไม่มีป้ายกำกับจำนวนมากเพื่อฝึกโมเดลภาษาขนาดใหญ่ หรือโปรแกรมสร้างรูปภาพเพื่อกรอกข้อมูลที่ขาดหายไป จากนั้นจะใช้โมเดล สำหรับงานที่สามารถจัดกรอบเป็นงานเติมคำในช่องว่าง หรืออาจจะเป็น ปรับแต่งด้วยการฝึกด้วยข้อมูลที่มีป้ายกำกับสำหรับงานที่เฉพาะเจาะจงบางอย่าง เช่น การจำแนกประเภท

เพื่อยืนยันว่า ML คือแนวทางที่ถูกต้อง ก่อนอื่นให้ยืนยันว่าเนื้อหาที่ไม่ใช่ ML ปัจจุบันของคุณ ให้แก่โซลูชันของคุณ หากยังไม่มีการใช้โซลูชันที่ไม่ใช่ ML ให้ลอง แก้โจทย์ด้วยตนเองโดยใช้ ระบบการเรียนรู้

โซลูชันที่ไม่ใช่ ML คือเกณฑ์มาตรฐานที่คุณจะใช้เพื่อระบุว่า ML เป็น กรณีการใช้งานที่ดีสำหรับปัญหาของคุณ พิจารณาคำถามต่อไปนี้เมื่อเปรียบเทียบ วิธีการที่ไม่ใช่ ML สำหรับ ML:

  • คุณภาพ คุณคิดว่าโซลูชัน ML จะดีกว่าเพียงใด หากคุณ คิดว่าโซลูชัน ML อาจเป็นการปรับปรุงเล็กๆ น้อยๆ ที่อาจบ่งชี้ถึง โซลูชันปัจจุบันเป็นวิธีที่ดีที่สุด

  • ค่าใช้จ่ายและการบำรุงรักษา โซลูชัน ML มีค่าใช้จ่ายสูงเพียงใดทั้งใน ในระยะสั้นและระยะยาว ในบางกรณี ค่าใช้จ่ายอาจเพิ่มขึ้นอย่างมากในแง่ของ ทรัพยากรการประมวลผลและเวลาเพื่อนำ ML ไปใช้ ลองพิจารณาวิธีต่อไปนี้ คำถาม:

    • โซลูชัน ML สนับสนุนต้นทุนที่เพิ่มขึ้นได้ไหม โปรดทราบว่ามีขนาดเล็ก การปรับปรุงในระบบขนาดใหญ่สามารถรองรับค่าใช้จ่ายและ ของการนำโซลูชัน ML ไปใช้
    • โซลูชันนี้ต้องการการบำรุงรักษามากน้อยเพียงใด ในหลายกรณี ML การติดตั้งใช้งานที่จำเป็นต้องทำการบำรุงรักษาในระยะยาว
    • ผลิตภัณฑ์ของคุณมีทรัพยากรที่จะสนับสนุนการฝึกอบรมหรือการว่าจ้างหรือไม่ ที่มีความเชี่ยวชาญด้าน ML

ตรวจสอบความเข้าใจ

ทำไมจึงจำเป็นต้องมีโซลูชันที่ไม่ใช่ ML หรือการเรียนรู้แบบศึกษาไว้ล่วงหน้า กำลังวิเคราะห์โซลูชัน ML อยู่ใช่ไหม
โซลูชันที่ไม่ใช่ ML เป็นเกณฑ์เปรียบเทียบที่จะใช้วัดผลโซลูชัน ML
โซลูชันที่ไม่ใช่ ML ช่วยให้คุณกำหนดได้ว่าโซลูชัน ML จะมีค่าใช้จ่ายเท่าใด

ML และข้อมูลการคาดการณ์

ข้อมูลเป็นแรงขับเคลื่อนของ ML การคาดการณ์ เพื่อชดเชย การคาดการณ์ คุณต้องมีข้อมูล มีฟีเจอร์ที่มีการคาดการณ์ ขั้นสูง ข้อมูลของคุณควรมีลักษณะเฉพาะต่อไปนี้

  • มีจำนวนมาก ยิ่งตัวอย่างที่เกี่ยวข้องและเป็นประโยชน์ใน ชุดข้อมูลยิ่งดี โมเดลของคุณก็จะเป็นแบบของคุณเอง

  • มีความสม่ำเสมอและเชื่อถือได้ การมีข้อมูลที่สอดคล้องกันและเชื่อถือได้ ที่รวบรวมจะให้โมเดลดีขึ้น เช่น สภาพอากาศที่อิงตาม ML โมเดลเดียวกันจะได้ประโยชน์จากข้อมูลที่รวบรวม ในช่วงเวลาหลายปีที่ผ่านมาจาก เครื่องดนตรีชนิดนี้

  • เชื่อถือได้ ทำความเข้าใจว่าข้อมูลมาจากไหน ข้อมูลจะ จากแหล่งที่มาที่เชื่อถือได้ซึ่งคุณควบคุม เช่น บันทึกจากผลิตภัณฑ์ของคุณ หรือจะเป็น จากแหล่งที่มาที่คุณไม่มีข้อมูลเชิงลึกมากนัก เช่น เอาต์พุตจากแหล่งข้อมูลอื่น ระบบ ML ได้ไหม

  • พร้อมใช้งาน ตรวจสอบว่าอินพุตทั้งหมดพร้อมใช้งานในเวลาการคาดการณ์ใน รูปแบบที่ถูกต้อง หากการรับค่าฟีเจอร์บางอย่างที่ เวลาการคาดการณ์ ละเว้นฟีเจอร์เหล่านั้นจากชุดข้อมูล

  • ถูกต้อง ในชุดข้อมูลขนาดใหญ่ เป็นเรื่องหลีกเลี่ยงไม่ได้ที่ labels จะมีค่าที่ไม่ถูกต้อง แต่หากมีป้ายกำกับที่ไม่ถูกต้องมากกว่าเปอร์เซ็นต์ที่กำหนด โมเดลจะ สร้างการคาดการณ์ที่ไม่ดี

  • เป็นตัวแทน ชุดข้อมูลควรเป็นตัวแทนของข้อมูลจริง โลกมากที่สุดเท่าที่จะเป็นไปได้ หรืออีกนัยหนึ่งคือ ชุดข้อมูลควรแสดงถึง เหตุการณ์ พฤติกรรมของผู้ใช้ และ/หรือปรากฏการณ์ในโลกแห่งความเป็นจริง โดยประมาณ การฝึกชุดข้อมูลที่ไม่เป็นตัวแทนอาจทําให้ประสิทธิภาพไม่ดี เมื่อระบบขอให้โมเดลทำการคาดการณ์จริง

หากคุณไม่สามารถรับข้อมูลที่คุณต้องการในรูปแบบที่กำหนด โมเดลของคุณจะ การคาดคะเนที่ไม่ดี

พลังในการคาดการณ์

เพื่อให้โมเดลคาดการณ์ได้ดี ฟีเจอร์ในชุดข้อมูลของคุณควรมี ความสามารถในการคาดการณ์ ยิ่งฟีเจอร์สัมพันธ์กับป้ายกำกับมากเท่าใด ก็ยิ่งมีแนวโน้มมากขึ้น ก็คือการคาดการณ์

ฟีเจอร์บางอย่างจะคาดการณ์ได้ดีกว่าฟีเจอร์อื่น ตัวอย่างเช่น ใน ชุดข้อมูลสภาพอากาศ ฟีเจอร์ต่างๆ เช่น cloud_coverage, temperature และ dew_point น่าจะพยากรณ์ฝนได้ดีกว่า moon_phase หรือ day_of_week สำหรับตัวอย่างแอปวิดีโอ คุณสามารถตั้งสมมติฐานว่าฟีเจอร์ต่างๆ เช่น video_description, length และ views อาจเป็นตัวคาดการณ์ที่ดีสำหรับ ที่ผู้ใช้จะต้องการชม

โปรดทราบว่าความสามารถในการคาดการณ์ของสถานที่หนึ่งๆ สามารถเปลี่ยนแปลงได้เนื่องจากบริบทหรือ การเปลี่ยนแปลงโดเมน เช่น ในแอปวิดีโอ ฟีเจอร์อย่าง upload_date มักมีความสัมพันธ์กับป้ายกำกับเล็กน้อย อย่างไรก็ตาม ใน โดเมนย่อยของวิดีโอการเล่นเกม upload_date อาจเกี่ยวข้องอย่างมากกับ ป้ายกำกับ

การระบุฟีเจอร์ที่มีความสามารถในการคาดการณ์อาจใช้เวลานาน ขั้นตอนได้ คุณสามารถสำรวจความสามารถในการคาดการณ์ของฟีเจอร์ได้ด้วยตนเองโดยการนำออกและ การเพิ่มโมเดลขณะฝึกโมเดล คุณสามารถค้นหา ความสามารถในการคาดการณ์โดยใช้อัลกอริทึม เช่น สหสัมพันธ์แบบเพียร์สัน ข้อมูลที่มีการปรับเปลี่ยน (AMI) และ ค่า Shapley ซึ่งให้การประเมินเชิงตัวเลขสำหรับการวิเคราะห์ความสามารถในการคาดการณ์ของ feature.

ตรวจสอบความเข้าใจ

แอตทริบิวต์หลัก 3 อย่างที่คุณควรทำขณะวิเคราะห์ชุดข้อมูลคืออะไร มองหาอยู่ไหม
ตัวแทนของโลกความเป็นจริง
มีค่าที่ถูกต้อง
ฟีเจอร์มีความสามารถในการคาดการณ์สำหรับป้ายกำกับ
มีขนาดเล็กพอที่จะโหลดลงในเครื่องของคุณเอง
รวบรวมมาจากหลากหลายแหล่งที่มาที่คาดเดาไม่ได้

ดูคำแนะนำเพิ่มเติมเกี่ยวกับการวิเคราะห์และการเตรียมชุดข้อมูลได้ที่ การจัดเตรียมข้อมูลและวิศวกรรมฟีเจอร์สำหรับแมชชีนเลิร์นนิง

การคาดการณ์และการกระทำ

การคาดการณ์บางอย่างจะไม่มีประโยชน์ถ้าคุณไม่สามารถเปลี่ยนการคาดการณ์เป็น การดำเนินการที่ช่วยเหลือผู้ใช้ กล่าวคือ ผลิตภัณฑ์ของคุณควรดำเนินการจาก เอาต์พุตของโมเดล

ตัวอย่างเช่น โมเดลที่คาดการณ์ว่าผู้ใช้จะเห็นวิดีโอที่เป็นประโยชน์หรือไม่ ควรป้อนข้อมูลลงในแอปที่แนะนำวิดีโอที่เป็นประโยชน์ โมเดลที่คาดการณ์ ฝนควรตกในแอปสภาพอากาศหรือไม่

ตรวจสอบความเข้าใจ

พิจารณาว่าการใช้ ML เป็นตัวเลือกที่ดีที่สุดจากสถานการณ์ต่อไปนี้หรือไม่ ในการจัดการกับปัญหา

ทีมวิศวกรในองค์กรขนาดใหญ่มีหน้าที่จัดการ สายเรียกเข้า

เป้าหมาย: เพื่อแจ้งผู้โทรทราบถึงระยะเวลาที่จะต้องถือสายรอ ระดับเสียงการโทรปัจจุบัน

พวกเขายังไม่มีแนวทางแก้ไขเลย แต่พวกเขาคิดว่าการเรียนรู้แบบฮิวริสติก จะหารค่าปัจจุบัน จำนวนลูกค้าที่รอสาย ตามจำนวนพนักงานที่รับโทรศัพท์ แล้วคูณด้วย 10 นาที อย่างไรก็ตาม พวกเขารู้ว่าลูกค้าบางรายแก้ไขปัญหาได้ใน 2 นาที ขณะที่บางรายการอาจใช้เวลานานถึง 45 นาทีหรือนานกว่านั้น

การเรียนรู้ของพวกเขาอาจไม่ได้แสดงจำนวนที่ถูกต้องแม่นยำมากพอ โฆษณาเหล่านี้ สร้างชุดข้อมูลที่มีคอลัมน์ต่อไปนี้ได้ number_of_callcenter_phones user_issue time_to_resolve call_time time_on_hold

ใช้ ML ทีมวิศวกรมีเป้าหมายที่ชัดเจน ของ การเรียนรู้ของผู้เรียนจะไม่ดีพอสำหรับกรณีการใช้งาน ชุดข้อมูลจะปรากฏขึ้น ให้มีฟีเจอร์การคาดการณ์สำหรับป้ายกำกับ time_on_hold
อย่าใช้ ML แม้ว่าจะมีเป้าหมายชัดเจนอยู่แล้ว ควรใช้และเพิ่มประสิทธิภาพโซลูชันที่ไม่ใช่ ML ก่อน นอกจากนี้ ดูเหมือนว่าชุดข้อมูลจะมีฟีเจอร์ไม่เพียงพอพร้อมกับความสามารถในการคาดการณ์