การผลิต

ในการเตรียมไปป์ไลน์ ML สำหรับเวอร์ชันที่ใช้งานจริง คุณต้องดำเนินการต่อไปนี้

  • จัดสรรทรัพยากรการประมวลผลสำหรับไปป์ไลน์ของคุณ
  • นำการบันทึก การตรวจสอบ และการแจ้งเตือนไปใช้

การจัดสรรทรัพยากรการประมวลผล

การเรียกใช้ไปป์ไลน์ ML ต้องใช้ทรัพยากรในการประมวลผล เช่น RAM, CPU และ GPU/TPU หากไม่มีการประมวลผลที่เพียงพอ คุณจะเรียกใช้ไปป์ไลน์ไม่ได้ ดังนั้นโปรดตรวจสอบว่า เพื่อรับโควต้าที่เพียงพอสำหรับการจัดสรรทรัพยากรที่จำเป็นที่ไปป์ไลน์ของคุณ ในเวอร์ชันที่ใช้งานจริง

  • ไปป์ไลน์การให้บริการ การฝึก และการตรวจสอบ ไปป์ไลน์เหล่านี้ต้องใช้ TPU, GPU หรือ CPU คุณอาจฝึกและให้บริการได้ ทั้งนี้ขึ้นอยู่กับกรณีการใช้งานของคุณ ฮาร์ดแวร์อื่น หรือใช้ฮาร์ดแวร์เดียวกัน ตัวอย่างเช่น การฝึกอาจ เกิดขึ้นบน CPU แต่การแสดงผลอาจใช้ TPU หรือในทางกลับกัน โดยทั่วไป มักฝึกใช้ฮาร์ดแวร์ที่ใหญ่กว่า จากนั้นแสดงในฮาร์ดแวร์ขนาดเล็ก

    เมื่อเลือกฮาร์ดแวร์ ให้พิจารณาสิ่งต่อไปนี้

    • คุณฝึกใช้ฮาร์ดแวร์ที่มีราคาถูกลงได้ไหม
    • การเปลี่ยนไปใช้ฮาร์ดแวร์อื่นจะเพิ่มประสิทธิภาพให้ดีขึ้นไหม
    • รุ่นมีขนาดเท่าใดและฮาร์ดแวร์ใดจะช่วยเพิ่มประสิทธิภาพการทำงาน
    • เมื่อพิจารณาจากสถาปัตยกรรมของโมเดลของคุณแล้ว ฮาร์ดแวร์ใดเหมาะสมที่สุด
  • Data Pipeline ไปป์ไลน์ข้อมูลต้องใช้โควต้าสำหรับ RAM และ CPU คุณจะต้องประมาณมูลค่า โควต้าที่ไปป์ไลน์ของคุณต้องใช้ในการสร้างชุดข้อมูลการฝึกและทดสอบ

คุณจัดสรรโควต้าให้กับไปป์ไลน์แต่ละรายการไม่ได้ อย่างไรก็ตาม คุณอาจ จัดสรรโควต้าที่ไปป์ไลน์ใช้ร่วมกัน ในกรณีดังกล่าว ให้ยืนยัน คุณมีโควต้าเพียงพอที่จะเรียกใช้ไปป์ไลน์ทั้งหมด รวมถึงตั้งค่าการตรวจสอบและ เพื่อป้องกันไม่ให้ไปป์ไลน์ที่ไม่ถูกต้องรายการเดียวใช้โควต้าทั้งหมด

กำลังประมาณโควต้า

ในการประมาณโควต้าที่คุณจะต้องใช้สำหรับข้อมูลและไปป์ไลน์การฝึก ให้ค้นหา ที่คล้ายกันเพื่อใช้ค่าประมาณได้ ในการประมาณโควต้าการแสดงผล ให้ลองทำดังนี้ คาดการณ์คำค้นหาของบริการต่อวินาที วิธีการเหล่านี้เป็นพื้นฐาน อาส คุณจะเริ่มสร้างต้นแบบของโซลูชันในระหว่างช่วงทดลอง เพื่อรับค่าประมาณโควต้าที่แม่นยำมากขึ้น

เมื่อประมาณโควต้า อย่าลืมนำโควต้ามาพิจารณาด้วยสำหรับการผลิต รวมถึงการทดสอบที่ดำเนินอยู่

ตรวจสอบความเข้าใจ

เมื่อเลือกฮาร์ดแวร์ที่จะแสดงการคาดการณ์ คุณควรเลือก ฮาร์ดแวร์ที่มีประสิทธิภาพมากกว่าที่ใช้ในการฝึกโมเดล
เท็จ
ถูกต้อง โดยทั่วไปแล้ว การฝึกจะต้องใช้ฮาร์ดแวร์ที่ใหญ่กว่าการแสดงผล
จริง

การบันทึก การตรวจสอบ และการแจ้งเตือน

การบันทึกและการตรวจสอบลักษณะการทำงานของโมเดลที่ใช้งานจริงเป็นสิ่งสำคัญ Robust การตรวจสอบโครงสร้างพื้นฐานยืนยันว่าโมเดลของคุณ มีความเสถียร การคาดการณ์คุณภาพสูง

แนวทางปฏิบัติที่ดีในการบันทึกและตรวจสอบจะช่วยระบุปัญหาใน ML ได้ในเชิงรุก และลดผลกระทบทางธุรกิจที่อาจเกิดขึ้นได้ เมื่อเกิดปัญหา ระบบจะแจ้งเตือน แจ้งให้สมาชิกในทีมทราบ และบันทึกที่ครอบคลุมซึ่งอำนวยความสะดวกในการวินิจฉัย เป็นสาเหตุของปัญหา

คุณควรใช้การบันทึกและการตรวจสอบเพื่อตรวจหาปัญหาต่อไปนี้ ด้วยไปป์ไลน์ ML

ไปป์ไลน์ ติดตามดู
ทำงาน
  • ความคลาดเคลื่อนของข้อมูลการแสดงผลเมื่อเทียบกับข้อมูลการฝึก
  • ความคลาดเคลื่อนหรือความคลาดเคลื่อนในการคาดการณ์
  • ปัญหาเกี่ยวกับประเภทข้อมูล เช่น ค่าที่หายไปหรือเสียหาย
  • การใช้โควต้า
  • เมตริกคุณภาพของโมเดล
ข้อมูล
  • ความคลาดเคลื่อนและความคลาดเคลื่อนของค่าฟีเจอร์
  • ความคลาดเคลื่อนและความคลาดเคลื่อนในค่าของป้ายกำกับ
  • ปัญหาเกี่ยวกับประเภทข้อมูล เช่น ค่าที่หายไปหรือเสียหาย
  • อัตราการใช้โควต้า
  • ใกล้ถึงขีดจำกัดโควต้า
การฝึกอบรม
  • เวลาการฝึก
  • การฝึกล้มเหลว
  • การใช้โควต้า
การตรวจสอบความถูกต้อง
  • การเอียงหรือความคลาดเคลื่อนในชุดข้อมูลการทดสอบ

คุณยังควรบันทึก ตรวจสอบ และแจ้งเตือนสำหรับสิ่งต่อไปนี้ด้วย

  • เวลาในการตอบสนอง การส่งการคาดการณ์ใช้เวลานานเท่าใด
  • การหยุดทำงาน โมเดลหยุดส่งการคาดการณ์หรือยัง

ตรวจสอบความเข้าใจ

ข้อใดต่อไปนี้คือเหตุผลหลักสำหรับการบันทึกและตรวจสอบ ไปป์ไลน์ ML ของคุณ
ตรวจหาปัญหาในเชิงรุกก่อนที่ปัญหาเหล่านั้นจะส่งผลกระทบต่อผู้ใช้
ติดตามโควต้าและการใช้ทรัพยากร
ระบุปัญหาด้านความปลอดภัยที่อาจเกิดขึ้น
ทุกข้อที่กล่าวมา
ถูกต้อง การบันทึกและตรวจสอบไปป์ไลน์ ML จะช่วยป้องกันและ วินิจฉัยปัญหาก่อนที่จะร้ายแรง

การทำให้โมเดลใช้งานได้

ในการทำให้โมเดลใช้งานได้ คุณจะต้องบันทึกข้อมูลต่อไปนี้

  • ต้องได้รับการอนุมัติเพื่อเริ่มการติดตั้งใช้งานและเพิ่มการเปิดตัว
  • วิธีนำโมเดลไปใช้จริง
  • จุดที่ทําให้โมเดลใช้งานได้ ตัวอย่างเช่น หากมีการทดลองใช้หรือแบบ Canary สภาพแวดล้อมการใช้งาน
  • สิ่งที่ต้องทำหากการทำให้ใช้งานได้ล้มเหลว
  • วิธีย้อนกลับโมเดลที่มีอยู่แล้วในเวอร์ชันที่ใช้งานจริง

หลังจากทำให้การฝึกโมเดลเป็นไปโดยอัตโนมัติ คุณจะต้องทำให้ การตรวจสอบความถูกต้อง และการทำให้ใช้งานได้ ทำให้การจัดสรรการติดตั้งใช้งานเป็นไปโดยอัตโนมัติ ที่รับผิดชอบและลดแนวโน้มในการทำให้ใช้งานได้จะเกิดจุดคอขวดโดย เพียงคนเดียว แต่ยังลดความผิดพลาดที่อาจเกิดขึ้น เพิ่มประสิทธิภาพ และ ความเสถียร และยังทำให้เกิดการหมุนเมื่อโทรและรองรับ SRE อีกด้วย

โดยปกติแล้ว คุณจะทำให้โมเดลใหม่ใช้งานได้สำหรับผู้ใช้กลุ่มย่อย เพื่อตรวจสอบว่าโมเดลนั้น ทำงานตามที่คาดไว้ หากใช้งานได้ ให้ดำเนินการทำให้ใช้งานได้ต่อไป หากไม่เป็นเช่นนั้น คุณจะย้อนกลับการทำให้ใช้งานได้ ตลอดจนเริ่มวินิจฉัยและแก้ปัญหา