ไปป์ไลน์ ML

ใน ML เวอร์ชันที่ใช้งานจริง เป้าหมายไม่ใช่การสร้างโมเดลเดียวแล้วทำให้ใช้งานได้ โดยมีเป้าหมายเพื่อสร้างไปป์ไลน์แบบอัตโนมัติสำหรับการพัฒนา ทดสอบ และการทำให้โมเดลใช้งานได้เมื่อเวลาผ่านไป เหตุผล เมื่อโลกเปลี่ยนแปลง แนวโน้มในการเปลี่ยนแปลงข้อมูลจึงทำให้โมเดลในเวอร์ชันที่ใช้งานจริงไม่มีการอัปเดต โดยปกติแล้วโมเดลจะต้องทำการฝึกใหม่ด้วยข้อมูลล่าสุดเพื่อให้แสดงการคาดการณ์ที่มีคุณภาพสูงต่อไปได้ในระยะยาว กล่าวคือ คุณต้องหาวิธีแทนที่โมเดลที่ไม่มีอัปเดตด้วยโมเดลใหม่

หากไม่มีไปป์ไลน์ การแทนที่โมเดลที่ไม่มีอัปเดตอาจทำให้เกิดข้อผิดพลาดได้ ตัวอย่างเช่น เมื่อโมเดลเริ่มแสดงการคาดการณ์ที่ไม่ดี จะมีคนอื่นรวบรวมและประมวลผลข้อมูลใหม่ด้วยตนเอง ฝึกโมเดลใหม่ ตรวจสอบคุณภาพของโมเดล แล้วก็ทำให้โมเดลใช้งานได้ในท้ายที่สุด ไปป์ไลน์ ML ทำให้กระบวนการซ้ำๆ เหล่านี้เกิดขึ้นโดยอัตโนมัติ ซึ่งทำให้การจัดการและการบำรุงรักษาโมเดลมีประสิทธิภาพและน่าเชื่อถือมากขึ้น

ท่อส่งอาคาร

ไปป์ไลน์ ML จะจัดระเบียบขั้นตอนการสร้างและการทำให้โมเดลใช้งานได้เป็นงานที่กำหนดไว้อย่างชัดเจน ไปป์ไลน์มี 1 ใน 2 ฟังก์ชัน ได้แก่ การส่งการคาดการณ์หรืออัปเดตโมเดล

กำลังแสดงการคาดการณ์

ไปป์ไลน์การแสดงผลจะส่งการคาดการณ์ ซึ่งจะเผยให้เห็นโลกของโมเดล และทำให้ผู้ใช้เข้าถึงได้ ตัวอย่างเช่น เมื่อผู้ใช้ต้องการการคาดคะเน เช่น สภาพอากาศวันพรุ่งนี้จะเป็นอย่างไร หรือกี่นาทีในการเดินทางไปที่สนามบิน หรือรายการวิดีโอที่แนะนำ ไปป์ไลน์ที่ให้บริการจะได้รับและประมวลผลข้อมูลของผู้ใช้ ทำการคาดคะเน แล้วส่งข้อมูลให้แก่ผู้ใช้

กำลังอัปเดตโมเดล

แบบจำลองมักจะไม่มีการอัปเดตในเกือบจะทันทีหลังจากที่เข้าสู่กระบวนการผลิต กล่าวคือ พวกเขากำลังคาดการณ์โดยใช้ข้อมูลเก่า ชุดข้อมูลการฝึกอบรมของผู้บริหารได้บันทึกสภาพของโลกเมื่อ 1 วันที่ผ่านมา หรือในบางกรณีเมื่อ 1 ชั่วโมงที่ผ่านมา โลกเปลี่ยนแปลงไปอย่างหลีกเลี่ยงไม่ได้ ผู้ใช้ดูวิดีโอมากขึ้นและต้องขอรายการวิดีโอแนะนำใหม่ ฝนทำให้การเข้าชมช้าลง และผู้ใช้ต้องการ เวลาโดยประมาณที่อัปเดตใหม่ เทรนด์ยอดนิยมทำให้ผู้ค้าปลีก ต้องขออัปเดตการคาดการณ์สินค้าคงคลังสำหรับสินค้าบางรายการ

โดยปกติแล้ว ทีมจะฝึกฝนโมเดลใหม่ให้ดีก่อนที่โมเดลเวอร์ชันที่ใช้งานจริงจะไม่มีอัปเดต ในบางกรณี ทีมจะฝึกและทำให้โมเดลใหม่ใช้งานได้ทุกวันในรอบการฝึกอบรมและการทำให้ใช้งานได้อย่างต่อเนื่อง ตามหลักการแล้ว การฝึกโมเดลใหม่ควรดำเนินการได้ดีก่อนที่โมเดลที่ใช้งานจริงจะไม่มีอัปเดต

ไปป์ไลน์ต่อไปนี้ทำงานร่วมกันเพื่อฝึกโมเดลใหม่

  • Data Pipeline ไปป์ไลน์ข้อมูลจะประมวลผลข้อมูลผู้ใช้เพื่อสร้างการฝึกและทดสอบชุดข้อมูล
  • ไปป์ไลน์การฝึก ไปป์ไลน์การฝึกจะฝึกโมเดลโดยใช้ชุดข้อมูลการฝึกใหม่จากไปป์ไลน์ข้อมูล
  • ไปป์ไลน์การตรวจสอบ ไปป์ไลน์การตรวจสอบจะตรวจสอบโมเดลที่ผ่านการฝึกโดยการเปรียบเทียบกับโมเดลการใช้งานจริงโดยใช้ชุดข้อมูลทดสอบที่สร้างโดยไปป์ไลน์ข้อมูล

รูปที่ 4 แสดงอินพุตและเอาต์พุตของไปป์ไลน์ ML แต่ละรายการ

ไปป์ไลน์ ML

ไปป์ไลน์ ML ที่แสดงอินพุตและเอาต์พุต ไปป์ไลน์การแสดงผลจะรับข้อมูลจากผู้ใช้และส่งการคาดการณ์ ไปป์ไลน์ข้อมูลจะประมวลผลบันทึกข้อมูลของแอปพลิเคชันเพื่อสร้างชุดข้อมูลการฝึกและทดสอบที่ไปป์ไลน์การฝึกและการตรวจสอบใช้ในการฝึกและตรวจสอบโมเดลใหม่

รูปที่ 4 ไปป์ไลน์ ML ทำให้กระบวนการพัฒนาและบำรุงรักษาโมเดลเป็นไปโดยอัตโนมัติ แต่ละไปป์ไลน์จะแสดงอินพุตและเอาต์พุต

ในระดับทั่วไป นี่คือวิธีที่ไปป์ไลน์ทำให้โมเดลใหม่ใช้งานได้จริง

  1. ก่อนอื่น โมเดลจะเข้าสู่เวอร์ชันที่ใช้งานจริง และไปป์ไลน์การแสดงผลจะเริ่มส่งการคาดการณ์

  2. ไปป์ไลน์ข้อมูลจะเริ่มรวบรวมข้อมูลทันทีเพื่อสร้างชุดข้อมูลการฝึกและทดสอบใหม่

  3. ไปป์ไลน์การฝึกและการตรวจสอบจะฝึกและตรวจสอบโมเดลใหม่โดยใช้ชุดข้อมูลที่สร้างโดยไปป์ไลน์ข้อมูล ทั้งนี้ขึ้นอยู่กับกำหนดการหรือทริกเกอร์

  4. เมื่อไปป์ไลน์การตรวจสอบยืนยันว่าโมเดลใหม่ไม่ได้แย่กว่าโมเดลที่ใช้งานจริง ระบบจะทำให้โมเดลใหม่ใช้งานได้

  5. ขั้นตอนนี้จะเกิดซ้ำอย่างต่อเนื่อง

การไม่มีอัปเดตและความถี่ในการฝึกโมเดล

เกือบทุกรุ่นไม่มีอัปเดต บางรุ่นหมดเร็วกว่ารุ่นอื่นๆ ตัวอย่างเช่น นางแบบที่แนะนำเสื้อผ้ามักจะอัปเดตไปอย่างรวดเร็ว เนื่องจากความชอบของผู้บริโภคเป็นที่ทราบกันดีว่ามีการเปลี่ยนแปลงอยู่เสมอ ในทางกลับกัน แบบจำลองที่สื่อถึงดอกไม้ อาจไม่มีการอัปเดต ลักษณะเฉพาะของดอกไม้ นั้นยังคงเหมือนเดิม

โมเดลส่วนใหญ่จะเริ่มไม่มีอัปเดตทันทีหลังจากที่นำมาใช้งานได้จริง คุณจะต้องสร้างความถี่ในการฝึกที่สะท้อนถึงลักษณะของข้อมูล หากข้อมูลเป็นแบบไดนามิก ให้ฝึกบ่อยๆ ถ้าไม่ค่อยมีการเปลี่ยนแปลง คุณอาจไม่ต้องฝึกบ่อยๆ

ฝึกโมเดลก่อนที่จะไม่มีอัปเดต การฝึกล่วงหน้าจะช่วยเป็นบัฟเฟอร์เพื่อแก้ไขปัญหาที่อาจเกิดขึ้น เช่น หากไปป์ไลน์ข้อมูลหรือการฝึกทำงานล้มเหลว หรือคุณภาพของโมเดลต่ำ

แนวทางปฏิบัติแนะนำคือการฝึกและทำให้โมเดลใหม่ใช้งานได้ทุกวัน เช่นเดียวกับโปรเจ็กต์ซอฟต์แวร์ทั่วไปที่มีกระบวนการสร้างและเผยแพร่รายวัน ไปป์ไลน์ ML สำหรับการฝึกและการตรวจสอบมักจะทำงานได้ดีที่สุดเมื่อดำเนินการทุกวัน

ไปป์ไลน์การแสดง

ไปป์ไลน์การแสดงโฆษณาจะสร้างและส่งการคาดการณ์ด้วย 1 ใน 2 วิธี ได้แก่ ออนไลน์หรือออฟไลน์

  • การคาดการณ์ออนไลน์ การคาดการณ์ออนไลน์เกิดขึ้นแบบเรียลไทม์ โดยทั่วไปจะมีการส่งคำขอไปยังเซิร์ฟเวอร์ออนไลน์และแสดงผลการคาดการณ์ เช่น เมื่อผู้ใช้ต้องการการคาดการณ์ ระบบจะส่งข้อมูลของผู้ใช้ไปยังโมเดลและโมเดลจะแสดงผลการคาดการณ์ ตัวอย่างเช่น Gmail จัดประเภทข้อความที่เข้ามาในแบบเรียลไทม์โดยใช้การคาดคะเนออนไลน์

  • การคาดการณ์แบบออฟไลน์ การคาดการณ์แบบออฟไลน์จะได้รับการคำนวณไว้ล่วงหน้าและแคชไว้ ในการแสดงการคาดการณ์ แอปจะค้นหาการคาดคะเนที่แคชไว้ในฐานข้อมูลและแสดงผลมา ตัวอย่างเช่น บริการที่อิงตามการสมัครใช้บริการอาจคาดการณ์อัตราการเลิกใช้งานของสมาชิก โมเดลนี้จะคาดการณ์แนวโน้มในการเลิกใช้งานของสมาชิกทุกคนและแคชไว้ เมื่อแอปต้องใช้การคาดการณ์ เช่น เพื่อจูงใจผู้ใช้ที่อาจจะกำลังจะเลิกใช้งาน แอปก็จะเพียงแค่ค้นหาการคาดคะเนที่คำนวณไว้ล่วงหน้า

รูปที่ 5 แสดงวิธีการสร้างและแสดงการคาดการณ์ออนไลน์และออฟไลน์

การคาดการณ์ออนไลน์และออฟไลน์

ระบบอาจส่งการคาดการณ์แบบเรียลไทม์ หรือเป็นกลุ่มและแคชสำหรับการค้นหา

รูปที่ 5 การคาดการณ์ออนไลน์จะแสดงการคาดการณ์แบบเรียลไทม์ การคาดการณ์แบบออฟไลน์จะได้รับการแคชและค้นหาในเวลาที่แสดง

การประมวลผลหลังการประมวลผลการคาดการณ์

โดยปกติแล้ว การคาดการณ์จะได้รับการประมวลผลภายหลังก่อนที่จะมีการนำส่ง ตัวอย่างเช่น อาจมีการประมวลผลการคาดการณ์ภายหลังเพื่อนำเนื้อหาที่ไม่เป็นพิษหรือมีความลำเอียงออก ผลลัพธ์การจัดประเภทอาจใช้การสลับกันเพื่อจัดเรียงผลการค้นหาใหม่แทนการแสดงเนื้อหาดิบของโมเดล เช่น เพื่อเพิ่มประสิทธิภาพเนื้อหาที่เชื่อถือได้มากขึ้น แสดงผลลัพธ์ที่หลากหลาย ลดระดับผลลัพธ์บางอย่าง (เช่น คลิกเบต) หรือนำผลลัพธ์ออกด้วยเหตุผลทางกฎหมาย

รูปที่ 6 แสดงไปป์ไลน์การแสดงโฆษณาและงานทั่วไปที่เกี่ยวข้องกับการนำส่งการคาดการณ์

การคาดการณ์หลังการประมวลผล

โดยทั่วไปไปป์ไลน์การแสดงผลจะมีการคาดการณ์หลังการประมวลผล

รูปที่ 6 ไปป์ไลน์การให้บริการแสดงงานทั่วไปที่เกี่ยวข้องกับการนำส่งการคาดการณ์

โปรดทราบว่าขั้นตอนวิศวกรรมฟีเจอร์มักจะสร้างขึ้นภายในโมเดล ไม่ใช่กระบวนการที่แยกจากกันและแยกต่างหาก โค้ดการประมวลผลข้อมูลในไปป์ไลน์การแสดงผลมักจะเกือบจะเหมือนกันกับโค้ดการประมวลผลข้อมูลที่ไปป์ไลน์ข้อมูลใช้เพื่อสร้างชุดข้อมูลการฝึกและการทดสอบ

เนื้อหาและพื้นที่เก็บข้อมูลเมตา

ไปป์ไลน์ที่ให้บริการควรรวมที่เก็บเพื่อบันทึกการคาดการณ์โมเดล และข้อมูลจากการสังเกตการณ์โดยตรงหากเป็นไปได้

การคาดการณ์โมเดลการบันทึกช่วยให้คุณตรวจสอบคุณภาพของโมเดลได้ เมื่อรวมการคาดการณ์ คุณสามารถตรวจสอบคุณภาพทั่วไปของโมเดลและพิจารณาว่าโมเดลเริ่มสูญเสียคุณภาพหรือไม่ โดยทั่วไปการคาดการณ์ของโมเดลเวอร์ชันที่ใช้งานจริงควรมีค่าเฉลี่ยเท่ากับป้ายกำกับจากชุดข้อมูลการฝึก ดูข้อมูลเพิ่มเติมได้ที่การให้น้ำหนักการคาดการณ์

การบันทึกข้อมูลจากการสังเกตการณ์โดยตรง

แต่ในบางกรณี ข้อมูลจากการสังเกตการณ์โดยตรง ก็จะพร้อมใช้งานหลังจากนั้นจำนวนมาก เช่น หากแอปพยากรณ์อากาศคาดการณ์สภาพอากาศล่วงหน้า 6 สัปดาห์ในอนาคต ข้อมูลที่ได้จากการสังเกตการณ์ (สภาพอากาศจริง) จะใช้งานไม่ได้เป็นเวลา 6 สัปดาห์

เมื่อเป็นไปได้ ให้ผู้ใช้รายงานข้อมูลจากการสังเกตการณ์โดยตรงด้วยการเพิ่มกลไกความคิดเห็นลงในแอป Gmail จะบันทึกความคิดเห็นของผู้ใช้โดยนัยเมื่อผู้ใช้ย้ายอีเมลจากกล่องจดหมายไปยังโฟลเดอร์สแปม แต่วิธีนี้จะใช้ได้เฉพาะเมื่อผู้ใช้จัดหมวดหมู่อีเมลอย่างถูกต้องเท่านั้น เมื่อผู้ใช้ทิ้งจดหมายขยะไว้ในกล่องจดหมาย (เพราะรู้ว่าเป็นสแปมและไม่เคยเปิดเลย) ข้อมูลการฝึกจะไม่ถูกต้อง อีเมลชิ้นนั้นจะมีป้ายกำกับว่า "ไม่ใช่สแปม" เมื่อควรเป็น "สแปม" กล่าวคือ พยายามค้นหาวิธีบันทึกและบันทึกข้อมูลจากการสังเกตการณ์โดยตรงเสมอ แต่โปรดระวังข้อบกพร่องที่อาจเกิดขึ้นในกลไกการแสดงความคิดเห็น

รูปที่ 7 แสดงการคาดการณ์ที่นำส่งให้แก่ผู้ใช้และบันทึกไปยังที่เก็บ

การคาดคะเนการบันทึก

ไปป์ไลน์การแสดงผลควรบันทึกการคาดการณ์เพื่อตรวจสอบการไม่มีอัปเดตของโมเดล

รูปที่ 7 บันทึกการคาดการณ์เพื่อตรวจสอบคุณภาพของโมเดล

Data Pipeline

ไปป์ไลน์ข้อมูลจะสร้างชุดข้อมูลการฝึกและทดสอบจากข้อมูลแอปพลิเคชัน จากนั้นไปป์ไลน์การฝึกและการตรวจสอบจะใช้ชุดข้อมูลเพื่อฝึกและตรวจสอบโมเดลใหม่ๆ

ไปป์ไลน์ข้อมูลจะสร้างชุดข้อมูลการฝึกและทดสอบด้วยฟีเจอร์และป้ายกำกับแบบเดียวกับที่ใช้ในการฝึกโมเดล แต่เดิมมีข้อมูลที่ใหม่กว่า ตัวอย่างเช่น แอปแผนที่จะสร้างชุดข้อมูลการฝึกอบรมและทดสอบจากเวลาเดินทางล่าสุดระหว่างจุดต่างๆ สำหรับผู้ใช้หลายล้านคน รวมถึงข้อมูลอื่นๆ ที่เกี่ยวข้อง เช่น สภาพอากาศ

แอปแนะนำวิดีโอจะสร้างชุดข้อมูลการฝึกและทดสอบซึ่งมีวิดีโอที่ผู้ใช้คลิกจากรายการที่แนะนำ (พร้อมกับวิดีโอที่ยังไม่ได้คลิก) ตลอดจนข้อมูลอื่นๆ ที่เกี่ยวข้อง เช่น ประวัติการดู

รูปที่ 8 แสดงไปป์ไลน์ข้อมูลโดยใช้ข้อมูลแอปพลิเคชันเพื่อสร้างชุดข้อมูลการฝึกและทดสอบ

Data Pipeline

ไปป์ไลน์ข้อมูลจะสร้างชุดข้อมูลการฝึกและการทดสอบ

รูปที่ 8 ไปป์ไลน์ข้อมูลจะประมวลผลข้อมูลแอปพลิเคชันเพื่อสร้างชุดข้อมูลสำหรับไปป์ไลน์การฝึกและการตรวจสอบ

การเก็บรวบรวมและการประมวลผลข้อมูล

งานรวบรวมและประมวลผลข้อมูลในไปป์ไลน์ข้อมูลอาจแตกต่างจากระยะทดสอบ (ซึ่งคุณพิจารณาว่าโซลูชันของคุณดำเนินการได้) ดังนี้

  • การเก็บรวบรวมข้อมูล ระหว่างการทดลอง การเก็บรวบรวมข้อมูลมักจะ ต้องเข้าถึงข้อมูลที่บันทึกไว้ สำหรับไปป์ไลน์ข้อมูล การรวบรวมข้อมูลอาจต้องมีการค้นหาและได้รับอนุมัติเพื่อเข้าถึงข้อมูลบันทึกสตรีมมิง

    หากต้องการข้อมูลที่ติดป้ายกำกับโดยมนุษย์ (เช่น รูปภาพทางการแพทย์) คุณจะต้องมีกระบวนการรวบรวมและอัปเดตข้อมูลดังกล่าวด้วย หากต้องการข้อมูลที่ติดป้ายกำกับโดยมนุษย์ โปรดดูหน้า CrowdCompute

  • การประมวลผลข้อมูล ระหว่างการทดสอบ ฟีเจอร์ที่เหมาะสมมาจากการคัดลอก การรวม และการสุ่มตัวอย่างชุดข้อมูลของการทดสอบ สำหรับไปป์ไลน์ข้อมูล การสร้างฟีเจอร์เดียวกันเหล่านั้นอาจต้องใช้กระบวนการที่แตกต่างกันโดยสิ้นเชิง อย่างไรก็ตาม โปรดตรวจสอบว่าได้ทำซ้ำการเปลี่ยนรูปแบบข้อมูลจากระยะทดลองโดยใช้การดำเนินการทางคณิตศาสตร์เดียวกันกับฟีเจอร์และป้ายกำกับ

เนื้อหาและพื้นที่เก็บข้อมูลเมตา

คุณจะต้องมีกระบวนการในการจัดเก็บ กำหนดเวอร์ชัน และจัดการชุดข้อมูลการฝึกและการทดสอบ ที่เก็บที่ควบคุมเวอร์ชันมีประโยชน์ดังนี้

  • การทำซ้ำ สร้างมาตรฐานใหม่และทำให้สภาพแวดล้อมการฝึกโมเดลเป็นมาตรฐาน และเปรียบเทียบคุณภาพการคาดการณ์ของโมเดลต่างๆ

  • การปฏิบัติตามข้อกำหนด ปฏิบัติตามข้อกำหนดด้านกฎระเบียบด้านการตรวจสอบและความโปร่งใส

  • การรักษาลูกค้า ตั้งค่าการเก็บรักษาข้อมูลเป็นระยะเวลาที่จะจัดเก็บข้อมูล

  • การจัดการการเข้าถึง จัดการผู้ที่เข้าถึงข้อมูลของคุณได้ผ่านสิทธิ์แบบละเอียด

  • ความสมบูรณ์ของข้อมูล ติดตามและทำความเข้าใจการเปลี่ยนแปลงของชุดข้อมูลเมื่อเวลาผ่านไป ซึ่งทำให้วินิจฉัยปัญหาเกี่ยวกับข้อมูลหรือโมเดลของคุณได้ง่ายขึ้น

  • การค้นพบได้ ช่วยให้ผู้อื่นพบชุดข้อมูลและ ฟีเจอร์ได้ง่ายๆ แล้วทีมอื่นๆ ก็จะพิจารณาได้ว่าจะเป็นประโยชน์ตามวัตถุประสงค์ของตนหรือไม่

การบันทึกข้อมูลเป็นเอกสาร

เอกสารประกอบที่ดีจะช่วยให้ผู้อื่นเข้าใจข้อมูลสำคัญเกี่ยวกับข้อมูล เช่น ประเภท แหล่งที่มา ขนาด และข้อมูลเมตาที่จำเป็นอื่นๆ ในกรณีส่วนใหญ่ การบันทึกข้อมูลไว้ในเอกสารการออกแบบหรือ g3doc ถือว่าเพียงพอแล้ว หากคุณวางแผนที่จะแชร์หรือเผยแพร่ข้อมูล ให้ใช้การ์ดข้อมูลเพื่อจัดโครงสร้างข้อมูล การ์ดข้อมูลช่วยให้ผู้อื่นค้นพบ และเข้าใจชุดข้อมูลของคุณได้ง่ายขึ้น

ไปป์ไลน์การฝึกและการตรวจสอบ

ไปป์ไลน์การฝึกและการตรวจสอบจะสร้างโมเดลใหม่เพื่อใช้แทนโมเดลเวอร์ชันที่ใช้งานจริงก่อนที่จะไม่มีอัปเดต การฝึกอย่างต่อเนื่องและการตรวจสอบโมเดลใหม่ๆ จะช่วยให้มั่นใจได้ว่าโมเดลที่ดีที่สุดคือการใช้งานจริงเสมอ

ไปป์ไลน์การฝึกจะสร้างโมเดลใหม่จากชุดข้อมูลการฝึก และไปป์ไลน์การตรวจสอบจะเปรียบเทียบคุณภาพของโมเดลใหม่กับโมเดลที่ใช้งานจริงโดยใช้ชุดข้อมูลการทดสอบ

รูปที่ 9 แสดงไปป์ไลน์การฝึกโดยใช้ชุดข้อมูลการฝึกเพื่อฝึกโมเดลใหม่

ไปป์ไลน์การฝึก

ไปป์ไลน์การฝึกจะฝึกโมเดลใหม่ด้วยข้อมูลใหม่

รูปที่ 9 ไปป์ไลน์การฝึกจะฝึกโมเดลใหม่โดยใช้ชุดข้อมูลการฝึกล่าสุด

หลังจากฝึกโมเดลแล้ว ไปป์ไลน์การตรวจสอบจะใช้ชุดข้อมูลทดสอบเพื่อเปรียบเทียบคุณภาพของโมเดลเวอร์ชันที่ใช้งานจริงกับโมเดลที่ฝึกแล้ว

โดยทั่วไป หากโมเดลที่ฝึกไม่ได้แย่ไปกว่าโมเดลที่ใช้งานจริง โมเดลที่ฝึกแล้วจะเข้าสู่เวอร์ชันที่ใช้งานจริง หากโมเดลที่ฝึกทำงานแย่กว่า โครงสร้างพื้นฐานการตรวจสอบควรสร้างการแจ้งเตือน โมเดลที่ฝึกแล้วซึ่งมีคุณภาพการคาดการณ์แย่ลงอาจบ่งบอกถึงปัญหาที่อาจเกิดขึ้นกับไปป์ไลน์ข้อมูลหรือการตรวจสอบ วิธีนี้ช่วยดูแลให้โมเดลที่ดีที่สุดซึ่งผ่านการฝึกด้วยข้อมูลใหม่ล่าสุดมีเวอร์ชันที่ใช้งานจริงอยู่เสมอ

เนื้อหาและพื้นที่เก็บข้อมูลเมตา

ควรเก็บโมเดลและข้อมูลเมตาของโมเดลในที่เก็บที่มีเวอร์ชันเพื่อจัดระเบียบและติดตามการทำให้โมเดลใช้งานได้ ที่เก็บโมเดลมีประโยชน์ดังนี้

  • การติดตามและการประเมิน ติดตามโมเดลในเวอร์ชันที่ใช้งานจริง รวมถึงทำความเข้าใจ เมตริกการประเมินและคุณภาพการคาดการณ์

  • กระบวนการเผยแพร่โมเดล ตรวจสอบ อนุมัติ เผยแพร่ หรือย้อนกลับโมเดลต่างๆ ได้อย่างง่ายดาย

  • การทำซ้ำและการแก้ไขข้อบกพร่อง สร้างผลลัพธ์ของโมเดลและแก้ไขข้อบกพร่องอย่างมีประสิทธิภาพมากขึ้นด้วยการติดตามชุดข้อมูลของโมเดลและการอ้างอิงทั่วการทำให้ใช้งานได้

  • การค้นพบได้ ทำให้ผู้อื่นค้นหาโมเดลของคุณได้ง่าย ทีมอื่นๆ จะสามารถระบุได้ว่าสามารถใช้โมเดลของคุณ (หรือบางส่วนของโมเดล) เพื่อวัตถุประสงค์ของตนได้หรือไม่

รูปที่ 10 แสดงโมเดลที่ผ่านการตรวจสอบซึ่งจัดเก็บไว้ในที่เก็บโมเดล

พื้นที่เก็บข้อมูลโมเดล

เก็บโมเดลในที่เก็บที่มีเวอร์ชัน

รูปที่ 10 ระบบจะจัดเก็บโมเดลที่ตรวจสอบแล้วในที่เก็บโมเดลสำหรับการติดตามและการค้นพบได้

ใช้ การ์ดโมเดล เพื่อบันทึกและแชร์ข้อมูลสำคัญเกี่ยวกับโมเดลของคุณ เช่น วัตถุประสงค์ สถาปัตยกรรม ข้อกำหนดของฮาร์ดแวร์ เมตริกการประเมิน ฯลฯ

ความท้าทายในการสร้างท่อส่งน้ำมัน

เมื่อสร้างไปป์ไลน์ คุณอาจพบกับความท้าทายต่อไปนี้

  • รับสิทธิ์เข้าถึงข้อมูลที่คุณต้องการ การเข้าถึงข้อมูลอาจต้องใช้ เหตุผลที่คุณต้องการ เช่น คุณอาจต้องอธิบายว่าจะนำข้อมูลไปใช้อย่างไรและอธิบายว่าปัญหา PII จะได้รับการแก้ไขอย่างไร เตรียมตัวให้พร้อมแสดงการพิสูจน์แนวคิดที่แสดงให้เห็นว่าโมเดลของคุณคาดการณ์ได้ดียิ่งขึ้นด้วยการเข้าถึงข้อมูลบางประเภทได้อย่างไร

  • ใช้ฟีเจอร์ที่เหมาะสม ในบางกรณี ฟีเจอร์ที่ใช้ในช่วงทดลองจะใช้งานไม่ได้จากข้อมูลแบบเรียลไทม์ ดังนั้น เมื่อทำการทดสอบ ให้พยายามยืนยันว่าคุณจะได้รับฟีเจอร์ เดียวกันในเวอร์ชันที่ใช้งานจริง

  • การทำความเข้าใจวิธีรวบรวมและแสดงข้อมูล การเรียนรู้วิธีรวบรวมข้อมูล ใครเป็นผู้รวบรวมข้อมูล ตลอดจนวิธีเก็บรวบรวมข้อมูล (รวมถึงปัญหาอื่นๆ) นั้นต้องใช้เวลาและความพยายาม คุณต้องเข้าใจข้อมูลอย่างละเอียด อย่าใช้ข้อมูลที่คุณไม่มั่นใจในการฝึกโมเดลที่อาจใช้งานได้จริง

  • ทำความเข้าใจข้อดีข้อเสียระหว่างความพยายาม ต้นทุน และคุณภาพของรุ่น การรวมฟีเจอร์ใหม่ไว้ในไปป์ไลน์ข้อมูลอาจต้องใช้ความพยายามอย่างมาก อย่างไรก็ตาม ฟีเจอร์เพิ่มเติมอาจช่วยปรับปรุงคุณภาพของโมเดลได้เล็กน้อยเท่านั้น ในกรณีอื่นๆ การเพิ่มฟีเจอร์ใหม่อาจทำได้ง่าย อย่างไรก็ตาม ทรัพยากรที่ใช้ในการรับและจัดเก็บฟีเจอร์อาจมีราคาแพงมาก

  • การรับการประมวลผล หากต้องการ TPU เพื่อการฝึกอีกครั้ง การขอโควต้าที่จำเป็นอาจเป็นเรื่องยาก นอกจากนี้ การจัดการ TPU ก็มีความซับซ้อนเช่นกัน เช่น บางส่วนของโมเดลหรือข้อมูลอาจต้องออกแบบมาโดยเฉพาะสำหรับ TPU โดยการแยกส่วนต่างๆ ของโมเดลหรือข้อมูลเหล่านั้นออกจากชิป TPU หลายรายการ

  • การค้นหาชุดข้อมูลทองคำที่เหมาะสม หากข้อมูลมีการเปลี่ยนแปลงบ่อย การได้รับชุดข้อมูลทองซึ่งมีป้ายกำกับที่ถูกต้องและสอดคล้องกันอาจเป็นเรื่องที่ท้าทาย

การตรวจพบปัญหาประเภทนี้ในระหว่างการทดลองจะช่วยประหยัดเวลา ตัวอย่างเช่น คุณไม่ต้องการพัฒนาฟีเจอร์และโมเดลที่ดีที่สุดเพียงเพื่อที่จะได้เรียนรู้ว่าคุณลักษณะและโมเดลเหล่านั้นไม่สามารถใช้งานได้จริง ดังนั้น ให้พยายามยืนยันโดยเร็วที่สุดว่าโซลูชันของคุณจะทำงานภายในข้อจำกัดของสภาพแวดล้อมการใช้งานจริง คุณควรใช้เวลาในการยืนยันว่าโซลูชันได้ผลมากกว่าที่จะต้องกลับไปทำการทดลองใหม่ เนื่องจากระยะไปป์ไลน์ค้นพบปัญหาที่แก้ไม่ได้