การก่อตั้งทีม ML

โปรเจ็กต์ ML ต้องมีสมาชิกที่มีทักษะ ความเชี่ยวชาญ และความรับผิดชอบเกี่ยวกับแมชชีนเลิร์นนิง นี่คือสาเหตุที่พบบ่อยที่สุด ที่พบในทีม ML ทั่วไปมีดังนี้

บทบาท ความรู้และทักษะ สิ่งที่ส่งมอบหลัก
ผู้จัดการผลิตภัณฑ์ ML ผู้จัดการผลิตภัณฑ์ ML มีความเข้าใจอย่างลึกซึ้งเกี่ยวกับจุดแข็งและ จุดอ่อนและกระบวนการพัฒนา ML ปรับโจทย์ทางธุรกิจให้สอดคล้องกัน สู่โซลูชัน ML ด้วยการทำงานร่วมกับทีม ML, ผู้ใช้ปลายทาง และผู้มีส่วนเกี่ยวข้องคนอื่นๆ โฆษณาเหล่านี้ สร้างวิสัยทัศน์ของผลิตภัณฑ์ กำหนดกรณีการใช้งาน ที่จำเป็น รวมถึงวางแผนและจัดลำดับความสำคัญของโครงการ เอกสารข้อกำหนดของผลิตภัณฑ์ (PRD)
ผู้จัดการฝ่ายวิศวกรรม ผู้จัดการฝ่ายวิศวกรรมบรรลุเป้าหมายทางธุรกิจโดยการกำหนด การสื่อสาร และ บรรลุลำดับความสำคัญของทีมได้เป็นอย่างดี เหมือน ML ผู้จัดการผลิตภัณฑ์ พวกเขานำโซลูชัน ML มาปรับใช้กับปัญหาทางธุรกิจ มีการกำหนดความคาดหวังที่ชัดเจนสำหรับสมาชิกในทีม ประเมินผลการทำงานและช่วยเหลือด้านอาชีพและ ทางวิชาชีพได้ ออกแบบเอกสาร แผนโครงการ และการประเมินประสิทธิภาพ
นักวิทยาศาสตร์ข้อมูล นักวิทยาศาสตร์ข้อมูลใช้การวิเคราะห์เชิงปริมาณและเชิงสถิติเพื่อดึงข้อมูล ข้อมูลเชิงลึกและมูลค่า จากข้อมูล ช่วยระบุและทดสอบ ฟีเจอร์ โมเดลต้นแบบ และช่วยเรื่องความสามารถในการตีความโมเดล รายงานและการแสดงข้อมูลผ่านภาพซึ่งตอบคำถามเกี่ยวกับธุรกิจ ผ่านการวิเคราะห์เชิงสถิติ
วิศวกร ML วิศวกร ML ออกแบบ สร้าง ผลิต และจัดการโมเดล ML เป็นวิศวกรซอฟต์แวร์ที่แข็งแกร่งและมีความเข้าใจเกี่ยวกับ ML อย่างลึกซึ้ง เทคโนโลยีและแนวทางปฏิบัติที่ดีที่สุด ติดตั้งใช้งานโมเดลที่มีคุณภาพการคาดการณ์เพียงพอที่จะรองรับธุรกิจแล้ว เป้าหมาย
วิศวกรข้อมูล วิศวกรข้อมูลสร้างไปป์ไลน์ข้อมูลสำหรับจัดเก็บ รวบรวม และ การประมวลผลข้อมูลจำนวนมาก พวกเขาพัฒนาโครงสร้างพื้นฐานและ ระบบการเก็บรวบรวมและเปลี่ยนข้อมูลดิบ รูปแบบที่มีประโยชน์สำหรับการฝึกและแสดงผลโมเดล วิศวกรข้อมูลคือ รับผิดชอบต่อข้อมูลตลอดกระบวนการพัฒนา ML Data Pipeline เวอร์ชันที่ใช้งานจริงโดยสมบูรณ์ซึ่งมีการตรวจสอบที่จำเป็นและ การแจ้งเตือน
วิศวกรฝ่ายปฏิบัติการสำหรับนักพัฒนาซอฟต์แวร์ (DevOps) วิศวกร DevOps พัฒนา ติดตั้งใช้งาน ปรับขนาด และตรวจสอบ โครงสร้างพื้นฐานการให้บริการสำหรับโมเดล ML กระบวนการอัตโนมัติสำหรับการแสดงผล การตรวจสอบ การทดสอบ และการเตือนใน พฤติกรรมของโมเดล

โปรเจ็กต์ ML ที่ประสบความสำเร็จต้องมีทีมที่แต่ละบทบาทดี ที่มีตัวแทน ในทีมขนาดเล็ก แต่ละคนจะต้องจัดการ มีหน้าที่รับผิดชอบในหลายบทบาท

กำหนดแนวทางปฏิบัติสำหรับทีม

เนื่องจากบทบาท เครื่องมือ และเฟรมเวิร์กใน ML มีความแตกต่างกันอย่างมาก คุณจำเป็นต้องสร้างแนวทางปฏิบัติทั่วไปผ่าน เกี่ยวกับกระบวนการทำงานที่ยอดเยี่ยม เช่น วิศวกรคนหนึ่งอาจ ลองคิดว่าการรับข้อมูลที่ถูกต้อง ก็เพียงพอแล้วที่จะเริ่มต้นฝึกโมเดล ในขณะที่วิศวกรที่รับผิดชอบมากกว่าจะตรวจสอบว่าชุดข้อมูลนั้นมีการลบข้อมูลระบุตัวบุคคล รวมถึงบันทึกข้อมูลเมตาและแหล่งที่มาของไฟล์อย่างถูกต้อง ตรวจสอบให้แน่ใจว่าวิศวกรเปิดเผยข้อมูล คำจำกัดความทั่วไปของกระบวนการและรูปแบบการออกแบบช่วยลดความสับสนและ ช่วยให้ทีมทำงานได้เร็วขึ้น

เอกสารประกอบเกี่ยวกับกระบวนการ

เอกสารกระบวนการควรกำหนดเครื่องมือ โครงสร้างพื้นฐาน และกระบวนการที่ทีม จะใช้สำหรับการพัฒนา ML เอกสารกระบวนการที่ดีช่วยให้มีความสอดคล้องกันกับเอกสารใหม่และปัจจุบัน สมาชิกทีม โดยตอบคำถามประเภทต่อไปนี้

  • ระบบสร้างข้อมูลสำหรับโมเดลนี้อย่างไร
  • เราจะตรวจสอบ ตรวจสอบ และแสดงข้อมูลออกมาเป็นภาพได้อย่างไร
  • เราจะแก้ไขฟีเจอร์อินพุตหรือป้ายกำกับในข้อมูลการฝึกอย่างไร
  • เราจะปรับแต่งไปป์ไลน์การสร้าง การฝึก และการประเมินข้อมูลอย่างไร
  • ฉันจะเปลี่ยนสถาปัตยกรรมโมเดลเพื่อรองรับการเปลี่ยนแปลงในอินพุตได้อย่างไร ฟีเจอร์หรือป้ายกำกับ
  • เราจะรับตัวอย่างการทดสอบได้อย่างไร
  • เราจะใช้เมตริกใดในการตัดสินคุณภาพของโมเดล
  • เราจะเปิดตัวโมเดลในเวอร์ชันที่ใช้งานจริงได้อย่างไร
  • เราจะรู้ได้อย่างไรว่าเกิดข้อผิดพลาดกับโมเดลของเรา
  • โมเดลของเราใช้ระบบอัปสตรีมแบบใด
  • ฉันจะทำให้ SQL บำรุงรักษาและนำมาใช้ใหม่ได้ได้อย่างไร

คำถามอื่นๆ ที่อาจเกิดขึ้น

โมเดล
  • ฉันจะฝึกโมเดลบนชุดข้อมูลที่แตกต่างกันในชุดข้อมูลเดียวกันได้ไหม ไปป์ไลน์ เช่น เพื่อการปรับแต่งอย่างละเอียด

  • ฉันจะเพิ่มชุดข้อมูลทดสอบใหม่ลงในไปป์ไลน์ได้อย่างไร

การฝึกอบรม
  • ฉันจะตรวจสอบการคาดคะเนของโมเดลในตัวอย่างแบบทำมือได้อย่างไร

  • ฉันจะค้นหา ตรวจสอบ และแสดงภาพตัวอย่างที่โมเดลสร้างขึ้นได้อย่างไร มีข้อผิดพลาดหรือไม่

  • ฉันจะทราบได้อย่างไรว่าฟีเจอร์ใดมีหน้าที่รับผิดชอบมากที่สุดสำหรับ การคาดการณ์

  • ฉันจะทราบได้อย่างไรว่าฟีเจอร์ใดมีผลต่อ การคาดคะเนภายในกลุ่มตัวอย่างที่ระบุหรือไม่

  • ฉันจะคำนวณหรือพล็อตการคาดการณ์โมเดลบนชุดข้อมูลที่เลือกได้อย่างไร หรือ ตัวอย่างไหม

  • ฉันจะคำนวณเมตริกมาตรฐานสำหรับการคาดการณ์ของโมเดลใน ชุดข้อมูลที่เลือกไว้หรือไม่

  • ฉันจะพัฒนาและคำนวณเมตริกที่กำหนดเองได้อย่างไร

  • ฉันจะเปรียบเทียบโมเดลของฉันกับโมเดลอื่นๆ แบบออฟไลน์ได้อย่างไร

  • ฉันจะวิเคราะห์เมตาสำหรับการประเมินโมเดลหลายรายการภายในครั้งเดียวได้ไหม สภาพแวดล้อมในการพัฒนาซอฟต์แวร์อย่างไร

  • ฉันเปรียบเทียบโมเดลปัจจุบันกับรูปแบบเมื่อ 10 เดือนที่แล้วได้ไหม

การผลิตวิดีโอ การตรวจสอบ และการบำรุงรักษา
  • ผมคิดว่าผมได้สร้างโมเดลที่ดี ฉันจะเปิดตัวเวอร์ชันที่ใช้งานจริงได้อย่างไร

  • ฉันจะตรวจสอบได้อย่างไรว่าโมเดลใหม่ของฉันทำงานได้อย่างถูกต้องในเวอร์ชันที่ใช้งานจริง

  • ฉันจะรับประวัติของการประเมินโมเดลเมื่อเวลาผ่านไปได้ไหม

  • ฉันจะรู้ได้อย่างไรว่าเกิดข้อผิดพลาดกับโมเดล

  • ฉันได้รับหน้า/ข้อบกพร่องที่ระบุบางอย่างเกี่ยวกับโมเดล ฉันควรทำอย่างไร

ไปป์ไลน์
  • ฉันจะปรับแต่งการสร้าง/การฝึก/การประเมินข้อมูลได้อย่างไร ไปป์ไลน์

  • ฉันควรสร้างไปป์ไลน์ใหม่ทั้งหมดเมื่อใดและอย่างไร

SQL
  • ฉันต้องการ SQL เพื่อสร้างข้อมูลบางอย่าง ฉันควรวางไว้ที่ใด

โครงสร้างพื้นฐาน
  • การแสดงโมเดลของเราทำงานอย่างไร มีแผนภาพไหม

  • โมเดลของฉันขึ้นอยู่กับว่าฉันควรใช้ระบบอัปสตรีมแบบใด ทราบไหม

การสื่อสาร
  • ไม่รู้อะไรเลย ฉันควรติดต่อใคร (และอย่างไร)

โปรดทราบ

สิ่งที่เรียกว่า "แนวทางปฏิบัติแนะนำสำหรับ ML" อาจแตกต่างกันไปตามบริษัท ทีม และ บุคคลธรรมดา สำหรับ เช่น สมาชิกทีมบางคนอาจพิจารณาใช้ Colab เวอร์ชันทดลองเป็น ในขณะที่คนอื่นๆ ต้องการทำงานใน R บางคนอาจชื่นชอบ วิศวกรรมซอฟต์แวร์ แต่มีคนคิดว่าการตรวจสอบเป็นสิ่งที่สำคัญที่สุด แต่ยังมีคนอื่นๆ ที่ทราบว่ามีแนวทางปฏิบัติที่ดีในการสร้างฟีเจอร์ ต้องการใช้ Scala ทุกคน "ใช่" จากมุมมองของตนเอง และถ้า มีการบังคับทิศทางอย่างถูกต้อง มิกซ์ จึงเป็นเครื่องมือที่ทรงพลัง ไม่เช่นนั้นคุณอาจเลอะเทอะ

กำหนดเครื่องมือ กระบวนการ และโครงสร้างพื้นฐานที่ทีมจะใช้ก่อน การเขียนบรรทัดรหัสอาจเป็นความแตกต่างระหว่าง โครงการที่ล้มเหลวหลังจาก 2 ปีหรือประสบความสำเร็จในการเปิดตัว 1 ไตรมาสก่อนกำหนด

การประเมินประสิทธิภาพ

เนื่องด้วยความคลุมเครือและความไม่แน่นอนใน ML ผู้จัดการบุคลากรจึงต้อง ความคาดหวังที่ชัดเจนและกำหนดสิ่งที่ส่งมอบตั้งแต่เนิ่นๆ

เมื่อกำหนดความคาดหวังและผลลัพธ์ ให้พิจารณาว่าผลลัพธ์ที่จะเกิดขึ้น หากโครงการหรือแนวทางนั้นไม่สำเร็จ กล่าวคือ คือประสิทธิภาพของสมาชิกในทีมไม่ได้เกี่ยวข้องกับ ของโครงการ เช่น การที่สมาชิกในทีมใช้จ่าย หลายสัปดาห์ในการตรวจสอบวิธีแก้ปัญหาที่ท้ายที่สุดแล้ว แม้แต่ใน กรณีต่างๆ โค้ดคุณภาพสูง เอกสารที่ละเอียด และมีประสิทธิภาพ การทำงานร่วมกันควรส่งผลดีต่อการประเมินของพวกเขา

ตรวจสอบความเข้าใจ

สาเหตุหลักของการมีเอกสารประกอบเกี่ยวกับกระบวนการที่ยอดเยี่ยมคืออะไร และกำหนดแนวทางปฏิบัติทั่วไป
เพิ่มความเร็วของโปรเจ็กต์
ถูกต้อง มีเอกสารเกี่ยวกับกระบวนการที่ดีและมีความสม่ำเสมอ ช่วยลดความสับสนและทำให้กระบวนการพัฒนาคล่องตัวขึ้น
สร้างแนวทางปฏิบัติแนะนำสำหรับทั้งบริษัท
เนื่องจากการพัฒนา ML จะแตกต่างกันไปในแต่ละโปรเจ็กต์ ทีมงานมักจะกำหนดชุดแนวทางปฏิบัติแนะนำของตัวเองในการทำงาน และเพิ่มความเร็วได้อย่างมีประสิทธิภาพ
ตรวจสอบว่าวิศวกรทุกคนในทีมมีความเชี่ยวชาญในระดับเดียวกัน
ทีม ML มักมีวิศวกรที่มีทักษะและ ความรู้ การจัดทำเอกสารประกอบเกี่ยวกับกระบวนการช่วยให้วิศวกรนำแนวทางปฏิบัติแนะนำไปปรับใช้ได้ เพื่อเพิ่มความเร็ว