ขั้นตอนที่ 5: ปรับแต่งไฮเปอร์พารามิเตอร์

เราจะต้องเลือกไฮเปอร์พารามิเตอร์จํานวนหนึ่งสําหรับกําหนดและฝึกโมเดล เราอาศัยสัญชาตญาณ ตัวอย่าง และการแนะนําแนวทางปฏิบัติที่ดีที่สุด อย่างไรก็ตาม การเลือกค่าไฮเปอร์พารามิเตอร์ครั้งแรกของเรา อาจไม่ให้ผลลัพธ์ที่ดีที่สุด การดําเนินการนี้เป็นเพียงจุดเริ่มต้นที่ดีสําหรับการฝึกอบรมของเรา แต่ละปัญหามีความแตกต่างกัน การปรับแต่งไฮเปอร์พารามิเตอร์เหล่านี้จะช่วยปรับแต่งโมเดลของเราให้แสดงถึงความเจาะจงของปัญหาได้ดีขึ้น มาดูพารามิเตอร์บางส่วน ที่เราใช้และการปรับแต่งกัน

  • จํานวนเลเยอร์ในโมเดล: จํานวนเลเยอร์ในโครงข่ายระบบประสาทเทียมเป็นตัวบ่งชี้ความซับซ้อน เราต้องเลือกค่านี้อย่างระมัดระวัง เลเยอร์มากเกินไปอาจทําให้โมเดลเรียนรู้ข้อมูลมากเกินไปเกี่ยวกับข้อมูลการฝึก ทําให้สร้างมากเกินไป เลเยอร์น้อยเกินไปอาจจํากัดความสามารถในการเรียนรู้ของโมเดล ทําให้ไม่พอดี สําหรับชุดข้อมูลการจัดประเภทข้อความ เราได้ทดลองใช้ MLP 1, 2 และ 3 เลเยอร์ โมเดลที่มี 2 เลเยอร์จะทํางานได้ดี และในบางกรณีก็ดีกว่าโมเดล 3 เลเยอร์ ในทํานองเดียวกัน เราใช้ sepCNN กับ 4 และ 6 เลเยอร์ และโมเดล 4 ชั้นทํางานได้ดี

  • จํานวนหน่วยต่อเลเยอร์: หน่วยในเลเยอร์ต้องเก็บข้อมูลการเปลี่ยนรูปแบบที่เลเยอร์หนึ่งทําไว้ สําหรับเลเยอร์แรก จะเป็นไปตาม จํานวนจุดสนใจ ในเลเยอร์ต่อมา จํานวนหน่วยจะขึ้นอยู่กับตัวเลือกในการขยายหรือย่องานนําเสนอจากเลเยอร์ก่อนหน้า พยายามลดการสูญเสียข้อมูลระหว่างเลเยอร์ให้เหลือน้อยที่สุด เราลองใช้ค่าหน่วยในช่วง [8, 16, 32, 64] และหน่วย 32/64 ทํางานได้ดี

  • อัตราการออกจากไซต์: มีการใช้เลเยอร์เมนูแบบเลื่อนลงในโมเดลสําหรับการปรับให้สอดคล้องตามมาตรฐาน ตัวแปรเหล่านี้ระบุเศษของข้อมูลที่ป้อนให้ลดลงเพื่อเป็นการป้องกันสถานการณ์มากเกินไป ช่วงที่แนะนํา: 0.2–0.5

  • อัตราการเรียนรู้: คืออัตราที่น้ําหนักของโครงข่ายประสาทเปลี่ยนแปลงไประหว่างการปรับปรุง อัตราการเรียนรู้จํานวนมากอาจทําให้ค่าน้ําหนักเปลี่ยนแปลงไปมากและเราอาจไม่พบค่าที่เหมาะสมที่สุด อัตราการเรียนรู้ต่ําเป็นสิ่งที่ดี แต่โมเดลจะใช้การทําซ้ําซ้ําๆ เป็นความคิดที่ดีที่จะเริ่มต้นอย่างต่ํา เช่น 1-4 โมง หากการฝึกช้ามาก ให้เพิ่มค่านี้ หากโมเดลของคุณไม่ได้เรียนรู้ ให้ลองลดอัตราการเรียนรู้

มีพารามิเตอร์ไฮเปอร์พารามิเตอร์อีก 2 ตัวที่เราปรับแต่งมาเพื่อรูปแบบ sepCNN ของเราโดยเฉพาะ

  1. ขนาดเคอร์เนล: ขนาดของหน้าต่างการปฏิวัติ ค่าที่แนะนําคือ 3 หรือ 5

  2. มิติข้อมูลที่ฝัง: จํานวนมิติข้อมูลที่ต้องการใช้เพื่อแสดงถึงการฝังคํา กล่าวคือ ขนาดของเวกเตอร์คําแต่ละคํา ค่าที่แนะนําคือ 50–300 ในการทดสอบ เราใช้การฝัง GloVe ที่มีมิติข้อมูล 200 ชั้น พร้อมด้วยชั้นที่มีการฝังไว้ล่วงหน้า

ลองใช้พารามิเตอร์เหล่านี้เพื่อดูว่ารูปแบบใดได้ผลดีที่สุด เมื่อคุณเลือกไฮเปอร์พารามิเตอร์ที่ทํางานได้ดีที่สุดสําหรับกรณีการใช้งานของคุณแล้ว โมเดลก็จะพร้อมใช้งาน