หน้านี้มีคำศัพท์เกี่ยวกับโมเดลรูปภาพ หากต้องการดูคำศัพท์ในอภิธานศัพท์ทั้งหมด คลิกที่นี่
A
Augmented Reality
เทคโนโลยีที่แทนที่รูปภาพซึ่งคอมพิวเตอร์สร้างขึ้นในมุมมองของผู้ใช้ในชีวิตจริง จึงเป็นมุมมองแบบผสม
โปรแกรมเปลี่ยนไฟล์อัตโนมัติ
ระบบที่เรียนรู้เพื่อดึงข้อมูลที่สำคัญที่สุดจากอินพุต โปรแกรมเปลี่ยนไฟล์อัตโนมัติเป็นการผสมผสานระหว่างโปรแกรมเปลี่ยนไฟล์และโปรแกรมถอดรหัส โปรแกรมเปลี่ยนไฟล์อัตโนมัติมีกระบวนการ 2 ขั้นตอนดังนี้
- โปรแกรมเปลี่ยนไฟล์จะแมปอินพุตกับรูปแบบ (ทั่วไป) แบบสูญเสียช่วงมิติ (ระดับกลาง)
- เครื่องมือถอดรหัสจะสร้างเวอร์ชันแบบสูญเสียข้อมูลอินพุตต้นฉบับโดยการแมปรูปแบบมิติข้อมูลที่ต่ำกว่าเข้ากับรูปแบบอินพุตที่มีมิติข้อมูลสูงกว่าแบบเดิม
โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะได้รับการฝึกจากต้นทางถึงปลายทางโดยให้เครื่องมือถอดรหัสพยายามสร้างอินพุตเดิมใหม่จากรูปแบบระดับกลางของโปรแกรมเปลี่ยนไฟล์ให้ใกล้เคียงที่สุด เนื่องจากรูปแบบระดับกลางมีขนาดเล็กกว่า (มีมิติต่ำกว่า) รูปแบบเดิม ตัวเข้ารหัสอัตโนมัติจึงถูกบังคับให้ศึกษาว่าข้อมูลใดในอินพุตเป็นข้อมูลที่สำคัญ และเอาต์พุตที่ได้จะไม่เหมือนกับอินพุตที่โดยสมบูรณ์
เช่น
- หากข้อมูลอินพุตเป็นกราฟิก สำเนาที่ไม่ตรงทั้งหมดจะคล้ายกับกราฟิกต้นฉบับ แต่ได้รับการแก้ไขบ้าง สำเนาที่ไม่ใช่แบบตรงกันทั้งหมดอาจนำสัญญาณรบกวนออกจากกราฟิกต้นฉบับหรือเติมเต็มพิกเซลที่หายไปบางส่วน
- หากข้อมูลอินพุตเป็นข้อความ โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะสร้างข้อความใหม่ที่เลียนแบบ (แต่ไม่เหมือนกับ) ข้อความต้นฉบับ
ดูข้อมูลเพิ่มเติมได้ในเครื่องมือเข้ารหัสอัตโนมัติรูปแบบต่างๆ
รูปแบบถดถอยอัตโนมัติ
modelที่อนุมานการคาดการณ์จากการคาดคะเนก่อนหน้านี้ของตัวมันเอง ตัวอย่างเช่น โมเดลภาษาที่ถดถอยอัตโนมัติจะคาดการณ์โทเค็นถัดไปโดยอิงตามโทเค็นที่คาดการณ์ไว้ก่อนหน้านี้ โมเดลภาษาขนาดใหญ่ทั้งหมดที่อิงตาม Transformer จะถดถอยโดยอัตโนมัติ
ในทางตรงกันข้าม โมเดลรูปภาพแบบ GAN มักจะไม่ถดถอยอัตโนมัติเพราะสร้างรูปภาพผ่านการส่งต่อรายการเดียวและไม่เกิดซ้ำในขั้นตอน แต่โมเดลการสร้างรูปภาพบางโมเดลจะทำงานแบบถดถอยอัตโนมัติเนื่องจากสร้างรูปภาพในขั้นตอน
B
กรอบล้อมรอบ
ในรูปภาพ พิกัด (x, y) ของสี่เหลี่ยมรอบพื้นที่ที่สนใจ เช่น สุนัขในรูปภาพด้านล่าง
C
Convolution
ในทางคณิตศาสตร์ พูดง่ายๆ เป็นการผสมผสาน 2 ฟังก์ชันเข้าด้วยกัน ในแมชชีนเลิร์นนิง คอนโวลูชันจะผสมตัวกรองคอนโวลูชันและเมทริกซ์อินพุตเพื่อฝึกน้ำหนัก
คำว่า "คอนโวลูชัน (convolution)" ในแมชชีนเลิร์นนิงมักจะเป็นคำสั้นๆ ที่หมายถึงกระบวนการสร้างคอนโวลูชันหรือเลเยอร์คอนโวลูชัน
หากไม่มีคอนโวลูชัน (Convolutions) อัลกอริทึมของแมชชีนเลิร์นนิงจะต้องเรียนรู้น้ำหนักแยกของแต่ละเซลล์ใน tensor ขนาดใหญ่ เช่น การฝึกอัลกอริทึมแมชชีนเลิร์นนิงในรูปภาพขนาด 2K x 2K จะถูกบังคับให้ค้นหาน้ำหนักแยกกัน 4 ล้านครั้ง ด้วยคอนโวลูชัน อัลกอริทึมของแมชชีนเลิร์นนิงจะต้องหาน้ำหนักของแต่ละเซลล์ในตัวกรอง Convolutional เท่านั้น ซึ่งช่วยลดหน่วยความจำที่ต้องใช้ในการฝึกโมเดลได้อย่างมาก เมื่อใช้ตัวกรองคอนโวลูชัน ระบบจะจำลองข้อมูลข้ามเซลล์โดยนำแต่ละเซลล์คูณด้วยตัวกรอง
ฟิลเตอร์ Convolutional
หนึ่งในนักแสดง 2 คนในปฏิบัติการเชิงปฏิวัติ (ตัวดำเนินการอีกตัวหนึ่งคือ ชิ้นส่วนของเมทริกซ์อินพุต) ตัวกรอง Convolutional คือเมทริกซ์ที่มีอันดับเดียวกับเมทริกซ์อินพุต แต่มีรูปร่างเล็กกว่า ตัวอย่างเช่น ในเมทริกซ์อินพุต 28x28 ตัวกรองอาจเป็นเมทริกซ์ 2 มิติที่มีขนาดเล็กกว่า 28x28 ได้
ในการชักจูงภาพถ่าย เซลล์ทั้งหมดในตัวกรองแบบคอนโวลูชัน (Convolutional filter) มักจะมีการตั้งค่าเป็นรูปแบบคงที่ของจำนวนเลข 0 กับ 0 ในแมชชีนเลิร์นนิง ตัวกรองคอนโวลูชันมักจะได้รับการตั้งต้นด้วยตัวเลขแบบสุ่ม จากนั้นเครือข่ายจะฝึกค่าที่เหมาะสม
เลเยอร์ Convolutional
ชั้นของโครงข่ายประสาทแบบลึกซึ่งตัวกรองคอนโวลูชันส่งผ่านเมทริกซ์อินพุต ตัวอย่างเช่น ลองพิจารณาตัวกรอง Convolution ขนาด 3x3 ต่อไปนี้
ภาพเคลื่อนไหวต่อไปนี้แสดงเลเยอร์ Convolutional ที่ประกอบด้วย การดำเนินการแบบ Convolutional 9 รายการที่เกี่ยวข้องกับเมทริกซ์อินพุต 5x5 โปรดสังเกตว่าการดำเนินการคอนโวลูชันแต่ละรายการจะทำงานบนเมทริกซ์อินพุตขนาด 3x3 ส่วนที่แตกต่างกัน เมทริกซ์ 3x3 ที่ได้ (ทางด้านขวา) ประกอบด้วยผลลัพธ์ของการดำเนินการแปลง 9 รายการ ได้แก่
โครงข่ายระบบประสาทเทียมแบบ Convolutional
โครงข่ายระบบประสาทที่มีเลเยอร์อย่างน้อย 1 ชั้นเป็นเลเยอร์คอนโวลูชัน โครงข่ายระบบประสาทเทียมทั่วไปประกอบด้วยเลเยอร์ต่อไปนี้ร่วมกัน
โครงข่ายประสาทแบบ Convolutional ประสบความสำเร็จอย่างมากในปัญหาบางประเภท เช่น การจดจำภาพ
ปฏิบัติการของคอนโวลูชัน
การคำนวณทางคณิตศาสตร์ 2 ขั้นตอนดังต่อไปนี้
- การคูณตัวกรอง Convolutional ตามองค์ประกอบขององค์ประกอบ และส่วนของเมทริกซ์อินพุต (ส่วนของเมทริกซ์อินพุตมีอันดับและขนาดเท่ากับตัวกรองแบบ Convolutional)
- การรวมค่าทั้งหมดในเมทริกซ์ผลิตภัณฑ์ที่เป็นผลลัพธ์
ตัวอย่างเช่น ลองพิจารณาเมทริกซ์อินพุต 5x5 ต่อไปนี้
ทีนี้ลองนึกภาพตัวกรองแบบ Convolutional ขนาด 2x2 ต่อไปนี้
การดำเนินการแบบ Convolutional แต่ละครั้งจะใช้เมทริกซ์อินพุตขนาด 2x2 ชิ้นเดียว ตัวอย่างเช่น สมมติว่าเราใช้ส่วน 2x2 ที่ด้านซ้ายบนของเมทริกซ์อินพุต ดังนั้นการดำเนินการคอนโวลูชัน บนสไลซ์นี้มีลักษณะดังนี้
เลเยอร์ Convolutional ประกอบด้วยชุดการดำเนินการแบบ Convolutional โดยแต่ละชุดจะดำเนินการกับเมทริกซ์อินพุตส่วนต่างๆ
D
การเสริมข้อมูล
การบูสต์ช่วงและจำนวนตัวอย่างของการฝึกด้วยการเปลี่ยนรูปแบบตัวอย่างที่มีอยู่เพื่อสร้างตัวอย่างเพิ่มเติม ตัวอย่างเช่น สมมติว่ารูปภาพเป็นหนึ่งในฟีเจอร์ของคุณ แต่ชุดข้อมูลมีตัวอย่างรูปภาพไม่เพียงพอสำหรับโมเดลที่จะเรียนรู้การเชื่อมโยงที่เป็นประโยชน์ ตามหลักการ คุณควรเพิ่มรูปภาพที่ติดป้ายกำกับลงในชุดข้อมูลให้เพียงพอเพื่อให้โมเดลฝึกได้อย่างถูกต้อง ถ้าทำไม่ได้ การเพิ่มข้อมูลสามารถหมุน ขยาย และสะท้อนภาพแต่ละภาพเพื่อสร้างตัวแปรที่หลากหลายของภาพต้นฉบับ ซึ่งอาจให้ข้อมูลที่มีป้ายกำกับมากพอที่จะทำการฝึกอบรมที่ยอดเยี่ยมได้
โครงข่ายระบบประสาทเทียมแบบ Convolutional แบบ Deepwise (sepCNN)
สถาปัตยกรรมโครงข่ายระบบประสาทเทียมที่อิงตาม Inception แต่แทนที่โมดูล Inception ด้วยการสนทนาที่แยกจากกันได้ในระดับลึก หรือที่เรียกว่า Xception
คอนโวลูชันที่แยกส่วนได้ในระดับลึก (หรือย่อมาจาก สัมปฏิวัติที่แยกได้) จะประกอบการแปลง 3 มิติมาตรฐานเป็นการดำเนินการคอนโวลูชันที่แยกกัน 2 รายการ ซึ่งมีประสิทธิภาพในการคำนวณมากกว่า แรก คอนโวลูชันแบบลึก (ความลึก) ที่มีความลึก 1 (n Wednesday n ในลักษณะนี้ 1) และครั้งที่ 2 เท่ากับ 1 คอนโวลูชันแบบ 1 จุด (ความยาวและความกว้าง 1 n)
ดูข้อมูลเพิ่มเติมได้ที่ Xception: Deep Learning with Depthwise Separable Convolutions
การสุ่มกลุ่มตัวอย่าง
คำที่มากเกินไปซึ่งอาจมีความหมายอย่างใดอย่างหนึ่งต่อไปนี้
- ลดจำนวนข้อมูลในฟีเจอร์เพื่อฝึกโมเดลได้อย่างมีประสิทธิภาพมากขึ้น ตัวอย่างเช่น ก่อนฝึกโมเดลการจดจำรูปภาพ ให้ลดขนาดรูปภาพที่มีความละเอียดสูงให้เป็นรูปแบบที่มีความละเอียดต่ำลง
- การฝึกกับตัวอย่างในชั้นเรียนที่มีเปอร์เซ็นต์ต่ำอย่างไม่สมส่วน เพื่อปรับปรุงการฝึกโมเดลในคลาสที่มีตัวแทนน้อยเกินไป ตัวอย่างเช่น ในชุดข้อมูลที่ไม่สมดุลระหว่างคลาส โมเดลมักจะเรียนรู้เกี่ยวกับกลุ่มส่วนใหญ่ได้มากมาย และยังไม่เพียงพอเกี่ยวกับชนกลุ่มน้อย การสุ่มเนื้อหาช่วยสร้างความสมดุลระหว่าง ปริมาณการฝึกอบรมกับชั้นเรียนส่วนใหญ่และชนกลุ่มน้อย
F
การปรับแต่ง
บัตรผ่านการฝึกเฉพาะงานรายการที่ 2 ที่ดำเนินการในโมเดลที่ฝึกล่วงหน้าเพื่อปรับแต่งพารามิเตอร์สำหรับ Use Case ที่เฉพาะเจาะจง ตัวอย่างเช่น ลำดับการฝึกแบบเต็มสำหรับโมเดลภาษาขนาดใหญ่บางโมเดลมีดังนี้
- การฝึกล่วงหน้า: ฝึกโมเดลภาษาขนาดใหญ่ในชุดข้อมูลทั่วไปขนาดใหญ่ เช่น หน้า Wikipedia ภาษาอังกฤษทุกหน้า
- การปรับแต่ง: ฝึกโมเดลที่ฝึกล่วงหน้าให้ทำงานแบบเจาะจง เช่น การตอบคำถามทางการแพทย์ การปรับแต่งโดยทั่วไปจะมีตัวอย่างหลายร้อยหรือหลายพันตัวอย่างที่มุ่งเน้นงานนั้นๆ
อีกตัวอย่างหนึ่ง ลำดับการฝึกทั้งหมดสำหรับโมเดลรูปภาพขนาดใหญ่มีดังนี้
- การฝึกล่วงหน้า: ฝึกโมเดลรูปภาพขนาดใหญ่บนชุดข้อมูลรูปภาพทั่วไปขนาดใหญ่ เช่น รูปภาพทั้งหมดใน Wikimedia Common
- การปรับแต่ง: ฝึกโมเดลที่ฝึกล่วงหน้าให้ทำงานแบบเจาะจง เช่น การสร้างรูปภาพวาฬเพชฌฆาต
การปรับแต่งอาจทำให้เกิดชุดค่าผสมของกลยุทธ์ต่อไปนี้
- กำลังแก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลที่ฝึกล่วงหน้าทั้งหมด ซึ่งในบางครั้งเรียกว่าการปรับแต่งทั้งหมด
- แก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลที่ฝึกล่วงหน้าบางส่วนเท่านั้น (โดยทั่วไปคือเลเยอร์ที่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด) โดยไม่เปลี่ยนแปลงพารามิเตอร์อื่นๆ ที่มีอยู่ (โดยทั่วไปจะเป็นเลเยอร์ที่ใกล้กับเลเยอร์อินพุตมากที่สุด) ดู การปรับแต่งแบบมีประสิทธิภาพพารามิเตอร์
- การเพิ่มเลเยอร์ ซึ่งโดยปกติจะอยู่ที่ด้านบนของเลเยอร์ที่มีอยู่ซึ่งอยู่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด
การปรับแต่งเป็นรูปแบบของการเรียนรู้แบบถ่ายโอน ดังนั้น การปรับแต่งอาจใช้ฟังก์ชันการสูญเสียข้อมูลหรือโมเดลประเภทอื่นที่ต่างจากที่ใช้ในการฝึกโมเดลที่ฝึกล่วงหน้า เช่น ปรับแต่งโมเดลอิมเมจขนาดใหญ่ที่ฝึกล่วงหน้าเพื่อสร้างโมเดลการถดถอยที่แสดงผลลัพธ์จำนวนนกในอิมเมจอินพุต
เปรียบเทียบการปรับแต่งอย่างละเอียดกับข้อความต่อไปนี้
G
Generative AI
คือสาขาที่สามารถเปลี่ยนแปลงรูปแบบใหม่ๆ ซึ่งไม่มีคำจำกัดความที่เป็นทางการ อย่างไรก็ตาม ผู้เชี่ยวชาญส่วนใหญ่เห็นด้วยว่าโมเดล Generative AI สามารถสร้าง ("สร้าง") เนื้อหาที่มีลักษณะดังต่อไปนี้ได้
- ซับซ้อน
- สอดคล้องกัน
- เดิม
ตัวอย่างเช่น โมเดล Generative AI สามารถสร้างเรียงความหรือรูปภาพที่ซับซ้อนได้
เทคโนโลยีรุ่นก่อนๆ เช่น LSTM และ RNN สามารถสร้างเนื้อหาต้นฉบับที่สอดคล้องและเหมือนกันได้ด้วย ผู้เชี่ยวชาญบางคนมองว่าเทคโนโลยียุคก่อนเหล่านี้เป็น Generative AI ในขณะที่บางคนรู้สึกว่า Generative AI ที่แท้จริงต้องการผลลัพธ์ที่ซับซ้อนกว่าเทคโนโลยีแรกๆ ที่เทคโนโลยีเหล่านี้ทำได้
คอนทราสต์กับ ML แบบคาดการณ์
I
การรู้จำรูปภาพ
กระบวนการที่จัดประเภทออบเจ็กต์ รูปแบบ หรือแนวคิดในรูปภาพ การรู้จำรูปภาพเรียกอีกอย่างว่าการจัดประเภทรูปภาพ
ดูข้อมูลเพิ่มเติมได้ที่ ML Practicum: Image Classification
สี่แยก (IoU)
จุดตัดของ 2 เซตหารด้วยสหภาพ ในงานตรวจจับรูปภาพของแมชชีนเลิร์นนิง ระบบจะใช้ IoU เพื่อวัดความแม่นยำของกรอบล้อมรอบของโมเดล เทียบกับกรอบล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรง ในกรณีนี้ IoU สำหรับทั้ง 2 ช่องคืออัตราส่วนระหว่างพื้นที่ที่ทับซ้อนและพื้นที่ทั้งหมด และค่าจะเป็นช่วงจาก 0 (ไม่มีการทับซ้อนของกรอบล้อมรอบและกรอบความจริงใจที่คาดคะเนไว้) ต่อ 1 (กรอบล้อมรอบที่คาดการณ์ไว้และกล่องขอบเขตความเป็นจริงบนพื้นโลกมีพิกัดเดียวกันทุกประการ)
ดูตัวอย่างในรูปภาพด้านล่าง
- กรอบล้อมรอบที่คาดคะเน (พิกัดคั่นตำแหน่งที่โมเดลคาดการณ์ตารางกลางคืนในภาพวาด) จะมีเส้นขอบเป็นสีม่วง
- กรอบล้อมรอบความจริง (พิกัดที่แยกตำแหน่งของโต๊ะกลางคืนในภาพวาด) แสดงเส้นขอบเป็นสีเขียว
ตรงนี้ อินเตอร์เซกชันของกรอบล้อมรอบสำหรับการคาดคะเนและข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างซ้าย) คือ 1 และการรวมกรอบล้อมรอบสำหรับการคาดคะเนและข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างขวา) คือ 7 ดังนั้น IoU จึงเป็น \(\frac{1}{7}\)
K
ประเด็นสำคัญ
พิกัดของจุดสนใจหนึ่งๆ ในรูปภาพ เช่น สำหรับโมเดลการจดจำรูปภาพที่ช่วยจำแนกดอกไม้แต่ละชนิด จุดสำคัญอาจเป็นศูนย์กลางของแต่ละกลีบ ก้าน เกสรดอกไม้ และอื่นๆ
L
จุดสังเกต
คำพ้องความหมายของ keypoints
M
MNIST
ชุดข้อมูลสาธารณสมบัติที่รวบรวมโดย LeCun, Cortes และ Burges ซึ่งมีรูปภาพ 60,000 รูป แต่ละภาพแสดงให้เห็นว่ามนุษย์เขียนตัวเลขตัวเลขเฉพาะจาก 0-9 ด้วยตนเองได้อย่างไร รูปภาพแต่ละรูปจะจัดเก็บเป็นอาร์เรย์ 28x28 ของจำนวนเต็ม โดยจำนวนเต็มแต่ละรูปจะเป็นค่าโทนสีเทาระหว่าง 0 ถึง 255
MNIST คือชุดข้อมูล Canonical สำหรับแมชชีนเลิร์นนิง ซึ่งมักจะใช้ในการทดสอบวิธีการใหม่ๆ ของแมชชีนเลิร์นนิง ดูรายละเอียดได้ที่ ฐานข้อมูล MNIST ของตัวเลขที่เขียนด้วยลายมือ
คะแนน
การร่วมกลุ่ม
การลดเมทริกซ์ (หรือเมทริกซ์) ที่สร้างโดยเลเยอร์คอนโวลูชันก่อนหน้านี้ลงในเมทริกซ์ที่เล็กลง โดยทั่วไปแล้ว การจัดกลุ่มจะเกี่ยวข้องกับการหาค่าสูงสุดหรือค่าเฉลี่ยทั่วทั้งพื้นที่ร่วม ตัวอย่างเช่น สมมติว่าเรามีเมทริกซ์ 3x3 ต่อไปนี้
การดำเนินการจัดกลุ่มเช่นเดียวกับการดำเนินการแบบ Convolutional จะแบ่งเมทริกซ์ออกเป็นส่วนๆ แล้วสไลด์ที่ประกอบกันเป็นก้าว ตัวอย่างเช่น สมมติว่าการดำเนินการจัดกลุ่มแบ่งเมทริกซ์แบบ Convolutional เป็นส่วน 2x2 ด้วยจังหวะ 1x1 ดังที่เห็นแผนภาพต่อไปนี้ ได้เกิดการดำเนินการร่วม 4 รายการ สมมติว่าการดำเนินการร่วมแต่ละรายการเลือกค่าสูงสุดของ 4 ในส่วนดังกล่าว
การรวมจะช่วยบังคับใช้ความแปรปรวนของการแปลในเมทริกซ์อินพุต
การรวมกลุ่มสำหรับแอปพลิเคชันด้านการมองเห็นมีชื่อเรียกอีกอย่างว่า Spatial Collection แอปพลิเคชันอนุกรมเวลามักเรียกว่าการรวมชั่วคราว แต่อย่างเป็นทางการ การจัดกลุ่มมักจะเรียกว่าการสุ่มตัวอย่างหรือการดาวน์แซมปลิง
โมเดลก่อนการฝึก
โมเดลหรือคอมโพเนนต์ของโมเดล (เช่น เวกเตอร์การฝัง) ที่ได้รับการฝึกแล้ว บางครั้งคุณจะป้อนเวกเตอร์การฝังที่ฝึกล่วงหน้าไว้ในโครงข่ายระบบประสาทเทียม แต่บางครั้งโมเดลจะฝึกเวกเตอร์การฝังเองแทนที่จะพึ่งพาการฝังที่ฝึกล่วงหน้า
คำว่าโมเดลภาษาก่อนการฝึกหมายถึงโมเดลภาษาขนาดใหญ่ที่ผ่านการฝึกล่วงหน้า
ก่อนการฝึก
การฝึกเบื้องต้นของโมเดลบนชุดข้อมูลขนาดใหญ่ โมเดลก่อนการฝึกบางรุ่นเป็นยักษ์ที่งุ่มง่ามและมักต้องปรับแต่งผ่านการฝึกเพิ่มเติม เช่น ผู้เชี่ยวชาญ ML อาจฝึกโมเดลภาษาขนาดใหญ่ไว้ล่วงหน้าบนชุดข้อมูลข้อความจำนวนมาก เช่น หน้าภาษาอังกฤษทุกหน้าใน Wikipedia หลังการฝึกล่วงหน้า โมเดลผลลัพธ์อาจมีการปรับแต่งเพิ่มเติมผ่านเทคนิคต่อไปนี้
- การกรอง
- การปรับแต่ง
- การปรับแต่งวิธีการ
- การปรับแต่งให้มีประสิทธิภาพพารามิเตอร์
- การปรับแต่งข้อความแจ้ง
R
ความแปรปรวนการหมุน
ในโจทย์การจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพได้สำเร็จแม้ว่าการวางแนวของรูปภาพจะเปลี่ยนไปก็ตาม ตัวอย่างเช่น อัลกอริทึมยังคงระบุไม้เทนนิสได้ว่าไม้ชี้ขึ้น ด้านข้าง หรือลง โปรดทราบว่าความไม่สม่ำเสมอในการหมุนนั้นไม่เป็นที่ต้องการเสมอไป ตัวอย่างเช่น การกลับหัวกลับหาง 9 ไม่ควรจัดเป็น 9
โปรดดูความแปรปรวนของการแปลค่าและความไม่แน่นอนของขนาดด้วย
S
ความแปรปรวนของขนาด
ในโจทย์การจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพได้สำเร็จแม้ว่าขนาดของรูปภาพจะเปลี่ยนแปลงก็ตาม ตัวอย่างเช่น อัลกอริทึมจะยังคงระบุแมวได้ว่าจะใช้ 2 ล้านพิกเซลหรือ 200,000 พิกเซล โปรดทราบว่าแม้แต่อัลกอริทึมการจัดประเภทรูปภาพที่ดีที่สุดก็ยังคงมีข้อจำกัดในทางปฏิบัติเกี่ยวกับความไม่แน่นอนของขนาด เช่น อัลกอริทึม (หรือมนุษย์) อาจไม่จัดประเภทรูปภาพแมวที่กินเพียง 20 พิกเซลอย่างถูกต้อง
โปรดดูความแปรปรวนของการแปลค่าและความแปรปรวนของการหมุนด้วย
การร่วมเก็บข้อมูลเชิงพื้นที่
ดูการรวม
ก้าว
ในการดําเนินการคอนโวลูชันหรือการรวม เดลต้าในแต่ละมิติข้อมูลของสไลซ์อินพุตชุดถัดไป ตัวอย่างเช่น ภาพเคลื่อนไหวต่อไปนี้แสดงให้เห็นจังหวะ (1,1) ระหว่างการดำเนินการแบบ Convolutiona ดังนั้น ส่วนแบ่งอินพุตถัดไปจะเริ่มจากตำแหน่งที่อยู่ด้านขวาของส่วนแบ่งอินพุตก่อนหน้า เมื่อการดำเนินการมาถึงขอบด้านขวา ชิ้นส่วนถัดไปจะเลื่อนไปจนสุดด้านซ้าย แต่อยู่ในตำแหน่งที่เลื่อนลงหนึ่งตำแหน่ง
ตัวอย่างก่อนหน้านี้แสดงให้เห็นถึงความก้าวหน้าแบบ 2 มิติ หากเมทริกซ์อินพุตเป็น 3 มิติ ความก้าวหน้าจะเป็น 3 มิติด้วย
การสุ่มย่อย
ดูการรวม
T
อุณหภูมิ
ไฮเปอร์พารามิเตอร์ที่ควบคุมระดับความสุ่มของเอาต์พุตโมเดล อุณหภูมิที่สูงขึ้นจะส่งผลให้เอาต์พุตแบบสุ่มมากขึ้น ส่วนอุณหภูมิที่ต่ำลงทำให้เอาต์พุตแบบสุ่มน้อยลง
การเลือกอุณหภูมิที่ดีที่สุดขึ้นอยู่กับแอปพลิเคชันเฉพาะและคุณสมบัติที่ต้องการของเอาต์พุตโมเดล เช่น คุณอาจเพิ่มอุณหภูมิเมื่อสร้างแอปพลิเคชันที่สร้างเอาต์พุตครีเอทีฟโฆษณา ในทางกลับกัน คุณอาจลดอุณหภูมิลงเมื่อคุณสร้างโมเดลที่แยกประเภทรูปภาพหรือข้อความเพื่อปรับปรุงความแม่นยำและความสอดคล้องของโมเดล
อุณหภูมิมักใช้กับ softmax
ความแปรปรวนของการแปลค่า
ในโจทย์การจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพได้สำเร็จแม้ว่าตำแหน่งของวัตถุภายในรูปภาพจะเปลี่ยนไปก็ตาม เช่น อัลกอริทึมจะยังคงระบุสุนัขได้ ไม่ว่าจะอยู่กึ่งกลางของเฟรมหรือท้ายเฟรมก็ตาม