หน้านี้มีคําในอภิธานศัพท์เกี่ยวกับโมเดลรูปภาพ สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่
A
Augmented Reality
เทคโนโลยีที่วางซ้อนรูปภาพที่สร้างโดยคอมพิวเตอร์ในมุมมองของผู้ใช้จริง ซึ่งให้มุมมองแบบผสม
ข
กรอบล้อมรอบ
ในรูปภาพ พิกัด (x, y) ของสี่เหลี่ยมผืนผ้ารอบพื้นที่ที่สนใจ เช่น สุนัขในรูปภาพด้านล่าง
ค
การปฏิวัติ
ในวิชาคณิตศาสตร์ พูดแบบสบายๆ ด้วยการผสมผสานสองฟังก์ชันเข้าด้วยกัน ในแมชชีนเลิร์นนิง การปฏิวัติจะผสมตัวกรองการปฏิวัติกับเมทริกซ์อินพุตเพื่อฝึกน้ําหนัก
คําว่า "convolution" ในแมชชีนเลิร์นนิงมักเป็นวิธีสั้นๆ ที่อ้างอิงถึงการดําเนินการปฏิวัติ หรือเลเยอร์การปฏิวัติ
หากไม่มีรอบปฏิวัติ อัลกอริทึมของแมชชีนเลิร์นนิงจะต้องเรียนรู้น้ําหนักที่แตกต่างกันไปสําหรับทุกเซลล์ในแรงขนาดใหญ่ เช่น การฝึกอัลกอริทึมแมชชีนเลิร์นนิงด้วยรูปภาพขนาด 2K x 2K จะถูกบังคับให้หาน้ําหนักแยกกัน 4M กลไกนี้ทําให้อัลกอริทึมแมชชีนเลิร์นนิงต้องค้นหาน้ําหนักของทุกเซลล์ในตัวกรองการปฏิวัติ ระบบจึงลดหน่วยความจําที่ต้องใช้ในการฝึกโมเดลลงอย่างมาก เมื่อนําตัวกรองการปฏิวัติไปใช้ ระบบจะเลียนแบบเพียงแค่เซลล์ต่างๆ ซึ่งนําไปคูณกับตัวกรอง
ฟิลเตอร์ Convolution
เป็นหนึ่งในนักแสดง 2 คนในการดําเนินงานเชิงปฏิวัติ (นักแสดงคนอื่นเป็นส่วนย่อยของเมทริกซ์อินพุต) ตัวกรองแบบ Convolution คือเมทริกซ์ที่มีอันดับเดียวกันกับเมทริกซ์อินพุต แต่มีรูปร่างขนาดเล็กกว่า เช่น สําหรับเมทริกซ์อินพุตขนาด 28x28 ตัวกรองอาจเป็นแบบเมทริกซ์ 2 มิติใดก็ได้ที่มีขนาดเล็กกว่า 28x28
ในการบิดเบือนภาพถ่าย เซลล์ทั้งหมดในฟิลเตอร์ที่มีการปฏิวัติ มักจะตั้งเป็นรูปแบบคงที่ของเลขศูนย์และเลข 0 ในแมชชีนเลิร์นนิง ตัวกรองการโกงระบบมักจะเชื่อมโยงกับตัวเลขแบบสุ่ม ตามด้วยการฝึกเครือข่ายซึ่งเป็นค่าที่เหมาะสม
เลเยอร์ที่มีการปฏิวัติ
เลเยอร์ของโครงข่ายประสาทแบบลึกที่ตัวกรองแบบ Convolution ส่งผ่านเมทริกซ์อินพุต เช่น ลองพิจารณาตัวกรองการปฏิวัติ 3x3 ต่อไปนี้
ภาพเคลื่อนไหวต่อไปนี้แสดงเลเยอร์การปฏิวัติซึ่งประกอบไปด้วยการดําเนินการหลายอย่าง (9 ครั้ง) ที่เกี่ยวข้องกับเมทริกซ์อินพุตขนาด 5x5 โปรดสังเกตว่าการดําเนินการแบบ Convolution จะทํางานบนเมทริกซ์อินพุตขนาด 3x3 ที่แตกต่างกัน เมทริกซ์ขนาด 3x3 (ทางด้านขวา) ที่ได้จะประกอบด้วยผลลัพธ์ของการดําเนินการเชิงปฏิวัติทั้ง 9 รายการ
โครงข่ายประสาทเทียม
โครงข่ายระบบประสาทที่เลเยอร์อย่างน้อย 1 ชั้นเป็นเลเยอร์ที่มีการปฏิวัติ เครือข่ายระบบประสาทของการปฏิวัติโดยทั่วไปประกอบด้วยเลเยอร์ต่อไปนี้บางส่วน
โครงข่ายระบบประสาทเทียมที่วิวัฒนาการประสบความสําเร็จอย่างมากในปัญหาบางประเภท เช่น การจดจํารูปภาพ
การปฏิวัติ
การคํานวณทางคณิตศาสตร์สองขั้นตอนต่อไปนี้
- การคูณตัวกรองการปฏิวัติและชิ้นส่วนของเมทริกซ์อินพุตที่อิงตามองค์ประกอบ (ส่วนของเมทริกซ์อินพุตมีอันดับและขนาดเท่ากับตัวกรองการปฏิวัติ)
- การรวมค่าทั้งหมดในเมทริกซ์ผลลัพธ์ของผลิตภัณฑ์
ตัวอย่างเช่น พิจารณาเมทริกซ์อินพุตขนาด 5x5 ต่อไปนี้
คราวนี้ลองนึกถึงตัวกรองแบบ Convolution ขนาด 2x2 ต่อไปนี้
การดําเนินการแบบ Convolution แต่ละแบบจะมีเมทริกซ์อินพุตขนาด 2x2 เพียงส่วนเดียว ตัวอย่างเช่น สมมติว่าเราใช้ส่วนแบ่ง 2x2 ที่ด้านซ้ายบนของเมทริกซ์อินพุต การปฏิวัติบนชิ้นส่วนนี้ มีลักษณะดังนี้
เลเยอร์การปฏิวัติประกอบด้วยชุดของการดําเนินงานการปฏิวัติ ซึ่งแต่ละส่วนจะอยู่บนเมทริกซ์อินพุตที่แตกต่างกัน
D
ส่วนเสริมข้อมูล
เพิ่มช่วงและตัวอย่างของการฝึกที่ไม่ได้เกิดขึ้นจริงโดยการเปลี่ยนตัวอย่างที่มีอยู่เพื่อสร้างตัวอย่างเพิ่มเติม เช่น สมมติว่ารูปภาพเป็นหนึ่งในฟีเจอร์ แต่ชุดข้อมูลมีตัวอย่างรูปภาพไม่เพียงพอสําหรับโมเดลเพื่อเรียนรู้การเชื่อมโยงที่เป็นประโยชน์ โดยหลักการแล้ว คุณควรเพิ่มรูปภาพที่ติดป้ายกํากับให้เพียงพอกับชุดข้อมูลเพื่อให้โมเดลฝึกได้อย่างถูกต้อง หากเป็นไปไม่ได้ การเสริมข้อมูล อาจหมุน ยืด และสะท้อนแต่ละภาพเพื่อสร้างรูปแบบต่างๆ ของ รูปภาพต้นฉบับ ซึ่งอาจให้ข้อมูลที่ติดป้ายกํากับเพียงพอสําหรับการฝึกที่ยอดเยี่ยม
โครงข่ายระบบประสาทเทียมที่ปลูกฝังได้ลึก (sepCNN)
โครงข่ายระบบประสาทเทียมแบบคอนเวนชัน อิงตามโครงสร้างแนวคิด แต่แทนที่โมดูล Inception ด้วยคอนโทรลเลอร์ที่แยกแยะได้เชิงลึก หรือที่เรียกว่า Xception
การปฏิวัติที่แบ่งกลุ่มได้ลึกซึ้งยิ่งขึ้น (หรือเรียกสั้นๆ ว่า "การปฏิวัติแยกจากกัน") ก็ได้
ดูข้อมูลเพิ่มเติมได้ที่ Xception: Deep Learning with Depthwei Separable Convolutions
การสุ่มตัวอย่าง
คําที่มากเกินไปซึ่งมีความหมายอย่างใดอย่างหนึ่งต่อไปนี้
- การลดปริมาณข้อมูลในฟีเจอร์เพื่อให้ฝึกโมเดลได้อย่างมีประสิทธิภาพมากขึ้น เช่น ก่อนฝึกโมเดลการจดจํารูปภาพ ให้ลดขนาดรูปภาพความละเอียดสูงลงเป็นรูปแบบความละเอียดต่ํากว่า
- การฝึกในตัวอย่างแบบclass ซึ่งถือว่าไม่สัดส่วนสูงเกินเกณฑ์ เพื่อปรับปรุงการฝึกโมเดลในคลาสที่ด้อยโอกาส เช่น ในชุดข้อมูลที่ไม่สมดุล โมเดลมีแนวโน้มที่จะเรียนรู้เกี่ยวกับคลาสส่วนใหญ่มากพอและไม่เพียงพอเกี่ยวกับคลาสย่อย การสุ่มตัวอย่างช่วยลด ความสมดุลของการฝึกอบรมทั้งในชั้นเรียนชนชั้นสูงและชนกลุ่มน้อย
I
การจดจำรูปภาพ
กระบวนการจัดประเภทออบเจ็กต์ รูปแบบ หรือแนวคิดในรูปภาพ การจดจํารูปภาพเรียกอีกอย่างว่าการแยกประเภทรูปภาพ
ดูข้อมูลเพิ่มเติมได้ที่หลักเกณฑ์ ML: การจัดประเภทรูปภาพ
ทางแยกข้ามสหภาพ (IoU)
จุดตัดของ 2 ชุดหารด้วยการรวมสหภาพ ในงานตรวจจับรูปภาพโดยใช้ IoU เพื่อวัดความแม่นยําของกรอบขอบเขตของโมเดลที่คาดการณ์ไว้ตามกรอบขอบเขตข้อมูลจากการสังเกตการณ์ ในกรณีนี้ IoU ของทั้ง 2 ช่องคืออัตราส่วนระหว่างพื้นที่ที่ทับซ้อนกันกับพื้นที่ทั้งหมด และค่าในช่วงมีตั้งแต่ 0 (ไม่มีการทับซ้อนของกรอบล้อมรอบกับกรอบที่ได้จากการสังเกตการณ์) ไปจนถึง 1 (ช่องขอบเขตที่คาดการณ์ไว้กับกรอบขอบเขตจริงที่คาดการณ์ไว้มีพิกัดเหมือนกันทุกประการ)
ตัวอย่างเช่น ในภาพด้านล่าง
- กรอบล้อมรอบ (พิกัดที่คั่นด้วยพิกัดที่โมเดลตารางแสดงภาพวาดอยู่) แสดงเป็นสีม่วง
- กรอบล้อมรอบจากพื้น (พิกัดที่คั่นด้วยตารางจริงในภาพวาด) จะเป็นสีเขียว
ในที่นี้ ทางแยกของกรอบล้อมรอบสําหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างซ้าย) คือ 1 และการรวมขอบเขตของขอบเขตสําหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์ (ด้านล่างขวา) คือ 7 ดังนั้น IoU เท่ากับ \(\frac{1}{7}\)


K
ประเด็นสําคัญ
พิกัดของฟีเจอร์หนึ่งๆ ในรูปภาพ ตัวอย่างเช่น สําหรับโมเดลการจดจํารูปภาพที่แยกแยะพันธุ์ดอกไม้ได้ คีย์พอยต์อาจเป็นจุดศูนย์กลางของกลีบดอกไม้ ต้นกําเนิด สัญชาติ และอื่นๆ
L
จุดสังเกต
คําพ้องความหมายสําหรับคีย์พอยต์
M
เข้าถึง
ชุดข้อมูลสาธารณสมบัติที่รวบรวมข้อมูลโดย LeCun, Cortes และ Burges ที่มีรูปภาพ 60,000 ภาพ แต่ละภาพแสดงให้เห็นว่ามนุษย์เขียนตัวเลขหนึ่งๆ ตั้งแต่ 0-9 ด้วยตนเองอย่างไร รูปภาพแต่ละรูปจะจัดเก็บเป็นอาร์เรย์ขนาด 28x28 ซึ่งจํานวนเต็มแต่ละตัวมีค่าสีเทาระหว่าง 0 ถึง 255
MNIST คือชุดข้อมูล Canonical สําหรับแมชชีนเลิร์นนิง มักใช้เพื่อทดสอบแนวทางใหม่ของแมชชีนเลิร์นนิง ดูรายละเอียดได้ที่ ฐานข้อมูล MNIST ของตัวเลขที่เขียนด้วยลายมือ
P
การพูล
ลดเมทริกซ์ (หรือเมทริกซ์) ที่สร้างโดยเลเยอร์การปฏิวัติเป็นเมทริกซ์ขนาดเล็ก การดึงกลุ่มร่วมกันมักประกอบด้วยการนําค่าสูงสุดหรือ ค่าเฉลี่ยมารวมในพื้นที่ร่วม ตัวอย่างเช่น สมมติว่าเรามี เมทริกซ์ขนาด 3x3 ต่อไปนี้
การพูลเหมือนการปฏิวัติวิธีหนึ่งคือแบ่งเมทริกซ์ดังกล่าวออกเป็นชิ้นส่วน จากนั้นจึงเลื่อนการดําเนินการปฏิวัติดังกล่าวตามขั้นตอน เช่น สมมติว่าการพูล แบ่งเมทริกซ์การปฏิวัติเป็นชิ้นส่วน 2x2 ด้วยการเดิน 1x1 ครั้ง ตามแผนภาพต่อไปนี้ การดําเนินการกลุ่ม 4 รายการจะเกิดขึ้น ลองนึกว่าการดําเนินการรวมแต่ละรายการจะเลือกค่าสูงสุดของ 4 ตําแหน่งในชิ้นส่วนนั้น ดังนี้
การพูลช่วยบังคับใช้ความแปรปรวนระหว่างคําในเมทริกซ์อินพุต
การประยุกต์ใช้สําหรับการประยุกต์ใช้การมองเห็นเป็นที่รู้จักกันโดยทั่วไปว่าการรวมกลุ่มพื้นที่ โดยปกติ แอปพลิเคชันอนุกรมเวลามักจะเรียกรวมกันว่าการรวมชั่วคราว โดยปกติการมีชื่อชั่วคราวมักจะเรียกว่าการสุ่มตัวอย่างหรือการสุ่มตัวอย่าง
R
ความแปรปรวนแบบหมุน
ในปัญหาด้านการแยกประเภทรูปภาพ อัลกอริทึมจะจําแนกประเภทรูปภาพได้สําเร็จแม้ในขณะที่การวางแนวรูปภาพมีการเปลี่ยนแปลง ตัวอย่างเช่น อัลกอริทึมจะยังคงสามารถระบุไม้เทนนิสที่ ไม่ว่าจะเลื่อนขึ้น ด้านข้าง หรือลง โปรดทราบว่ารูปแบบที่หมุนอาจไม่เป็นที่ต้องการเสมอไป เช่น กลับด้าน 9 ไม่ควรจัดเป็น 9
รวมถึงดูความแปรปรวนระหว่างความหมายและ ความแปรปรวนของขนาด
ส
ความแปรปรวนของขนาด
ในปัญหาด้านการแยกประเภทรูปภาพ อัลกอริทึมจะจําแนกประเภทรูปภาพได้สําเร็จแม้ว่าจะมีการเปลี่ยนแปลงขนาดรูปภาพก็ตาม เช่น อัลกอริทึมจะยังคงระบุว่าแมวใช้พิกเซล 2 ล้านพิกเซลหรือ 200,000 พิกเซลอยู่ โปรดทราบว่าแม้แต่อัลกอริทึมการจัดประเภทรูปภาพที่ดีที่สุดก็ยังมีขีดจํากัดด้านความผันแปรของขนาดที่ใช้ได้จริง เช่น อัลกอริทึม (หรือมนุษย์) มักจัดกลุ่มรูปภาพแมวอย่างถูกต้องโดยใช้เพียง 20 พิกเซลเท่านั้น
นอกจากนี้ โปรดดูความแปรปรวนระหว่างความหมายและความแปรปรวนแบบหมุน
การรวมกลุ่มพื้นที่
การก้าวเท้า
ในการดําเนินการเชิงปฏิวัติหรือการรวมกลุ่ม เดลต้าในมิติข้อมูลแต่ละชุดของชิ้นส่วนอินพุตถัดไป เช่น ภาพเคลื่อนไหวต่อไปนี้แสดงให้เห็นพัฒนาการของการเคลื่อนที่ที่กะทัดรัด (1,1) ดังนั้น ชิ้นส่วนอินพุตถัดไปจะเริ่มที่ 1 ตําแหน่งทางด้านขวาของส่วนแบ่งอินพุตก่อนหน้า เมื่อไปถึงขอบด้านขวา ชิ้นส่วนถัดไปจะเลื่อนมาจนสุดด้านซ้าย
ตัวอย่างก่อนหน้านี้แสดงให้เห็นพัฒนาการแบบ 2 มิติ หากเมทริกซ์อินพุตเป็นแบบ 3 มิติ การก้าวที่ได้ก็จะเป็นแบบ 3 มิติด้วย
การติดตาม
อ
ความผันแปรของการแปล
ในปัญหาด้านการแยกประเภทรูปภาพ อัลกอริทึมจะจําแนกประเภทรูปภาพได้สําเร็จแม้ในขณะที่ตําแหน่งของวัตถุภายในรูปภาพมีการเปลี่ยนแปลง เช่น อัลกอริทึมยังระบุสุนัขได้ ไม่ว่าจะอยู่กลางเฟรมหรือด้านซ้ายสุดของเฟรมก็ตาม
นอกจากนี้ โปรดดูความแปรปรวนของขนาดและ ความแปรปรวนแบบหมุน