อภิธานศัพท์เกี่ยวกับแมชชีนเลิร์นนิง: โมเดลรูปภาพ

หน้านี้มีคําในอภิธานศัพท์เกี่ยวกับโมเดลรูปภาพ สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่

A

Augmented Reality

#image

เทคโนโลยีที่วางซ้อนรูปภาพที่สร้างโดยคอมพิวเตอร์ในมุมมองของผู้ใช้จริง ซึ่งให้มุมมองแบบผสม

กรอบล้อมรอบ

#image

ในรูปภาพ พิกัด (x, y) ของสี่เหลี่ยมผืนผ้ารอบพื้นที่ที่สนใจ เช่น สุนัขในรูปภาพด้านล่าง

รูปภาพสุนัขนั่งบนโซฟา กรอบสีเขียวที่มีพิกัดด้านซ้ายบน (275, 1271) และพิกัดด้านล่างขวาของ (2954, 2761) ที่ล้อมรอบร่างกายสุนัข

การปฏิวัติ

#image

ในวิชาคณิตศาสตร์ พูดแบบสบายๆ ด้วยการผสมผสานสองฟังก์ชันเข้าด้วยกัน ในแมชชีนเลิร์นนิง การปฏิวัติจะผสมตัวกรองการปฏิวัติกับเมทริกซ์อินพุตเพื่อฝึกน้ําหนัก

คําว่า "convolution" ในแมชชีนเลิร์นนิงมักเป็นวิธีสั้นๆ ที่อ้างอิงถึงการดําเนินการปฏิวัติ หรือเลเยอร์การปฏิวัติ

หากไม่มีรอบปฏิวัติ อัลกอริทึมของแมชชีนเลิร์นนิงจะต้องเรียนรู้น้ําหนักที่แตกต่างกันไปสําหรับทุกเซลล์ในแรงขนาดใหญ่ เช่น การฝึกอัลกอริทึมแมชชีนเลิร์นนิงด้วยรูปภาพขนาด 2K x 2K จะถูกบังคับให้หาน้ําหนักแยกกัน 4M กลไกนี้ทําให้อัลกอริทึมแมชชีนเลิร์นนิงต้องค้นหาน้ําหนักของทุกเซลล์ในตัวกรองการปฏิวัติ ระบบจึงลดหน่วยความจําที่ต้องใช้ในการฝึกโมเดลลงอย่างมาก เมื่อนําตัวกรองการปฏิวัติไปใช้ ระบบจะเลียนแบบเพียงแค่เซลล์ต่างๆ ซึ่งนําไปคูณกับตัวกรอง

ฟิลเตอร์ Convolution

#image

เป็นหนึ่งในนักแสดง 2 คนในการดําเนินงานเชิงปฏิวัติ (นักแสดงคนอื่นเป็นส่วนย่อยของเมทริกซ์อินพุต) ตัวกรองแบบ Convolution คือเมทริกซ์ที่มีอันดับเดียวกันกับเมทริกซ์อินพุต แต่มีรูปร่างขนาดเล็กกว่า เช่น สําหรับเมทริกซ์อินพุตขนาด 28x28 ตัวกรองอาจเป็นแบบเมทริกซ์ 2 มิติใดก็ได้ที่มีขนาดเล็กกว่า 28x28

ในการบิดเบือนภาพถ่าย เซลล์ทั้งหมดในฟิลเตอร์ที่มีการปฏิวัติ มักจะตั้งเป็นรูปแบบคงที่ของเลขศูนย์และเลข 0 ในแมชชีนเลิร์นนิง ตัวกรองการโกงระบบมักจะเชื่อมโยงกับตัวเลขแบบสุ่ม ตามด้วยการฝึกเครือข่ายซึ่งเป็นค่าที่เหมาะสม

เลเยอร์ที่มีการปฏิวัติ

#image

เลเยอร์ของโครงข่ายประสาทแบบลึกที่ตัวกรองแบบ Convolution ส่งผ่านเมทริกซ์อินพุต เช่น ลองพิจารณาตัวกรองการปฏิวัติ 3x3 ต่อไปนี้

เมทริกซ์ 3x3 ที่มีค่าต่อไปนี้: [[0,1,0], [1,0,1], [0,1,0]]

ภาพเคลื่อนไหวต่อไปนี้แสดงเลเยอร์การปฏิวัติซึ่งประกอบไปด้วยการดําเนินการหลายอย่าง (9 ครั้ง) ที่เกี่ยวข้องกับเมทริกซ์อินพุตขนาด 5x5 โปรดสังเกตว่าการดําเนินการแบบ Convolution จะทํางานบนเมทริกซ์อินพุตขนาด 3x3 ที่แตกต่างกัน เมทริกซ์ขนาด 3x3 (ทางด้านขวา) ที่ได้จะประกอบด้วยผลลัพธ์ของการดําเนินการเชิงปฏิวัติทั้ง 9 รายการ

ภาพเคลื่อนไหวแสดงเมทริกซ์ 2 รายการ ใ
          เมทริกซ์ที่สองคือเมทริกซ์ 3x3:
          [[181,303,618], [115,338,605], [169,351,560]]
          เมทริกซ์ที่สองจะคํานวณโดยใช้ตัวกรองแบบ Convolution [[0, 1, 0], [1, 0, 1], [0, 1, 0]] ในชุดข้อมูลย่อยขนาด 3x3 ของเมทริกซ์ขนาด 5x5

โครงข่ายประสาทเทียม

#image

โครงข่ายระบบประสาทที่เลเยอร์อย่างน้อย 1 ชั้นเป็นเลเยอร์ที่มีการปฏิวัติ เครือข่ายระบบประสาทของการปฏิวัติโดยทั่วไปประกอบด้วยเลเยอร์ต่อไปนี้บางส่วน

โครงข่ายระบบประสาทเทียมที่วิวัฒนาการประสบความสําเร็จอย่างมากในปัญหาบางประเภท เช่น การจดจํารูปภาพ

การปฏิวัติ

#image

การคํานวณทางคณิตศาสตร์สองขั้นตอนต่อไปนี้

  1. การคูณตัวกรองการปฏิวัติและชิ้นส่วนของเมทริกซ์อินพุตที่อิงตามองค์ประกอบ (ส่วนของเมทริกซ์อินพุตมีอันดับและขนาดเท่ากับตัวกรองการปฏิวัติ)
  2. การรวมค่าทั้งหมดในเมทริกซ์ผลลัพธ์ของผลิตภัณฑ์

ตัวอย่างเช่น พิจารณาเมทริกซ์อินพุตขนาด 5x5 ต่อไปนี้

เมทริกซ์ขนาด 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [11,41,7

คราวนี้ลองนึกถึงตัวกรองแบบ Convolution ขนาด 2x2 ต่อไปนี้

เมทริกซ์ขนาด 2x2: [[1, 0], [0, 1]]

การดําเนินการแบบ Convolution แต่ละแบบจะมีเมทริกซ์อินพุตขนาด 2x2 เพียงส่วนเดียว ตัวอย่างเช่น สมมติว่าเราใช้ส่วนแบ่ง 2x2 ที่ด้านซ้ายบนของเมทริกซ์อินพุต การปฏิวัติบนชิ้นส่วนนี้ มีลักษณะดังนี้

การใช้ตัวกรองการปฏิวัติ [[1, 0], [0, 1]] กับส่วน 2x2 ด้านซ้ายบนของเมทริกซ์อินพุต ซึ่งก็คือ [[128,97], [35,22]]
          แผ่นกรองแบบ Convolution จะยังเก็บสภาพพื้นผิวแบบ 128 และ 22 ไว้เช่นเดิม แต่ 07 และ 35 จะมีค่าเป็นศูนย์ ดังนั้น การปฏิวัติจึงทําให้ได้ค่า 150 (128+22)

เลเยอร์การปฏิวัติประกอบด้วยชุดของการดําเนินงานการปฏิวัติ ซึ่งแต่ละส่วนจะอยู่บนเมทริกซ์อินพุตที่แตกต่างกัน

D

ส่วนเสริมข้อมูล

#image

เพิ่มช่วงและตัวอย่างของการฝึกที่ไม่ได้เกิดขึ้นจริงโดยการเปลี่ยนตัวอย่างที่มีอยู่เพื่อสร้างตัวอย่างเพิ่มเติม เช่น สมมติว่ารูปภาพเป็นหนึ่งในฟีเจอร์ แต่ชุดข้อมูลมีตัวอย่างรูปภาพไม่เพียงพอสําหรับโมเดลเพื่อเรียนรู้การเชื่อมโยงที่เป็นประโยชน์ โดยหลักการแล้ว คุณควรเพิ่มรูปภาพที่ติดป้ายกํากับให้เพียงพอกับชุดข้อมูลเพื่อให้โมเดลฝึกได้อย่างถูกต้อง หากเป็นไปไม่ได้ การเสริมข้อมูล อาจหมุน ยืด และสะท้อนแต่ละภาพเพื่อสร้างรูปแบบต่างๆ ของ รูปภาพต้นฉบับ ซึ่งอาจให้ข้อมูลที่ติดป้ายกํากับเพียงพอสําหรับการฝึกที่ยอดเยี่ยม

โครงข่ายระบบประสาทเทียมที่ปลูกฝังได้ลึก (sepCNN)

#image

โครงข่ายระบบประสาทเทียมแบบคอนเวนชัน อิงตามโครงสร้างแนวคิด แต่แทนที่โมดูล Inception ด้วยคอนโทรลเลอร์ที่แยกแยะได้เชิงลึก หรือที่เรียกว่า Xception

การปฏิวัติที่แบ่งกลุ่มได้ลึกซึ้งยิ่งขึ้น (หรือเรียกสั้นๆ ว่า "การปฏิวัติแยกจากกัน") ก็ได้

ดูข้อมูลเพิ่มเติมได้ที่ Xception: Deep Learning with Depthwei Separable Convolutions

การสุ่มตัวอย่าง

#image

คําที่มากเกินไปซึ่งมีความหมายอย่างใดอย่างหนึ่งต่อไปนี้

  • การลดปริมาณข้อมูลในฟีเจอร์เพื่อให้ฝึกโมเดลได้อย่างมีประสิทธิภาพมากขึ้น เช่น ก่อนฝึกโมเดลการจดจํารูปภาพ ให้ลดขนาดรูปภาพความละเอียดสูงลงเป็นรูปแบบความละเอียดต่ํากว่า
  • การฝึกในตัวอย่างแบบclass ซึ่งถือว่าไม่สัดส่วนสูงเกินเกณฑ์ เพื่อปรับปรุงการฝึกโมเดลในคลาสที่ด้อยโอกาส เช่น ในชุดข้อมูลที่ไม่สมดุล โมเดลมีแนวโน้มที่จะเรียนรู้เกี่ยวกับคลาสส่วนใหญ่มากพอและไม่เพียงพอเกี่ยวกับคลาสย่อย การสุ่มตัวอย่างช่วยลด ความสมดุลของการฝึกอบรมทั้งในชั้นเรียนชนชั้นสูงและชนกลุ่มน้อย

I

การจดจำรูปภาพ

#image

กระบวนการจัดประเภทออบเจ็กต์ รูปแบบ หรือแนวคิดในรูปภาพ การจดจํารูปภาพเรียกอีกอย่างว่าการแยกประเภทรูปภาพ

ดูข้อมูลเพิ่มเติมได้ที่หลักเกณฑ์ ML: การจัดประเภทรูปภาพ

ทางแยกข้ามสหภาพ (IoU)

#image

จุดตัดของ 2 ชุดหารด้วยการรวมสหภาพ ในงานตรวจจับรูปภาพโดยใช้ IoU เพื่อวัดความแม่นยําของกรอบขอบเขตของโมเดลที่คาดการณ์ไว้ตามกรอบขอบเขตข้อมูลจากการสังเกตการณ์ ในกรณีนี้ IoU ของทั้ง 2 ช่องคืออัตราส่วนระหว่างพื้นที่ที่ทับซ้อนกันกับพื้นที่ทั้งหมด และค่าในช่วงมีตั้งแต่ 0 (ไม่มีการทับซ้อนของกรอบล้อมรอบกับกรอบที่ได้จากการสังเกตการณ์) ไปจนถึง 1 (ช่องขอบเขตที่คาดการณ์ไว้กับกรอบขอบเขตจริงที่คาดการณ์ไว้มีพิกัดเหมือนกันทุกประการ)

ตัวอย่างเช่น ในภาพด้านล่าง

  • กรอบล้อมรอบ (พิกัดที่คั่นด้วยพิกัดที่โมเดลตารางแสดงภาพวาดอยู่) แสดงเป็นสีม่วง
  • กรอบล้อมรอบจากพื้น (พิกัดที่คั่นด้วยตารางจริงในภาพวาด) จะเป็นสีเขียว

ภาพวาดของ Van Gogh 'Vincent'sห้องนอนใน Arles' มีกรอบล้อมรอบ 2 กล่องอยู่รอบๆ โต๊ะข้างเตียง ช่องกรอบที่เป็นรูปกรวย (สีเขียว) รอบตารางกลางคืนได้อย่างสมบูรณ์แบบ ช่องที่ล้อมรอบสีม่วง (สีม่วง) จะได้รับการปรับลดลง 50% และอยู่ทางด้านขวาของกรอบล้อมรอบจากพื้น ซึ่งล้อมรอบไตรมาสด้านขวาล่างของตารางกลางคืน แต่จะไม่พลาดส่วนที่เหลือของตาราง

ในที่นี้ ทางแยกของกรอบล้อมรอบสําหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างซ้าย) คือ 1 และการรวมขอบเขตของขอบเขตสําหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์ (ด้านล่างขวา) คือ 7 ดังนั้น IoU เท่ากับ \(\frac{1}{7}\)

รูปภาพเดียวกันกับด้านบน แต่มีกรอบล้อมรอบแต่ละกล่องแบ่งออกเป็น 4 ส่วน พื้นที่รวม 4 ส่วนคือ 4 เหลี่ยมจากด้านล่างขวาของกรอบกรอบโลกและ 4 ส่วนด้านบนซ้ายของกรอบล้อมรอบที่คาดการณ์ไว้ ส่วนที่ทับซ้อนกันนี้ (ไฮไลต์เป็นสีเขียว) แสดงถึงสี่แยกและมีพื้นที่ 1 รูปภาพเดียวกันกับด้านบน แต่มีกรอบล้อมรอบแต่ละกล่องแบ่งออกเป็น 4 ส่วน พื้นที่รวม 4 ส่วนคือ 4 เหลี่ยมจากด้านล่างขวาของกรอบกรอบโลกและ 4 ส่วนด้านบนซ้ายของกรอบล้อมรอบที่คาดการณ์ไว้
          ภายในทั้ง 2 ด้านที่ล้อมรอบด้วยกรอบล้อมรอบ (เน้นด้วยสีเขียว) หมายถึงสหภาพและมีพื้นที่ 7 ส่วน

K

ประเด็นสําคัญ

#image

พิกัดของฟีเจอร์หนึ่งๆ ในรูปภาพ ตัวอย่างเช่น สําหรับโมเดลการจดจํารูปภาพที่แยกแยะพันธุ์ดอกไม้ได้ คีย์พอยต์อาจเป็นจุดศูนย์กลางของกลีบดอกไม้ ต้นกําเนิด สัญชาติ และอื่นๆ

L

จุดสังเกต

#image

คําพ้องความหมายสําหรับคีย์พอยต์

M

เข้าถึง

#image

ชุดข้อมูลสาธารณสมบัติที่รวบรวมข้อมูลโดย LeCun, Cortes และ Burges ที่มีรูปภาพ 60,000 ภาพ แต่ละภาพแสดงให้เห็นว่ามนุษย์เขียนตัวเลขหนึ่งๆ ตั้งแต่ 0-9 ด้วยตนเองอย่างไร รูปภาพแต่ละรูปจะจัดเก็บเป็นอาร์เรย์ขนาด 28x28 ซึ่งจํานวนเต็มแต่ละตัวมีค่าสีเทาระหว่าง 0 ถึง 255

MNIST คือชุดข้อมูล Canonical สําหรับแมชชีนเลิร์นนิง มักใช้เพื่อทดสอบแนวทางใหม่ของแมชชีนเลิร์นนิง ดูรายละเอียดได้ที่ ฐานข้อมูล MNIST ของตัวเลขที่เขียนด้วยลายมือ

P

การพูล

#image

ลดเมทริกซ์ (หรือเมทริกซ์) ที่สร้างโดยเลเยอร์การปฏิวัติเป็นเมทริกซ์ขนาดเล็ก การดึงกลุ่มร่วมกันมักประกอบด้วยการนําค่าสูงสุดหรือ ค่าเฉลี่ยมารวมในพื้นที่ร่วม ตัวอย่างเช่น สมมติว่าเรามี เมทริกซ์ขนาด 3x3 ต่อไปนี้

เมทริกซ์ 3x3 [[5,3,1], [8,2,5], [9,4,3]]

การพูลเหมือนการปฏิวัติวิธีหนึ่งคือแบ่งเมทริกซ์ดังกล่าวออกเป็นชิ้นส่วน จากนั้นจึงเลื่อนการดําเนินการปฏิวัติดังกล่าวตามขั้นตอน เช่น สมมติว่าการพูล แบ่งเมทริกซ์การปฏิวัติเป็นชิ้นส่วน 2x2 ด้วยการเดิน 1x1 ครั้ง ตามแผนภาพต่อไปนี้ การดําเนินการกลุ่ม 4 รายการจะเกิดขึ้น ลองนึกว่าการดําเนินการรวมแต่ละรายการจะเลือกค่าสูงสุดของ 4 ตําแหน่งในชิ้นส่วนนั้น ดังนี้

เมทริกซ์อินพุตคือ 3x3 ที่มีค่า [[5,3,1], [8,2,5], [9,4,3]]
          เมทริกซ์ย่อย 2x2 ด้านซ้ายบนของเมทริกซ์อินพุตคือ [[5,3], [8,2]] ดังนั้น การดําเนินการรวมด้านซ้ายบนจะให้ค่า 8 (ซึ่งก็คือสูงสุด 5, 3, 8 และ 2) เมทริกซ์ย่อย 2x2 ที่ด้านขวาบนของเมทริกซ์อินพุตคือ [[3,1], [2,5]] ดังนั้น การดําเนินการรวมด้านขวาบนจะให้ค่า 5 เมทริกซ์ย่อย 2x2 ที่ด้านซ้ายล่างของเมทริกซ์อินพุตคือ [[8,2], [9,4]] ดังนั้น การดําเนินการรวมด้านล่างซ้ายจึงเป็นค่า 9  เมทริกซ์ย่อย 2x2 ด้านขวาล่างของเมทริกซ์อินพุตคือ [[2,5], [4,3]] ดังนั้น การพูลด้านขวาล่างก็จะให้ค่า
 5  กล่าวโดยสรุปคือ การดําเนินกลุ่มจะได้ผลลัพธ์เป็นเมทริกซ์ขนาด 2x2
          [[8,5], [9,5]]

การพูลช่วยบังคับใช้ความแปรปรวนระหว่างคําในเมทริกซ์อินพุต

การประยุกต์ใช้สําหรับการประยุกต์ใช้การมองเห็นเป็นที่รู้จักกันโดยทั่วไปว่าการรวมกลุ่มพื้นที่ โดยปกติ แอปพลิเคชันอนุกรมเวลามักจะเรียกรวมกันว่าการรวมชั่วคราว โดยปกติการมีชื่อชั่วคราวมักจะเรียกว่าการสุ่มตัวอย่างหรือการสุ่มตัวอย่าง

R

ความแปรปรวนแบบหมุน

#image

ในปัญหาด้านการแยกประเภทรูปภาพ อัลกอริทึมจะจําแนกประเภทรูปภาพได้สําเร็จแม้ในขณะที่การวางแนวรูปภาพมีการเปลี่ยนแปลง ตัวอย่างเช่น อัลกอริทึมจะยังคงสามารถระบุไม้เทนนิสที่ ไม่ว่าจะเลื่อนขึ้น ด้านข้าง หรือลง โปรดทราบว่ารูปแบบที่หมุนอาจไม่เป็นที่ต้องการเสมอไป เช่น กลับด้าน 9 ไม่ควรจัดเป็น 9

รวมถึงดูความแปรปรวนระหว่างความหมายและ ความแปรปรวนของขนาด

ความแปรปรวนของขนาด

#image

ในปัญหาด้านการแยกประเภทรูปภาพ อัลกอริทึมจะจําแนกประเภทรูปภาพได้สําเร็จแม้ว่าจะมีการเปลี่ยนแปลงขนาดรูปภาพก็ตาม เช่น อัลกอริทึมจะยังคงระบุว่าแมวใช้พิกเซล 2 ล้านพิกเซลหรือ 200,000 พิกเซลอยู่ โปรดทราบว่าแม้แต่อัลกอริทึมการจัดประเภทรูปภาพที่ดีที่สุดก็ยังมีขีดจํากัดด้านความผันแปรของขนาดที่ใช้ได้จริง เช่น อัลกอริทึม (หรือมนุษย์) มักจัดกลุ่มรูปภาพแมวอย่างถูกต้องโดยใช้เพียง 20 พิกเซลเท่านั้น

นอกจากนี้ โปรดดูความแปรปรวนระหว่างความหมายและความแปรปรวนแบบหมุน

การรวมกลุ่มพื้นที่

#image

ดูสระว่ายน้ํา

การก้าวเท้า

#image

ในการดําเนินการเชิงปฏิวัติหรือการรวมกลุ่ม เดลต้าในมิติข้อมูลแต่ละชุดของชิ้นส่วนอินพุตถัดไป เช่น ภาพเคลื่อนไหวต่อไปนี้แสดงให้เห็นพัฒนาการของการเคลื่อนที่ที่กะทัดรัด (1,1) ดังนั้น ชิ้นส่วนอินพุตถัดไปจะเริ่มที่ 1 ตําแหน่งทางด้านขวาของส่วนแบ่งอินพุตก่อนหน้า เมื่อไปถึงขอบด้านขวา ชิ้นส่วนถัดไปจะเลื่อนมาจนสุดด้านซ้าย

เมทริกซ์ขนาด 5x5 และตัวกรองการปฏิวัติขนาด 3x3 เนื่องจากการเดินก้าว (1,1) จะมีการใช้ตัวกรองแบบ Convolution 9 ครั้ง ชิ้นส่วนแบบ Convolution แรกจะประเมินเมทริกซ์ย่อย 3x3 ด้านซ้ายบนของเมทริกซ์อินพุต ชิ้นส่วนที่ 2 จะประเมินเมทริกซ์ย่อย 3x3 ตรงกลางด้านบน ชิ้นส่วนแบบที่ 3 ของการปฏิวัติจะประเมินชิ้นส่วนย่อย 3x3
     มุมขวาบน  ชิ้นส่วนที่ 4 จะประเมินเมทริกซ์ย่อย 3x3 ตรงกลางด้านซ้าย
     ชิ้นส่วนที่ 5 จะประเมินเมทริกซ์ย่อยขนาด 3x3 ตรงกลาง ชิ้นส่วนที่ 6 จะประเมินเมทริกซ์ย่อย 3x3 ตรงกลางด้านขวา ส่วนที่ 7 จะประเมินเมทริกซ์ย่อย 3x3 ที่ด้านซ้ายล่าง  ชิ้นส่วนที่ 8 จะประเมินเมทริกซ์ย่อย 3x3 ตรงกลางด้านล่าง ส่วนแบ่งส่วนที่ 9 จะประเมินเมทริกซ์ย่อย 3x3
     ด้านขวาล่าง

ตัวอย่างก่อนหน้านี้แสดงให้เห็นพัฒนาการแบบ 2 มิติ หากเมทริกซ์อินพุตเป็นแบบ 3 มิติ การก้าวที่ได้ก็จะเป็นแบบ 3 มิติด้วย

การติดตาม

#image

ดูสระว่ายน้ํา

ความผันแปรของการแปล

#image

ในปัญหาด้านการแยกประเภทรูปภาพ อัลกอริทึมจะจําแนกประเภทรูปภาพได้สําเร็จแม้ในขณะที่ตําแหน่งของวัตถุภายในรูปภาพมีการเปลี่ยนแปลง เช่น อัลกอริทึมยังระบุสุนัขได้ ไม่ว่าจะอยู่กลางเฟรมหรือด้านซ้ายสุดของเฟรมก็ตาม

นอกจากนี้ โปรดดูความแปรปรวนของขนาดและ ความแปรปรวนแบบหมุน