อภิธานศัพท์ของแมชชีนเลิร์นนิง: โมเดลรูปภาพ

หน้านี้มีคำศัพท์เกี่ยวกับโมเดลรูปภาพ หากต้องการดูคำศัพท์ในอภิธานศัพท์ทั้งหมด คลิกที่นี่

A

Augmented Reality

#image

เทคโนโลยีที่แทนที่รูปภาพซึ่งคอมพิวเตอร์สร้างขึ้นในมุมมองของผู้ใช้ในชีวิตจริง จึงเป็นมุมมองแบบผสม

โปรแกรมเปลี่ยนไฟล์อัตโนมัติ

#language
#image

ระบบที่เรียนรู้เพื่อดึงข้อมูลที่สำคัญที่สุดจากอินพุต โปรแกรมเปลี่ยนไฟล์อัตโนมัติเป็นการผสมผสานระหว่างโปรแกรมเปลี่ยนไฟล์และโปรแกรมถอดรหัส โปรแกรมเปลี่ยนไฟล์อัตโนมัติมีกระบวนการ 2 ขั้นตอนดังนี้

  1. โปรแกรมเปลี่ยนไฟล์จะแมปอินพุตกับรูปแบบ (ทั่วไป) แบบสูญเสียช่วงมิติ (ระดับกลาง)
  2. เครื่องมือถอดรหัสจะสร้างเวอร์ชันแบบสูญเสียข้อมูลอินพุตต้นฉบับโดยการแมปรูปแบบมิติข้อมูลที่ต่ำกว่าเข้ากับรูปแบบอินพุตที่มีมิติข้อมูลสูงกว่าแบบเดิม

โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะได้รับการฝึกจากต้นทางถึงปลายทางโดยให้เครื่องมือถอดรหัสพยายามสร้างอินพุตเดิมใหม่จากรูปแบบระดับกลางของโปรแกรมเปลี่ยนไฟล์ให้ใกล้เคียงที่สุด เนื่องจากรูปแบบระดับกลางมีขนาดเล็กกว่า (มีมิติต่ำกว่า) รูปแบบเดิม ตัวเข้ารหัสอัตโนมัติจึงถูกบังคับให้ศึกษาว่าข้อมูลใดในอินพุตเป็นข้อมูลที่สำคัญ และเอาต์พุตที่ได้จะไม่เหมือนกับอินพุตที่โดยสมบูรณ์

เช่น

  • หากข้อมูลอินพุตเป็นกราฟิก สำเนาที่ไม่ตรงทั้งหมดจะคล้ายกับกราฟิกต้นฉบับ แต่ได้รับการแก้ไขบ้าง สำเนาที่ไม่ใช่แบบตรงกันทั้งหมดอาจนำสัญญาณรบกวนออกจากกราฟิกต้นฉบับหรือเติมเต็มพิกเซลที่หายไปบางส่วน
  • หากข้อมูลอินพุตเป็นข้อความ โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะสร้างข้อความใหม่ที่เลียนแบบ (แต่ไม่เหมือนกับ) ข้อความต้นฉบับ

ดูข้อมูลเพิ่มเติมได้ในเครื่องมือเข้ารหัสอัตโนมัติรูปแบบต่างๆ

รูปแบบถดถอยอัตโนมัติ

#language
#image
#GenerativeAI

modelที่อนุมานการคาดการณ์จากการคาดคะเนก่อนหน้านี้ของตัวมันเอง ตัวอย่างเช่น โมเดลภาษาที่ถดถอยอัตโนมัติจะคาดการณ์โทเค็นถัดไปโดยอิงตามโทเค็นที่คาดการณ์ไว้ก่อนหน้านี้ โมเดลภาษาขนาดใหญ่ทั้งหมดที่อิงตาม Transformer จะถดถอยโดยอัตโนมัติ

ในทางตรงกันข้าม โมเดลรูปภาพแบบ GAN มักจะไม่ถดถอยอัตโนมัติเพราะสร้างรูปภาพผ่านการส่งต่อรายการเดียวและไม่เกิดซ้ำในขั้นตอน แต่โมเดลการสร้างรูปภาพบางโมเดลจะทำงานแบบถดถอยอัตโนมัติเนื่องจากสร้างรูปภาพในขั้นตอน

B

กรอบล้อมรอบ

#image

ในรูปภาพ พิกัด (x, y) ของสี่เหลี่ยมรอบพื้นที่ที่สนใจ เช่น สุนัขในรูปภาพด้านล่าง

ภาพถ่ายสุนัขนั่งบนโซฟา กล่องล้อมรอบสีเขียวที่มีพิกัดด้านบนซ้ายของ (275, 1271) และพิกัดด้านล่างขวาของ (2954, 2761) วาดรอบร่างกายของสุนัข

C

Convolution

#image

ในทางคณิตศาสตร์ พูดง่ายๆ เป็นการผสมผสาน 2 ฟังก์ชันเข้าด้วยกัน ในแมชชีนเลิร์นนิง คอนโวลูชันจะผสมตัวกรองคอนโวลูชันและเมทริกซ์อินพุตเพื่อฝึกน้ำหนัก

คำว่า "คอนโวลูชัน (convolution)" ในแมชชีนเลิร์นนิงมักจะเป็นคำสั้นๆ ที่หมายถึงกระบวนการสร้างคอนโวลูชันหรือเลเยอร์คอนโวลูชัน

หากไม่มีคอนโวลูชัน (Convolutions) อัลกอริทึมของแมชชีนเลิร์นนิงจะต้องเรียนรู้น้ำหนักแยกของแต่ละเซลล์ใน tensor ขนาดใหญ่ เช่น การฝึกอัลกอริทึมแมชชีนเลิร์นนิงในรูปภาพขนาด 2K x 2K จะถูกบังคับให้ค้นหาน้ำหนักแยกกัน 4 ล้านครั้ง ด้วยคอนโวลูชัน อัลกอริทึมของแมชชีนเลิร์นนิงจะต้องหาน้ำหนักของแต่ละเซลล์ในตัวกรอง Convolutional เท่านั้น ซึ่งช่วยลดหน่วยความจำที่ต้องใช้ในการฝึกโมเดลได้อย่างมาก เมื่อใช้ตัวกรองคอนโวลูชัน ระบบจะจำลองข้อมูลข้ามเซลล์โดยนำแต่ละเซลล์คูณด้วยตัวกรอง

ฟิลเตอร์ Convolutional

#image

หนึ่งในนักแสดง 2 คนในปฏิบัติการเชิงปฏิวัติ (ตัวดำเนินการอีกตัวหนึ่งคือ ชิ้นส่วนของเมทริกซ์อินพุต) ตัวกรอง Convolutional คือเมทริกซ์ที่มีอันดับเดียวกับเมทริกซ์อินพุต แต่มีรูปร่างเล็กกว่า ตัวอย่างเช่น ในเมทริกซ์อินพุต 28x28 ตัวกรองอาจเป็นเมทริกซ์ 2 มิติที่มีขนาดเล็กกว่า 28x28 ได้

ในการชักจูงภาพถ่าย เซลล์ทั้งหมดในตัวกรองแบบคอนโวลูชัน (Convolutional filter) มักจะมีการตั้งค่าเป็นรูปแบบคงที่ของจำนวนเลข 0 กับ 0 ในแมชชีนเลิร์นนิง ตัวกรองคอนโวลูชันมักจะได้รับการตั้งต้นด้วยตัวเลขแบบสุ่ม จากนั้นเครือข่ายจะฝึกค่าที่เหมาะสม

เลเยอร์ Convolutional

#image

ชั้นของโครงข่ายประสาทแบบลึกซึ่งตัวกรองคอนโวลูชันส่งผ่านเมทริกซ์อินพุต ตัวอย่างเช่น ลองพิจารณาตัวกรอง Convolution ขนาด 3x3 ต่อไปนี้

เมทริกซ์ 3x3 ที่มีค่าต่อไปนี้ [[0,1,0], [1,0,1], [0,1,0]]

ภาพเคลื่อนไหวต่อไปนี้แสดงเลเยอร์ Convolutional ที่ประกอบด้วย การดำเนินการแบบ Convolutional 9 รายการที่เกี่ยวข้องกับเมทริกซ์อินพุต 5x5 โปรดสังเกตว่าการดำเนินการคอนโวลูชันแต่ละรายการจะทำงานบนเมทริกซ์อินพุตขนาด 3x3 ส่วนที่แตกต่างกัน เมทริกซ์ 3x3 ที่ได้ (ทางด้านขวา) ประกอบด้วยผลลัพธ์ของการดำเนินการแปลง 9 รายการ ได้แก่

ภาพเคลื่อนไหวแสดงเมทริกซ์ 2 เมทริกซ์ เมทริกซ์แรกคือเมทริกซ์ 5x5: [[128,97,53,201,198], [35,22,25,200,195],
 [37,24,28,197,182], [33,28,92,195,179], [33,28,92,195,179]
          เมทริกซ์ที่ 2 คือเมทริกซ์ 3x3: [[181,303,618], [115,338,605], [169,351,560]]
          เมทริกซ์ที่สองคำนวณโดยใช้ตัวกรอง Convolutional [[0, 1, 0], [1, 0, 1], [0, 1, 0]] ในชุดย่อย 3x3 ต่างๆ ของเมทริกซ์ 5x5

โครงข่ายระบบประสาทเทียมแบบ Convolutional

#image

โครงข่ายระบบประสาทที่มีเลเยอร์อย่างน้อย 1 ชั้นเป็นเลเยอร์คอนโวลูชัน โครงข่ายระบบประสาทเทียมทั่วไปประกอบด้วยเลเยอร์ต่อไปนี้ร่วมกัน

โครงข่ายประสาทแบบ Convolutional ประสบความสำเร็จอย่างมากในปัญหาบางประเภท เช่น การจดจำภาพ

ปฏิบัติการของคอนโวลูชัน

#image

การคำนวณทางคณิตศาสตร์ 2 ขั้นตอนดังต่อไปนี้

  1. การคูณตัวกรอง Convolutional ตามองค์ประกอบขององค์ประกอบ และส่วนของเมทริกซ์อินพุต (ส่วนของเมทริกซ์อินพุตมีอันดับและขนาดเท่ากับตัวกรองแบบ Convolutional)
  2. การรวมค่าทั้งหมดในเมทริกซ์ผลิตภัณฑ์ที่เป็นผลลัพธ์

ตัวอย่างเช่น ลองพิจารณาเมทริกซ์อินพุต 5x5 ต่อไปนี้

เมทริกซ์ 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179],10,40,

ทีนี้ลองนึกภาพตัวกรองแบบ Convolutional ขนาด 2x2 ต่อไปนี้

เมทริกซ์ 2x2: [[1, 0], [0, 1]]

การดำเนินการแบบ Convolutional แต่ละครั้งจะใช้เมทริกซ์อินพุตขนาด 2x2 ชิ้นเดียว ตัวอย่างเช่น สมมติว่าเราใช้ส่วน 2x2 ที่ด้านซ้ายบนของเมทริกซ์อินพุต ดังนั้นการดำเนินการคอนโวลูชัน บนสไลซ์นี้มีลักษณะดังนี้

ใช้ตัวกรอง Convolutional [[1, 0], [0, 1]] กับส่วน 2x2 ด้านซ้ายบนของเมทริกซ์อินพุต ซึ่งก็คือ [[128,97], [35,22]]
          ตัวกรอง Convolutional ใส่ค่า 128 และ 22 ไว้ตามเดิม แต่ไม่รวมเลข 97 และ 35 ดังนั้น การดำเนินการคอนโวลูชันจะให้ค่า 150 (128+22)

เลเยอร์ Convolutional ประกอบด้วยชุดการดำเนินการแบบ Convolutional โดยแต่ละชุดจะดำเนินการกับเมทริกซ์อินพุตส่วนต่างๆ

D

การเสริมข้อมูล

#image

การบูสต์ช่วงและจำนวนตัวอย่างของการฝึกด้วยการเปลี่ยนรูปแบบตัวอย่างที่มีอยู่เพื่อสร้างตัวอย่างเพิ่มเติม ตัวอย่างเช่น สมมติว่ารูปภาพเป็นหนึ่งในฟีเจอร์ของคุณ แต่ชุดข้อมูลมีตัวอย่างรูปภาพไม่เพียงพอสำหรับโมเดลที่จะเรียนรู้การเชื่อมโยงที่เป็นประโยชน์ ตามหลักการ คุณควรเพิ่มรูปภาพที่ติดป้ายกำกับลงในชุดข้อมูลให้เพียงพอเพื่อให้โมเดลฝึกได้อย่างถูกต้อง ถ้าทำไม่ได้ การเพิ่มข้อมูลสามารถหมุน ขยาย และสะท้อนภาพแต่ละภาพเพื่อสร้างตัวแปรที่หลากหลายของภาพต้นฉบับ ซึ่งอาจให้ข้อมูลที่มีป้ายกำกับมากพอที่จะทำการฝึกอบรมที่ยอดเยี่ยมได้

โครงข่ายระบบประสาทเทียมแบบ Convolutional แบบ Deepwise (sepCNN)

#image

สถาปัตยกรรมโครงข่ายระบบประสาทเทียมที่อิงตาม Inception แต่แทนที่โมดูล Inception ด้วยการสนทนาที่แยกจากกันได้ในระดับลึก หรือที่เรียกว่า Xception

คอนโวลูชันที่แยกส่วนได้ในระดับลึก (หรือย่อมาจาก สัมปฏิวัติที่แยกได้) จะประกอบการแปลง 3 มิติมาตรฐานเป็นการดำเนินการคอนโวลูชันที่แยกกัน 2 รายการ ซึ่งมีประสิทธิภาพในการคำนวณมากกว่า แรก คอนโวลูชันแบบลึก (ความลึก) ที่มีความลึก 1 (n Wednesday n ในลักษณะนี้ 1) และครั้งที่ 2 เท่ากับ 1 คอนโวลูชันแบบ 1 จุด (ความยาวและความกว้าง 1 n)

ดูข้อมูลเพิ่มเติมได้ที่ Xception: Deep Learning with Depthwise Separable Convolutions

การสุ่มกลุ่มตัวอย่าง

#image

คำที่มากเกินไปซึ่งอาจมีความหมายอย่างใดอย่างหนึ่งต่อไปนี้

  • ลดจำนวนข้อมูลในฟีเจอร์เพื่อฝึกโมเดลได้อย่างมีประสิทธิภาพมากขึ้น ตัวอย่างเช่น ก่อนฝึกโมเดลการจดจำรูปภาพ ให้ลดขนาดรูปภาพที่มีความละเอียดสูงให้เป็นรูปแบบที่มีความละเอียดต่ำลง
  • การฝึกกับตัวอย่างในชั้นเรียนที่มีเปอร์เซ็นต์ต่ำอย่างไม่สมส่วน เพื่อปรับปรุงการฝึกโมเดลในคลาสที่มีตัวแทนน้อยเกินไป ตัวอย่างเช่น ในชุดข้อมูลที่ไม่สมดุลระหว่างคลาส โมเดลมักจะเรียนรู้เกี่ยวกับกลุ่มส่วนใหญ่ได้มากมาย และยังไม่เพียงพอเกี่ยวกับชนกลุ่มน้อย การสุ่มเนื้อหาช่วยสร้างความสมดุลระหว่าง ปริมาณการฝึกอบรมกับชั้นเรียนส่วนใหญ่และชนกลุ่มน้อย

F

การปรับแต่ง

#language
#image
#GenerativeAI

บัตรผ่านการฝึกเฉพาะงานรายการที่ 2 ที่ดำเนินการในโมเดลที่ฝึกล่วงหน้าเพื่อปรับแต่งพารามิเตอร์สำหรับ Use Case ที่เฉพาะเจาะจง ตัวอย่างเช่น ลำดับการฝึกแบบเต็มสำหรับโมเดลภาษาขนาดใหญ่บางโมเดลมีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลภาษาขนาดใหญ่ในชุดข้อมูลทั่วไปขนาดใหญ่ เช่น หน้า Wikipedia ภาษาอังกฤษทุกหน้า
  2. การปรับแต่ง: ฝึกโมเดลที่ฝึกล่วงหน้าให้ทำงานแบบเจาะจง เช่น การตอบคำถามทางการแพทย์ การปรับแต่งโดยทั่วไปจะมีตัวอย่างหลายร้อยหรือหลายพันตัวอย่างที่มุ่งเน้นงานนั้นๆ

อีกตัวอย่างหนึ่ง ลำดับการฝึกทั้งหมดสำหรับโมเดลรูปภาพขนาดใหญ่มีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลรูปภาพขนาดใหญ่บนชุดข้อมูลรูปภาพทั่วไปขนาดใหญ่ เช่น รูปภาพทั้งหมดใน Wikimedia Common
  2. การปรับแต่ง: ฝึกโมเดลที่ฝึกล่วงหน้าให้ทำงานแบบเจาะจง เช่น การสร้างรูปภาพวาฬเพชฌฆาต

การปรับแต่งอาจทำให้เกิดชุดค่าผสมของกลยุทธ์ต่อไปนี้

  • กำลังแก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลที่ฝึกล่วงหน้าทั้งหมด ซึ่งในบางครั้งเรียกว่าการปรับแต่งทั้งหมด
  • แก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลที่ฝึกล่วงหน้าบางส่วนเท่านั้น (โดยทั่วไปคือเลเยอร์ที่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด) โดยไม่เปลี่ยนแปลงพารามิเตอร์อื่นๆ ที่มีอยู่ (โดยทั่วไปจะเป็นเลเยอร์ที่ใกล้กับเลเยอร์อินพุตมากที่สุด) ดู การปรับแต่งแบบมีประสิทธิภาพพารามิเตอร์
  • การเพิ่มเลเยอร์ ซึ่งโดยปกติจะอยู่ที่ด้านบนของเลเยอร์ที่มีอยู่ซึ่งอยู่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด

การปรับแต่งเป็นรูปแบบของการเรียนรู้แบบถ่ายโอน ดังนั้น การปรับแต่งอาจใช้ฟังก์ชันการสูญเสียข้อมูลหรือโมเดลประเภทอื่นที่ต่างจากที่ใช้ในการฝึกโมเดลที่ฝึกล่วงหน้า เช่น ปรับแต่งโมเดลอิมเมจขนาดใหญ่ที่ฝึกล่วงหน้าเพื่อสร้างโมเดลการถดถอยที่แสดงผลลัพธ์จำนวนนกในอิมเมจอินพุต

เปรียบเทียบการปรับแต่งอย่างละเอียดกับข้อความต่อไปนี้

G

Generative AI

#language
#image
#GenerativeAI

คือสาขาที่สามารถเปลี่ยนแปลงรูปแบบใหม่ๆ ซึ่งไม่มีคำจำกัดความที่เป็นทางการ อย่างไรก็ตาม ผู้เชี่ยวชาญส่วนใหญ่เห็นด้วยว่าโมเดล Generative AI สามารถสร้าง ("สร้าง") เนื้อหาที่มีลักษณะดังต่อไปนี้ได้

  • ซับซ้อน
  • สอดคล้องกัน
  • เดิม

ตัวอย่างเช่น โมเดล Generative AI สามารถสร้างเรียงความหรือรูปภาพที่ซับซ้อนได้

เทคโนโลยีรุ่นก่อนๆ เช่น LSTM และ RNN สามารถสร้างเนื้อหาต้นฉบับที่สอดคล้องและเหมือนกันได้ด้วย ผู้เชี่ยวชาญบางคนมองว่าเทคโนโลยียุคก่อนเหล่านี้เป็น Generative AI ในขณะที่บางคนรู้สึกว่า Generative AI ที่แท้จริงต้องการผลลัพธ์ที่ซับซ้อนกว่าเทคโนโลยีแรกๆ ที่เทคโนโลยีเหล่านี้ทำได้

คอนทราสต์กับ ML แบบคาดการณ์

I

การรู้จำรูปภาพ

#image

กระบวนการที่จัดประเภทออบเจ็กต์ รูปแบบ หรือแนวคิดในรูปภาพ การรู้จำรูปภาพเรียกอีกอย่างว่าการจัดประเภทรูปภาพ

ดูข้อมูลเพิ่มเติมได้ที่ ML Practicum: Image Classification

สี่แยก (IoU)

#image

จุดตัดของ 2 เซตหารด้วยสหภาพ ในงานตรวจจับรูปภาพของแมชชีนเลิร์นนิง ระบบจะใช้ IoU เพื่อวัดความแม่นยำของกรอบล้อมรอบของโมเดล เทียบกับกรอบล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรง ในกรณีนี้ IoU สำหรับทั้ง 2 ช่องคืออัตราส่วนระหว่างพื้นที่ที่ทับซ้อนและพื้นที่ทั้งหมด และค่าจะเป็นช่วงจาก 0 (ไม่มีการทับซ้อนของกรอบล้อมรอบและกรอบความจริงใจที่คาดคะเนไว้) ต่อ 1 (กรอบล้อมรอบที่คาดการณ์ไว้และกล่องขอบเขตความเป็นจริงบนพื้นโลกมีพิกัดเดียวกันทุกประการ)

ดูตัวอย่างในรูปภาพด้านล่าง

  • กรอบล้อมรอบที่คาดคะเน (พิกัดคั่นตำแหน่งที่โมเดลคาดการณ์ตารางกลางคืนในภาพวาด) จะมีเส้นขอบเป็นสีม่วง
  • กรอบล้อมรอบความจริง (พิกัดที่แยกตำแหน่งของโต๊ะกลางคืนในภาพวาด) แสดงเส้นขอบเป็นสีเขียว

ภาพวาดของแวนโก๊ะห้องนอนของวินเซนต์ในอาร์ลส์โดยมีกรอบล้อมรอบ 2 กรอบล้อมรอบโต๊ะสำหรับกลางคืนข้างเตียง กรอบข้อมูลความเป็นจริงบนพื้นดิน (สีเขียว) ช่วยตีกรอบโต๊ะยามค่ำคืนได้อย่างลงตัว กรอบล้อมรอบที่คาดการณ์ (สีม่วง) จะมีออฟเซ็ต 50% ลงด้านล่างและทางด้านขวาของกรอบล้อมรอบข้อมูลที่ระบุว่าเป็นความจริง ซึ่งจะปิดพื้นที่ 1 ใน 4 ด้านล่างขวาของตารางตอนกลางคืน แต่ไม่เห็นส่วนที่เหลือของตาราง

ตรงนี้ อินเตอร์เซกชันของกรอบล้อมรอบสำหรับการคาดคะเนและข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างซ้าย) คือ 1 และการรวมกรอบล้อมรอบสำหรับการคาดคะเนและข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างขวา) คือ 7 ดังนั้น IoU จึงเป็น \(\frac{1}{7}\)

รูปภาพเหมือนกับด้านบน แต่กรอบล้อมรอบแต่ละกรอบจะแบ่งเป็น 4 ส่วน จตุภาคมีทั้งหมด 7 ตัว เนื่องจากจตุภาคด้านขวาล่างของกล่องขอบเขตความเป็นจริงบนพื้นดินและจตุภาคด้านซ้ายบนของกรอบล้อมรอบที่คาดการณ์ไว้จะซ้อนทับกัน ส่วนที่ซ้อนทับกัน (ไฮไลต์สีเขียว) แสดงถึงทางแยก และมีพื้นที่เท่ากับ 1 รูปภาพเหมือนกับด้านบน แต่กรอบล้อมรอบแต่ละกรอบจะแบ่งเป็น 4 ส่วน จตุภาคมีทั้งหมด 7 ตัว เนื่องจากจตุภาคด้านขวาล่างของกล่องขอบเขตความเป็นจริงบนพื้นดินและจตุภาคด้านซ้ายบนของกรอบล้อมรอบที่คาดการณ์ไว้จะซ้อนทับกัน
          ด้านในทั้งด้านที่ล้อมรอบด้วยกรอบล้อมรอบทั้ง 2 กรอบ (ไฮไลต์สีเขียว) แสดงถึงความเป็นอันหนึ่งอันเดียวกัน และมีพื้นที่ 7

K

ประเด็นสำคัญ

#image

พิกัดของจุดสนใจหนึ่งๆ ในรูปภาพ เช่น สำหรับโมเดลการจดจำรูปภาพที่ช่วยจำแนกดอกไม้แต่ละชนิด จุดสำคัญอาจเป็นศูนย์กลางของแต่ละกลีบ ก้าน เกสรดอกไม้ และอื่นๆ

L

จุดสังเกต

#image

คำพ้องความหมายของ keypoints

M

MNIST

#image

ชุดข้อมูลสาธารณสมบัติที่รวบรวมโดย LeCun, Cortes และ Burges ซึ่งมีรูปภาพ 60,000 รูป แต่ละภาพแสดงให้เห็นว่ามนุษย์เขียนตัวเลขตัวเลขเฉพาะจาก 0-9 ด้วยตนเองได้อย่างไร รูปภาพแต่ละรูปจะจัดเก็บเป็นอาร์เรย์ 28x28 ของจำนวนเต็ม โดยจำนวนเต็มแต่ละรูปจะเป็นค่าโทนสีเทาระหว่าง 0 ถึง 255

MNIST คือชุดข้อมูล Canonical สำหรับแมชชีนเลิร์นนิง ซึ่งมักจะใช้ในการทดสอบวิธีการใหม่ๆ ของแมชชีนเลิร์นนิง ดูรายละเอียดได้ที่ ฐานข้อมูล MNIST ของตัวเลขที่เขียนด้วยลายมือ

คะแนน

การร่วมกลุ่ม

#image

การลดเมทริกซ์ (หรือเมทริกซ์) ที่สร้างโดยเลเยอร์คอนโวลูชันก่อนหน้านี้ลงในเมทริกซ์ที่เล็กลง โดยทั่วไปแล้ว การจัดกลุ่มจะเกี่ยวข้องกับการหาค่าสูงสุดหรือค่าเฉลี่ยทั่วทั้งพื้นที่ร่วม ตัวอย่างเช่น สมมติว่าเรามีเมทริกซ์ 3x3 ต่อไปนี้

เมทริกซ์ 3x3 [[5,3,1], [8,2,5], [9,4,3]]

การดำเนินการจัดกลุ่มเช่นเดียวกับการดำเนินการแบบ Convolutional จะแบ่งเมทริกซ์ออกเป็นส่วนๆ แล้วสไลด์ที่ประกอบกันเป็นก้าว ตัวอย่างเช่น สมมติว่าการดำเนินการจัดกลุ่มแบ่งเมทริกซ์แบบ Convolutional เป็นส่วน 2x2 ด้วยจังหวะ 1x1 ดังที่เห็นแผนภาพต่อไปนี้ ได้เกิดการดำเนินการร่วม 4 รายการ สมมติว่าการดำเนินการร่วมแต่ละรายการเลือกค่าสูงสุดของ 4 ในส่วนดังกล่าว

เมทริกซ์อินพุตคือ 3x3 โดยมีค่าเป็น [[5,3,1], [8,2,5], [9,4,3]]
          เมทริกซ์ย่อย 2x2 ด้านซ้ายบนของเมทริกซ์อินพุตคือ [[5,3], [8,2]] ดังนั้น การดำเนินการจัดกลุ่มด้านซ้ายบนจะให้ค่า 8 (ซึ่งเป็นจำนวนสูงสุดคือ 5, 3, 8 และ 2) เมทริกซ์ย่อย 2x2 ด้านขวาบนของเมทริกซ์อินพุตคือ [[3,1], [2,5]] ดังนั้นการดำเนินการจัดกลุ่มด้านขวาบนจึงให้ค่า 5 เมทริกซ์ย่อย 2x2 ด้านซ้ายล่างของเมทริกซ์อินพุตคือ [[8,2], [9,4]] ดังนั้น การดำเนินการจัดกลุ่มด้านซ้ายล่างจะให้ค่า 9 เมทริกซ์ย่อย 2x2 ด้านขวาล่างของเมทริกซ์อินพุตคือ [[2,5], [4,3]] ดังนั้นการดำเนินการจัดกลุ่มด้านขวาล่างจะให้ค่า 5 กล่าวโดยสรุป การดำเนินการจัดกลุ่มจะให้เมทริกซ์ 2x2 [[8,5], [9,5]]

การรวมจะช่วยบังคับใช้ความแปรปรวนของการแปลในเมทริกซ์อินพุต

การรวมกลุ่มสำหรับแอปพลิเคชันด้านการมองเห็นมีชื่อเรียกอีกอย่างว่า Spatial Collection แอปพลิเคชันอนุกรมเวลามักเรียกว่าการรวมชั่วคราว แต่อย่างเป็นทางการ การจัดกลุ่มมักจะเรียกว่าการสุ่มตัวอย่างหรือการดาวน์แซมปลิง

โมเดลก่อนการฝึก

#language
#image
#GenerativeAI

โมเดลหรือคอมโพเนนต์ของโมเดล (เช่น เวกเตอร์การฝัง) ที่ได้รับการฝึกแล้ว บางครั้งคุณจะป้อนเวกเตอร์การฝังที่ฝึกล่วงหน้าไว้ในโครงข่ายระบบประสาทเทียม แต่บางครั้งโมเดลจะฝึกเวกเตอร์การฝังเองแทนที่จะพึ่งพาการฝังที่ฝึกล่วงหน้า

คำว่าโมเดลภาษาก่อนการฝึกหมายถึงโมเดลภาษาขนาดใหญ่ที่ผ่านการฝึกล่วงหน้า

ก่อนการฝึก

#language
#image
#GenerativeAI

การฝึกเบื้องต้นของโมเดลบนชุดข้อมูลขนาดใหญ่ โมเดลก่อนการฝึกบางรุ่นเป็นยักษ์ที่งุ่มง่ามและมักต้องปรับแต่งผ่านการฝึกเพิ่มเติม เช่น ผู้เชี่ยวชาญ ML อาจฝึกโมเดลภาษาขนาดใหญ่ไว้ล่วงหน้าบนชุดข้อมูลข้อความจำนวนมาก เช่น หน้าภาษาอังกฤษทุกหน้าใน Wikipedia หลังการฝึกล่วงหน้า โมเดลผลลัพธ์อาจมีการปรับแต่งเพิ่มเติมผ่านเทคนิคต่อไปนี้

R

ความแปรปรวนการหมุน

#image

ในโจทย์การจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพได้สำเร็จแม้ว่าการวางแนวของรูปภาพจะเปลี่ยนไปก็ตาม ตัวอย่างเช่น อัลกอริทึมยังคงระบุไม้เทนนิสได้ว่าไม้ชี้ขึ้น ด้านข้าง หรือลง โปรดทราบว่าความไม่สม่ำเสมอในการหมุนนั้นไม่เป็นที่ต้องการเสมอไป ตัวอย่างเช่น การกลับหัวกลับหาง 9 ไม่ควรจัดเป็น 9

โปรดดูความแปรปรวนของการแปลค่าและความไม่แน่นอนของขนาดด้วย

S

ความแปรปรวนของขนาด

#image

ในโจทย์การจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพได้สำเร็จแม้ว่าขนาดของรูปภาพจะเปลี่ยนแปลงก็ตาม ตัวอย่างเช่น อัลกอริทึมจะยังคงระบุแมวได้ว่าจะใช้ 2 ล้านพิกเซลหรือ 200,000 พิกเซล โปรดทราบว่าแม้แต่อัลกอริทึมการจัดประเภทรูปภาพที่ดีที่สุดก็ยังคงมีข้อจำกัดในทางปฏิบัติเกี่ยวกับความไม่แน่นอนของขนาด เช่น อัลกอริทึม (หรือมนุษย์) อาจไม่จัดประเภทรูปภาพแมวที่กินเพียง 20 พิกเซลอย่างถูกต้อง

โปรดดูความแปรปรวนของการแปลค่าและความแปรปรวนของการหมุนด้วย

การร่วมเก็บข้อมูลเชิงพื้นที่

#image

ดูการรวม

ก้าว

#image

ในการดําเนินการคอนโวลูชันหรือการรวม เดลต้าในแต่ละมิติข้อมูลของสไลซ์อินพุตชุดถัดไป ตัวอย่างเช่น ภาพเคลื่อนไหวต่อไปนี้แสดงให้เห็นจังหวะ (1,1) ระหว่างการดำเนินการแบบ Convolutiona ดังนั้น ส่วนแบ่งอินพุตถัดไปจะเริ่มจากตำแหน่งที่อยู่ด้านขวาของส่วนแบ่งอินพุตก่อนหน้า เมื่อการดำเนินการมาถึงขอบด้านขวา ชิ้นส่วนถัดไปจะเลื่อนไปจนสุดด้านซ้าย แต่อยู่ในตำแหน่งที่เลื่อนลงหนึ่งตำแหน่ง

เมทริกซ์อินพุต 5x5 และตัวกรองคอนโวลูชันขนาด 3x3 เนื่องจากอัตราก้าวคือ (1,1) จะมีการใช้ตัวกรองแบบ Convolutional 9 ครั้ง ส่วนแบ่ง Convolutional ส่วนแรกจะประเมินเมทริกซ์ย่อย 3x3 ด้านซ้ายบนของเมทริกซ์อินพุต ส่วนที่ 2 จะประเมินเมทริกซ์ย่อย 3x3 ตรงกลางด้านบน ชิ้นส่วนคอนโวลูชันที่ 3 จะประเมินเมทริกซ์ย่อย 3x3 ด้านขวาบน  ส่วนที่ 4 จะประเมินเมทริกซ์ย่อย 3x3 ตรงกลางซ้าย
     ส่วนที่ 5 จะประเมินเมทริกซ์ย่อย 3x3 ตรงกลาง ส่วนที่ 6 จะประเมินเมทริกซ์ย่อย 3x3 ตรงกลางของขวา ส่วนที่ 7 จะประเมินเมทริกซ์ย่อย 3x3 ด้านล่างซ้าย  ส่วนที่ 8 จะประเมินเมทริกซ์ย่อย 3x3 ซึ่งอยู่ด้านล่างตรงกลาง ชิ้นส่วนที่ 9 จะประเมินเมทริกซ์ย่อย 3x3 ด้านขวาล่าง

ตัวอย่างก่อนหน้านี้แสดงให้เห็นถึงความก้าวหน้าแบบ 2 มิติ หากเมทริกซ์อินพุตเป็น 3 มิติ ความก้าวหน้าจะเป็น 3 มิติด้วย

การสุ่มย่อย

#image

ดูการรวม

T

อุณหภูมิ

#language
#image
#GenerativeAI

ไฮเปอร์พารามิเตอร์ที่ควบคุมระดับความสุ่มของเอาต์พุตโมเดล อุณหภูมิที่สูงขึ้นจะส่งผลให้เอาต์พุตแบบสุ่มมากขึ้น ส่วนอุณหภูมิที่ต่ำลงทำให้เอาต์พุตแบบสุ่มน้อยลง

การเลือกอุณหภูมิที่ดีที่สุดขึ้นอยู่กับแอปพลิเคชันเฉพาะและคุณสมบัติที่ต้องการของเอาต์พุตโมเดล เช่น คุณอาจเพิ่มอุณหภูมิเมื่อสร้างแอปพลิเคชันที่สร้างเอาต์พุตครีเอทีฟโฆษณา ในทางกลับกัน คุณอาจลดอุณหภูมิลงเมื่อคุณสร้างโมเดลที่แยกประเภทรูปภาพหรือข้อความเพื่อปรับปรุงความแม่นยำและความสอดคล้องของโมเดล

อุณหภูมิมักใช้กับ softmax

ความแปรปรวนของการแปลค่า

#image

ในโจทย์การจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพได้สำเร็จแม้ว่าตำแหน่งของวัตถุภายในรูปภาพจะเปลี่ยนไปก็ตาม เช่น อัลกอริทึมจะยังคงระบุสุนัขได้ ไม่ว่าจะอยู่กึ่งกลางของเฟรมหรือท้ายเฟรมก็ตาม

โปรดดูความไม่แน่นอนของขนาดและความไม่แน่นอนแบบหมุน