อภิธานศัพท์ของแมชชีนเลิร์นนิง: โมเดลรูปภาพ

หน้านี้มีคำศัพท์ในอภิธานศัพท์ของโมเดลรูปภาพ ดูคำศัพท์ทั้งหมดในอภิธานศัพท์ คลิกที่นี่

A

Augmented Reality

#image

เทคโนโลยีที่แทนที่รูปภาพที่สร้างโดยคอมพิวเตอร์ในมุมมองของผู้ใช้ในโลกจริง จึงเป็นมุมมองแบบผสม

โปรแกรมเปลี่ยนไฟล์อัตโนมัติ

#language
#image

ระบบที่เรียนรู้เพื่อดึงข้อมูลที่สำคัญที่สุดออกจากอินพุต โปรแกรมเปลี่ยนไฟล์อัตโนมัติเป็นการรวมโปรแกรมเปลี่ยนไฟล์และโปรแกรมถอดรหัส โปรแกรมเปลี่ยนไฟล์อัตโนมัติมีกระบวนการสองขั้นตอนต่อไปนี้

  1. โปรแกรมเปลี่ยนไฟล์จะแมปอินพุตกับรูปแบบ (ปกติ) แบบสูญเสียบางส่วน (แบบปานกลาง) แบบสูญเสียบางส่วน
  2. เครื่องมือถอดรหัสจะสร้างอินพุตต้นฉบับเวอร์ชันแบบสูญเสียบางส่วนโดยการแมปรูปแบบที่มีมิติต่ำกว่ากับรูปแบบอินพุตที่มีมิติสูงกว่าเดิม

โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะได้รับการฝึกจากต้นทางถึงปลายทางโดยให้เครื่องมือถอดรหัสพยายามสร้างอินพุตดั้งเดิมจากรูปแบบระดับกลางของโปรแกรมเปลี่ยนไฟล์ให้ใกล้เคียงที่สุด เนื่องจากรูปแบบระดับกลางมีขนาดเล็กกว่า (ขนาดต่ำกว่า) รูปแบบเดิม ตัวเข้ารหัสอัตโนมัติจึงถูกบังคับให้เรียนรู้ว่าข้อมูลใดในอินพุตที่เป็นสิ่งจำเป็น และเอาต์พุตที่ได้จะไม่เหมือนกับอินพุตที่มีอย่างสมบูรณ์

เช่น

  • หากข้อมูลอินพุตเป็นกราฟิก สำเนาที่ไม่ใช่แบบตรงกันทุกประการจะคล้ายกับกราฟิกต้นฉบับ แต่อาจมีการแก้ไขบ้าง ข้อความที่เหมือนกันทุกประการอาจทำให้มีการตัดเสียงรบกวนออกจากกราฟิกต้นฉบับหรือเติมเต็มพิกเซลที่ขาดหายไปบางส่วน
  • หากข้อมูลอินพุตเป็นข้อความ โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะสร้างข้อความใหม่ที่เลียนแบบ (แต่ไม่เหมือนกับ) ข้อความต้นฉบับ

ดูเครื่องมือเข้ารหัสอัตโนมัติรูปแบบต่างๆ

โมเดลแบบถดถอยอัตโนมัติ

#language
#image
#generativeAI

modelที่อนุมานการคาดการณ์โดยอิงตามการคาดการณ์ก่อนหน้านี้ของตนเอง ตัวอย่างเช่น โมเดลภาษาแบบถดถอยอัตโนมัติจะคาดการณ์โทเค็นถัดไปโดยอิงตามโทเค็นที่คาดการณ์ไว้ก่อนหน้านี้ โมเดลภาษาขนาดใหญ่ทั้งหมดที่ใช้ Transformer จะทำงานแบบถดถอยโดยอัตโนมัติ

ในทางตรงกันข้าม โมเดลรูปภาพแบบใช้ GAN มักจะไม่ใช้แบบถดถอยอัตโนมัติเนื่องจากโมเดลจะสร้างรูปภาพในการส่งไปข้างหน้าเพียงครั้งเดียวและไม่ทำซ้ำทีละขั้น อย่างไรก็ตาม โมเดลการสร้างรูปภาพบางรูปแบบจะถดถอยอัตโนมัติเนื่องจากโมเดลจะสร้างรูปภาพในขั้นตอน

B

กรอบล้อมรอบ

#image

ในรูปภาพ พิกัด (x, y) ของสี่เหลี่ยมผืนผ้ารอบพื้นที่ที่สนใจ เช่น สุนัขในรูปภาพด้านล่าง

ภาพถ่ายสุนัขนั่งบนโซฟา กรอบล้อมรอบสีเขียวที่มีพิกัดด้านบนซ้ายของ (275, 1271) และพิกัดด้านล่างขวาของ (2954, 2761) วาดเส้นรอบร่างกายสุนัข

C

Convolution

#image

ในทางคณิตศาสตร์ การพูดแบบสบายๆ เป็นส่วนผสมของ 2 ฟังก์ชัน ในแมชชีนเลิร์นนิง คอนโวลูชันจะผสมตัวกรอง Convolutional กับเมทริกซ์อินพุตเพื่อฝึกน้ำหนัก

คำว่า "convolution" ในแมชชีนเลิร์นนิงมักเป็นคำสั้นๆ ที่หมายถึงการดำเนินการเชิงปฏิวัติหรือชั้น Convolutional

หากไม่มีคอนโวลูชัน อัลกอริทึมของแมชชีนเลิร์นนิงจะต้องเรียนรู้น้ำหนักแยกกันสำหรับทุกเซลล์ใน tensor ขนาดใหญ่ เช่น การฝึกอัลกอริทึมแมชชีนเลิร์นนิงเกี่ยวกับรูปภาพขนาด 2K x 2K จะต้องหาน้ำหนักแยกกัน 4 ล้านครั้ง อัลกอริทึมของแมชชีนเลิร์นนิงต้องค้นหาน้ำหนักของแต่ละเซลล์ในตัวกรอง Convolutional เพียงอย่างเดียวเท่านั้น ซึ่งช่วยลดหน่วยความจำที่ต้องใช้ในการฝึกโมเดลลงได้อย่างมาก เมื่อใช้ตัวกรอง Convolutional ระบบจะจำลองการทำงานซ้ำข้ามเซลล์ ซึ่งแต่ละเซลล์คูณกับตัวกรอง

ฟิลเตอร์ Convolutional

#image

หนึ่งในสองของนักแสดงในปฏิบัติการเชิงปฏิวัติ (ตัวดำเนินการอีกตัวคือ ชิ้นส่วนของเมทริกซ์อินพุต) ตัวกรองคอนโวลูชันคือเมทริกซ์ที่มีอันดับเหมือนเมทริกซ์อินพุต แต่มีรูปร่างเล็กกว่า ตัวอย่างเช่น เมื่อใช้เมทริกซ์อินพุต 28x28 ตัวกรองอาจเป็นเมทริกซ์ 2 มิติใดก็ได้ที่มีขนาดเล็กกว่า 28x28

ในการปรับแต่งภาพถ่าย เซลล์ทั้งหมดในฟิลเตอร์แบบผสานแนวคิด มักจะตั้งค่าเป็นรูปแบบคงที่ของเซลล์กับเลข 0 ในแมชชีนเลิร์นนิง ตัวกรองแบบ Conv. มักจะสร้างขึ้นด้วยตัวเลขแบบสุ่ม จากนั้นเครือข่ายจะฝึกค่าที่ดีที่สุด

เลเยอร์ Convolutional

#image

ชั้นของโครงข่ายประสาทแบบลึกซึ่งตัวกรอง Convolutional ส่งผ่านเมทริกซ์อินพุต ตัวอย่างเช่น ลองพิจารณาตัวกรอง Convolution แบบ 3x3 ต่อไปนี้

เมทริกซ์ 3x3 ที่มีค่าต่อไปนี้ [[0,1,0], [1,0,1], [0,1,0]]

ภาพเคลื่อนไหวต่อไปนี้แสดงเลเยอร์แบบ Convolutional ซึ่งประกอบด้วยการดำเนินการแบบ Convolution 9 รายการที่เกี่ยวข้องกับเมทริกซ์อินพุต 5x5 โปรดสังเกตว่าการดำเนินการ Conversion แต่ละอย่างจะทำงานบนชิ้นส่วนขนาด 3x3 ของเมทริกซ์อินพุต เมทริกซ์ 3x3 ที่ได้ (ทางด้านขวา) ประกอบด้วยผลลัพธ์ของการดำเนินการแบบ Convolution 9 รายการ ดังนี้

ภาพเคลื่อนไหวแสดงสองเมทริกซ์ เมทริกซ์แรกคือ เมทริกซ์ 5x5: [[128,97,53,201,198], [35,22,25,200,195],
 [37,24,28,197,182], [33,28,92,195,179]
          เมทริกซ์ที่ 2 คือเมทริกซ์ 3x3 ดังนี้
          [[181,303,618], [115,338,605], [169,351,560]]
          เมทริกซ์ที่สองคำนวณโดยใช้ตัวกรองแบบ Convolutional [[0, 1, 0], [1, 0, 1], [0, 1, 0]] กับชุดย่อย 3x3 ที่แตกต่างกันของเมทริกซ์ 5x5

โครงข่ายระบบประสาทเทียมแบบ Convolutional

#image

โครงข่ายระบบประสาทเทียมที่มีอย่างน้อย 1 เลเยอร์เป็นเลเยอร์แบบ Convolutional โครงข่ายประสาทแบบ Convolutional ทั่วไปประกอบด้วยเลเยอร์ต่างๆ ต่อไปนี้

โครงข่ายระบบประสาทเทียมแบบ Convolutional ประสบความสำเร็จอย่างมากในบาง ปัญหา เช่น การจดจำรูปภาพ

ปฏิบัติการเชิงปฏิวัติ

#image

การคำนวณทางคณิตศาสตร์ 2 ขั้นตอนต่อไปนี้

  1. การคูณองค์ประกอบของตัวกรอง Convolution และส่วนของเมทริกซ์อินพุต (ชิ้นส่วนของเมทริกซ์อินพุตมีอันดับและขนาดเดียวกันกับตัวกรองแบบ Convolutional)
  2. การรวมค่าทั้งหมดในเมทริกซ์ผลลัพธ์

ตัวอย่างเช่น ลองพิจารณาเมทริกซ์อินพุต 5x5 ต่อไปนี้

เมทริกซ์ 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179],17,179], [31,

ทีนี้ลองคิดถึงตัวกรองแบบ Convolutional ขนาด 2x2 ดังต่อไปนี้

เมทริกซ์ 2x2: [[1, 0], [0, 1]]

การดำเนินการแบบ Convolution แต่ละครั้งจะใช้เมทริกซ์อินพุต 2x2 ชิ้นเดียว ตัวอย่างเช่น สมมติว่าเราใช้ชิ้นส่วนขนาด 2x2 ที่ด้านซ้ายบนของเมทริกซ์อินพุต ดังนั้น การดำเนินการคอนโวลูชันบนสไลซ์นี้จะมีลักษณะดังนี้

การใช้ตัวกรอง Convolutional [[1, 0], [0, 1]] กับส่วนบนซ้าย ขนาด 2x2 ของเมทริกซ์อินพุต ซึ่งได้แก่ [[128,97], [35,22]]
          แต่ตัวกรอง Convolutional จะปล่อยเลข 128 และ 22 ไว้เหมือนเดิม แต่มีเลข 97 และ 35 เป็น 0 ดังนั้น การดำเนินการแบบ Convolution จะให้ค่า 150 (128+22)

เลเยอร์ Convolutional ประกอบด้วยชุดการดำเนินการแบบ Convolutional โดยแต่ละชุดจะกระทำต่อชิ้นส่วนต่างๆ ของเมทริกซ์อินพุต

D

การเพิ่มข้อมูล

#image

การเพิ่มช่วงและจำนวนตัวอย่างการฝึกอย่างปลอมๆ โดยการแปลงตัวอย่างที่มีอยู่เพื่อสร้างตัวอย่างเพิ่มเติม ตัวอย่างเช่น สมมติว่ารูปภาพเป็นหนึ่งในฟีเจอร์ของคุณ แต่ชุดข้อมูลมีตัวอย่างรูปภาพไม่เพียงพอที่จะทำให้โมเดลเรียนรู้การเชื่อมโยงที่เป็นประโยชน์ ตามหลักแล้ว คุณควรเพิ่มรูปภาพที่ติดป้ายกำกับให้เพียงพอกับชุดข้อมูลเพื่อให้โมเดลฝึกได้อย่างถูกต้อง หากทำไม่ได้ การเพิ่มข้อมูลจะสามารถหมุน ขยาย และสะท้อนรูปภาพแต่ละรูปเพื่อสร้างรูปแบบที่หลากหลายของรูปภาพต้นฉบับได้ ทำให้มีข้อมูลที่มีป้ายกำกับมากเพียงพอสำหรับการฝึกให้เป็นที่ยอดเยี่ยม

โครงข่ายประสาทเทียมแบบ Convolutional แบบ depthwise ก็ (sepCNN)

#image

สถาปัตยกรรมโครงข่ายระบบประสาทเทียม ที่อิงตาม Inception แต่แทนที่โมดูล Inception ด้วย Conversion ที่แยกจากกันได้แบบเจาะลึก หรือที่เรียกว่า Xception

การแปลงแบบมิติชัดเจนที่แยกออกได้ (หรือเรียกย่อๆ ว่าคอนวัติวิวัฒนาการแบบแยกกัน) จะประกอบการแปลง 3-D มาตรฐานเป็นการดำเนินการการแปลง 2 ส่วนแยกกัน ซึ่งมีประสิทธิภาพในการคํานวณมากกว่า อย่างแรก การเกิดแบบความลึกที่มีความลึก 1 (n มาก่อน {3} th) ตามด้วยค่าที่สอง คือ 1 จุดทศนิยม ความยาวและความกว้างของ 1 จุด

ดูข้อมูลเพิ่มเติมได้ที่ Xception: Deep Learning with Depthwise Separable Convolutions

การสุ่ม

#image

คำที่มากเกินไป ซึ่งอาจหมายถึงอย่างใดอย่างหนึ่งต่อไปนี้

  • ลดจํานวนข้อมูลในฟีเจอร์เพื่อฝึกโมเดลอย่างมีประสิทธิภาพยิ่งขึ้น ตัวอย่างเช่น ก่อนการฝึกโมเดลการจดจำรูปภาพ ให้ลดขนาดรูปภาพที่มีความละเอียดสูงให้เป็นรูปแบบที่มีความละเอียดต่ำลง
  • การฝึกจากตัวอย่างในชั้นเรียนที่มีเปอร์เซ็นต์ต่ำอย่างไม่สมส่วนเพื่อปรับปรุงการฝึกโมเดลในชั้นเรียนที่มีตัวแทนไม่เพียงพอ ตัวอย่างเช่น ในชุดข้อมูลที่ไม่สมดุลระหว่างคลาส โมเดลมักจะเรียนรู้เกี่ยวกับกลุ่มส่วนใหญ่และยังไม่เพียงพอเกี่ยวกับชนชั้นชนกลุ่มน้อย การดาวน์แซมปลิงช่วยสร้างความสมดุล ระหว่างการฝึกอบรมในชั้นเรียนส่วนใหญ่และชนกลุ่มน้อย

F

การปรับแต่ง

#language
#image
#generativeAI

บัตรผ่านการฝึกอบรมแบบที่ 2 ที่เจาะจงงานซึ่งทำงานในโมเดลที่ฝึกไว้แล้วเพื่อปรับแต่งพารามิเตอร์สำหรับกรณีการใช้งานที่เฉพาะเจาะจง ตัวอย่างเช่น ลำดับการฝึกแบบเต็มสำหรับโมเดลภาษาขนาดใหญ่บางรายการมีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลภาษาขนาดใหญ่ในชุดข้อมูลทั่วไปขนาดใหญ่ เช่น หน้า Wikipedia ภาษาอังกฤษทั้งหมด
  2. การปรับแต่ง: ฝึกโมเดลที่ฝึกไว้ล่วงหน้าให้ทำงานที่เฉพาะเจาะจง เช่น การตอบสนองต่อคำค้นหาทางการแพทย์ การปรับแต่งมักประกอบด้วยตัวอย่างหลายร้อยหรือหลายพันรายการที่มุ่งเน้นงานนั้นๆ

อีกตัวอย่างหนึ่ง ลำดับการฝึกทั้งหมดสำหรับโมเดลรูปภาพขนาดใหญ่มีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลรูปภาพขนาดใหญ่ในชุดข้อมูลรูปภาพทั่วไปขนาดใหญ่ เช่น รูปภาพทั้งหมดในคอมมอน Wikimedia
  2. การปรับแต่ง: ฝึกโมเดลที่ฝึกล่วงหน้าให้ทำงานที่เฉพาะเจาะจง เช่น การสร้างรูปภาพของวาฬเพชฌฆาต

การปรับแต่งอาจผสมผสานกลยุทธ์ต่อไปนี้เข้าด้วยกัน

  • การแก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลที่ฝึกล่วงหน้าทั้งหมด บางครั้งจะเรียกกรณีเช่นนี้ว่าการปรับแต่งเต็มรูปแบบ
  • แก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลที่ฝึกล่วงหน้าบางส่วนเท่านั้น (โดยทั่วไปคือเลเยอร์ที่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด) ขณะเดียวกันก็คงพารามิเตอร์อื่นๆ ที่มีอยู่ไว้ตามเดิม (โดยปกติจะเป็นเลเยอร์ที่อยู่ใกล้เลเยอร์อินพุตมากที่สุด) ดูการปรับแต่งแบบใช้พารามิเตอร์
  • การเพิ่มเลเยอร์ โดยปกติจะอยู่ทับเลเยอร์ที่มีอยู่ซึ่งใกล้กับเลเยอร์เอาต์พุตมากที่สุด

การปรับแต่งเป็นการเรียนรู้จากการโอนรูปแบบหนึ่ง ดังนั้น การปรับแต่งอาจใช้ฟังก์ชันการสูญเสียหรือประเภทโมเดลที่แตกต่างจากที่ใช้ฝึกโมเดลก่อนการฝึก ตัวอย่างเช่น คุณสามารถปรับแต่งโมเดลรูปภาพขนาดใหญ่ที่ฝึกไว้แล้วเพื่อสร้างโมเดลการถดถอยที่แสดงจำนวนนกในอิมเมจอินพุต

เปรียบเทียบความเหมือนและความต่างของการปรับแต่งกับคำศัพท์ต่อไปนี้

G

Generative AI

#language
#image
#generativeAI

สาขาการเปลี่ยนแปลงที่กำลังเป็นรูปธรรมซึ่งไม่มีคำจำกัดความอย่างเป็นทางการ อย่างไรก็ตาม ผู้เชี่ยวชาญส่วนใหญ่เห็นด้วยว่าโมเดล Generative AI สามารถสร้าง ("สร้าง") เนื้อหาที่มีลักษณะดังต่อไปนี้ได้

  • ซับซ้อน
  • สอดคล้องกัน
  • เดิม

ตัวอย่างเช่น โมเดล Generative AI สามารถสร้างเรียงความหรือรูปภาพที่ซับซ้อนได้

เทคโนโลยีรุ่นก่อนๆ เช่น LSTM และ RNN สามารถสร้างเนื้อหาต้นฉบับที่สอดคล้องได้เช่นกัน ผู้เชี่ยวชาญบางคนมองว่าเทคโนโลยีรุ่นก่อนเหล่านี้คือ Generative AI ขณะที่คนอื่นๆ รู้สึกว่า Generative AI ที่แท้จริงต้องใช้เอาต์พุตที่ซับซ้อนกว่าเทคโนโลยีใหม่ๆ ที่เทคโนโลยียุคก่อนทำได้

คอนทราสต์กับ ML แบบคาดคะเน

I

การรู้จำรูปภาพ

#image

กระบวนการที่จัดประเภทวัตถุ รูปแบบ หรือแนวคิดในรูปภาพ การรู้จำรูปภาพเรียกอีกอย่างว่าการจัดประเภทรูปภาพ

ดูข้อมูลเพิ่มเติมได้ที่ ML Practicum: การแยกประเภทรูปภาพ

จุดตัดข้ามสหภาพ (IoU)

#image

อินเตอร์เซกชันของ 2 ชุดหารด้วยจำนวนสหภาพ ในงานตรวจจับรูปภาพของแมชชีนเลิร์นนิง IoU จะใช้เพื่อวัดความแม่นยำของกรอบล้อมรอบที่คาดการณ์ไว้ของโมเดลที่เกี่ยวข้องกับกรอบล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรง ในกรณีนี้ IoU สำหรับ 2 ช่องคืออัตราส่วนระหว่างพื้นที่ที่ทับซ้อนกันและพื้นที่ทั้งหมด และค่าจะเป็นตั้งแต่ 0 (ไม่มีการซ้อนทับกันของกรอบล้อมรอบที่คาดการณ์ไว้และกรอบล้อมรอบความจริงของพื้นดิน) ต่อ 1 (กรอบล้อมรอบที่คาดการณ์ไว้และกรอบล้อมรอบความจริงของพื้นดินมีพิกัดเดียวกัน)

ดังตัวอย่างต่อไปนี้ในรูปภาพด้านล่าง

  • กรอบล้อมรอบที่คาดการณ์ไว้ (ตัวคั่นพิกัดที่โมเดลคาดการณ์ตารางกลางคืนในภาพวาด) จะมีเส้นขอบเป็นสีม่วง
  • กรอบล้อมรอบความจริง (พิกัดพิกัดของตำแหน่งที่มีโต๊ะอาหารกลางคืนในภาพวาด) จะมีเส้นขอบเป็นสีเขียว

ภาพวาดของแวนโก๊ะ "ห้องนอนของวินเซนต์ในอาร์ลส์" โดยมีกรอบล้อมรอบ 2 กรอบล้อมรอบโต๊ะตอนกลางคืนข้างเตียง กรอบล้อมรอบความจริง (สีเขียว) ตัดรอบโต๊ะอาหารกลางคืนได้อย่างสมบูรณ์แบบ กรอบล้อมรอบที่คาดการณ์ไว้ (สีม่วง) จะมีการชดเชย 50% จากด้านล่างและทางด้านขวาของกรอบที่ล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรง กรอบดังกล่าวล้อมรอบไตรมาสล่างขวาของตารางกลางคืน แต่เหลือกรอบที่เหลือในตาราง

ในที่นี้ จุดตัดของกรอบล้อมรอบสำหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างซ้าย) คือ 1 และการรวมกรอบล้อมรอบสำหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์ (ด้านล่างขวา) คือ 7 ดังนั้น IoU จึงเป็น \(\frac{1}{7}\)

รูปภาพเดียวกับด้านบน แต่แต่ละกรอบแบ่งเป็น 4 ส่วน มีจตุภาคอีก 7 ตัวด้วยกัน เช่น จตุภาคด้านขวาล่างของกรอบล้อมรอบความจริงของพื้นดินและจตุภาคด้านซ้ายบนของกรอบล้อมรอบที่คาดการณ์ไว้ ส่วนที่ซ้อนทับกัน (ไฮไลต์ด้วยสีเขียว) แสดงถึงสี่แยกและมีพื้นที่เท่ากับ 1 รูปภาพเดียวกับด้านบน แต่แต่ละกรอบแบ่งเป็น 4 ส่วน มีจตุภาคอีก 7 ตัวด้วยกัน เช่น จตุภาคด้านขวาล่างของกรอบล้อมรอบความจริงของพื้นดินและจตุภาคด้านซ้ายบนของกรอบล้อมรอบที่คาดการณ์ไว้
          ด้านในทั้งด้านที่ล้อมรอบด้วยกรอบล้อมรอบทั้ง 2 กรอบ (ไฮไลต์สีเขียว) แสดงถึงการรวมศูนย์และมีพื้นที่ 7

K

จุดสำคัญ

#image

พิกัดของจุดสนใจบางอย่างในรูปภาพ ตัวอย่างเช่น สำหรับโมเดลการจดจำรูปภาพที่จำแนกสายพันธุ์ดอกไม้ต่างๆ จุดสำคัญอาจเป็นจุดกึ่งกลางของแต่ละกลีบ ก้าน ก้าน และอื่นๆ

L

จุดสังเกต

#image

คำพ้องความหมายของ keypoints

M

MNIST

#image

ชุดข้อมูลโดเมนสาธารณะที่รวบรวมโดย LeCun, Cortes และ Burges ซึ่งประกอบด้วยรูปภาพ 60,000 รูป โดยแต่ละภาพแสดงให้เห็นว่ามนุษย์เขียนตัวเลขตัวเลขตั้งแต่ 0-9 ด้วยตนเองได้อย่างไร แต่ละภาพจะเก็บเป็นอาร์เรย์ 28x28 ของจำนวนเต็ม โดยจำนวนเต็มแต่ละภาพเป็นค่าโทนสีเทาระหว่าง 0 ถึง 255

MNIST คือชุดข้อมูล Canonical สำหรับแมชชีนเลิร์นนิงที่มักใช้ในการทดสอบแนวทางใหม่ๆ ของแมชชีนเลิร์นนิง ดูรายละเอียดได้ที่ ฐานข้อมูล MNIST ของตัวเลขที่เขียนด้วยลายมือ

คะแนน

การรวมกลุ่ม

#image

การลดเมทริกซ์ (หรือเมทริกซ์) ที่สร้างขึ้นจากเลเยอร์ Convolutional ก่อนหน้านี้ให้เป็นเมทริกซ์ที่เล็กกว่า การรวมมักจะเป็นการนำค่าสูงสุดหรือค่าเฉลี่ยไปใช้กับพื้นที่ร่วม ตัวอย่างเช่น สมมติว่าเรามี เมทริกซ์ 3x3 ต่อไปนี้

เมทริกซ์ 3x3 [[5,3,1], [8,2,5], [9,4,3]]

การดำเนินการรวมเช่นเดียวกับการดำเนินการแบบ Convolution จะแบ่งเมทริกซ์ออกเป็นส่วนๆ แล้วเลื่อนการดำเนินการแบบผสานกันด้วยจังหวะ ตัวอย่างเช่น สมมติว่าการดำเนินการรวบรวมจะแบ่งเมทริกซ์แบบ Convolutional ออกเป็นส่วนๆ 2x2 โดยมีอัตราความเร็ว 1x1 ดังที่แสดงในแผนภาพต่อไปนี้ จะเห็นการดำเนินการรวม 4 รายการ สมมติว่าการดำเนินการร่วมแต่ละครั้งเลือกค่าสูงสุดของ 4 ในส่วนดังกล่าว

เมทริกซ์อินพุตคือ 3x3 โดยมีค่าเป็น [[5,3,1], [8,2,5], [9,4,3]]
          เมทริกซ์ย่อย 2x2 ด้านซ้ายบนของเมทริกซ์อินพุตคือ [[5,3], [8,2]] ดังนั้นการดำเนินการพูลด้านซ้ายบนจะให้ค่า 8 (ซึ่งคือ 5, 3, 8 และ 2 สูงสุด) เมทริกซ์ย่อย 2x2 ด้านขวาบนของเมทริกซ์อินพุตคือ [[3,1], [2,5]] ดังนั้น การดำเนินการแบบกลุ่มทางด้านขวาบนจึงให้ค่า 5 เมทริกซ์ย่อย 2x2 ด้านซ้ายล่างของเมทริกซ์อินพุตคือ [[8,2], [9,4]] ดังนั้นการดำเนินการพูลด้านซ้ายล่างจะให้ค่า 9 เมทริกซ์ย่อย 2x2 ด้านขวาล่างของเมทริกซ์อินพุตคือ [[2,5], [4,3]] ดังนั้น การดำเนินการพูลที่ด้านขวาล่างจึงให้ค่า 5 กล่าวโดยสรุป การดำเนินการร่วมจะให้ผลเป็นเมทริกซ์ 2x2 [[8,5], [9,5]]

การรวมจะช่วยบังคับใช้ความแปรปรวนของการแปลในเมทริกซ์อินพุต

การรวมกลุ่มสำหรับแอปพลิเคชันด้านการมองเห็นมีชื่อเรียกอีกอย่างว่า Spatial Pooling แอปพลิเคชันอนุกรมเวลามักเรียกว่าการรวมชั่วคราว และไม่เป็นทางการ การจัดกลุ่มมักจะเรียกว่าการซับแซมพลิงหรือการดาวน์แซมพลิง

โมเดลก่อนการฝึก

#language
#image
#generativeAI

โมเดลหรือคอมโพเนนต์ของโมเดล (เช่น เวกเตอร์การฝัง) ที่ได้รับการฝึกแล้ว บางครั้งคุณจะฟีดเวกเตอร์การฝังก่อนการฝึกลงในโครงข่ายระบบประสาทเทียม แต่บางครั้งโมเดลของคุณจะฝึกตัวเวกเตอร์การฝังเองแทนที่จะฝึกการฝังที่ฝึกล่วงหน้า

คำว่าโมเดลภาษาก่อนการฝึกหมายถึงโมเดลภาษาขนาดใหญ่ที่ผ่านการการฝึกล่วงหน้า

ก่อนการฝึกอบรม

#language
#image
#generativeAI

การฝึกเริ่มต้นของโมเดลบนชุดข้อมูลขนาดใหญ่ โมเดลที่ฝึกไว้แล้วล่วงหน้าบางโมเดลเป็นขนาดใหญ่ที่งุ่มง่ามและมักต้องปรับแต่งผ่านการฝึกเพิ่มเติม เช่น ผู้เชี่ยวชาญ ML อาจฝึกโมเดลภาษาขนาดใหญ่ล่วงหน้าบนชุดข้อมูลข้อความขนาดใหญ่ เช่น ทุกหน้าภาษาอังกฤษใน Wikipedia หลังจากการฝึกล่วงหน้าแล้ว โมเดลผลลัพธ์อาจได้รับการปรับปรุงให้ดีขึ้นโดยใช้เทคนิคต่อไปนี้

R

ค่าความแปรปรวนของการหมุน

#image

ในปัญหาการจัดประเภทรูปภาพ อัลกอริทึมจะจัดประเภทรูปภาพได้สำเร็จแม้การวางแนวของรูปภาพจะเปลี่ยนไปก็ตาม ตัวอย่างเช่น อัลกอริทึมยังคงระบุไม้เทนนิสได้ว่าไม้ชี้ขึ้น ด้านข้าง หรือลง โปรดทราบว่าความไม่แน่นอนของการหมุนไม่เป็นที่ต้องการเสมอไป ตัวอย่างเช่น การกลับหัว 9 ไม่ควรจัดเป็น 9

ดูความแปรปรวนของคำแปลและความแปรปรวนของขนาดด้วย

S

ความแปรปรวนของขนาด

#image

ในปัญหาการจัดประเภทรูปภาพ อัลกอริทึมจะจัดประเภทรูปภาพได้สำเร็จแม้ว่าขนาดของรูปภาพจะเปลี่ยนไปก็ตาม ตัวอย่างเช่น อัลกอริทึมยังคงระบุแมวได้ว่าจะใช้ 2 ล้านพิกเซลหรือ 200,000 พิกเซล โปรดทราบว่าแม้แต่อัลกอริทึมการจัดประเภทรูปภาพที่ดีที่สุดก็ยังคงมีขีดจำกัดด้านความแปรปรวนของขนาดในทางปฏิบัติ เช่น อัลกอริทึม (หรือมนุษย์) อาจไม่จำแนกประเภทรูปภาพแมวที่กินพื้นที่เพียง 20 พิกเซลได้อย่างถูกต้อง

ดูความแปรปรวนของการแปลและความแปรปรวนของการหมุน

การรวบรวมข้อมูลเชิงพื้นที่

#image

ดูการจัดกลุ่ม

การก้าว

#image

ในการดำเนินการแบบ Convolution หรือการรวมกลุ่ม เดลต้าในแต่ละมิติข้อมูลของส่วนแบ่งอินพุตชุดถัดไป ตัวอย่างเช่น ภาพเคลื่อนไหวต่อไปนี้แสดงให้เห็นจังหวะ (1,1) ระหว่างการดำเนินการแบบ Convolution ดังนั้น สไลซ์ของอินพุตถัดไปจะเริ่มต้นตำแหน่งหนึ่งทางด้านขวาของช่องอินพุตก่อนหน้า เมื่อการดำเนินการมาถึงขอบด้านขวา ส่วนแบ่งถัดไปจะอยู่ทางซ้ายสุด แต่จะมีตำแหน่งลง 1 ตำแหน่ง

เมทริกซ์อินพุต 5x5 และตัวกรองแบบ Convolutional 3x3 เนื่องจากอัตราก้าวคือ (1,1) ระบบจะใช้ตัวกรองแบบ Convolutional 9 ครั้ง ชิ้นส่วน Convolutional ส่วนแรกจะประเมินเมทริกซ์ย่อย 3x3 ด้านซ้ายบนของเมทริกซ์อินพุต สไลซ์ที่ 2 จะประเมินเมทริกซ์ย่อยขนาด 3x3 ด้านบนตรงกลาง ชิ้นส่วนแบบ Convolutional ที่ 3 จะประเมินเมทริกซ์ย่อย 3x3 ทางด้านขวาบน  ส่วนที่ 4 จะประเมินเมทริกซ์ย่อยขนาด 3x3 ด้านซ้ายกลาง
     ส่วนที่ 5 ประเมินเมทริกซ์ย่อยขนาด 3x3 ตรงกลาง ส่วนที่ 6 จะประเมินเมทริกซ์ย่อย 3x3 ตรงกลางขวา ชิ้นส่วนที่ 7 จะประเมินเมทริกซ์ย่อยขนาด 3x3 ด้านซ้ายล่าง  ส่วนที่ 8 จะประเมินเมทริกซ์ย่อย 3x3 ด้านล่างตรงกลาง ส่วนที่ 9 จะประเมินเมทริกซ์ย่อย 3x3 ด้านขวาล่าง

ตัวอย่างก่อนหน้านี้แสดงให้เห็นความก้าวหน้าแบบ 2 มิติ ถ้าเมทริกซ์อินพุตเป็นแบบ 3 มิติ อัตราก้าวก็จะเป็น 3 มิติด้วย

ซับแซมพลิง

#image

ดูการจัดกลุ่ม

T

อุณหภูมิ

#language
#image
#generativeAI

hyperparameter ที่ควบคุมระดับความสุ่มของเอาต์พุตของโมเดล อุณหภูมิที่สูงขึ้นจะส่งผลให้มีเอาต์พุตแบบสุ่มมากขึ้น ส่วนอุณหภูมิที่ต่ำลงจะทำให้เอาต์พุตแบบสุ่มน้อยลง

การเลือกอุณหภูมิที่ดีที่สุดขึ้นอยู่กับแอปพลิเคชันเฉพาะและคุณสมบัติที่ต้องการของเอาต์พุตโมเดล เช่น คุณอาจเพิ่มอุณหภูมิเมื่อสร้างแอปพลิเคชันที่สร้างเอาต์พุตครีเอทีฟโฆษณา ในทางกลับกัน คุณอาจลดอุณหภูมิลงเมื่อสร้างโมเดลที่แยกประเภทรูปภาพหรือข้อความเพื่อปรับปรุงความแม่นยำและความสอดคล้องของโมเดล

อุณหภูมิมักจะใช้กับ softmax

ความไม่แน่นอนของการแปล

#image

ในปัญหาการจัดประเภทรูปภาพ อัลกอริทึมจะจัดประเภทรูปภาพได้สำเร็จแม้ว่าตำแหน่งของวัตถุภายในรูปภาพจะเปลี่ยนไปก็ตาม เช่น อัลกอริทึมยังคงระบุสุนัขได้ ไม่ว่าจะอยู่กึ่งกลางเฟรมหรือปลายด้านซ้ายของเฟรม

นอกจากนี้ โปรดดูความแปรปรวนของขนาดและความแปรปรวนของการหมุน