แทนที่จะเปรียบเทียบข้อมูลสถานที่ที่คุณรวมด้วยตนเอง คุณสามารถลดคุณลักษณะ ข้อมูลในการเป็นตัวแทนที่เรียกว่า การฝัง จากนั้นเปรียบเทียบ การฝังวิดีโอ การฝังสร้างขึ้นจากการฝึกระบบประสาทเทียมระดับลึกที่มีการควบคุมดูแล เครือข่าย (DNN) ในฟีเจอร์ ข้อมูลอีกด้วย การฝังจะแมปข้อมูลฟีเจอร์กับเวกเตอร์ในการฝัง พื้นที่ที่โดยปกติแล้วจะมีขนาดน้อยกว่าข้อมูลฟีเจอร์ การฝังคือ ที่กล่าวถึงในการฝัง ของหลักสูตรแมชชีนเลิร์นนิง ส่วนการพูดคุยเกี่ยวกับโครงข่ายประสาทใน โครงข่ายประสาท การฝังเวกเตอร์สำหรับตัวอย่างที่คล้ายกัน เช่น วิดีโอ YouTube บน หัวข้อที่คล้ายกันที่ผู้ใช้คนเดียวกันรับชม ซึ่งจบพร้อมกันในการฝัง พื้นที่ทำงาน มาตรการวัดความคล้ายคลึงที่มีการควบคุมดูแล ใช้ "ความใกล้" นี้ เพื่อวัดความคล้ายคลึงกันสำหรับคู่ของ ตัวอย่าง
อย่าลืมว่าเราพูดถึงการเรียนรู้ที่มีการควบคุมดูแลเท่านั้นเพื่อสร้างความคล้ายคลึงกัน วัดผล จากนั้นจะมีการใช้การวัดความคล้ายคลึงกันไม่ว่าจะดำเนินการด้วยตนเองหรือภายใต้การควบคุมดูแลโดย อัลกอริทึมในการดำเนินการคลัสเตอร์ที่ไม่มีการควบคุมดูแล
การเปรียบเทียบมาตรการที่กำหนดเองและมาตรการที่มีการควบคุมดูแล
ตารางนี้จะอธิบายกรณีที่ควรใช้ความคล้ายคลึงกันด้วยตนเองหรือความคล้ายคลึงกันที่มีการควบคุมดูแล วัดค่าได้โดยขึ้นอยู่กับข้อกำหนด
ข้อกำหนด | กำหนดเอง | มีการควบคุมดูแล |
---|---|---|
ลดข้อมูลที่ซ้ำซ้อนในฟีเจอร์ที่สัมพันธ์กันใช่ไหม | ไม่ได้ คุณจำเป็นต้องตรวจสอบความสัมพันธ์ระหว่างฟีเจอร์ต่างๆ | ใช่ DNN จะนำข้อมูลที่ซ้ำซ้อนออก |
ให้ข้อมูลเชิงลึกเกี่ยวกับความคล้ายคลึงกันที่คำนวณแล้วหรือไม่ | ใช่ | ไม่ได้ คุณไม่สามารถถอดรหัสการฝังได้ |
เหมาะกับชุดข้อมูลขนาดเล็กที่มีฟีเจอร์ไม่มากใช่ไหม | ได้ | ไม่ ชุดข้อมูลขนาดเล็กไม่ได้ให้ข้อมูลการฝึกที่เพียงพอสำหรับ DNN |
เหมาะกับชุดข้อมูลขนาดใหญ่ที่มีฟีเจอร์มากมายไหม | ไม่ เป็นการลบข้อมูลที่ซ้ำซ้อนออกจากหลายฟีเจอร์ด้วยตนเอง และเมื่อรวมเข้าด้วยกัน ก็เป็นเรื่องที่ยากมาก | ใช่ DNN จะตัดข้อมูลที่ซ้ำซ้อนออกโดยอัตโนมัติ ผสานรวมฟีเจอร์ต่างๆ |
การสร้างการวัดความคล้ายคลึงกันภายใต้การควบคุมดูแล
ต่อไปนี้คือภาพรวมของกระบวนการสร้างการวัดความคล้ายคลึงกันภายใต้การควบคุมดูแล
หน้านี้กล่าวถึงเรื่อง DNN ขณะที่ หน้าต่อไปนี้จะครอบคลุมขั้นตอนที่เหลือ
เลือก DNN ตามป้ายกำกับการฝึก
ลดข้อมูลฟีเจอร์ให้เป็นการฝังมิติข้อมูลที่ต่ำกว่าด้วยการฝึก DNN ที่ ใช้ข้อมูลฟีเจอร์เดียวกันทั้งเป็นอินพุตและป้ายกำกับ ตัวอย่างเช่น ใน ในกรณีที่เป็นข้อมูลบ้าน DNN จะใช้ฟีเจอร์ต่างๆ เช่น ราคา ขนาด และ รหัสไปรษณีย์ เพื่อคาดการณ์สถานที่นั้นๆ ด้วยตัวเอง
โปรแกรมเปลี่ยนไฟล์อัตโนมัติ
DNN ที่เรียนรู้การฝังข้อมูลอินพุตด้วยการคาดการณ์ข้อมูลอินพุตเอง เรียกว่าโปรแกรมเปลี่ยนไฟล์อัตโนมัติ เนื่องจากเลเยอร์ที่ซ่อนอยู่ของโปรแกรมเปลี่ยนไฟล์อัตโนมัติจะมีขนาดเล็กกว่า มากกว่าเลเยอร์อินพุตและเอาต์พุต โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะถูกบังคับให้เรียนรู้ การนำเสนอข้อมูลฟีเจอร์อินพุตแบบบีบอัด เมื่อ DNN ได้รับการฝึกแล้ว แยกการฝังจากเลเยอร์ที่ซ่อนอยู่ซึ่งมีขนาดเล็กที่สุดเพื่อคำนวณความคล้ายคลึงกัน
ผู้คาดการณ์
โปรแกรมเปลี่ยนไฟล์อัตโนมัติเป็นตัวเลือกที่สร้างการฝังได้ง่ายที่สุด อย่างไรก็ตาม โปรแกรมเปลี่ยนไฟล์อัตโนมัติไม่ใช่ตัวเลือกที่ดีที่สุดสำหรับฟีเจอร์บางรายการ ในการพิจารณาความคล้ายคลึงกัน เช่น ในข้อมูลภายใน ให้คิดว่าราคาสำคัญกว่ารหัสไปรษณีย์ ในกรณีดังกล่าว ให้ใช้ เฉพาะฟีเจอร์ที่สำคัญในฐานะป้ายกำกับการฝึกสำหรับ DNN เนื่องจาก DNN นี้ จะคาดการณ์ฟีเจอร์อินพุตใดฟีเจอร์หนึ่ง แทนการคาดการณ์ฟีเจอร์อินพุตทั้งหมด เรียกว่า ผู้คาดคะเน DNN การฝังควรมาจาก เลเยอร์ที่ฝังครั้งล่าสุด
เมื่อเลือกฟีเจอร์เป็นป้ายกำกับ:
เลือกใช้ข้อมูลแบบตัวเลขและเชิงหมวดหมู่เนื่องจากการสูญเสีย ง่ายต่อการคำนวณและตีความสำหรับคุณลักษณะที่เป็นตัวเลข
นำฟีเจอร์ที่คุณใช้เป็นป้ายกำกับออกจากอินพุตไปยัง DNN หรือ ไม่อย่างนั้น DNN จะใช้คุณลักษณะดังกล่าวเพื่อคาดการณ์ผลลัพธ์ได้อย่างสมบูรณ์แบบ (นี่คือ ตัวอย่างที่รุนแรงจากการรั่วไหลของป้ายกำกับ)
DNN ที่ได้จะเป็นแบบใดแบบหนึ่ง ขึ้นอยู่กับป้ายกำกับที่คุณเลือก โปรแกรมเปลี่ยนไฟล์อัตโนมัติหรือโปรแกรมคาดการณ์