การวัดความคล้ายคลึงกันที่มีการควบคุมดูแล

แทนที่จะเปรียบเทียบข้อมูลสถานที่ที่คุณรวมด้วยตนเอง คุณสามารถลดคุณลักษณะ ข้อมูลในการเป็นตัวแทนที่เรียกว่า การฝัง จากนั้นเปรียบเทียบ การฝังวิดีโอ การฝังสร้างขึ้นจากการฝึกระบบประสาทเทียมระดับลึกที่มีการควบคุมดูแล เครือข่าย (DNN) ในฟีเจอร์ ข้อมูลอีกด้วย การฝังจะแมปข้อมูลฟีเจอร์กับเวกเตอร์ในการฝัง พื้นที่ที่โดยปกติแล้วจะมีขนาดน้อยกว่าข้อมูลฟีเจอร์ การฝังคือ ที่กล่าวถึงในการฝัง ของหลักสูตรแมชชีนเลิร์นนิง ส่วนการพูดคุยเกี่ยวกับโครงข่ายประสาทใน โครงข่ายประสาท การฝังเวกเตอร์สำหรับตัวอย่างที่คล้ายกัน เช่น วิดีโอ YouTube บน หัวข้อที่คล้ายกันที่ผู้ใช้คนเดียวกันรับชม ซึ่งจบพร้อมกันในการฝัง พื้นที่ทำงาน มาตรการวัดความคล้ายคลึงที่มีการควบคุมดูแล ใช้ "ความใกล้" นี้ เพื่อวัดความคล้ายคลึงกันสำหรับคู่ของ ตัวอย่าง

อย่าลืมว่าเราพูดถึงการเรียนรู้ที่มีการควบคุมดูแลเท่านั้นเพื่อสร้างความคล้ายคลึงกัน วัดผล จากนั้นจะมีการใช้การวัดความคล้ายคลึงกันไม่ว่าจะดำเนินการด้วยตนเองหรือภายใต้การควบคุมดูแลโดย อัลกอริทึมในการดำเนินการคลัสเตอร์ที่ไม่มีการควบคุมดูแล

การเปรียบเทียบมาตรการที่กำหนดเองและมาตรการที่มีการควบคุมดูแล

ตารางนี้จะอธิบายกรณีที่ควรใช้ความคล้ายคลึงกันด้วยตนเองหรือความคล้ายคลึงกันที่มีการควบคุมดูแล วัดค่าได้โดยขึ้นอยู่กับข้อกำหนด

ข้อกำหนดกำหนดเองมีการควบคุมดูแล
ลดข้อมูลที่ซ้ำซ้อนในฟีเจอร์ที่สัมพันธ์กันใช่ไหม ไม่ได้ คุณจำเป็นต้องตรวจสอบความสัมพันธ์ระหว่างฟีเจอร์ต่างๆ ใช่ DNN จะนำข้อมูลที่ซ้ำซ้อนออก
ให้ข้อมูลเชิงลึกเกี่ยวกับความคล้ายคลึงกันที่คำนวณแล้วหรือไม่ ใช่ ไม่ได้ คุณไม่สามารถถอดรหัสการฝังได้
เหมาะกับชุดข้อมูลขนาดเล็กที่มีฟีเจอร์ไม่มากใช่ไหม ได้ ไม่ ชุดข้อมูลขนาดเล็กไม่ได้ให้ข้อมูลการฝึกที่เพียงพอสำหรับ DNN
เหมาะกับชุดข้อมูลขนาดใหญ่ที่มีฟีเจอร์มากมายไหม ไม่ เป็นการลบข้อมูลที่ซ้ำซ้อนออกจากหลายฟีเจอร์ด้วยตนเอง และเมื่อรวมเข้าด้วยกัน ก็เป็นเรื่องที่ยากมาก ใช่ DNN จะตัดข้อมูลที่ซ้ำซ้อนออกโดยอัตโนมัติ ผสานรวมฟีเจอร์ต่างๆ

การสร้างการวัดความคล้ายคลึงกันภายใต้การควบคุมดูแล

ต่อไปนี้คือภาพรวมของกระบวนการสร้างการวัดความคล้ายคลึงกันภายใต้การควบคุมดูแล

วันที่ ป้อนข้อมูลฟีเจอร์ เลือก DNN: โปรแกรมเปลี่ยนไฟล์อัตโนมัติหรือตัวคาดการณ์
      แยกการฝัง เลือกการวัด: ผลิตภัณฑ์แบบจุด โคไซน์ หรือ
      ระยะทางสมัยยุคลิด
รูปที่ 1: ขั้นตอนการสร้างความคล้ายคลึงกันภายใต้การควบคุมดูแล สำหรับเครื่องมือวัด Conversion

หน้านี้กล่าวถึงเรื่อง DNN ขณะที่ หน้าต่อไปนี้จะครอบคลุมขั้นตอนที่เหลือ

เลือก DNN ตามป้ายกำกับการฝึก

ลดข้อมูลฟีเจอร์ให้เป็นการฝังมิติข้อมูลที่ต่ำกว่าด้วยการฝึก DNN ที่ ใช้ข้อมูลฟีเจอร์เดียวกันทั้งเป็นอินพุตและป้ายกำกับ ตัวอย่างเช่น ใน ในกรณีที่เป็นข้อมูลบ้าน DNN จะใช้ฟีเจอร์ต่างๆ เช่น ราคา ขนาด และ รหัสไปรษณีย์ เพื่อคาดการณ์สถานที่นั้นๆ ด้วยตัวเอง

โปรแกรมเปลี่ยนไฟล์อัตโนมัติ

DNN ที่เรียนรู้การฝังข้อมูลอินพุตด้วยการคาดการณ์ข้อมูลอินพุตเอง เรียกว่าโปรแกรมเปลี่ยนไฟล์อัตโนมัติ เนื่องจากเลเยอร์ที่ซ่อนอยู่ของโปรแกรมเปลี่ยนไฟล์อัตโนมัติจะมีขนาดเล็กกว่า มากกว่าเลเยอร์อินพุตและเอาต์พุต โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะถูกบังคับให้เรียนรู้ การนำเสนอข้อมูลฟีเจอร์อินพุตแบบบีบอัด เมื่อ DNN ได้รับการฝึกแล้ว แยกการฝังจากเลเยอร์ที่ซ่อนอยู่ซึ่งมีขนาดเล็กที่สุดเพื่อคำนวณความคล้ายคลึงกัน

วันที่ รูปแสดงโหนดจำนวนมากสำหรับที่เหมือนกัน
       ซึ่งบีบอัดเป็น 3 โหนดตรงกลาง
       จากเลเยอร์ที่ซ่อนอยู่ 5 เลเยอร์
ภาพที่ 2: สถาปัตยกรรมโปรแกรมเปลี่ยนไฟล์อัตโนมัติ

ผู้คาดการณ์

โปรแกรมเปลี่ยนไฟล์อัตโนมัติเป็นตัวเลือกที่สร้างการฝังได้ง่ายที่สุด อย่างไรก็ตาม โปรแกรมเปลี่ยนไฟล์อัตโนมัติไม่ใช่ตัวเลือกที่ดีที่สุดสำหรับฟีเจอร์บางรายการ ในการพิจารณาความคล้ายคลึงกัน เช่น ในข้อมูลภายใน ให้คิดว่าราคาสำคัญกว่ารหัสไปรษณีย์ ในกรณีดังกล่าว ให้ใช้ เฉพาะฟีเจอร์ที่สำคัญในฐานะป้ายกำกับการฝึกสำหรับ DNN เนื่องจาก DNN นี้ จะคาดการณ์ฟีเจอร์อินพุตใดฟีเจอร์หนึ่ง แทนการคาดการณ์ฟีเจอร์อินพุตทั้งหมด เรียกว่า ผู้คาดคะเน DNN การฝังควรมาจาก เลเยอร์ที่ฝังครั้งล่าสุด

วันที่ รูปแสดงโหนดจำนวนมากในเวกเตอร์อินพุต
       ถูกตัดทอนจากเลเยอร์ที่ซ่อนอยู่ 3 เลเยอร์จนกลายเป็นเลเยอร์ 3 โหนดซึ่ง
       ควรแยกส่วนแบบฝังออก เลเยอร์เอาต์พุตสุดท้ายคือ
       ป้ายกำกับ
ภาพที่ 3: สถาปัตยกรรมตัวคาดการณ์

เมื่อเลือกฟีเจอร์เป็นป้ายกำกับ:

  • เลือกใช้ข้อมูลแบบตัวเลขและเชิงหมวดหมู่เนื่องจากการสูญเสีย ง่ายต่อการคำนวณและตีความสำหรับคุณลักษณะที่เป็นตัวเลข

  • นำฟีเจอร์ที่คุณใช้เป็นป้ายกำกับออกจากอินพุตไปยัง DNN หรือ ไม่อย่างนั้น DNN จะใช้คุณลักษณะดังกล่าวเพื่อคาดการณ์ผลลัพธ์ได้อย่างสมบูรณ์แบบ (นี่คือ ตัวอย่างที่รุนแรงจากการรั่วไหลของป้ายกำกับ)

DNN ที่ได้จะเป็นแบบใดแบบหนึ่ง ขึ้นอยู่กับป้ายกำกับที่คุณเลือก โปรแกรมเปลี่ยนไฟล์อัตโนมัติหรือโปรแกรมคาดการณ์