ภาพรวมการสร้างผู้สมัคร

การสร้างผู้สมัครเป็นคำแนะนำขั้นตอนแรก เมื่อมีข้อความค้นหา ฟิลด์ ระบบจะสร้างชุดตัวเลือกที่เกี่ยวข้อง ตารางต่อไปนี้แสดง วิธีการสร้างผู้สมัครที่ใช้กันโดยทั่วไป:

ประเภทคำจำกัดความตัวอย่าง
การกรองเนื้อหา ใช้ความคล้ายคลึงระหว่างไอเทมในการแนะนำรายการ ที่คล้ายกับสิ่งที่ผู้ใช้ชอบ หากผู้ใช้ A ดูวิดีโอแมวน่ารักๆ 2 รายการ ระบบจะพบว่า สามารถแนะนำวิดีโอสัตว์น่ารักๆ ให้กับผู้ใช้รายนั้นได้
การกรองแบบทำงานร่วมกัน ใช้ความคล้ายคลึงระหว่างคำค้นหาและรายการพร้อมกัน เพื่อให้คำแนะนำ หากผู้ใช้ A คล้ายกับผู้ใช้ B และผู้ใช้ B ชอบวิดีโอ 1 ในกรณีนี้ ระบบจะสามารถแนะนำวิดีโอ 1 ให้กับผู้ใช้ A ได้ (แม้ว่าผู้ใช้ A จะ เห็นวิดีโอที่คล้ายคลึงกับวิดีโอ 1)

การฝังพื้นที่ทำงาน

การกรองทั้งตามเนื้อหาและตัวกรองแบบทำงานร่วมกันจะแมปแต่ละรายการและคำค้นหาแต่ละรายการ (หรือบริบท) ไปยังเวกเตอร์ที่ฝังในพื้นที่การฝังทั่วไป \(E = \mathbb R^d\)โดยปกติแล้วพื้นที่ที่ฝังจะมีมิติน้อย (กล่าวคือ \(d\) เล็กกว่าขนาดของคอร์ปัสมาก) และจับภาพ โครงสร้างที่แฝงอยู่บางอย่างของรายการหรือชุดข้อความค้นหา รายการที่คล้ายกัน เช่น YouTube วิดีโอที่ปกติมักจะรับชมโดยผู้ใช้คนเดียวกัน ซึ่งมาอยู่ในระยะใกล้กันใน ในพื้นที่ที่ฝัง มีความคิดเรื่อง "ความใกล้ชิด" กำหนดโดยการวัดความคล้ายคลึงกัน

การวัดความคล้ายคลึงกัน

การวัดความคล้ายคลึงกันคือฟังก์ชัน \(s : E \times E \to \mathbb R\) ที่ จะใช้การฝังคู่และส่งสเกลาร์เพื่อวัดความคล้ายคลึงกัน การฝังคำขอสามารถใช้กับการสร้างผู้สมัครได้ด้วยวิธีต่อไปนี้ การฝังการค้นหา \(q \in E\)ระบบจะค้นหาการฝังรายการ \(x \in E\) ที่ใกล้เคียงกับ \(q\)ซึ่งก็คือมีการฝังด้วย ความคล้ายคลึงกัน \(s(q, x)\)

ระบบการแนะนำส่วนใหญ่จะพิจารณาระดับของความคล้ายคลึงกัน ตามเกณฑ์ต่อไปนี้อย่างน้อยหนึ่งรายการ

  • โคไซน์
  • ผลิตภัณฑ์แบบจุด
  • ระยะทางยุคลิด

โคไซน์

นี่เป็นเพียงโคไซน์ของมุมระหว่าง 2 เวกเตอร์ \(s(q, x) = \cos(q, x)\)

ผลิตภัณฑ์ Dot

ผลคูณแบบจุดของเวกเตอร์ 2 เวกเตอร์คือ \(s(q, x) = \langle q, x \rangle = \sum_{i = 1}^d q_i x_i\) และให้โดย \(s(q, x) = \|x\| \|q\| \cos(q, x)\) (โคไซน์ของ คูณด้วยผลคูณของบรรทัดฐาน) ดังนั้นหากการฝัง ทำให้เป็นมาตรฐาน จากนั้นดอทผลิตภัณฑ์และโคไซน์เกิดขึ้นพร้อมกัน

ระยะทางยุคลิด

นี่คือระยะทางปกติในยุคลิด พื้นที่ทำงาน, \(s(q, x) = \|q - x\| = \left[ \sum_{i = 1}^d (q_i - x_i)^2\right]^{\frac{1}{2}}\) ระยะทางยิ่งน้อยหมายถึงความคล้ายคลึงกันสูงขึ้น โปรดทราบว่าเมื่อการฝัง ได้รับการทำให้เป็นมาตรฐาน ระยะทางยุคยูคลิดกำลังสองตรงกับผลิตภัณฑ์แบบจุด (และโคไซน์) เป็นค่าคงที่ เนื่องจาก เคส \(\frac{1}{2}\|q - x\|^2 = 1 - \langle q, x \rangle\)

รูปภาพแสดงพื้นที่ที่ฝังแบบ 2 มิติ ซึ่งมีการฝังคำค้นหาและรายการที่เป็นตัวเลือก 3 รายการ

การเปรียบเทียบการวัดความคล้ายคลึงกัน

พิจารณาตัวอย่างในรูปทางด้านขวา เวกเตอร์สีดำแสดงถึง การฝังการค้นหา เวกเตอร์ที่ฝังอีก 3 รายการ (รายการ A, รายการ B, รายการ C) ซึ่งแสดงถึงรายการผู้สมัคร ขึ้นอยู่กับการวัดความคล้ายคลึงกันที่ใช้ การจัดอันดับสินค้าอาจแตกต่างออกไปได้

ใช้รูปภาพในการพิจารณาการจัดอันดับสินค้าโดยใช้ทั้ง 3 อย่าง การวัดความคล้ายคลึงกัน ได้แก่ โคไซน์ ผลคูณเชิงจุด และระยะทางแบบยุคลิด

ความคล้ายคลึงกันเป็นตัววัดค่าใด

เมื่อเทียบกับโคไซน์ ความคล้ายคลึงกันของผลิตภัณฑ์จุดจะไวต่อ บรรทัดฐานของการฝัง นั่นคือ ยิ่งเป็นบรรทัดฐานของ การฝังยิ่งมีความคล้ายคลึงกันมากขึ้น (สำหรับรายการที่มีมุมแหลม) และมีแนวโน้มที่จะได้รับการแนะนำ สินค้ามากขึ้นเท่านั้น ซึ่งอาจส่งผลต่อ ดังต่อไปนี้

  • รายการที่ปรากฏบ่อยมากในชุดการฝึก (เช่น วิดีโอ YouTube ยอดนิยม) มักจะมีการฝังด้วยบรรทัดฐานใหญ่ๆ หากคุณต้องการข้อมูลความนิยม คุณควร ชอบผลิตภัณฑ์แบบจุด แต่หากไม่ระมัดระวัง ลิงก์ รายการอาจกลายเป็นวิดีโอแนะนำ ในทางปฏิบัติ คุณจะ สามารถใช้ตัวแปรอื่นๆ ของการวัดความคล้ายคลึงกันซึ่งเน้นความสำคัญน้อยกว่า ตามลักษณะของไอเทม เช่น ระบุ \(s(q, x) = \|q\|^\alpha \|x\|^\alpha \cos(q, x)\) สำหรับ \(\alpha \in (0, 1)\)

  • รายการที่ปรากฏน้อยมาก อาจไม่ได้อัปเดตบ่อยนักในช่วง การฝึกอบรม ดังนั้น หากเริ่มต้นโดยใช้กลุ่มมาตรฐานขนาดใหญ่ ระบบอาจแนะนำแรร์ไอเทมมากกว่ารายการที่เกี่ยวข้องมากกว่า เพื่อหลีกเลี่ยงปัญหานี้ โปรดระวังเกี่ยวกับการฝังการเริ่มต้น และใช้ มาตรฐาน เราจะอธิบายรายละเอียดของโจทย์นี้ในแบบฝึกหัดแรก