การสร้างผู้สมัครเป็นคำแนะนำขั้นตอนแรก เมื่อมีข้อความค้นหา ฟิลด์ ระบบจะสร้างชุดตัวเลือกที่เกี่ยวข้อง ตารางต่อไปนี้แสดง วิธีการสร้างผู้สมัครที่ใช้กันโดยทั่วไป:
ประเภท | คำจำกัดความ | ตัวอย่าง |
---|---|---|
การกรองเนื้อหา | ใช้ความคล้ายคลึงระหว่างไอเทมในการแนะนำรายการ ที่คล้ายกับสิ่งที่ผู้ใช้ชอบ | หากผู้ใช้ A ดูวิดีโอแมวน่ารักๆ 2 รายการ ระบบจะพบว่า สามารถแนะนำวิดีโอสัตว์น่ารักๆ ให้กับผู้ใช้รายนั้นได้ |
การกรองแบบทำงานร่วมกัน | ใช้ความคล้ายคลึงระหว่างคำค้นหาและรายการพร้อมกัน เพื่อให้คำแนะนำ | หากผู้ใช้ A คล้ายกับผู้ใช้ B และผู้ใช้ B ชอบวิดีโอ 1 ในกรณีนี้ ระบบจะสามารถแนะนำวิดีโอ 1 ให้กับผู้ใช้ A ได้ (แม้ว่าผู้ใช้ A จะ เห็นวิดีโอที่คล้ายคลึงกับวิดีโอ 1) |
การฝังพื้นที่ทำงาน
การกรองทั้งตามเนื้อหาและตัวกรองแบบทำงานร่วมกันจะแมปแต่ละรายการและคำค้นหาแต่ละรายการ (หรือบริบท) ไปยังเวกเตอร์ที่ฝังในพื้นที่การฝังทั่วไป \(E = \mathbb R^d\)โดยปกติแล้วพื้นที่ที่ฝังจะมีมิติน้อย (กล่าวคือ \(d\) เล็กกว่าขนาดของคอร์ปัสมาก) และจับภาพ โครงสร้างที่แฝงอยู่บางอย่างของรายการหรือชุดข้อความค้นหา รายการที่คล้ายกัน เช่น YouTube วิดีโอที่ปกติมักจะรับชมโดยผู้ใช้คนเดียวกัน ซึ่งมาอยู่ในระยะใกล้กันใน ในพื้นที่ที่ฝัง มีความคิดเรื่อง "ความใกล้ชิด" กำหนดโดยการวัดความคล้ายคลึงกัน
การวัดความคล้ายคลึงกัน
การวัดความคล้ายคลึงกันคือฟังก์ชัน \(s : E \times E \to \mathbb R\) ที่ จะใช้การฝังคู่และส่งสเกลาร์เพื่อวัดความคล้ายคลึงกัน การฝังคำขอสามารถใช้กับการสร้างผู้สมัครได้ด้วยวิธีต่อไปนี้ การฝังการค้นหา \(q \in E\)ระบบจะค้นหาการฝังรายการ \(x \in E\) ที่ใกล้เคียงกับ \(q\)ซึ่งก็คือมีการฝังด้วย ความคล้ายคลึงกัน \(s(q, x)\)
ระบบการแนะนำส่วนใหญ่จะพิจารณาระดับของความคล้ายคลึงกัน ตามเกณฑ์ต่อไปนี้อย่างน้อยหนึ่งรายการ
- โคไซน์
- ผลิตภัณฑ์แบบจุด
- ระยะทางยุคลิด
โคไซน์
นี่เป็นเพียงโคไซน์ของมุมระหว่าง 2 เวกเตอร์ \(s(q, x) = \cos(q, x)\)
ผลิตภัณฑ์ Dot
ผลคูณแบบจุดของเวกเตอร์ 2 เวกเตอร์คือ \(s(q, x) = \langle q, x \rangle = \sum_{i = 1}^d q_i x_i\) และให้โดย \(s(q, x) = \|x\| \|q\| \cos(q, x)\) (โคไซน์ของ คูณด้วยผลคูณของบรรทัดฐาน) ดังนั้นหากการฝัง ทำให้เป็นมาตรฐาน จากนั้นดอทผลิตภัณฑ์และโคไซน์เกิดขึ้นพร้อมกัน
ระยะทางยุคลิด
นี่คือระยะทางปกติในยุคลิด พื้นที่ทำงาน, \(s(q, x) = \|q - x\| = \left[ \sum_{i = 1}^d (q_i - x_i)^2\right]^{\frac{1}{2}}\) ระยะทางยิ่งน้อยหมายถึงความคล้ายคลึงกันสูงขึ้น โปรดทราบว่าเมื่อการฝัง ได้รับการทำให้เป็นมาตรฐาน ระยะทางยุคยูคลิดกำลังสองตรงกับผลิตภัณฑ์แบบจุด (และโคไซน์) เป็นค่าคงที่ เนื่องจาก เคส \(\frac{1}{2}\|q - x\|^2 = 1 - \langle q, x \rangle\)
การเปรียบเทียบการวัดความคล้ายคลึงกัน
พิจารณาตัวอย่างในรูปทางด้านขวา เวกเตอร์สีดำแสดงถึง การฝังการค้นหา เวกเตอร์ที่ฝังอีก 3 รายการ (รายการ A, รายการ B, รายการ C) ซึ่งแสดงถึงรายการผู้สมัคร ขึ้นอยู่กับการวัดความคล้ายคลึงกันที่ใช้ การจัดอันดับสินค้าอาจแตกต่างออกไปได้
ใช้รูปภาพในการพิจารณาการจัดอันดับสินค้าโดยใช้ทั้ง 3 อย่าง การวัดความคล้ายคลึงกัน ได้แก่ โคไซน์ ผลคูณเชิงจุด และระยะทางแบบยุคลิด
ความคล้ายคลึงกันเป็นตัววัดค่าใด
เมื่อเทียบกับโคไซน์ ความคล้ายคลึงกันของผลิตภัณฑ์จุดจะไวต่อ บรรทัดฐานของการฝัง นั่นคือ ยิ่งเป็นบรรทัดฐานของ การฝังยิ่งมีความคล้ายคลึงกันมากขึ้น (สำหรับรายการที่มีมุมแหลม) และมีแนวโน้มที่จะได้รับการแนะนำ สินค้ามากขึ้นเท่านั้น ซึ่งอาจส่งผลต่อ ดังต่อไปนี้
รายการที่ปรากฏบ่อยมากในชุดการฝึก (เช่น วิดีโอ YouTube ยอดนิยม) มักจะมีการฝังด้วยบรรทัดฐานใหญ่ๆ หากคุณต้องการข้อมูลความนิยม คุณควร ชอบผลิตภัณฑ์แบบจุด แต่หากไม่ระมัดระวัง ลิงก์ รายการอาจกลายเป็นวิดีโอแนะนำ ในทางปฏิบัติ คุณจะ สามารถใช้ตัวแปรอื่นๆ ของการวัดความคล้ายคลึงกันซึ่งเน้นความสำคัญน้อยกว่า ตามลักษณะของไอเทม เช่น ระบุ \(s(q, x) = \|q\|^\alpha \|x\|^\alpha \cos(q, x)\) สำหรับ \(\alpha \in (0, 1)\)
รายการที่ปรากฏน้อยมาก อาจไม่ได้อัปเดตบ่อยนักในช่วง การฝึกอบรม ดังนั้น หากเริ่มต้นโดยใช้กลุ่มมาตรฐานขนาดใหญ่ ระบบอาจแนะนำแรร์ไอเทมมากกว่ารายการที่เกี่ยวข้องมากกว่า เพื่อหลีกเลี่ยงปัญหานี้ โปรดระวังเกี่ยวกับการฝังการเริ่มต้น และใช้ มาตรฐาน เราจะอธิบายรายละเอียดของโจทย์นี้ในแบบฝึกหัดแรก