embeddingเป็น พื้นที่ซึ่งมีมิติค่อนข้างต่ำที่คุณสามารถแปลได้ เวกเตอร์ที่มีมิติสูง สำหรับการพูดคุยถึงมุมมองที่หลากหลายเทียบกับ ข้อมูลที่มีขนาดต่ำ โปรดดูหมวดหมู่ ข้อมูล
การฝังช่วยให้แมชชีนเลิร์นนิงทำงานได้ง่ายขึ้น เวกเตอร์จุดสนใจ เช่น เป็นเวกเตอร์เล็กน้อยที่แสดงถึงรายการอาหารที่กล่าวถึงใน ส่วนก่อนหน้า ตามหลักการแล้ว การฝังจะรวม ความหมายของข้อมูลที่ป้อนโดยวางอินพุตที่คล้ายกันมากกว่าซึ่งมีความหมายใกล้เคียง ไว้ด้วยกันในพื้นที่ที่ฝัง ตัวอย่างเช่น การฝังที่ดีจะเป็นการวาง คำว่า "รถยนต์" ใกล้ "โรงรถ" มากกว่า คำว่า "ช้าง" สามารถฝึกการฝัง และนำกลับมาใช้ซ้ำในโมเดลต่างๆ
เพื่อให้เห็นภาพว่าเวกเตอร์ที่ใช้ฝังแสดงถึงข้อมูลอย่างไร ให้พิจารณา ตามการนำเสนออาหารในมิติเดียว ฮอทดอก พิซซ่า สลัด shawarma และ borscht ในระดับ "อย่างน้อย แซนด์วิช" "เหมือนแซนด์วิชมากที่สุด" "ความแซนด์วิช" คือมิติข้อมูลเดียว
ส่วนใดในบรรทัดนี้
แอปเปิ้ล สตรูเดิล
ฤดูใบไม้ร่วง อาร์กิวเมนต์อาจวางได้ระหว่าง hot dog
ถึง shawarma
แต่แอปเปิล
สตรูเดิลดูเหมือนจะมีอีกมิติหนึ่งของความหวาน (ความหวาน
หรือของหวาน (อาหารเปรียบเสมือนของหวานมากเพียงใด)
แตกต่างจากตัวเลือกอื่นๆ อย่างมาก รูปต่อไปนี้ทำให้เห็น
โดยเพิ่ม "ของหวาน" ขนาด:
การฝังจะแสดงแต่ละรายการในพื้นที่มิติข้อมูลที่มี n จำนวนทศนิยม (โดยทั่วไปอยู่ในช่วง -1 ถึง 1 หรือ 0 ถึง 1) ตัวอย่างเช่น การฝังในรูปที่ 4 แสดงถึงรายการอาหารแต่ละรายการใน ปริภูมิสองมิติที่มีสองพิกัด รายการ "แอปเปิ้ล สตรูเดิล" อยู่ใน จตุภาคด้านขวาบนของกราฟ และสามารถกำหนดจุด (0.5, 0.3) ขณะที่ "ฮอตดอก" อยู่ในจตุภาคด้านขวาล่างของกราฟ และระบุจุด (0.2, –0.5) ได้
ในการฝัง เราสามารถคำนวณระยะห่างระหว่าง 2 รายการใดก็ได้
ในทางคณิตศาสตร์
และตีความได้ว่าเป็นความคล้ายคลึงกันสัมพัทธ์ของ 2 สิ่งนี้
รายการ มี 2 สิ่งที่อยู่ใกล้กัน เช่น shawarma
และ hot dog
ในรูปที่ 4 มีความเกี่ยวข้องกันอย่างใกล้ชิดมากกว่า 2 สิ่งที่อยู่ห่างกันมากกว่า
อื่นๆ เช่น apple strudel
และ borscht
โปรดสังเกตด้วยว่า apple strudel
ในพื้นที่ 2 มิติในรูปที่ 4 อยู่ไกลออกไปมาก
จาก shawarma
และ hot dog
มากกว่าจะอยู่ในพื้นที่ 1 มิติ ซึ่งตรงกัน
สัญชาตญาณ: apple strudel
ต่างจากฮอตด็อกหรือชาวาร์มามากเท่ากับฮอตด็อก
สุนัขและชาวาร์มามีชีวิตต่อกัน
ตอนนี้ให้พิจารณาคำว่าบอร์ชซึ่งมีของเหลวมากกว่าส่วนอื่นๆ ช่วงเวลานี้ แนะนำมิติที่ 3 คือ ของเหลว (ความเหลวของอาหาร) การเพิ่มมิติข้อมูลดังกล่าวจะทำให้รายการเห็นภาพ 3 มิติได้ในลักษณะต่อไปนี้
ตำแหน่งในพื้นที่ 3 มิตินี้จะ Tangyuan ไปไหม ตอนนี้ ซุป เช่น บอร์ช และของหวาน เช่น แอปเปิ้ล สตรูเดิล และแน่นอนว่า ไม่ใช่แซนด์วิช นี่คือตำแหน่งที่เป็นไปได้หนึ่งตำแหน่ง:
โปรดสังเกตจำนวนข้อมูลที่แสดงในมิติข้อมูลทั้ง 3 นี้ คุณอาจจินตนาการถึงขนาดอื่นๆ เพิ่มเติม เช่น เนื้อสัตว์หรือความอบ
พื้นที่ทำงานที่ฝังในชีวิตจริง
อย่างที่คุณเห็นในตัวอย่างอาหารข้างต้น แม้แต่พื้นที่เล็กๆ ที่มีหลายมิติ ให้อิสระในการจัดกลุ่มรายการที่เหมือนกันไว้ด้วยกันและเก็บ สิ่งของที่ไม่คล้ายกันอยู่ไกลออกไป ตำแหน่ง (ระยะทางและทิศทาง) ในเวกเตอร์ สามารถเข้ารหัสความหมายในการฝังที่ดี ตัวอย่างเช่น URL ต่อไปนี้ การแสดงภาพของการฝังตัวจริงจะแสดงให้เห็นความสัมพันธ์ทางเรขาคณิต ระหว่างคำสำหรับประเทศและเมืองหลวง คุณจะเห็นว่าระยะทาง จาก "แคนาดา" ไปยัง "ออตตาวา" พอๆ กับระยะทางจาก "ตุรกี" ถึง "อังการา"
พื้นที่ฝังที่มีความหมายช่วยให้โมเดลแมชชีนเลิร์นนิงตรวจจับรูปแบบได้ ในระหว่างการฝึก
การออกกำลังกาย
ในแบบฝึกหัดนี้ คุณจะใช้ฟังก์ชัน การฝัง เครื่องมือโปรเจ็กเตอร์เพื่อแสดงภาพคำ ฝัง word2vec ที่ แสดงคำภาษาอังกฤษมากกว่า 70,000 คำในพื้นที่เวกเตอร์
งาน 1
ดำเนินการต่อไปนี้แล้วตอบคำถามด้านล่าง
เปิดเครื่องมือการฝังโปรเจ็กเตอร์
ป้อนคำว่า atom ในช่องค้นหาในแผงด้านขวา จากนั้น คลิกคำว่าอะตอมจากผลลัพธ์ด้านล่าง (ภายใต้รายการที่ตรงกัน 4 รายการ) บัญชี หน้าจอควรมีลักษณะเหมือนรูปที่ 8
ในแผงด้านขวา ให้คลิกปุ่มแยก 101 จุด (ด้านบน ช่องค้นหา) เพื่อแสดงคำที่ใกล้เคียงที่สุด 100 คำกับอะตอม หน้าจอของคุณ ควรมีลักษณะเหมือนรูปที่ 9
ตอนนี้ให้ตรวจสอบคำที่แสดงอยู่ในจุดที่ใกล้ที่สุดในพื้นที่เดิม คุณจะอธิบายคำเหล่านี้ว่าอย่างไร
คลิกที่นี่เพื่อหาคำตอบของเรา
คำที่ใกล้เคียงที่สุดคือคำที่มีความเชื่อมโยงกันโดยทั่วไป ที่มีคำว่า อะตอม เช่น รูปพหูพจน์ "อะตอม" และคำเหล่านี้ "อิเล็กตรอน" "โมเลกุล" และ "nucleus"
งาน 2
ดำเนินการต่อไปนี้ แล้วตอบคำถามด้านล่าง
คลิกปุ่มแสดงข้อมูลทั้งหมดในแผงด้านขวาเพื่อรีเซ็ตข้อมูล จากงานที่ 1
ในแผงด้านขวา ป้อนคำว่า uranium ในช่องค้นหา หน้าจอควรมีลักษณะคล้ายกับรูปที่ 10
ตรวจสอบคำที่แสดงอยู่ในจุดที่ใกล้ที่สุดในพื้นที่เดิม อย่างไร คำเหล่านี้แตกต่างจากคำที่ใกล้เคียงที่สุดสำหรับอะตอมไหม
คลิกที่นี่เพื่อหาคำตอบของเรา
ยูเรเนียมหมายถึงรังสีชนิดจำเพาะ ธาตุเคมี และ คำที่ใกล้เคียงที่สุดเป็นองค์ประกอบอื่นๆ เช่น สังกะสี แมงกานีส ทองแดง และอะลูมิเนียม
งาน 3
ดำเนินการต่อไปนี้ แล้วตอบคำถามด้านล่าง
คลิกปุ่มแสดงข้อมูลทั้งหมดในแผงด้านขวาเพื่อรีเซ็ตข้อมูล จากงานที่ 2
ในแผงด้านขวา ป้อนคำว่าสีส้มในช่องค้นหา บัญชี หน้าจอควรมีลักษณะเหมือนรูปที่ 11
ตรวจสอบคำที่แสดงอยู่ในจุดที่ใกล้ที่สุดในพื้นที่เดิม คุณสังเกตเห็นอะไรเกี่ยวกับประเภทคำที่แสดงที่นี่ และประเภทคำ ไม่ได้แสดงไว้ที่นี่ใช่ไหม
คลิกที่นี่เพื่อหาคำตอบของเรา
คำที่ใกล้เคียงที่สุดจะเป็นสีอื่น เช่น "เหลือง" "เขียว" "น้ำเงิน" "สีม่วง" และ "สีแดง" มีคำที่ใกล้ที่สุดเพียงคำเดียว ("น้ำผลไม้") หมายถึงความหมายอื่นของคำนั้น (ผลไม้ตระกูลส้ม) ผลไม้อื่นๆ ที่คุณคาดว่าจะเห็น เช่น "แอปเปิล" และ "กล้วย" ไม่ได้ทำรายการของ คำที่ใกล้ที่สุด
ตัวอย่างนี้แสดงข้อบกพร่องที่สำคัญอย่างหนึ่งของการฝังแบบคงที่ เช่น word2vec ความหมายที่เป็นไปได้ทั้งหมดของคำๆ หนึ่งจะแสดงด้วยคำๆ เดียว ในพื้นที่เวกเตอร์ ดังนั้นเมื่อคุณวิเคราะห์ความคล้ายคลึงกันเพื่อหา "สีส้ม" คือ ไม่สามารถแยกจุดที่ใกล้เคียงที่สุดสำหรับสัญลักษณ์ที่เจาะจง ของคำ เช่น "สีส้ม" (ผลไม้) แต่ไม่ใช่ "ส้ม" (สี)