การฝัง: การแปลในพื้นที่ที่มีมิติลดลง

embeddingเป็น พื้นที่ซึ่งมีมิติค่อนข้างต่ำที่คุณสามารถแปลได้ เวกเตอร์ที่มีมิติสูง สำหรับการพูดคุยถึงมุมมองที่หลากหลายเทียบกับ ข้อมูลที่มีขนาดต่ำ โปรดดูหมวดหมู่ ข้อมูล

การฝังช่วยให้แมชชีนเลิร์นนิงทำงานได้ง่ายขึ้น เวกเตอร์จุดสนใจ เช่น เป็นเวกเตอร์เล็กน้อยที่แสดงถึงรายการอาหารที่กล่าวถึงใน ส่วนก่อนหน้า ตามหลักการแล้ว การฝังจะรวม ความหมายของข้อมูลที่ป้อนโดยวางอินพุตที่คล้ายกันมากกว่าซึ่งมีความหมายใกล้เคียง ไว้ด้วยกันในพื้นที่ที่ฝัง ตัวอย่างเช่น การฝังที่ดีจะเป็นการวาง คำว่า "รถยนต์" ใกล้ "โรงรถ" มากกว่า คำว่า "ช้าง" สามารถฝึกการฝัง และนำกลับมาใช้ซ้ำในโมเดลต่างๆ

เพื่อให้เห็นภาพว่าเวกเตอร์ที่ใช้ฝังแสดงถึงข้อมูลอย่างไร ให้พิจารณา ตามการนำเสนออาหารในมิติเดียว ฮอทดอก พิซซ่า สลัด shawarma และ borscht ในระดับ "อย่างน้อย แซนด์วิช" "เหมือนแซนด์วิชมากที่สุด" "ความแซนด์วิช" คือมิติข้อมูลเดียว

วันที่ รูปที่ 3 ตามแกนของแซนด์วิช จากน้อยที่สุดไปมากที่สุด:
    บอร์ช, สลัด, พิซซ่า, ฮอตด็อก, ชาวาร์มา
รูปที่ 3 อาหารในแนว "แซนด์วิช" ที่จินตนาการ

ส่วนใดในบรรทัดนี้ แอปเปิ้ล สตรูเดิล ฤดูใบไม้ร่วง อาร์กิวเมนต์อาจวางได้ระหว่าง hot dog ถึง shawarma แต่แอปเปิล สตรูเดิลดูเหมือนจะมีอีกมิติหนึ่งของความหวาน (ความหวาน หรือของหวาน (อาหารเปรียบเสมือนของหวานมากเพียงใด) แตกต่างจากตัวเลือกอื่นๆ อย่างมาก รูปต่อไปนี้ทำให้เห็น โดยเพิ่ม "ของหวาน" ขนาด:

วันที่ รูปที่ 4 รูปภาพเหมือนเดิม แต่มีแกนแนวตั้งของ
    ของหวาน แอปเปิลสตรูเดิลอยู่ระหว่างฮอตด็อกและชาวาร์มา แต่อยู่ด้านบน
    แกนแนวนอน แต่ให้สูงขึ้นจากแกนของทะเลทราย
รูปที่ 4 อาหารที่แสดงโดยทั้ง "แซนด์วิช" และ "ของหวาน"

การฝังจะแสดงแต่ละรายการในพื้นที่มิติข้อมูลที่มี n จำนวนทศนิยม (โดยทั่วไปอยู่ในช่วง -1 ถึง 1 หรือ 0 ถึง 1) ตัวอย่างเช่น การฝังในรูปที่ 4 แสดงถึงรายการอาหารแต่ละรายการใน ปริภูมิสองมิติที่มีสองพิกัด รายการ "แอปเปิ้ล สตรูเดิล" อยู่ใน จตุภาคด้านขวาบนของกราฟ และสามารถกำหนดจุด (0.5, 0.3) ขณะที่ "ฮอตดอก" อยู่ในจตุภาคด้านขวาล่างของกราฟ และระบุจุด (0.2, –0.5) ได้

ในการฝัง เราสามารถคำนวณระยะห่างระหว่าง 2 รายการใดก็ได้ ในทางคณิตศาสตร์ และตีความได้ว่าเป็นความคล้ายคลึงกันสัมพัทธ์ของ 2 สิ่งนี้ รายการ มี 2 สิ่งที่อยู่ใกล้กัน เช่น shawarma และ hot dog ในรูปที่ 4 มีความเกี่ยวข้องกันอย่างใกล้ชิดมากกว่า 2 สิ่งที่อยู่ห่างกันมากกว่า อื่นๆ เช่น apple strudel และ borscht

โปรดสังเกตด้วยว่า apple strudel ในพื้นที่ 2 มิติในรูปที่ 4 อยู่ไกลออกไปมาก จาก shawarma และ hot dog มากกว่าจะอยู่ในพื้นที่ 1 มิติ ซึ่งตรงกัน สัญชาตญาณ: apple strudel ต่างจากฮอตด็อกหรือชาวาร์มามากเท่ากับฮอตด็อก สุนัขและชาวาร์มามีชีวิตต่อกัน

ตอนนี้ให้พิจารณาคำว่าบอร์ชซึ่งมีของเหลวมากกว่าส่วนอื่นๆ ช่วงเวลานี้ แนะนำมิติที่ 3 คือ ของเหลว (ความเหลวของอาหาร) การเพิ่มมิติข้อมูลดังกล่าวจะทำให้รายการเห็นภาพ 3 มิติได้ในลักษณะต่อไปนี้

วันที่ รูปที่ 5 รูปภาพเหมือนเดิม แต่มีแกนที่ 3 เป็นของเหลว
    ตั้งฉากเป็นแนวเหนืออีกสองชั้น และบอร์ชต์เลื่อนไปตามแกนนั้น
รูปที่ 5 อาหารที่แสดงโดย "แซนด์วิช" "ของหวาน" และ "สภาพคล่อง"

ตำแหน่งในพื้นที่ 3 มิตินี้จะ Tangyuan ไปไหม ตอนนี้ ซุป เช่น บอร์ช และของหวาน เช่น แอปเปิ้ล สตรูเดิล และแน่นอนว่า ไม่ใช่แซนด์วิช นี่คือตำแหน่งที่เป็นไปได้หนึ่งตำแหน่ง:

วันที่ รูปที่ 6 รูปภาพเดิมแต่วางบนแทงหยวน
    ของหวาน ของเหลว และปริมาณแซนด์วิชต่ำ
รูปที่ 6 เพิ่ม Tanyuan ลงในรูปภาพก่อนหน้า "ของหวาน" และ "สภาพคล่อง" และคำว่า "แซนด์วิช"

โปรดสังเกตจำนวนข้อมูลที่แสดงในมิติข้อมูลทั้ง 3 นี้ คุณอาจจินตนาการถึงขนาดอื่นๆ เพิ่มเติม เช่น เนื้อสัตว์หรือความอบ

พื้นที่ทำงานที่ฝังในชีวิตจริง

อย่างที่คุณเห็นในตัวอย่างอาหารข้างต้น แม้แต่พื้นที่เล็กๆ ที่มีหลายมิติ ให้อิสระในการจัดกลุ่มรายการที่เหมือนกันไว้ด้วยกันและเก็บ สิ่งของที่ไม่คล้ายกันอยู่ไกลออกไป ตำแหน่ง (ระยะทางและทิศทาง) ในเวกเตอร์ สามารถเข้ารหัสความหมายในการฝังที่ดี ตัวอย่างเช่น URL ต่อไปนี้ การแสดงภาพของการฝังตัวจริงจะแสดงให้เห็นความสัมพันธ์ทางเรขาคณิต ระหว่างคำสำหรับประเทศและเมืองหลวง คุณจะเห็นว่าระยะทาง จาก "แคนาดา" ไปยัง "ออตตาวา" พอๆ กับระยะทางจาก "ตุรกี" ถึง "อังการา"

วันที่ รูปที่ 7 ตัวอย่าง 3 ตัวอย่างของการฝังคำที่แสดงถึงคำ
      ความสัมพันธ์ทางเรขาคณิต: เพศ (ชาย/หญิง และพระมหากษัตริย์/ราชินีโดยคร่าวๆ
      ยาวเท่ากัน) กริยาแสดงเวลา (เดิน/เดิน และว่ายน้ำ/ว่ายน้ำโดยคร่าวๆ
      และเมืองหลวง (ตุรกี/อังการา และเวียดนาม/ฮานอยคือ
      ความยาวใกล้เคียงกัน)
รูปที่ 7 การฝังอาจสร้างการเปรียบเทียบที่น่าสนใจ

พื้นที่ฝังที่มีความหมายช่วยให้โมเดลแมชชีนเลิร์นนิงตรวจจับรูปแบบได้ ในระหว่างการฝึก

การออกกำลังกาย

ในแบบฝึกหัดนี้ คุณจะใช้ฟังก์ชัน การฝัง เครื่องมือโปรเจ็กเตอร์เพื่อแสดงภาพคำ ฝัง word2vec ที่ แสดงคำภาษาอังกฤษมากกว่า 70,000 คำในพื้นที่เวกเตอร์

งาน 1

ดำเนินการต่อไปนี้แล้วตอบคำถามด้านล่าง

  1. เปิดเครื่องมือการฝังโปรเจ็กเตอร์

  2. ป้อนคำว่า atom ในช่องค้นหาในแผงด้านขวา จากนั้น คลิกคำว่าอะตอมจากผลลัพธ์ด้านล่าง (ภายใต้รายการที่ตรงกัน 4 รายการ) บัญชี หน้าจอควรมีลักษณะเหมือนรูปที่ 8

    วันที่ รูปที่ 8 ภาพหน้าจอของเครื่องมือฝังโปรเจ็กเตอร์ที่มี "อะตอม"
    ป้อนในช่องค้นหา (วงกลมสีแดง) การแสดงข้อมูลใน
    ตอนนี้เครื่องมือมีคำอธิบายประกอบจุดใดจุดหนึ่งที่มีคำว่า "อะตอม"
    และเพิ่มคำอธิบายประกอบคำสำหรับจุดใกล้เคียง ในช่อง "ใกล้ที่สุด"
    คะแนน คำว่า "อะตอม" "โมเลกุล" และ "อิเล็กตรอน" แสดงรายการ
    เป็นคำที่ใกล้เคียงที่สุดในพื้นที่เวกเตอร์ของ "อะตอม"
    รูปที่ 8 เครื่องมือฝังโปรเจ็กเตอร์ที่มีคำว่า "อะตอม" เพิ่มแล้ว ในฟิลด์ค้นหา (วงกลมสีแดง)
  3. ในแผงด้านขวา ให้คลิกปุ่มแยก 101 จุด (ด้านบน ช่องค้นหา) เพื่อแสดงคำที่ใกล้เคียงที่สุด 100 คำกับอะตอม หน้าจอของคุณ ควรมีลักษณะเหมือนรูปที่ 9

    วันที่ รูปที่ 9 ภาพหน้าจอของเครื่องมือการฝังโปรเจ็กเตอร์ ซึ่งตอนนี้มี
    "แยก 101 คะแนน" คลิก (ปุ่มที่วงกลมสีแดง) การแสดงข้อมูลผ่านภาพ
    จากรูปที่ 8 ได้รับการอัปเดตให้แสดงเฉพาะคำว่า "อะตอม" และ
    100 คำที่ใกล้ที่สุดในพื้นที่เวกเตอร์ ซึ่งมีคำว่า "อะตอม"
    "นิวเคลียส" และ "อนุภาค"
    รูปที่ 9 เครื่องมือฝังโปรเจ็กเตอร์ ขณะนี้มี "แยก 101 จุด" คลิก (วงกลมสีแดง)

ตอนนี้ให้ตรวจสอบคำที่แสดงอยู่ในจุดที่ใกล้ที่สุดในพื้นที่เดิม คุณจะอธิบายคำเหล่านี้ว่าอย่างไร

คลิกที่นี่เพื่อหาคำตอบของเรา

คำที่ใกล้เคียงที่สุดคือคำที่มีความเชื่อมโยงกันโดยทั่วไป ที่มีคำว่า อะตอม เช่น รูปพหูพจน์ "อะตอม" และคำเหล่านี้ "อิเล็กตรอน" "โมเลกุล" และ "nucleus"

งาน 2

ดำเนินการต่อไปนี้ แล้วตอบคำถามด้านล่าง

  1. คลิกปุ่มแสดงข้อมูลทั้งหมดในแผงด้านขวาเพื่อรีเซ็ตข้อมูล จากงานที่ 1

  2. ในแผงด้านขวา ป้อนคำว่า uranium ในช่องค้นหา หน้าจอควรมีลักษณะคล้ายกับรูปที่ 10

    วันที่ รูปที่ 10 ภาพหน้าจอของเครื่องมือฝังโปรเจ็กเตอร์ที่มี "ยูเรเนียม"
    ที่ป้อนในช่องค้นหา ภาพที่อยู่ตรงกลางของ
    เครื่องมือจะอธิบายจุดใดจุดหนึ่งที่มีคำว่า "ยูเรเนียม" และยังเพิ่ม
    คำอธิบายประกอบคำสำหรับจุดใกล้เคียง ใน "จุดที่ใกล้ที่สุด" 
    คำว่า "ถ่านหิน" "ไอโซโทป" "นิกเกิล" "ออกไซด์" "โอเร" "สังกะสี" และ
    "แมงกานีส" แสดงเป็นคำที่ใกล้ที่สุดในพื้นที่เวกเตอร์เพื่อ
    "ยูเรเนียม"
    รูปที่ 10 เครื่องมือฝังโปรเจ็กเตอร์ ที่มีคำว่า "ยูเรเนียม" เพิ่มลงในช่องค้นหาแล้ว

ตรวจสอบคำที่แสดงอยู่ในจุดที่ใกล้ที่สุดในพื้นที่เดิม อย่างไร คำเหล่านี้แตกต่างจากคำที่ใกล้เคียงที่สุดสำหรับอะตอมไหม

คลิกที่นี่เพื่อหาคำตอบของเรา

ยูเรเนียมหมายถึงรังสีชนิดจำเพาะ ธาตุเคมี และ คำที่ใกล้เคียงที่สุดเป็นองค์ประกอบอื่นๆ เช่น สังกะสี แมงกานีส ทองแดง และอะลูมิเนียม

งาน 3

ดำเนินการต่อไปนี้ แล้วตอบคำถามด้านล่าง

  1. คลิกปุ่มแสดงข้อมูลทั้งหมดในแผงด้านขวาเพื่อรีเซ็ตข้อมูล จากงานที่ 2

  2. ในแผงด้านขวา ป้อนคำว่าสีส้มในช่องค้นหา บัญชี หน้าจอควรมีลักษณะเหมือนรูปที่ 11

    วันที่ รูปที่ 11 ภาพหน้าจอของเครื่องมือฝังโปรเจ็กเตอร์ที่มี "สีส้ม"
    ที่ป้อนในช่องค้นหา ภาพที่อยู่ตรงกลางของเครื่องมือ
    ใส่คำอธิบายประกอบให้กับจุดหนึ่งด้วยคำว่า "สีส้ม" และเพิ่มคำ
    สำหรับจุดใกล้เคียง ใน "จุดที่ใกล้ที่สุด" รายการ
    คำว่า "สีเหลือง" "สีเขียว" "สีน้ำเงิน" "สีม่วง" และ "สี" แสดงรายการ
    เป็นคำที่ใกล้เคียงที่สุดในพื้นที่เวกเตอร์ของ "สีส้ม"
    รูปที่ 11 กำลังฝังเครื่องมือโปรเจ็กเตอร์ ที่มีคำว่า "สีส้ม" เพิ่มลงในช่องค้นหาแล้ว

ตรวจสอบคำที่แสดงอยู่ในจุดที่ใกล้ที่สุดในพื้นที่เดิม คุณสังเกตเห็นอะไรเกี่ยวกับประเภทคำที่แสดงที่นี่ และประเภทคำ ไม่ได้แสดงไว้ที่นี่ใช่ไหม

คลิกที่นี่เพื่อหาคำตอบของเรา

คำที่ใกล้เคียงที่สุดจะเป็นสีอื่น เช่น "เหลือง" "เขียว" "น้ำเงิน" "สีม่วง" และ "สีแดง" มีคำที่ใกล้ที่สุดเพียงคำเดียว ("น้ำผลไม้") หมายถึงความหมายอื่นของคำนั้น (ผลไม้ตระกูลส้ม) ผลไม้อื่นๆ ที่คุณคาดว่าจะเห็น เช่น "แอปเปิล" และ "กล้วย" ไม่ได้ทำรายการของ คำที่ใกล้ที่สุด

ตัวอย่างนี้แสดงข้อบกพร่องที่สำคัญอย่างหนึ่งของการฝังแบบคงที่ เช่น word2vec ความหมายที่เป็นไปได้ทั้งหมดของคำๆ หนึ่งจะแสดงด้วยคำๆ เดียว ในพื้นที่เวกเตอร์ ดังนั้นเมื่อคุณวิเคราะห์ความคล้ายคลึงกันเพื่อหา "สีส้ม" คือ ไม่สามารถแยกจุดที่ใกล้เคียงที่สุดสำหรับสัญลักษณ์ที่เจาะจง ของคำ เช่น "สีส้ม" (ผลไม้) แต่ไม่ใช่ "ส้ม" (สี)