การฝัง: แบบฝึกหัดแบบอินเทอร์แอกทีฟ

วิดเจ็ตต่อไปนี้ ซึ่งใช้ Embedding Projector ของ TensorFlow ทำให้เวกเตอร์แบบคงที่ของ word2vec 10,000 อันแบนราบลงในพื้นที่ 3 มิติ การยุบมิติแบบนี้อาจทำให้เข้าใจผิดเพราะจุดที่อยู่ใกล้กันที่สุดในพื้นที่มิติสูงเดิมอาจปรากฏเหมือนอยู่ห่างกันในการฉายภาพแบบ 3 มิติ จุดที่อยู่ใกล้กันที่สุดจำนวน n จุดไฮไลต์ด้วยสีม่วง โดยที่ผู้ใช้เลือก n ไว้ใน Isolate __ points แถบด้านขวาจะแสดงจุดข้อมูลข้างเคียงที่อยู่ใกล้กันที่สุดดังกล่าว

ในการทดลองเหล่านี้ คุณจะได้ลองเล่นกับการฝังของ word2vec ในวิดเจ็ตด้านบน

งาน 1

ลองหาจุดข้อมูลข้างเคียงที่อยู่ใกล้ที่สุด 20 จุดของคำต่อไปนี้ และดูว่ากลุ่มจุดต่างๆ อยู่ตรงไหนในรูปเมฆจุดข้อมูล

iii, third และ three
tao และ way
orange, yellow และ juice

คุณสังเกตเห็นอะไรเกี่ยวกับผลลัพธ์เหล่านี้

คลิกที่นี่เพื่อดูคำตอบของเรา

ถึงแม้ว่า iii, third และ three จะมีความคล้ายกันทางความหมาย แต่ก็ปรากฏในบริบทที่แตกต่างกันในข้อความ และดูเหมือนว่าจะไม่ได้อยู่ใกล้กันในพื้นที่การฝังนี้ ใน word2vec นั้น iii อยู่ใกล้กับ iv มากกว่าอยู่ใกล้กับ third

ในทำนองเดียวกัน แม้ว่า way จะเป็นการแปลตรงตัวของ tao แต่คำเหล่านี้มักจะปรากฏร่วมกับกลุ่มคำที่แตกต่างกันโดยสิ้นเชิงในชุดข้อมูลที่ใช้ และด้วยเหตุนี้เวกเตอร์ทั้งสองจึงอยู่ห่างกันมาก

จุดข้อมูลข้างเคียงที่อยู่ใกล้ที่สุด 4-5 จุดแรกของ orange คือสีต่างๆ แต่ juice และ peel ซึ่งเกี่ยวข้องกับความหมายของ orange ในฐานะผลไม้ ปรากฏเป็นจุดข้อมูลข้างเคียงที่ใกล้ที่สุดลำดับที่ 14 และ 18 ในขณะเดียวกัน prince เช่นในกรณีของ "Prince of Orange" อยู่ในลำดับที่ 17 ในการฉายภาพ คำที่อยู่ใกล้ orange ที่สุดคือ yellow และสีอื่นๆ ในขณะที่คำที่อยู่ใกล้ juice ที่สุดไม่มี orange

งาน 2

ลองพยายามหาลักษณะเฉพาะบางอย่างของข้อมูลฝึกฝน ตัวอย่างเช่น ลองหาจุดข้อมูลข้างเคียงที่อยู่ใกล้ที่สุด 100 จุดของคำต่อไปนี้ และดูว่ากลุ่มจุดต่างๆ อยู่ตรงไหนในรูปเมฆจุดข้อมูล

boston, paris, tokyo, delhi, moscow และ seoul (นี่คือคำถามทดสอบไหวพริบ)
jane, sarah, john, peter, rosa และ juan

คลิกที่นี่เพื่อดูคำตอบของเรา

จุดข้อมูลข้างเคียงที่อยู่ใกล้ boston ที่สุดจำนวนมากเป็นเมืองอื่นๆ ในสหรัฐอเมริกา จุดข้อมูลข้างเคียงที่อยู่ใกล้ paris ที่สุดจำนวนมากเป็นเมืองอื่นๆ ในยุโรป tokyo และ delhi ดูเหมือนจะไม่ได้ให้ผลลัพธ์ที่คล้ายกัน เนื่องจากคำหนึ่งเกี่ยวข้องกับเมืองต่างๆ ทั่วโลกที่เป็นศูนย์กลางการเดินทาง ขณะที่อีกคำเกี่ยวข้องกับ india และคำอื่นๆ ที่เกี่ยวข้องกัน seoul ไม่ปรากฏอยู่ในชุดเวกเตอร์คำที่มีการตัดลดนี้เลย

ดูเหมือนว่าชุดข้อมูลนี้จะมีเอกสารจำนวนมากที่เกี่ยวข้องกับภูมิศาสตร์ระดับประเทศของสหรัฐฯ บางเอกสารเกี่ยวข้องกับภูมิศาสตร์ระดับภูมิภาคของยุโรป และไม่มีการครอบคลุมรายละเอียดของประเทศหรือภูมิภาคอื่นมากนัก

ในทำนองเดียวกัน ชุดข้อมูลนี้ดูเหมือนจะมีชื่อภาษาอังกฤษของผู้ชายจำนวนมาก ชื่อภาษาอังกฤษของผู้หญิงบางส่วน และมีชื่อจากภาษาอื่นๆ น้อยมาก โปรดทราบว่า Don Rosa เป็นผู้เขียนและวาดภาพการ์ตูน Scrooge McDuck ให้กับ Disney ซึ่งน่าจะเป็นเหตุผลของการที่คำว่า scrooge และ mcduck อยู่ในกลุ่มจุดข้อมูลข้างเคียงที่ใกล้คำว่า "rosa" ที่สุด

เวกเตอร์คำที่ได้รับการฝึกล่วงหน้าซึ่ง word2vec นำเสนอนั้น แท้ที่จริงได้รับการฝึกจากบทความข่าวของ Google News จนถึงปี 2013

งาน 3

การฝังไม่ได้จำกัดอยู่แค่คำเท่านั้น แต่รูปภาพ เสียง และข้อมูลอื่นๆ ก็ฝังได้เช่นกัน สำหรับงานนี้ให้ทำดังนี้

เปิด Embedding Projector ของ TensorFlow
ในแถบด้านซ้ายที่มีชื่อว่าข้อมูล ให้เลือก Mnist พร้อมรูปภาพ การดำเนินการนี้จะแสดงการฉายภาพการฝังของฐานข้อมูล MNIST ซึ่งประกอบด้วยภาพตัวเลขที่เขียนด้วยลายมือ
คลิกเพื่อหยุดการหมุนและเลือกรูปภาพเดียว ซูมเข้าและซูมออกตามต้องการ
มองหาจุดข้อมูลที่อยู่ใกล้ที่สุดในแถบด้านขวา มีสิ่งที่ทำให้คุณประหลาดใจไหม

ทำไมเลข 7 บางตัวมีเลข 1 เป็นจุดข้อมูลที่อยู่ใกล้ที่สุด ทำไมเลข 8 บางตัวมีเลข 9 เป็นจุดข้อมูลที่อยู่ใกล้ที่สุด
มีอะไรในรูปภาพที่อยู่บริเวณขอบของพื้นที่ฉายภาพที่ดูแตกต่างจากรูปภาพที่อยู่กึ่งกลางของพื้นที่ฉายภาพไหม

โปรดทราบว่าโมเดลที่สร้างการฝังเหล่านี้จะรับข้อมูลรูปรูปภาพ ซึ่งก็คือพิกเซล และเลือกการแทนรูปภาพแต่ละภาพด้วยเวกเตอร์เชิงตัวเลข โมเดลดังกล่าวไม่ได้สร้างความเชื่อมโยงทางความคิดโดยอัตโนมัติระหว่างรูปภาพตัวเลขที่เขียนด้วยลายมือกับตัวเลขนั้นเอง

คลิกที่นี่เพื่อดูคำตอบของเรา

เนื่องจากรูปร่างมีความคล้ายคลึงกัน เวกเตอร์ที่แทนเลข 7 ที่บางและแคบบางตัวจึงวางอยู่ใกล้กับเวกเตอร์ของเลข 1 ที่เขียนด้วยลายมือ ซึ่งกรณีนี้เกิดขึ้นกับเลข 8 และเลข 9 บางตัว และแม้กระทั่งเลข 5 กับเลข 3 บางตัวด้วย

ตัวเลขที่เขียนด้วยลายมือซึ่งอยู่ด้านนอกของพื้นที่ฉายภาพดูเหมือนจะระบุได้ชัดเจนว่าเป็นตัวเลขหนึ่งใน 9 ตัวเลข และแตกต่างอย่างชัดเจนกับตัวเลขอื่นที่อาจมีลักษณะใกล้เคียง

พื้นที่การฝังและการฝังแบบคงที่ (10 นาที)

การรับข้อมูลการฝัง (15 นาที)