หน้านี้มีคำศัพท์ในอภิธานศัพท์ของโมเดลลำดับ ดูคำศัพท์ทั้งหมดในอภิธานศัพท์ได้โดยการคลิกที่นี่
B
Bigram
N-gram โดยที่ N=2
E
ปัญหาการไล่ระดับที่เพิ่มขึ้น
แนวโน้มที่เส้นลาดในโครงข่ายประสาทแบบลึก (โดยเฉพาะโครงข่ายประสาทแบบซ้ำ) จะชัน (สูง) อย่างน่าประหลาดใจ เส้นลาดชันชันมักจะทําให้เกิดการอัปเดตน้ำหนักของโหนดแต่ละโหนดในเครือข่ายประสาทเทียมลึกอย่างมาก
โมเดลที่มีปัญหาเกี่ยวกับ Gradient Explosion จะฝึกได้ยากหรือเป็นไปไม่ได้ การตัดเฉดสีจะช่วยบรรเทาปัญหานี้ได้
เปรียบเทียบกับปัญหาการลดทอนความชัน
F
ลืมประตูรั้ว
ส่วนหนึ่งของเซลล์ความจำระยะสั้นระยะยาวที่ควบคุมการไหลของข้อมูลผ่านเซลล์ เกต Forget จะรักษาบริบทโดยเลือกข้อมูลที่จะทิ้งออกจากสถานะของเซลล์
G
การตัดเฉือนการไล่ระดับสี
กลไกที่ใช้กันโดยทั่วไปเพื่อบรรเทาปัญหาการเพิ่มขึ้นของ Gradient คือการจำกัด (การตัด) ค่าสูงสุดของ Gradient โดยใช้การลด Gradient เพื่อฝึกโมเดล
L
Long Short-Term Memory (LSTM)
เซลล์ประเภทหนึ่งในเครือข่ายประสาทเทียมแบบซ้ำที่ใช้ประมวลผลลำดับข้อมูลในแอปพลิเคชันต่างๆ เช่น การจดจำลายมือ การแปลด้วยคอมพิวเตอร์ และการใส่คำบรรยายแทนเสียงแทนเสียงในรูปภาพ LSTM ช่วยแก้ปัญหาการลดลงของอนุพันธ์ที่เกิดขึ้นเมื่อฝึก RNN เนื่องจากลําดับข้อมูลยาว โดยเก็บประวัติไว้ในสถานะหน่วยความจําภายในตามอินพุตและบริบทใหม่จากเซลล์ก่อนหน้าใน RNN
LSTM
ตัวย่อของ Long Short-Term Memory
N
N-gram
ลําดับคํา N รายการ เช่น truly madly เป็น 2-gram เนื่องจากลำดับคำมีความเกี่ยวข้อง madly truly จึงถือเป็น 2-gram ที่แตกต่างจาก truly madly
N | ชื่อของ N-gram ประเภทนี้ | ตัวอย่าง |
---|---|---|
2 | Bigram หรือ 2-gram | to go, go to, eat lunch, eat dinner |
3 | 3-gram | ate too much, three blind mice, the bell tolls |
4 | 4-gram | เดินเล่นในสวนสาธารณะ ฝุ่นในสายลม เด็กชายกินถั่วเลนทิล |
โมเดลการทำความเข้าใจภาษาธรรมชาติจำนวนมากใช้ N-gram เพื่อคาดคะเนคำถัดไปที่ผู้ใช้จะพิมพ์หรือพูด เช่น สมมติว่าผู้ใช้พิมพ์ three blind โมเดล NLU ที่อิงตามไตรแกรมมีแนวโน้มที่จะคาดการณ์ว่าผู้ใช้จะพิมพ์คำว่า mice เป็นคำถัดไป
เปรียบเทียบ N-gram กับถุงคำ ซึ่งเป็นชุดคำที่ไม่มีลําดับ
R
โครงข่ายประสาทแบบซ้ำ
เครือข่ายประสาทเทียมที่ตั้งใจให้ทํางานหลายครั้ง โดยที่ส่วนหนึ่งของการทํางานแต่ละครั้งจะป้อนข้อมูลไปยังการทํางานครั้งถัดไป กล่าวโดยละเอียดคือ เลเยอร์ที่ซ่อนอยู่จากการเรียกใช้ก่อนหน้านี้จะส่งข้อมูลส่วนหนึ่งไปยังเลเยอร์ที่ซ่อนเดียวกันในการเรียกใช้ครั้งถัดไป เครือข่ายประสาทแบบซ้ำมีประโยชน์อย่างยิ่งในการประเมินลำดับ เพื่อให้ชั้นที่ซ่อนอยู่สามารถเรียนรู้จากการเรียกใช้เครือข่ายประสาทก่อนหน้านี้ในส่วนก่อนหน้าของลำดับ
เช่น รูปภาพต่อไปนี้แสดงเครือข่ายประสาทแบบซ้ำที่ทํางาน 4 ครั้ง โปรดทราบว่าค่าที่เรียนรู้ในชั้นที่ซ่อนจากการทำงานครั้งแรกจะกลายเป็นส่วนหนึ่งของอินพุตสําหรับชั้นที่ซ่อนเดียวกันในการทํางานครั้งที่ 2 ในทํานองเดียวกัน ค่าที่เรียนรู้ในชั้นซ่อนในการเรียกใช้ครั้งที่ 2 จะกลายเป็นส่วนหนึ่งของอินพุตสําหรับชั้นซ่อนเดียวกันในการเรียกใช้ครั้งที่ 3 วิธีนี้ช่วยให้เครือข่ายประสาทแบบซ้ำๆ ค่อยๆ ฝึกและคาดการณ์ความหมายของทั้งลำดับแทนที่จะคาดการณ์ความหมายของคำแต่ละคำ
RNN
ตัวย่อของ โครงข่ายประสาทแบบย้อนกลับ
S
รูปแบบลําดับ
โมเดลที่อินพุตมีความเกี่ยวข้องตามลำดับ เช่น การคาดคะเนวิดีโอถัดไปที่จะรับชมจากลำดับวิดีโอที่ดูก่อนหน้านี้
T
ช่วงเวลา
เซลล์ "แบบไม่ได้ม้วน" 1 เซลล์ภายในเครือข่ายประสาทแบบซ้ำ ตัวอย่างเช่น รูปภาพต่อไปนี้แสดงช่วงเวลา 3 ช่วงเวลา (ติดป้ายกำกับด้วยอนุพันธ์ย่อย t-1, t และ t+1)
3-gram
N-gram โดยที่ N=3
V
ปัญหาการไล่ระดับสีที่หายไป
แนวโน้มที่ความลาดชันของเลเยอร์ที่ซ่อนอยู่ในช่วงต้นของเครือข่ายประสาทเทียมลึกบางรายการจะกลายเป็นแนวราบ (ต่ำ) อย่างน่าประหลาดใจ การที่ Gradient ลดลงเรื่อยๆ จะทําให้การเปลี่ยนแปลงน้ำหนักของโหนดในโครงข่ายประสาทแบบลึกลดลงเรื่อยๆ ซึ่งทําให้การเรียนรู้น้อยลงหรือไม่มีเลย โมเดลที่มีปัญหาเรื่องลู่ลาดที่ลดลงจะฝึกได้ยากหรือเป็นไปไม่ได้ เซลล์ Long Short-Term Memory ช่วยแก้ปัญหานี้ได้
เปรียบเทียบกับปัญหาการเพิ่มขึ้นของ Gradient