หน้านี้ได้รับการแปลโดย Cloud Translation API

อภิธานศัพท์ของแมชชีนเลิร์นนิง: โมเดลลำดับ

หน้านี้มีคำศัพท์ในอภิธานศัพท์ของโมเดลลำดับ ดูคำศัพท์ทั้งหมดในอภิธานศัพท์ได้โดยการคลิกที่นี่

B

Bigram

#seq

#language

N-gram โดยที่ N=2

E

ปัญหาการไล่ระดับที่เพิ่มขึ้น

#seq

แนวโน้มที่เส้นลาดในโครงข่ายประสาทแบบลึก (โดยเฉพาะโครงข่ายประสาทแบบซ้ำ) จะชัน (สูง) อย่างน่าประหลาดใจ เส้นลาดชันชันมักจะทําให้เกิดการอัปเดตน้ำหนักของโหนดแต่ละโหนดในเครือข่ายประสาทเทียมลึกอย่างมาก

โมเดลที่มีปัญหาเกี่ยวกับ Gradient Explosion จะฝึกได้ยากหรือเป็นไปไม่ได้ การตัดเฉดสีจะช่วยบรรเทาปัญหานี้ได้

เปรียบเทียบกับปัญหาการลดทอนความชัน

F

ลืมประตูรั้ว

#seq

ส่วนหนึ่งของเซลล์ความจำระยะสั้นระยะยาวที่ควบคุมการไหลของข้อมูลผ่านเซลล์ เกต Forget จะรักษาบริบทโดยเลือกข้อมูลที่จะทิ้งจากสถานะของเซลล์

G

การตัดเฉือนการไล่ระดับสี

#seq

กลไกที่ใช้กันโดยทั่วไปเพื่อบรรเทาปัญหาการเพิ่มขึ้นของ Gradient คือการจำกัด (การตัด) ค่าสูงสุดของ Gradient โดยใช้การลด Gradient เพื่อฝึกโมเดล

L

Long Short-Term Memory (LSTM)

#seq

เซลล์ประเภทหนึ่งในเครือข่ายประสาทเทียมแบบซ้ำที่ใช้ประมวลผลลำดับข้อมูลในแอปพลิเคชันต่างๆ เช่น การจดจำลายมือ การแปลด้วยคอมพิวเตอร์ และการใส่คำบรรยายแทนเสียงแทนเสียงในรูปภาพ LSTM ช่วยแก้ปัญหาการลดลงของ Gradient ที่จะเกิดขึ้นเมื่อฝึก RNN เนื่องจากลําดับข้อมูลยาว โดยเก็บประวัติไว้ในสถานะหน่วยความจําภายในตามอินพุตและบริบทใหม่จากเซลล์ก่อนหน้าใน RNN

LSTM

#seq

ตัวย่อของ Long Short-Term Memory

N

N-gram

#seq

#language

ลําดับคํา N รายการ เช่น truly madly เป็น 2-gram เนื่องจากลำดับคำมีความเกี่ยวข้อง madly truly จึงถือเป็น 2-gram ที่แตกต่างจาก truly madly

N	ชื่อของ N-gram ประเภทนี้	ตัวอย่าง
2	Bigram หรือ 2-gram	to go, go to, eat lunch, eat dinner
3	3-gram	กินมากเกินไป อยู่กันอย่างมีความสุขตลอดไป เสียงระฆังดังก้อง
4	4-gram	เดินเล่นในสวนสาธารณะ ฝุ่นในสายลม เด็กชายกินถั่วเลนทิล

โมเดลการทำความเข้าใจภาษาธรรมชาติหลายโมเดลใช้ N-gram เพื่อคาดคะเนคำถัดไปที่ผู้ใช้จะพิมพ์หรือพูด ตัวอย่างเช่น สมมติว่าผู้ใช้พิมพ์ happily ever โมเดล NLU ที่อิงตามไตรแกรมมีแนวโน้มที่จะคาดเดาว่าผู้ใช้จะพิมพ์คำว่า after เป็นคำถัดไป

เปรียบเทียบ N-gram กับถุงคำ ซึ่งเป็นชุดคำที่ไม่มีลําดับ

ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาขนาดใหญ่ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

R

โครงข่ายประสาทแบบซ้ำ

#seq

เครือข่ายประสาทเทียมที่ตั้งใจให้ทํางานหลายครั้ง โดยที่ส่วนหนึ่งของการทํางานแต่ละครั้งจะป้อนข้อมูลไปยังการทํางานครั้งถัดไป กล่าวโดยละเอียดคือ เลเยอร์ที่ซ่อนอยู่จากการเรียกใช้ก่อนหน้านี้จะส่งข้อมูลส่วนหนึ่งไปยังเลเยอร์ที่ซ่อนเดียวกันในการเรียกใช้ครั้งถัดไป เครือข่ายประสาทแบบซ้ำมีประโยชน์อย่างยิ่งในการประเมินลำดับ เพื่อให้ชั้นที่ซ่อนอยู่สามารถเรียนรู้จากการเรียกใช้เครือข่ายประสาทก่อนหน้านี้ในส่วนก่อนหน้าของลำดับ

เช่น รูปภาพต่อไปนี้แสดงเครือข่ายประสาทแบบซ้ำที่ทํางาน 4 ครั้ง โปรดทราบว่าค่าที่เรียนรู้ในชั้นที่ซ่อนจากการทำงานครั้งแรกจะกลายเป็นส่วนหนึ่งของอินพุตสําหรับชั้นที่ซ่อนเดียวกันในการทํางานครั้งที่ 2 ในทํานองเดียวกัน ค่าที่เรียนรู้ในชั้นซ่อนในการเรียกใช้ครั้งที่ 2 จะกลายเป็นส่วนหนึ่งของอินพุตสําหรับชั้นซ่อนเดียวกันในการเรียกใช้ครั้งที่ 3 วิธีนี้ช่วยให้เครือข่ายประสาทแบบซ้ำๆ ค่อยๆ ฝึกและคาดการณ์ความหมายของทั้งลำดับแทนที่จะคาดการณ์ความหมายของคำแต่ละคำ

RNN ที่ทํางาน 4 ครั้งเพื่อประมวลผลคําอินพุต 4 คํา

RNN

#seq

ตัวย่อของ โครงข่ายประสาทแบบย้อนกลับ

S

รูปแบบลําดับ

#seq

โมเดลที่อินพุตมีความเกี่ยวข้องตามลำดับ เช่น การคาดคะเนวิดีโอถัดไปที่จะรับชมจากลำดับวิดีโอที่ดูก่อนหน้านี้

T

ช่วงเวลา

#seq

เซลล์ "แบบไม่ได้ม้วน" 1 เซลล์ภายในเครือข่ายประสาทแบบซ้ำ ตัวอย่างเช่น รูปภาพต่อไปนี้แสดงช่วงเวลา 3 ช่วงเวลา (ติดป้ายกำกับด้วยส่วนย่อย t-1, t และ t+1)

ช่วงเวลา 3 ช่วงเวลาในโครงข่ายประสาทเทียมแบบซ้ำ เอาต์พุตของช่วงเวลาแรกจะกลายเป็นอินพุตของช่วงเวลาที่ 2 เอาต์พุตของช่วงเวลาที่ 2 จะกลายเป็นอินพุตของช่วงเวลาที่ 3

ไตรกรม

#seq

#language

N-gram โดยที่ N=3

V

ปัญหาการไล่ระดับสีที่หายไป

#seq

แนวโน้มที่ความลาดชันของเลเยอร์ที่ซ่อนอยู่ในช่วงต้นของเครือข่ายประสาทเทียมลึกบางรายการจะกลายเป็นแนวราบ (ต่ำ) อย่างน่าประหลาดใจ การที่ Gradient ลดลงเรื่อยๆ จะทําให้การเปลี่ยนแปลงน้ำหนักของโหนดในโครงข่ายประสาทแบบลึกลดลงเรื่อยๆ ซึ่งทําให้การเรียนรู้น้อยลงหรือไม่มีเลย โมเดลที่มีปัญหาเรื่องลู่ลาดที่ลดลงจะฝึกได้ยากหรือเป็นไปไม่ได้ เซลล์ Long Short-Term Memory ช่วยแก้ปัญหานี้ได้

เปรียบเทียบกับปัญหาการเพิ่มขึ้นของ Gradient