ข้อมูลเบื้องต้นเกี่ยวกับโมเดลภาษาขนาดใหญ่

วัตถุประสงค์การเรียนรู้

กำหนดโมเดลภาษาประเภทต่างๆ และส่วนประกอบของโมเดล
อธิบายวิธีสร้างโมเดลภาษาขนาดใหญ่และความสำคัญของบริบทและพารามิเตอร์
ระบุวิธีที่โมเดลภาษาขนาดใหญ่ใช้ประโยชน์จากการทำความสนใจด้วยตนเอง
เปิดเผยปัญหาสำคัญ 3 ประการเกี่ยวกับโมเดลภาษาขนาดใหญ่
อธิบายว่าการปรับแต่งและการกลั่นช่วยปรับปรุงการคาดการณ์และประสิทธิภาพของโมเดลได้อย่างไร

โมเดลภาษาคืออะไร

โมเดลภาษา จะประมาณความน่าจะเป็นของโทเค็น หรือลำดับของโทเค็นที่เกิดขึ้นภายในลำดับโทเค็นที่ยาวกว่า โทเค็น อาจเป็นคำ คำย่อย (คำย่อยของคำ) หรือแม้แต่อักขระตัวเดียว

คลิกไอคอนเพื่อดูข้อมูลเพิ่มเติมเกี่ยวกับโทเค็น

โมเดลภาษาที่ทันสมัยส่วนใหญ่จะทำการโทเค็นตามคำย่อย ซึ่งก็คือตามกลุ่มข้อความที่มีความหมายเชิงความหมาย โดยแต่ละส่วนอาจมีความยาวแตกต่างกัน ตั้งแต่ อักขระเดียว เช่น เครื่องหมายวรรคตอนหรือ s แสดงความเป็นเจ้าของ ไปจนถึงคำทั้งคำ คำนำหน้าและคำต่อท้ายอาจแสดงเป็นคำย่อยแยกกัน เช่น คำว่ายังไม่ได้ดูอาจแสดงด้วยคำย่อย 3 คำต่อไปนี้

un (คำนำหน้า)
ดู (ราก)
ed (คำต่อท้าย)

คำว่าแมวอาจแสดงด้วยคำย่อย 2 คำต่อไปนี้

cat (รูท)
s (คำต่อท้าย)

คำที่ซับซ้อนมากขึ้น เช่น "antidisestablishmentarianism" อาจแสดงเป็นคำย่อย 6 คำดังนี้

ต่อต้าน
dis
สร้าง
ment
arian
ism

การแยกคำเป็นโทเค็นเป็นแบบเฉพาะภาษา ดังนั้นจำนวนอักขระต่อโทเค็น จึงแตกต่างกันไปในแต่ละภาษา สำหรับภาษาอังกฤษ 1 โทเค็นจะสอดคล้องกับอักขระประมาณ 4 ตัว หรือประมาณ 3/4 ของคำ ดังนั้น 400 โทเค็นจึงเท่ากับคำภาษาอังกฤษประมาณ 300 คำ

โทเค็นคือหน่วยย่อยที่สุดหรือหน่วยที่เล็กที่สุดของการสร้างโมเดลภาษา

ปัจจุบันเราได้นำโทเค็นไปใช้กับ คอมพิวเตอร์วิทัศน์และ การสร้างเสียงเรียบร้อยแล้ว

ลองพิจารณาประโยคต่อไปนี้และโทเค็นที่อาจเติมเต็มประโยค

When I hear rain on my roof, I _______ in my kitchen.

โมเดลภาษาจะกำหนดความน่าจะเป็นของโทเค็นต่างๆ หรือ ลำดับของโทเค็นเพื่อเติมคำในช่องว่างนั้น ตัวอย่างเช่น ตารางความน่าจะเป็นต่อไปนี้ ระบุโทเค็นที่เป็นไปได้บางรายการและความน่าจะเป็นของโทเค็นเหล่านั้น

Probability	โทเค็น
9.4%	ทำซุป
5.2%	อุ่นกาต้มน้ำ
3.6%	ซุกตัว
2.5%	งีบ
2.2%	ผ่อนคลาย

ในบางสถานการณ์ ลำดับของโทเค็นอาจเป็นทั้งประโยค ย่อหน้า หรือแม้แต่เรียงความทั้งฉบับ

แอปพลิเคชันสามารถใช้ตารางความน่าจะเป็นเพื่อทำการคาดการณ์ได้ การคาดการณ์อาจเป็นความน่าจะเป็นสูงสุด (เช่น "ทำซุป") หรือการเลือกแบบสุ่มจากโทเค็นที่มีความน่าจะเป็นมากกว่าเกณฑ์ ที่กำหนด

การประมาณความน่าจะเป็นของสิ่งที่เติมในช่องว่างในลำดับข้อความสามารถ ขยายไปสู่งานที่ซับซ้อนมากขึ้นได้ ซึ่งรวมถึง

กำลังสร้างข้อความ
การแปลข้อความจากภาษาหนึ่งเป็นอีกภาษาหนึ่ง
สรุปเอกสาร

การสร้างรูปแบบทางสถิติของโทเค็นทำให้โมเดลภาษาที่ทันสมัยพัฒนา การแสดงภาษาภายในที่ทรงพลังอย่างยิ่งและสร้าง ภาษาที่สมเหตุสมผลได้

โมเดลภาษาแบบ N-gram

N-gram คือลำดับคำที่เรียงตามลำดับ ซึ่งใช้สร้างโมเดลภาษา โดย N คือจำนวนคำในลำดับ เช่น เมื่อ N เป็น 2 N-gram จะเรียกว่า 2-gram (หรือ bigram) เมื่อ N เป็น 5 N-gram จะเรียกว่า 5-gram เมื่อมีวลีต่อไปนี้ในเอกสารการฝึก

you are very nice

โดย 2-gram ที่ได้มีดังนี้

คุณ
มีความ
ดีมาก

เมื่อ N เป็น 3 เราจะเรียก N-gram ว่า 3-gram (หรือ trigram) เมื่อพิจารณาวลีเดียวกันนี้ 3-แกรมที่ได้คือ

คุณ
ดีมาก

เมื่อป้อนคำ 2 คำ โมเดลภาษาที่อิงตามไตรแกรมจะคาดการณ์ความเป็นไปได้ของคำที่ 3 ได้ ตัวอย่างเช่น หากมีคำ 2 คำต่อไปนี้

orange is

โมเดลภาษาจะตรวจสอบ 3-แกรมที่แตกต่างกันทั้งหมดซึ่งได้มาจากการฝึก คลังข้อความที่ขึ้นต้นด้วย orange is เพื่อพิจารณาคำที่ 3 ที่มีแนวโน้มมากที่สุด คำ 3 พยางค์หลายร้อยคำอาจขึ้นต้นด้วยคำ 2 คำ orange is แต่คุณสามารถ มุ่งเน้นเฉพาะ 2 ความเป็นไปได้ต่อไปนี้

orange is ripe
orange is cheerful

ความเป็นไปได้แรก (orange is ripe) เกี่ยวกับส้มที่เป็นผลไม้ ส่วนความเป็นไปได้ที่ 2 (orange is cheerful) เกี่ยวกับสี ส้ม

บริบท

มนุษย์สามารถจดจำบริบทที่ค่อนข้างยาวได้ ขณะดูองก์ที่ 3 ของละคร คุณจะ ยังคงมีความรู้เกี่ยวกับตัวละครที่เปิดตัวในองก์ที่ 1 ในทำนองเดียวกัน มุกตลกยาวๆ จะทำให้คุณหัวเราะได้เพราะคุณจำบริบท จากการปูมุกได้

ในโมเดลภาษา บริบทคือข้อมูลที่เป็นประโยชน์ก่อนหรือหลังโทเค็นเป้าหมาย บริบทช่วยให้โมเดลภาษาพิจารณาได้ว่า "ส้ม" หมายถึงผลไม้รสเปรี้ยวหรือสี

บริบทช่วยให้โมเดลภาษาคาดการณ์ได้ดีขึ้น แต่ 3-gram ให้บริบทเพียงพอหรือไม่ น่าเสียดายที่บริบทเดียวที่ 3-gram ให้คือ 2 คำแรก เช่น คำ 2 คำorange is ไม่ได้ ให้บริบทเพียงพอสำหรับโมเดลภาษาในการคาดการณ์คำที่ 3 โมเดลภาษาที่อิงตาม 3-gram จึงมีข้อผิดพลาดมากมายเนื่องจากขาดบริบท

แน่นอนว่า N-gram ที่ยาวกว่าจะให้บริบทมากกว่า N-gram ที่สั้นกว่า อย่างไรก็ตาม เมื่อ N เพิ่มขึ้น ความถี่สัมพัทธ์ของแต่ละอินสแตนซ์จะลดลง เมื่อ N มีขนาดใหญ่มาก โดยปกติแล้วโมเดลภาษาจะมีอินสแตนซ์เดียวของโทเค็น N แต่ละรายการ ซึ่งไม่ค่อยมีประโยชน์ในการคาดการณ์โทเค็นเป้าหมาย

โครงข่ายประสาทแบบเกิดซ้ำ

เครือข่าย ประสาทแบบเกิดซ้ำ ให้บริบทมากกว่า N-gram โครงข่ายประสาทเทียมแบบเกิดซ้ำเป็นโครงข่ายประสาทเทียมประเภทหนึ่งที่ฝึกกับลำดับโทเค็น เช่น เครือข่ายประสาทแบบเกิดซ้ำ สามารถเรียนรู้ (และเรียนรู้ที่จะไม่สนใจ) บริบทที่เลือกจากแต่ละคำในประโยคทีละน้อย คล้ายกับที่คุณทำเมื่อฟังผู้อื่นพูด โครงข่ายประสาทเทียมแบบเกิดซ้ำขนาดใหญ่สามารถรับบริบทจากข้อความที่มีหลายประโยคได้

แม้ว่าโครงข่ายประสาทแบบเกิดซ้ำจะเรียนรู้บริบทได้มากกว่า N-gram แต่ปริมาณบริบทที่มีประโยชน์ที่โครงข่ายประสาทแบบเกิดซ้ำสามารถคาดเดาได้ก็ยังค่อนข้างจำกัด โครงข่ายประสาทแบบเกิดซ้ำจะประเมินข้อมูล "โทเค็นต่อโทเค็น" ในทางตรงกันข้าม โมเดลภาษาขนาดใหญ่ซึ่งเป็นหัวข้อในส่วนถัดไปสามารถประเมินบริบททั้งหมดได้ในครั้งเดียว

โปรดทราบว่าการฝึกโครงข่ายประสาทเทียมแบบเกิดซ้ำสำหรับบริบทที่ยาวนั้นมีข้อจำกัดจากปัญหาการไล่ระดับสีที่หายไป

แบบฝึกหัด: ทดสอบความเข้าใจ

โมเดลภาษาใดที่คาดการณ์ข้อความภาษาอังกฤษได้ดีกว่า

โมเดลภาษาที่อิงตาม 6-แกรม
โมเดลภาษาที่อิงตาม 5-แกรม

คำตอบขึ้นอยู่กับขนาดและความหลากหลายของชุดข้อมูลการฝึก

หากชุดการฝึกครอบคลุมเอกสารที่หลากหลายหลายล้านฉบับ โมเดลที่อิงตาม 6-gram อาจมีประสิทธิภาพเหนือกว่าโมเดลที่อิงตาม 5-gram

โมเดลภาษาที่อิงตาม 6-gram

โมเดลภาษานี้มีบริบทมากกว่า แต่เว้นแต่ว่าโมเดลนี้ จะได้รับการฝึกจากเอกสารจำนวนมาก 6-gram ส่วนใหญ่ จะพบได้ยาก

โมเดลภาษาที่อิงตาม 5-grams

โมเดลภาษานี้มีบริบทน้อยกว่า จึงไม่น่าจะ มีประสิทธิภาพเหนือกว่าโมเดลภาษาที่อิงตาม 6-gram

ทดสอบความรู้ (10 นาที)

โมเดลภาษาขนาดใหญ่คืออะไร (15 นาที)