โมเดลภาษาคืออะไร
โมเดลภาษา ประมาณความน่าจะเป็นของโทเค็น หรือลำดับโทเค็นที่เกิดขึ้นภายในลำดับโทเค็นที่ยาวกว่า โทเค็น อาจเป็นคำ คำย่อย (ส่วนย่อยของคำ) หรือแม้แต่อักขระเดี่ยว
พิจารณาประโยคต่อไปนี้และโทเค็นที่อาจเติมข้อความให้สมบูรณ์
When I hear rain on my roof, I _______ in my kitchen.
โมเดลภาษาจะระบุความน่าจะเป็นของโทเค็นต่างๆ หรือ ตามลำดับของโทเค็นเพื่อเติมช่องว่างนั้น ตัวอย่างเช่น URL ต่อไปนี้ ตารางความน่าจะเป็นจะระบุโทเค็นและความน่าจะเป็นที่เป็นไปได้ ดังนี้
Probability | โทเค็น |
---|---|
9.4% | ทำซุป |
5.2% | อุ่นกาต้มน้ำ |
3.6% | ว้าว |
2.5% | งีบ |
2.2% | ผ่อนคลาย |
ในบางกรณี ลำดับของโทเค็นอาจเป็นประโยคทั้งประโยค ย่อหน้าหนึ่งๆ หรือเขียนเรียงความทั้งหมดเลยก็ได้
แอปพลิเคชันสามารถใช้ตารางความน่าจะเป็นเพื่อทำการคาดการณ์ การคาดการณ์อาจเป็นความเป็นไปได้สูงสุด (เช่น "ซุป") หรือการสุ่มเลือกจากโทเค็นที่มีความน่าจะเป็นมากกว่า
การประมาณความน่าจะเป็นของสิ่งที่เติมเต็มช่องว่างในลำดับข้อความสามารถช่วย ไปจนถึงงานที่ซับซ้อนมากขึ้น เช่น
- กำลังสร้างข้อความ
- กำลังแปลข้อความจากภาษาหนึ่งเป็นอีกภาษาหนึ่ง
- สรุปเอกสาร
โมเดลภาษาสมัยใหม่พัฒนาโดยสร้างแบบจำลองทางสถิติของโทเค็น ภาษาภายในที่ทรงพลัง และสามารถสร้าง ภาษาที่สมเหตุสมผล
โมเดลภาษา N-gram
N-grams คือลำดับคำตามลำดับ ใช้ในการสร้างโมเดลภาษา โดยที่ N คือจำนวนคำในลำดับ ตัวอย่างเช่น เมื่อ N คือ 2 N-gram จะเรียกว่า 2 กรัม (หรือ bigram); เมื่อ N คือ 5 เครื่องหมาย N คือ ที่เรียกว่า 5 กรัม ได้รับวลีต่อไปนี้ในเอกสารการฝึกอบรม:
you are very nice
ผลที่ได้คือ 2 กรัม
- เธอ
- มาก
- เยี่ยมเลย
เมื่อ N เท่ากับ 3 ไวยากรณ์ N จะเรียกว่า 3 กรัม (หรือ trigram) เมื่อมีวลีเดียวกันนั้น จะได้ 3 กรัม
- เธอมาก
- แจ่มมาก
หากคำ 2 คำเป็นอินพุต โมเดลภาษาขนาด 3 กรัมจะสามารถคาดการณ์ แนวโน้มของคำที่สาม ตัวอย่างเช่น ระบุคำสองคำต่อไปนี้
orange is
โมเดลภาษาจะตรวจสอบ 3 กรัมทั้งหมดที่ได้จากการฝึก
คลังข้อมูลที่ขึ้นต้นด้วย orange is
เพื่อหาคำที่น่าจะเป็นคำที่ 3
น้ำหนัก 3 กรัมหลายร้อยคำอาจขึ้นต้นด้วย orange is
2 คำ
ให้มุ่งเน้นที่ 2 ความเป็นไปได้ต่อไปนี้เท่านั้น
orange is ripe orange is cheerful
ความเป็นไปได้แรก (orange is ripe
) คือผลไม้ที่มีสีส้ม
ในขณะที่ความเป็นไปได้ที่ 2 (orange is cheerful
) คือเรื่องของสี
สีส้ม
บริบท
มนุษย์สามารถรักษาบริบทที่ค่อนข้างยาวได้ ขณะที่ดูละครเวที Act 3 คุณ จดจำความรู้ของตัวละครที่ใช้ในองก์ 1 ในทำนองเดียวกัน มุกตลกยาวๆ ที่ปล่อยมุกจนต้องขำเพราะจำบริบทได้ จากการตั้งค่ามุกตลก
ในโมเดลภาษา บริบทเป็นข้อมูลที่เป็นประโยชน์ก่อนหรือหลัง โทเค็นเป้าหมาย บริบทช่วยให้โมเดลภาษาระบุได้ว่าเป็น "สีส้ม" หรือไม่ หมายถึงผลไม้ตระกูลส้มหรือสีหนึ่ง
บริบทช่วยให้โมเดลภาษาคาดการณ์ได้ดีขึ้น แต่
3 กรัมให้บริบทเพียงพอหรือไม่ แต่บริบทเดียว ขนาด 3 กรัม
คือ 2 คำแรก ตัวอย่างเช่น สองคำ orange is
ไม่
ให้บริบทที่เพียงพอสำหรับโมเดลภาษาในการคาดเดาคำที่สาม
เนื่องจากขาดบริบท โมเดลภาษาขนาด 3 กรัมจึงทำผิดพลาดได้มาก
N-gram ที่ยาวกว่าจะให้บริบทได้มากกว่า N-gram ที่สั้นกว่า อย่างไรก็ตาม เมื่อ N เพิ่มขึ้น การเกิดอินสแตนซ์ที่เกี่ยวข้องแต่ละรายการจะลดลง เมื่อ N ใหญ่ขึ้นมาก โมเดลภาษาโดยทั่วไปจะมีเพียง อินสแตนซ์ของโทเค็น N แต่ละรายการ ซึ่งไม่มีประโยชน์มากนัก คาดการณ์โทเค็นเป้าหมาย
โครงข่ายประสาทแบบเกิดซ้ำ
ประสาทเทียมที่เกิดซ้ำ เครือข่าย ให้บริบทมากกว่า N-gram โครงข่ายประสาทแบบเกิดซ้ำเป็น โครงข่ายระบบประสาทเทียมที่ฝึก ตามลำดับของโทเค็น เช่น โครงข่ายประสาทแบบเกิดซ้ำ จะสามารถเรียนรู้ (และเรียนรู้ที่จะละเว้น) บริบทที่เลือกจากแต่ละคำได้ทีละน้อย ทำเป็นประโยค คล้ายๆ กับเวลาที่ฟังคนพูด โครงข่ายประสาทแบบเกิดซ้ำขนาดใหญ่สามารถรับบริบทได้จากหลายข้อความ ประโยค
แม้ว่าโครงข่ายประสาทแบบเกิดซ้ำจะเรียนรู้บริบทมากกว่าหน่วยกรัม แต่ปริมาณ ของโครงข่ายระบบประสาทเทียมแบบทำซ้ำที่มีบริบทที่เป็นประโยชน์ อาจจะยังถือว่า แบบจำกัด โครงข่ายระบบประสาทเทียมแบบเกิดซ้ำจะประเมินข้อมูล "โทเค็นด้วยโทเค็น" ในทางกลับกัน โมเดลภาษาขนาดใหญ่ ซึ่งเป็นหัวข้อถัดไป สามารถประเมินบริบททั้งหมดได้ในครั้งเดียว
โปรดทราบว่าการฝึกโครงข่ายประสาทแบบเกิดซ้ำสําหรับบริบทที่ยาวนานจะถูกจํากัดโดย การไล่ระดับสีที่หายตัวไป
แบบฝึกหัด: ตรวจสอบความเข้าใจ
- โมเดลภาษาขนาด 6 กรัม
- โมเดลภาษาขนาด 5 กรัม