โมเดลภาษาขนาดใหญ่

โมเดลภาษาคืออะไร

โมเดลภาษา ประมาณความน่าจะเป็นของโทเค็น หรือลำดับโทเค็นที่เกิดขึ้นภายในลำดับโทเค็นที่ยาวกว่า โทเค็น อาจเป็นคำ คำย่อย (ส่วนย่อยของคำ) หรือแม้แต่อักขระเดี่ยว

พิจารณาประโยคต่อไปนี้และโทเค็นที่อาจเติมข้อความให้สมบูรณ์

When I hear rain on my roof, I _______ in my kitchen.

โมเดลภาษาจะระบุความน่าจะเป็นของโทเค็นต่างๆ หรือ ตามลำดับของโทเค็นเพื่อเติมช่องว่างนั้น ตัวอย่างเช่น URL ต่อไปนี้ ตารางความน่าจะเป็นจะระบุโทเค็นและความน่าจะเป็นที่เป็นไปได้ ดังนี้

Probability โทเค็น
9.4% ทำซุป
5.2% อุ่นกาต้มน้ำ
3.6% ว้าว
2.5% งีบ
2.2% ผ่อนคลาย

ในบางกรณี ลำดับของโทเค็นอาจเป็นประโยคทั้งประโยค ย่อหน้าหนึ่งๆ หรือเขียนเรียงความทั้งหมดเลยก็ได้

แอปพลิเคชันสามารถใช้ตารางความน่าจะเป็นเพื่อทำการคาดการณ์ การคาดการณ์อาจเป็นความเป็นไปได้สูงสุด (เช่น "ซุป") หรือการสุ่มเลือกจากโทเค็นที่มีความน่าจะเป็นมากกว่า

การประมาณความน่าจะเป็นของสิ่งที่เติมเต็มช่องว่างในลำดับข้อความสามารถช่วย ไปจนถึงงานที่ซับซ้อนมากขึ้น เช่น

  • กำลังสร้างข้อความ
  • กำลังแปลข้อความจากภาษาหนึ่งเป็นอีกภาษาหนึ่ง
  • สรุปเอกสาร

โมเดลภาษาสมัยใหม่พัฒนาโดยสร้างแบบจำลองทางสถิติของโทเค็น ภาษาภายในที่ทรงพลัง และสามารถสร้าง ภาษาที่สมเหตุสมผล

โมเดลภาษา N-gram

N-grams คือลำดับคำตามลำดับ ใช้ในการสร้างโมเดลภาษา โดยที่ N คือจำนวนคำในลำดับ ตัวอย่างเช่น เมื่อ N คือ 2 N-gram จะเรียกว่า 2 กรัม (หรือ bigram); เมื่อ N คือ 5 เครื่องหมาย N คือ ที่เรียกว่า 5 กรัม ได้รับวลีต่อไปนี้ในเอกสารการฝึกอบรม:

you are very nice

ผลที่ได้คือ 2 กรัม

  • เธอ
  • มาก
  • เยี่ยมเลย

เมื่อ N เท่ากับ 3 ไวยากรณ์ N จะเรียกว่า 3 กรัม (หรือ trigram) เมื่อมีวลีเดียวกันนั้น จะได้ 3 กรัม

  • เธอมาก
  • แจ่มมาก

หากคำ 2 คำเป็นอินพุต โมเดลภาษาขนาด 3 กรัมจะสามารถคาดการณ์ แนวโน้มของคำที่สาม ตัวอย่างเช่น ระบุคำสองคำต่อไปนี้

orange is

โมเดลภาษาจะตรวจสอบ 3 กรัมทั้งหมดที่ได้จากการฝึก คลังข้อมูลที่ขึ้นต้นด้วย orange is เพื่อหาคำที่น่าจะเป็นคำที่ 3 น้ำหนัก 3 กรัมหลายร้อยคำอาจขึ้นต้นด้วย orange is 2 คำ ให้มุ่งเน้นที่ 2 ความเป็นไปได้ต่อไปนี้เท่านั้น

orange is ripe
orange is cheerful

ความเป็นไปได้แรก (orange is ripe) คือผลไม้ที่มีสีส้ม ในขณะที่ความเป็นไปได้ที่ 2 (orange is cheerful) คือเรื่องของสี สีส้ม

บริบท

มนุษย์สามารถรักษาบริบทที่ค่อนข้างยาวได้ ขณะที่ดูละครเวที Act 3 คุณ จดจำความรู้ของตัวละครที่ใช้ในองก์ 1 ในทำนองเดียวกัน มุกตลกยาวๆ ที่ปล่อยมุกจนต้องขำเพราะจำบริบทได้ จากการตั้งค่ามุกตลก

ในโมเดลภาษา บริบทเป็นข้อมูลที่เป็นประโยชน์ก่อนหรือหลัง โทเค็นเป้าหมาย บริบทช่วยให้โมเดลภาษาระบุได้ว่าเป็น "สีส้ม" หรือไม่ หมายถึงผลไม้ตระกูลส้มหรือสีหนึ่ง

บริบทช่วยให้โมเดลภาษาคาดการณ์ได้ดีขึ้น แต่ 3 กรัมให้บริบทเพียงพอหรือไม่ แต่บริบทเดียว ขนาด 3 กรัม คือ 2 คำแรก ตัวอย่างเช่น สองคำ orange is ไม่ ให้บริบทที่เพียงพอสำหรับโมเดลภาษาในการคาดเดาคำที่สาม เนื่องจากขาดบริบท โมเดลภาษาขนาด 3 กรัมจึงทำผิดพลาดได้มาก

N-gram ที่ยาวกว่าจะให้บริบทได้มากกว่า N-gram ที่สั้นกว่า อย่างไรก็ตาม เมื่อ N เพิ่มขึ้น การเกิดอินสแตนซ์ที่เกี่ยวข้องแต่ละรายการจะลดลง เมื่อ N ใหญ่ขึ้นมาก โมเดลภาษาโดยทั่วไปจะมีเพียง อินสแตนซ์ของโทเค็น N แต่ละรายการ ซึ่งไม่มีประโยชน์มากนัก คาดการณ์โทเค็นเป้าหมาย

โครงข่ายประสาทแบบเกิดซ้ำ

ประสาทเทียมที่เกิดซ้ำ เครือข่าย ให้บริบทมากกว่า N-gram โครงข่ายประสาทแบบเกิดซ้ำเป็น โครงข่ายระบบประสาทเทียมที่ฝึก ตามลำดับของโทเค็น เช่น โครงข่ายประสาทแบบเกิดซ้ำ จะสามารถเรียนรู้ (และเรียนรู้ที่จะละเว้น) บริบทที่เลือกจากแต่ละคำได้ทีละน้อย ทำเป็นประโยค คล้ายๆ กับเวลาที่ฟังคนพูด โครงข่ายประสาทแบบเกิดซ้ำขนาดใหญ่สามารถรับบริบทได้จากหลายข้อความ ประโยค

แม้ว่าโครงข่ายประสาทแบบเกิดซ้ำจะเรียนรู้บริบทมากกว่าหน่วยกรัม แต่ปริมาณ ของโครงข่ายระบบประสาทเทียมแบบทำซ้ำที่มีบริบทที่เป็นประโยชน์ อาจจะยังถือว่า แบบจำกัด โครงข่ายระบบประสาทเทียมแบบเกิดซ้ำจะประเมินข้อมูล "โทเค็นด้วยโทเค็น" ในทางกลับกัน โมเดลภาษาขนาดใหญ่ ซึ่งเป็นหัวข้อถัดไป สามารถประเมินบริบททั้งหมดได้ในครั้งเดียว

โปรดทราบว่าการฝึกโครงข่ายประสาทแบบเกิดซ้ำสําหรับบริบทที่ยาวนานจะถูกจํากัดโดย การไล่ระดับสีที่หายตัวไป

แบบฝึกหัด: ตรวจสอบความเข้าใจ

โมเดลภาษาใดทำการคาดคะเนข้อความภาษาอังกฤษได้ดีกว่า
  • โมเดลภาษาขนาด 6 กรัม
  • โมเดลภาษาขนาด 5 กรัม
คำตอบขึ้นอยู่กับขนาดและความหลากหลายของการฝึก ตั้งค่า
หากชุดการฝึกอบรมมีเอกสารที่หลากหลายหลายล้านรายการ โมเดลที่มีน้ำหนัก 6 กรัมน่าจะทำงานได้ดีกว่า ขึ้นอยู่กับ 5 กรัม
โมเดลภาษาจากน้ำหนัก 6 กรัม
โมเดลภาษานี้มีบริบทมากกว่า แต่นอกเสียจากโมเดลนี้ ได้ฝึกกับเอกสารจำนวนมาก ซึ่งส่วนใหญ่ 6 กรัมจะ ไม่ค่อยพบ
โมเดลภาษาจากน้ำหนัก 5 กรัม
โมเดลภาษานี้มีบริบทน้อยกว่า จึงไม่น่าจะ มีประสิทธิภาพสูงกว่าโมเดลภาษาตาม 6 กรัม