โมเดลภาษาขนาดใหญ่

โมเดลภาษาคืออะไร

โมเดลภาษา ประมาณความน่าจะเป็นของโทเค็น หรือลำดับโทเค็นที่เกิดขึ้นภายในลำดับโทเค็นที่ยาวกว่า โทเค็น อาจเป็นคำ คำย่อย (ส่วนย่อยของคำ) หรือแม้แต่อักขระเดี่ยว

โมเดลภาษาสมัยใหม่ส่วนใหญ่แปลงข้อมูลด้วยคำย่อย ซึ่งก็คือ ข้อความที่มีความหมายทางอรรถศาสตร์ แต่ละส่วนอาจมีความยาวต่างกันจาก อักขระเดี่ยว เช่น เครื่องหมายวรรคตอน หรือ s แสดงความเป็นเจ้าของ กับทั้งคำ คำนำหน้าและคำต่อท้ายอาจแสดงเป็นคำย่อยที่แยกกัน ตัวอย่างเช่น คำว่ายังไม่ได้ดูอาจแสดงข้อความต่อไปนี้ สามคำย่อย:

  • un (คำนำหน้า)
  • นาฬิกา (รูท)
  • ed (ส่วนต่อท้าย)

คำว่า cats อาจแสดงด้วยคำย่อย 2 คำต่อไปนี้

  • แมว (ราก)
  • s (คำต่อท้าย)

คำที่ซับซ้อนมากขึ้น เช่น "antidisestablishmentarianism" อาจมีตัวแทน เป็นคำย่อย 6 คำ ดังนี้

  • ต่อต้าน
  • ดิส
  • สร้าง
  • เมน
  • Arian
  • ลัทธิ

การแปลงข้อมูลเป็นโทเค็นเป็นภาษาที่เจาะจง ดังนั้นจำนวนอักขระต่อโทเค็น แตกต่างกันไปตามภาษา สำหรับภาษาอังกฤษ โทเค็น 1 รายการจะเท่ากับอักขระประมาณ 4 ตัว หรือประมาณ 3/4 ของคำ ดังนั้น 400 โทเค็น ~= 300 คำภาษาอังกฤษ

โทเค็นคือหน่วยอะตอมหรือหน่วยที่เล็กที่สุดของโมเดลภาษา

มีการนำโทเค็นไปใช้กับ คอมพิวเตอร์วิทัศน์และ การสร้างเสียง

พิจารณาประโยคต่อไปนี้และโทเค็นที่อาจเติมข้อความให้สมบูรณ์

When I hear rain on my roof, I _______ in my kitchen.

โมเดลภาษาจะระบุความน่าจะเป็นของโทเค็นต่างๆ หรือ ตามลำดับของโทเค็นเพื่อเติมช่องว่างนั้น ตัวอย่างเช่น URL ต่อไปนี้ ตารางความน่าจะเป็นจะระบุโทเค็นและความน่าจะเป็นที่เป็นไปได้ ดังนี้

Probability โทเค็น
9.4% ทำซุป
5.2% อุ่นกาต้มน้ำ
3.6% ว้าว
2.5% งีบ
2.2% ผ่อนคลาย

ในบางกรณี ลำดับของโทเค็นอาจเป็นประโยคทั้งประโยค ย่อหน้าหนึ่งๆ หรือเขียนเรียงความทั้งหมดเลยก็ได้

แอปพลิเคชันสามารถใช้ตารางความน่าจะเป็นเพื่อทำการคาดการณ์ การคาดการณ์อาจเป็นความเป็นไปได้สูงสุด (เช่น "ซุป") หรือการสุ่มเลือกจากโทเค็นที่มีความน่าจะเป็นมากกว่า

การประมาณความน่าจะเป็นของสิ่งที่เติมเต็มช่องว่างในลำดับข้อความสามารถช่วย ไปจนถึงงานที่ซับซ้อนมากขึ้น เช่น

  • กำลังสร้างข้อความ
  • กำลังแปลข้อความจากภาษาหนึ่งเป็นอีกภาษาหนึ่ง
  • สรุปเอกสาร

โมเดลภาษาสมัยใหม่พัฒนาโดยสร้างแบบจำลองทางสถิติของโทเค็น ภาษาภายในที่ทรงพลัง และสามารถสร้าง ภาษาที่สมเหตุสมผล

โมเดลภาษา N-gram

N-grams คือลำดับคำตามลำดับ ใช้ในการสร้างโมเดลภาษา โดยที่ N คือจำนวนคำในลำดับ ตัวอย่างเช่น เมื่อ N คือ 2 N-gram จะเรียกว่า 2 กรัม (หรือ bigram); เมื่อ N คือ 5 เครื่องหมาย N คือ ที่เรียกว่า 5 กรัม ได้รับวลีต่อไปนี้ในเอกสารการฝึกอบรม:

you are very nice

ผลที่ได้คือ 2 กรัม

  • เธอ
  • มาก
  • เยี่ยมเลย

เมื่อ N เท่ากับ 3 ไวยากรณ์ N จะเรียกว่า 3 กรัม (หรือ trigram) เมื่อมีวลีเดียวกันนั้น จะได้ 3 กรัม

  • เธอมาก
  • แจ่มมาก

หากคำ 2 คำเป็นอินพุต โมเดลภาษาขนาด 3 กรัมจะสามารถคาดการณ์ แนวโน้มของคำที่สาม ตัวอย่างเช่น ระบุคำสองคำต่อไปนี้

orange is

โมเดลภาษาจะตรวจสอบ 3 กรัมทั้งหมดที่ได้จากการฝึก คลังข้อมูลที่ขึ้นต้นด้วย orange is เพื่อหาคำที่น่าจะเป็นคำที่ 3 น้ำหนัก 3 กรัมหลายร้อยคำอาจขึ้นต้นด้วย orange is 2 คำ ให้มุ่งเน้นที่ 2 ความเป็นไปได้ต่อไปนี้เท่านั้น

orange is ripe
orange is cheerful

ความเป็นไปได้แรก (orange is ripe) คือผลไม้ที่มีสีส้ม ในขณะที่ความเป็นไปได้ที่ 2 (orange is cheerful) คือเรื่องของสี สีส้ม

บริบท

มนุษย์สามารถรักษาบริบทที่ค่อนข้างยาวได้ ขณะที่ดูละครเวที Act 3 คุณ จดจำความรู้ของตัวละครที่ใช้ในองก์ 1 ในทำนองเดียวกัน มุกตลกยาวๆ ที่ปล่อยมุกจนต้องขำเพราะจำบริบทได้ จากการตั้งค่ามุกตลก

ในโมเดลภาษา บริบทเป็นข้อมูลที่เป็นประโยชน์ก่อนหรือหลัง โทเค็นเป้าหมาย บริบทช่วยให้โมเดลภาษาระบุได้ว่าเป็น "สีส้ม" หรือไม่ หมายถึงผลไม้ตระกูลส้มหรือสีหนึ่ง

บริบทช่วยให้โมเดลภาษาคาดการณ์ได้ดีขึ้น แต่ 3 กรัมให้บริบทเพียงพอหรือไม่ แต่บริบทเดียว ขนาด 3 กรัม คือ 2 คำแรก ตัวอย่างเช่น สองคำ orange is ไม่ ให้บริบทที่เพียงพอสำหรับโมเดลภาษาในการคาดเดาคำที่สาม เนื่องจากขาดบริบท โมเดลภาษาขนาด 3 กรัมจึงทำผิดพลาดได้มาก

N-gram ที่ยาวกว่าจะให้บริบทได้มากกว่า N-gram ที่สั้นกว่า อย่างไรก็ตาม เมื่อ N เพิ่มขึ้น การเกิดอินสแตนซ์ที่เกี่ยวข้องแต่ละรายการจะลดลง เมื่อ N ใหญ่ขึ้นมาก โมเดลภาษาโดยทั่วไปจะมีเพียง อินสแตนซ์ของโทเค็น N แต่ละรายการ ซึ่งไม่มีประโยชน์มากนัก คาดการณ์โทเค็นเป้าหมาย

โครงข่ายประสาทแบบเกิดซ้ำ

ประสาทเทียมที่เกิดซ้ำ เครือข่าย ให้บริบทมากกว่า N-gram โครงข่ายประสาทแบบเกิดซ้ำเป็น โครงข่ายระบบประสาทเทียมที่ฝึก ตามลำดับของโทเค็น เช่น โครงข่ายประสาทแบบเกิดซ้ำ จะสามารถเรียนรู้ (และเรียนรู้ที่จะละเว้น) บริบทที่เลือกจากแต่ละคำได้ทีละน้อย ทำเป็นประโยค คล้ายๆ กับเวลาที่ฟังคนพูด โครงข่ายประสาทแบบเกิดซ้ำขนาดใหญ่สามารถรับบริบทได้จากหลายข้อความ ประโยค

แม้ว่าโครงข่ายประสาทแบบเกิดซ้ำจะเรียนรู้บริบทมากกว่าหน่วยกรัม แต่ปริมาณ ของโครงข่ายระบบประสาทเทียมแบบทำซ้ำที่มีบริบทที่เป็นประโยชน์ อาจจะยังถือว่า แบบจำกัด โครงข่ายระบบประสาทเทียมแบบเกิดซ้ำจะประเมินข้อมูล "โทเค็นด้วยโทเค็น" ในทางกลับกัน โมเดลภาษาขนาดใหญ่ ซึ่งเป็นหัวข้อถัดไป สามารถประเมินบริบททั้งหมดได้ในครั้งเดียว

โปรดทราบว่าการฝึกโครงข่ายประสาทแบบเกิดซ้ำสําหรับบริบทที่ยาวนานจะถูกจํากัดโดย การไล่ระดับสีที่หายตัวไป

แบบฝึกหัด: ตรวจสอบความเข้าใจ

โมเดลภาษาใดทำการคาดคะเนข้อความภาษาอังกฤษได้ดีกว่า
  • โมเดลภาษาขนาด 6 กรัม
  • โมเดลภาษาขนาด 5 กรัม
โมเดลภาษาจากน้ำหนัก 6 กรัม
คำตอบขึ้นอยู่กับขนาดและความหลากหลายของการฝึก ตั้งค่า
โมเดลภาษาจากน้ำหนัก 5 กรัม