LLM: โมเดลภาษาขนาดใหญ่คืออะไร

เทคโนโลยีที่ใหม่กว่าอย่างโมเดลภาษาขนาดใหญ่ (LLM) จะคาดคะเนโทเค็นหรือลำดับโทเค็น ซึ่งบางครั้งอาจเป็นโทเค็นหลายย่อหน้า โปรดทราบว่าโทเค็นอาจเป็นคํา คําย่อย (ชุดย่อยของคํา) หรือแม้แต่อักขระเดียว LLM คาดการณ์ได้ดีกว่า โมเดลภาษาแบบ N-gram หรือโครงข่ายประสาทแบบเกิดซ้ำด้วยเหตุผลต่อไปนี้

  • LLM มีพารามิเตอร์มากกว่าโมเดลที่เกิดซ้ำ
  • LLM จะรวบรวมบริบทได้มากกว่า

ส่วนนี้จะแนะนำสถาปัตยกรรมที่ประสบความสำเร็จและใช้กันอย่างแพร่หลายที่สุดสำหรับการสร้าง LLM ซึ่งก็คือ Transformer

หม้อแปลงคืออะไร

Transformer เป็นสถาปัตยกรรมล้ำสมัยสําหรับแอปพลิเคชันโมเดลภาษาที่หลากหลาย เช่น การแปล

รูปที่ 1 อินพุตคือ: ฉันเป็นสุนัขที่ดี นักแปลจาก Transformer จะแปลงอินพุตนั้นเป็นเอาต์พุต: Je suis un bon chien ซึ่งเป็นประโยคเดียวกับที่แปลเป็นภาษาฝรั่งเศส
รูปที่ 1 แอปพลิเคชันที่ใช้ Transformer ซึ่งแปลจากภาษาอังกฤษเป็นภาษาฝรั่งเศส

 

Transformer แบบสมบูรณ์ประกอบด้วยโปรแกรมเปลี่ยนไฟล์และโปรแกรมถอดรหัส

เช่น ในโปรแกรมแปล

  • โปรแกรมเปลี่ยนไฟล์จะประมวลผลข้อมูลที่ป้อน (เช่น ประโยคภาษาอังกฤษ) เพื่อแสดงข้อมูลระหว่างกลาง
  • โปรแกรมถอดรหัสจะแปลงการนำเสนอระดับกลางนั้นให้เป็นข้อความเอาต์พุต (เช่น ประโยคภาษาฝรั่งเศสที่เทียบเท่า)
รูปที่ 2 เครื่องมือแปลแบบ Transformer จะเริ่มต้นด้วยโปรแกรมเปลี่ยนไฟล์ ซึ่งจะสร้างตัวแทนประโยคภาษาอังกฤษขึ้นมาตรงกลาง ตัวถอดรหัสจะแปลงการนำเสนอระดับกลางนั้นให้เป็นประโยคเอาต์พุตภาษาฝรั่งเศส
รูปที่ 2 Transformer แบบสมบูรณ์มีทั้งตัวเข้ารหัสและตัวถอดรหัส

 

ความสนใจตนเองคืออะไร

ในการปรับปรุงบริบท Transformers อาศัยแนวคิดที่เรียกว่าการให้ความสำคัญกับตนเองเป็นอย่างมาก โปรดตั้งใจถามคำถามต่อไปนี้ในนามของโทเค็นอินพุตแต่ละรายการ

"โทเค็นอินพุตอื่นๆ แต่ละรายการส่งผลต่อการตีความโทเค็นนี้มากน้อยเพียงใด"

"Self" ใน "Self-Attention" หมายถึงลําดับข้อมูลเข้า กลไกการให้ความสำคัญบางอย่างจะให้ความสำคัญกับความสัมพันธ์ของโทเค็นอินพุตกับโทเค็นในลำดับเอาต์พุต เช่น การแปล หรือกับโทเค็นในลำดับอื่นๆ แต่การให้ความสำคัญกับตนเองจะพิจารณาเฉพาะความสำคัญของความสัมพันธ์ระหว่างโทเค็นในลำดับอินพุต

เพื่อความง่าย เราจะสมมติว่าแต่ละโทเค็นคือคําและบริบทที่สมบูรณ์คือประโยคเดียว ลองพิจารณาประโยคต่อไปนี้

The animal didn't cross the street because it was too tired.

ประโยคก่อนหน้ามี 11 คำ คําทั้ง 11 คําให้ความสนใจกับคําอื่นๆ อีก 10 คํา โดยคํานึงว่าคําแต่ละคํามีความสําคัญกับตนเองเพียงใด ตัวอย่างเช่น สังเกตว่าประโยคนี้มีคำสรรพนาม it คำสรรพนามมักมีความคลุมเครือ คำสรรพนาม it มักจะหมายถึงคำนามหรือคำนามล่าสุด แต่ในประโยคตัวอย่าง คำนามล่าสุดอันไหนที่มันหมายถึงสัตว์หรือถนน

กลไกการให้ความสำคัญกับตนเองจะพิจารณาความเกี่ยวข้องของคำที่อยู่ใกล้เคียงแต่ละคำกับคำสรรพนาม it รูปที่ 3 แสดงผลลัพธ์ โดยเส้นยิ่งเป็นสีน้ำเงินมาก แสดงว่าคำนั้นมีความเกี่ยวข้องกับคำสรรพนาม it มากขึ้น กล่าวคือ animal มีความสำคัญมากกว่า street สําหรับคำสรรพนาม it

รูปที่ 3 ความเกี่ยวข้องของคำแต่ละคำในประโยค 11 คำ คือ "สัตว์ไม่ข้ามถนนเพราะเหนื่อยเกินไป" กับคำสรรพนามว่า "มัน" คำว่า "สัตว์" มีความเกี่ยวข้องกับคำสรรพนามว่า "สัตว์" มากที่สุด
รูปที่ 3 การใส่ Self-Attention ลงในคำสรรพนาม it จากบทความ Transformer: A Novel Neural Network Architecture for Language Understanding

 

ในทางกลับกัน สมมติว่าคําสุดท้ายในประโยคมีการเปลี่ยนแปลงดังนี้

The animal didn't cross the street because it was too wide.

ในประโยคที่แก้ไขแล้วนี้ เราหวังว่าการใส่ใจตนเองจะจัดอันดับให้ street มีความเกี่ยวข้องกับคำสรรพนาม it มากกว่า animal

กลไกการใส่ใจตนเองบางกลไกเป็นแบบแบบ 2 ทิศทาง ซึ่งหมายความว่าจะคำนวณคะแนนความเกี่ยวข้องสำหรับโทเค็นที่อยู่ก่อนและอยู่หลังคำที่สนใจ ตัวอย่างเช่น ในรูปที่ 3 โปรดสังเกตว่าระบบจะตรวจสอบคำทั้ง 2 ด้านของ it ดังนั้น กลไกการใส่ใจตนเองแบบ 2 ทิศทางจึงรวบรวมบริบทจากคำที่อยู่ด้านข้างของคำที่สนใจได้ ในทางตรงกันข้าม กลไกการใส่ใจตนเองแบบทิศทางเดียวจะรวบรวมบริบทจากคำด้านข้างของคำที่สนใจได้เท่านั้น การใส่ใจตนเองแบบ 2 ทิศทางมีประโยชน์อย่างยิ่งในการสร้างการนําเสนอทั้งลําดับ ขณะที่แอปพลิเคชันที่สร้างลําดับทีละโทเค็นต้องใช้การใส่ใจตนเองแบบทิศทางเดียว ด้วยเหตุนี้ โปรแกรมเปลี่ยนไฟล์จึงใช้การจดจ่อกับตนเองแบบ 2 ทิศทาง ส่วนตัวถอดรหัสจะใช้ทิศทางเดียว

การใส่ใจตนเองแบบหลายหัวคืออะไร

เลเยอร์ดึงดูดความสนใจตนเองแต่ละเลเยอร์มักประกอบด้วย การดึงดูดความสนใจด้วยตัวเองหลายชิ้น เอาต์พุตของเลเยอร์คือการดำเนินการทางคณิตศาสตร์ (เช่น ค่าเฉลี่ยถ่วงน้ำหนักหรือผลคูณจุด) ของเอาต์พุตจากส่วนหัวต่างๆ

เนื่องจากเลเยอร์ความสนใจตัวเองแต่ละชั้นเริ่มต้นเป็นค่าแบบสุ่ม ส่วนหัวที่ต่างกันจึงเรียนรู้ความสัมพันธ์ที่แตกต่างกันระหว่างคำแต่ละคำที่มีการมีส่วนร่วมและคำใกล้เคียงได้ เช่น เลเยอร์ Self-Attention ที่อธิบายไว้ในส่วนก่อนหน้านี้มุ่งเน้นที่การระบุคำนามที่คำสรรพนาม it อ้างอิงถึง อย่างไรก็ตาม เลเยอร์ Self-Attention อื่นๆ อาจเรียนรู้ความเกี่ยวข้องทางไวยากรณ์ของคำแต่ละคำกับคำอื่นๆ ทั้งหมด หรือเรียนรู้การโต้ตอบอื่นๆ

Why are Transformers so large?

Transformers มีพารามิเตอร์หลายร้อยพันล้านหรือหลายล้านล้านรายการ โดยทั่วไปแล้ว หลักสูตรนี้แนะนําให้สร้างโมเดลที่มีพารามิเตอร์จํานวนน้อยแทนพารามิเตอร์จํานวนมาก ท้ายที่สุดแล้ว โมเดลที่มีพารามิเตอร์จํานวนน้อยจะใช้ทรัพยากรในการทําการคาดการณ์น้อยกว่าโมเดลที่มีพารามิเตอร์จํานวนมาก อย่างไรก็ตาม งานวิจัยแสดงให้เห็นว่า Transformers ที่มีพารามิเตอร์มากกว่าจะมีประสิทธิภาพสูงกว่า Transformers ในอัตราที่น้อยกว่าอย่างต่อเนื่อง

แต่ LLM สร้างข้อความได้อย่างไร

คุณได้เห็นว่านักวิจัยฝึก LLM ให้คาดเดาคำที่ขาดหายไป 1-2 คำอย่างไร และคุณอาจไม่ประทับใจ ท้ายที่สุดแล้ว การคาดคะเนคำ 1-2 คำก็ถือเป็นฟีเจอร์เติมข้อความอัตโนมัติที่ฝังอยู่ในซอฟต์แวร์ข้อความ อีเมล และซอฟต์แวร์การเขียนต่างๆ คุณอาจสงสัยว่า LLM สามารถสร้างประโยคหรือย่อหน้า หรือไฮกุเกี่ยวกับการหากำไรได้อย่างไร

อันที่จริงแล้ว LLM นั้นเป็นกลไกการเติมข้อความอัตโนมัติที่สามารถคาดคะเน (เติม) โทเค็นหลายพันรายการโดยอัตโนมัติ ตัวอย่างเช่น ลองดูประโยคต่อไปนี้ followed by a masked sentence

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

LLM สามารถสร้างความน่าจะเป็นของประโยคที่มีการปกปิดได้ ซึ่งรวมถึงข้อมูลต่อไปนี้

Probability คำ
3.1% ตัวอย่างเช่น เขาสามารถนั่ง อยู่ต่อ และกลิ้งไปมาได้
2.9% เช่น เขารู้วิธีนั่ง อยู่ และกลิ้งไปมา

LLM ที่มีขนาดใหญ่พอสามารถสร้างความน่าจะเป็นของย่อหน้าและเรียงความทั้งเรื่อง คุณสามารถมองว่าคําถามของผู้ใช้ต่อ LLM เป็นประโยค "ที่ระบุ" ตามด้วยมาสก์สมมติ เช่น

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

LLM จะสร้างความน่าจะเป็นสําหรับคําตอบที่เป็นไปได้ต่างๆ

อีกตัวอย่างหนึ่งคือ LLM ที่ผ่านการฝึกด้วย "โจทย์ปัญหา" ทางคณิตศาสตร์จํานวนมากอาจดูเหมือนกำลังใช้เหตุผลทางคณิตศาสตร์ที่ซับซ้อน อย่างไรก็ตาม LLM เหล่านั้นเป็นเพียงการเติมข้อความอัตโนมัติในพรอมต์โจทย์ภาษา

ประโยชน์ของ LLM

LLM สามารถสร้างข้อความที่ชัดเจนและเข้าใจง่ายสําหรับกลุ่มเป้าหมายที่หลากหลาย LLM สามารถคาดการณ์งานที่ได้รับการฝึกฝนอย่างชัดแจ้ง นักวิจัยบางคนอ้างว่า LLM สามารถทำนายอินพุตที่ไม่ได้ผ่านการฝึกอย่างชัดแจ้งด้วย แต่นักวิจัยคนอื่นๆ ได้โต้แย้งการกล่าวอ้างนี้

ปัญหาเกี่ยวกับ LLM

การฝึกอบรม LLM นั้นมีปัญหาหลายประการ ซึ่งรวมถึง

  • รวบรวมชุดข้อมูลการฝึกอบรมขนาดใหญ่
  • ใช้เวลาหลายเดือนและใช้ทรัพยากรการประมวลผลและไฟฟ้าอย่างมหาศาล
  • การแก้ไขปัญหาการทำงานพร้อมกัน

การใช้ LLM เพื่ออนุมานการคาดการณ์จะทำให้เกิดปัญหาต่อไปนี้

  • LLM สร้างภาพขึ้นมา ซึ่งหมายความว่าการคาดการณ์มักมีข้อผิดพลาด
  • LLM ใช้ทรัพยากรการประมวลผลและไฟฟ้าเป็นจำนวนมาก โดยทั่วไปแล้ว การฝึก LLM ด้วยชุดข้อมูลขนาดใหญ่จะลดปริมาณทรัพยากรที่จําเป็นสําหรับการอนุมาน แม้ว่าชุดข้อมูลขนาดใหญ่จะต้องใช้ทรัพยากรการฝึกมากกว่า
  • LLM อาจมีอคติทุกประเภทเช่นเดียวกับโมเดล ML ทั้งหมด

แบบฝึกหัด: ทดสอบความเข้าใจ

สมมติว่า Transformer ได้รับการฝึกในเอกสารนับพันล้านฉบับ ซึ่งรวมถึงเอกสารหลายพันรายการที่มีคำว่า elephant อย่างน้อย 1 คำ ข้อความใดต่อไปนี้น่าจะเป็นไปได้
ต้นอะคาเซีย ซึ่งเป็นอาหารสําคัญของช้างจะค่อยๆ ได้รับคะแนนการดึงดูดความสนใจด้วยตนเองสูงเมื่อใช้ร่วมกับคำว่าช้าง
ได้ ซึ่งจะช่วยให้ Transformer ตอบคําถามเกี่ยวกับอาหารของช้างได้
Transformer จะเชื่อมโยงคำว่า elephant กับสำนวนต่างๆ ที่มีคำว่า elephant
ใช่ ระบบจะเริ่มแนบคะแนนการสนใจตนเองสูงระหว่างคำ elephant กับคำอื่นๆ ในสำนวนเกี่ยวกับช้าง
Transformer จะค่อยๆ เรียนรู้ที่จะไม่สนใจการใช้คำ elephant ในข้อมูลการฝึกแบบเสียดสีหรือแดกดัน
Transformers ขนาดใหญ่พอที่ฝึกด้วยชุดการฝึกที่กว้างเพียงพอจะชำนาญมากขึ้นในด้านการจดจำการประชด อารมณ์ขัน และการเสียดสี Transformer จึงเรียนรู้จากถ้อยคำประชดประชันและเสียดสีแทนที่จะเพิกเฉย