เทคโนโลยีที่ใหม่กว่าอย่างโมเดลภาษาขนาดใหญ่ (LLM) จะคาดคะเนโทเค็นหรือลำดับโทเค็น ซึ่งบางครั้งอาจเป็นโทเค็นหลายย่อหน้า โปรดทราบว่าโทเค็นอาจเป็นคํา คําย่อย (ชุดย่อยของคํา) หรือแม้แต่อักขระเดียว LLM คาดการณ์ได้ดีกว่า โมเดลภาษาแบบ N-gram หรือโครงข่ายประสาทแบบเกิดซ้ำด้วยเหตุผลต่อไปนี้
- LLM มีพารามิเตอร์มากกว่าโมเดลที่เกิดซ้ำ
- LLM จะรวบรวมบริบทได้มากกว่า
ส่วนนี้จะแนะนำสถาปัตยกรรมที่ประสบความสำเร็จและใช้กันอย่างแพร่หลายที่สุดสำหรับการสร้าง LLM ซึ่งก็คือ Transformer
หม้อแปลงคืออะไร
Transformer เป็นสถาปัตยกรรมล้ำสมัยสําหรับแอปพลิเคชันโมเดลภาษาที่หลากหลาย เช่น การแปล
Transformer แบบสมบูรณ์ประกอบด้วยโปรแกรมเปลี่ยนไฟล์และโปรแกรมถอดรหัส
- โปรแกรมเปลี่ยนไฟล์จะแปลงข้อความที่ป้อนเป็นการนำเสนอระดับกลาง โปรแกรมและอุปกรณ์เปลี่ยนไฟล์คือโครงข่ายระบบประสาทเทียมขนาดใหญ่
- โปรแกรมถอดรหัสจะแปลงการนำเสนอระดับกลางนั้นให้เป็นข้อความที่มีประโยชน์ ตัวถอดรหัสยังเป็นโครงข่ายประสาทเทียมขนาดใหญ่ด้วย
เช่น ในโปรแกรมแปล
- โปรแกรมเปลี่ยนไฟล์จะประมวลผลข้อมูลที่ป้อน (เช่น ประโยคภาษาอังกฤษ) เพื่อแสดงข้อมูลระหว่างกลาง
- โปรแกรมถอดรหัสจะแปลงการนำเสนอระดับกลางนั้นให้เป็นข้อความเอาต์พุต (เช่น ประโยคภาษาฝรั่งเศสที่เทียบเท่า)
ความสนใจตนเองคืออะไร
ในการปรับปรุงบริบท Transformers อาศัยแนวคิดที่เรียกว่าการให้ความสำคัญกับตนเองเป็นอย่างมาก โปรดตั้งใจถามคำถามต่อไปนี้ในนามของโทเค็นอินพุตแต่ละรายการ
"โทเค็นอินพุตอื่นๆ แต่ละรายการส่งผลต่อการตีความโทเค็นนี้มากน้อยเพียงใด"
"Self" ใน "Self-Attention" หมายถึงลําดับข้อมูลเข้า กลไกการให้ความสำคัญบางอย่างจะให้ความสำคัญกับความสัมพันธ์ของโทเค็นอินพุตกับโทเค็นในลำดับเอาต์พุต เช่น การแปล หรือกับโทเค็นในลำดับอื่นๆ แต่การให้ความสำคัญกับตนเองจะพิจารณาเฉพาะความสำคัญของความสัมพันธ์ระหว่างโทเค็นในลำดับอินพุต
เพื่อความง่าย เราจะสมมติว่าแต่ละโทเค็นคือคําและบริบทที่สมบูรณ์คือประโยคเดียว ลองพิจารณาประโยคต่อไปนี้
The animal didn't cross the street because it was too tired.
ประโยคก่อนหน้ามี 11 คำ คําทั้ง 11 คําให้ความสนใจกับคําอื่นๆ อีก 10 คํา โดยคํานึงว่าคําแต่ละคํามีความสําคัญกับตนเองเพียงใด ตัวอย่างเช่น สังเกตว่าประโยคนี้มีคำสรรพนาม it คำสรรพนามมักมีความคลุมเครือ คำสรรพนาม it มักจะหมายถึงคำนามหรือคำนามล่าสุด แต่ในประโยคตัวอย่าง คำนามล่าสุดอันไหนที่มันหมายถึงสัตว์หรือถนน
กลไกการให้ความสำคัญกับตนเองจะพิจารณาความเกี่ยวข้องของคำที่อยู่ใกล้เคียงแต่ละคำกับคำสรรพนาม it รูปที่ 3 แสดงผลลัพธ์ โดยเส้นยิ่งเป็นสีน้ำเงินมาก แสดงว่าคำนั้นมีความเกี่ยวข้องกับคำสรรพนาม it มากขึ้น กล่าวคือ animal มีความสำคัญมากกว่า street สําหรับคำสรรพนาม it
ในทางกลับกัน สมมติว่าคําสุดท้ายในประโยคมีการเปลี่ยนแปลงดังนี้
The animal didn't cross the street because it was too wide.
ในประโยคที่แก้ไขแล้วนี้ เราหวังว่าการใส่ใจตนเองจะจัดอันดับให้ street มีความเกี่ยวข้องกับคำสรรพนาม it มากกว่า animal
กลไกการใส่ใจตนเองบางกลไกเป็นแบบแบบ 2 ทิศทาง ซึ่งหมายความว่าจะคำนวณคะแนนความเกี่ยวข้องสำหรับโทเค็นที่อยู่ก่อนและอยู่หลังคำที่สนใจ ตัวอย่างเช่น ในรูปที่ 3 โปรดสังเกตว่าระบบจะตรวจสอบคำทั้ง 2 ด้านของ it ดังนั้น กลไกการใส่ใจตนเองแบบ 2 ทิศทางจึงรวบรวมบริบทจากคำที่อยู่ด้านข้างของคำที่สนใจได้ ในทางตรงกันข้าม กลไกการใส่ใจตนเองแบบทิศทางเดียวจะรวบรวมบริบทจากคำด้านข้างของคำที่สนใจได้เท่านั้น การใส่ใจตนเองแบบ 2 ทิศทางมีประโยชน์อย่างยิ่งในการสร้างการนําเสนอทั้งลําดับ ขณะที่แอปพลิเคชันที่สร้างลําดับทีละโทเค็นต้องใช้การใส่ใจตนเองแบบทิศทางเดียว ด้วยเหตุนี้ โปรแกรมเปลี่ยนไฟล์จึงใช้การจดจ่อกับตนเองแบบ 2 ทิศทาง ส่วนตัวถอดรหัสจะใช้ทิศทางเดียว
การใส่ใจตนเองแบบหลายหัวคืออะไร
เลเยอร์ดึงดูดความสนใจตนเองแต่ละเลเยอร์มักประกอบด้วย การดึงดูดความสนใจด้วยตัวเองหลายชิ้น เอาต์พุตของเลเยอร์คือการดำเนินการทางคณิตศาสตร์ (เช่น ค่าเฉลี่ยถ่วงน้ำหนักหรือผลคูณจุด) ของเอาต์พุตจากส่วนหัวต่างๆ
เนื่องจากเลเยอร์ความสนใจตัวเองแต่ละชั้นเริ่มต้นเป็นค่าแบบสุ่ม ส่วนหัวที่ต่างกันจึงเรียนรู้ความสัมพันธ์ที่แตกต่างกันระหว่างคำแต่ละคำที่มีการมีส่วนร่วมและคำใกล้เคียงได้ เช่น เลเยอร์ Self-Attention ที่อธิบายไว้ในส่วนก่อนหน้านี้มุ่งเน้นที่การระบุคำนามที่คำสรรพนาม it อ้างอิงถึง อย่างไรก็ตาม เลเยอร์ Self-Attention อื่นๆ อาจเรียนรู้ความเกี่ยวข้องทางไวยากรณ์ของคำแต่ละคำกับคำอื่นๆ ทั้งหมด หรือเรียนรู้การโต้ตอบอื่นๆ
Why are Transformers so large?
Transformers มีพารามิเตอร์หลายร้อยพันล้านหรือหลายล้านล้านรายการ โดยทั่วไปแล้ว หลักสูตรนี้แนะนําให้สร้างโมเดลที่มีพารามิเตอร์จํานวนน้อยแทนพารามิเตอร์จํานวนมาก ท้ายที่สุดแล้ว โมเดลที่มีพารามิเตอร์จํานวนน้อยจะใช้ทรัพยากรในการทําการคาดการณ์น้อยกว่าโมเดลที่มีพารามิเตอร์จํานวนมาก อย่างไรก็ตาม งานวิจัยแสดงให้เห็นว่า Transformers ที่มีพารามิเตอร์มากกว่าจะมีประสิทธิภาพสูงกว่า Transformers ในอัตราที่น้อยกว่าอย่างต่อเนื่อง
แต่ LLM สร้างข้อความได้อย่างไร
คุณได้เห็นว่านักวิจัยฝึก LLM ให้คาดเดาคำที่ขาดหายไป 1-2 คำอย่างไร และคุณอาจไม่ประทับใจ ท้ายที่สุดแล้ว การคาดคะเนคำ 1-2 คำก็ถือเป็นฟีเจอร์เติมข้อความอัตโนมัติที่ฝังอยู่ในซอฟต์แวร์ข้อความ อีเมล และซอฟต์แวร์การเขียนต่างๆ คุณอาจสงสัยว่า LLM สามารถสร้างประโยคหรือย่อหน้า หรือไฮกุเกี่ยวกับการหากำไรได้อย่างไร
อันที่จริงแล้ว LLM นั้นเป็นกลไกการเติมข้อความอัตโนมัติที่สามารถคาดคะเน (เติม) โทเค็นหลายพันรายการโดยอัตโนมัติ ตัวอย่างเช่น ลองดูประโยคต่อไปนี้ followed by a masked sentence
My dog, Max, knows how to perform many traditional dog tricks. ___ (masked sentence)
LLM สามารถสร้างความน่าจะเป็นของประโยคที่มีการปกปิดได้ ซึ่งรวมถึงข้อมูลต่อไปนี้
Probability | คำ |
---|---|
3.1% | ตัวอย่างเช่น เขาสามารถนั่ง อยู่ต่อ และกลิ้งไปมาได้ |
2.9% | เช่น เขารู้วิธีนั่ง อยู่ และกลิ้งไปมา |
LLM ที่มีขนาดใหญ่พอสามารถสร้างความน่าจะเป็นของย่อหน้าและเรียงความทั้งเรื่อง คุณสามารถมองว่าคําถามของผู้ใช้ต่อ LLM เป็นประโยค "ที่ระบุ" ตามด้วยมาสก์สมมติ เช่น
User's question: What is the easiest trick to teach a dog? LLM's response: ___
LLM จะสร้างความน่าจะเป็นสําหรับคําตอบที่เป็นไปได้ต่างๆ
อีกตัวอย่างหนึ่งคือ LLM ที่ผ่านการฝึกด้วย "โจทย์ปัญหา" ทางคณิตศาสตร์จํานวนมากอาจดูเหมือนกำลังใช้เหตุผลทางคณิตศาสตร์ที่ซับซ้อน อย่างไรก็ตาม LLM เหล่านั้นเป็นเพียงการเติมข้อความอัตโนมัติในพรอมต์โจทย์ภาษา
ประโยชน์ของ LLM
LLM สามารถสร้างข้อความที่ชัดเจนและเข้าใจง่ายสําหรับกลุ่มเป้าหมายที่หลากหลาย LLM สามารถคาดการณ์งานที่ได้รับการฝึกฝนอย่างชัดแจ้ง นักวิจัยบางคนอ้างว่า LLM สามารถทำนายอินพุตที่ไม่ได้ผ่านการฝึกอย่างชัดแจ้งด้วย แต่นักวิจัยคนอื่นๆ ได้โต้แย้งการกล่าวอ้างนี้
ปัญหาเกี่ยวกับ LLM
การฝึกอบรม LLM นั้นมีปัญหาหลายประการ ซึ่งรวมถึง
- รวบรวมชุดข้อมูลการฝึกอบรมขนาดใหญ่
- ใช้เวลาหลายเดือนและใช้ทรัพยากรการประมวลผลและไฟฟ้าอย่างมหาศาล
- การแก้ไขปัญหาการทำงานพร้อมกัน
การใช้ LLM เพื่ออนุมานการคาดการณ์จะทำให้เกิดปัญหาต่อไปนี้
- LLM สร้างภาพขึ้นมา ซึ่งหมายความว่าการคาดการณ์มักมีข้อผิดพลาด
- LLM ใช้ทรัพยากรการประมวลผลและไฟฟ้าเป็นจำนวนมาก โดยทั่วไปแล้ว การฝึก LLM ด้วยชุดข้อมูลขนาดใหญ่จะลดปริมาณทรัพยากรที่จําเป็นสําหรับการอนุมาน แม้ว่าชุดข้อมูลขนาดใหญ่จะต้องใช้ทรัพยากรการฝึกมากกว่า
- LLM อาจมีอคติทุกประเภทเช่นเดียวกับโมเดล ML ทั้งหมด