LLM: โมเดลภาษาขนาดใหญ่คืออะไร

เทคโนโลยีที่ใหม่กว่า โมเดลภาษาขนาดใหญ่ (LLM) คาดการณ์โทเค็นหรือลำดับโทเค็น ซึ่งบางครั้งอาจมีมูลค่าหลายย่อหน้า โทเค็นที่คาดการณ์ไว้ โปรดทราบว่าโทเค็นอาจเป็นคำ คำย่อย (ชุดย่อยของ คำหนึ่งคำ) หรือแม้กระทั่งอักขระตัวเดียว LLM สามารถคาดการณ์ได้ดีกว่ามาก โมเดลภาษาแบบ N-gram หรือโครงข่ายประสาทแบบเกิดซ้ำเนื่องจากสาเหตุต่อไปนี้

  • LLM มีพารามิเตอร์มากกว่านี้ รูปแบบที่เกิดซ้ำ
  • LLM จะรวบรวมบริบทได้มากขึ้น

ส่วนนี้จะแนะนำสถาปัตยกรรมที่ประสบความสำเร็จและใช้กันอย่างแพร่หลายที่สุด สำหรับการสร้าง LLM: Transformer

หม้อแปลงคืออะไร

Transformers เป็นสถาปัตยกรรมล้ำสมัยสำหรับ แอปพลิเคชันโมเดลภาษา เช่น การแปล:

รูปที่ 1 อินพุตคือ: ฉันเป็นสุนัขที่ดี จาก Transformer
            โปรแกรมแปลจะเปลี่ยนอินพุตนั้นเป็นเอาต์พุต: Je suis un bon
            chien ซึ่งเป็นประโยคเดียวกับที่แปลเป็นภาษาฝรั่งเศส
รูปที่ 1 แอปพลิเคชันที่มี Transformer ที่แปลจาก จากภาษาอังกฤษเป็นฝรั่งเศส

 

ตัวแปลงสัญญาณเต็มรูปแบบประกอบด้วยโปรแกรมเปลี่ยนไฟล์และตัวถอดรหัส

  • โปรแกรมเปลี่ยนไฟล์เพื่อแปลง ป้อนข้อความลงในการนำเสนอข้อมูลระดับกลาง โปรแกรมเปลี่ยนไฟล์ โครงข่ายประสาท
  • ตัวถอดรหัสแปลง ตัวแทนที่เป็นตัวกลางดังกล่าวให้เป็นข้อความที่มีประโยชน์ นอกจากนี้ ตัวถอดรหัสยังเป็น โครงข่ายประสาทขนาดใหญ่

เช่น ในนักแปล

  • โปรแกรมเปลี่ยนไฟล์จะประมวลผลอินพุตข้อความ (เช่น ประโยคภาษาอังกฤษ) ลงใน ตัวแทนระดับกลาง
  • ตัวถอดรหัสจะแปลงการนำเสนอขั้นกลางให้เป็นข้อความเอาต์พุต (สำหรับ เช่น ประโยคภาษาฝรั่งเศสที่เทียบเท่า)
รูปที่ 2 นักแปลแบบ Transformer จะเริ่มด้วยโปรแกรมเปลี่ยนไฟล์
            ซึ่งสร้างตัวแทนภาษาอังกฤษในระดับกลาง
            ประโยค ตัวถอดรหัสจะแปลงการนำเสนอระดับกลางนั้นเป็น
            ประโยคในผลลัพธ์ภาษาฝรั่งเศส
รูปที่ 2 Transformer เต็มรูปแบบมีทั้งโปรแกรมเปลี่ยนไฟล์และโปรแกรมถอดรหัส

 

ความสนใจตนเองคืออะไร

เพื่อปรับปรุงบริบท Transformers อาศัยแนวคิดที่เรียกว่า การใส่ใจตนเอง การตั้งใจจะถามตัวเองในนามของโทเค็นอินพุตแต่ละรายการอย่างมีประสิทธิภาพ คำถามต่อไปนี้

"โทเค็นอินพุตแต่ละรายการส่งผลต่อการตีความข้อมูลนี้มากน้อยเพียงใด โทเค็น"

"ตัวเอง" ใน "ความสนใจตนเอง" จะหมายถึงลำดับอินพุต โปรดทราบ ให้น้ำหนักความสัมพันธ์ระหว่างโทเค็นอินพุตกับโทเค็นในลำดับเอาต์พุต เช่น หรือโทเค็นในลำดับอื่นๆ ได้ แต่ความสนใจเพียงอย่างเดียว ให้น้ำหนักความสำคัญของความสัมพันธ์ระหว่างโทเค็นในลำดับอินพุต

เพื่อให้กรณีต่างๆ ง่ายขึ้น ให้สมมติว่าแต่ละโทเค็นเป็นคำและ บริบทจะเป็นเพียงประโยคเดียว ลองพิจารณาประโยคต่อไปนี้

The animal didn't cross the street because it was too tired.

ประโยคก่อนหน้านี้ประกอบด้วย 11 คำ คำหนึ่งใน 11 คำนี้ ตั้งใจฟังคำที่เหลือ 10 คำและสงสัยว่าแต่ละคำ 10 คำนี้เท่าไร มีความสำคัญกับตัวเอง ตัวอย่างเช่น สังเกตว่าประโยคมีคำสรรพนาม it คำสรรพนามมักไม่ชัดเจน สรรพนาม it มักหมายถึง คำนามหรือคำนามล่าสุด แต่ในประโยคตัวอย่าง ซึ่งคำนามล่าสุด มันหมายถึงสัตว์หรือถนน

กลไกความสนใจตนเองจะเป็นตัวกำหนดความเกี่ยวข้องของคำใกล้เคียงแต่ละคำ สรรพนามมัน รูปที่ 3 แสดงผลลัพธ์ ยิ่งเส้นสีน้ำเงินยิ่งแสดง คำนั้นสำคัญกับคำสรรพนาม it. ก็คือสัตว์นั้นมีความ สำคัญกว่า street ต่อท้ายสรรพนาม it

วันที่ รูปที่ 3 ความเกี่ยวข้องของคำทั้ง 11 คำในประโยค
            "สัตว์ไม่ข้ามถนนเพราะเหนื่อยเกินไป"
            กับคำสรรพนามว่า "it" คำว่า "สัตว์" มีความเกี่ยวข้องกับ
            สรรพนามว่า "it"
รูปที่ 3 ใส่ใจตัวเองสำหรับคำสรรพนาม it จาก Transformer: สถาปัตยกรรมโครงข่ายระบบประสาทเทียมใหม่สำหรับ การทำความเข้าใจภาษา

 

ในทางกลับกัน สมมติว่าคำสุดท้ายในประโยคมีการเปลี่ยนแปลงดังนี้

The animal didn't cross the street because it was too wide.

ในประโยคที่แก้ไขนี้ การตั้งใจให้ความสนใจตนเองจะให้คะแนนถนนเป็น มีความเกี่ยวข้องกับคำสรรพนาม it มากกว่าสัตว์

กลไกการรับรู้ตนเองบางกลไกเป็นแบบสองทิศทาง ซึ่งหมายความว่า คำนวณคะแนนความเกี่ยวข้องสำหรับโทเค็นก่อนหน้าและตามหลังคำที่แสดง เข้าร่วมด้วย ตัวอย่างเช่น ในรูปที่ 3 สังเกตว่าคำทั้ง 2 ด้านของ เพื่อรับการตรวจสอบ ดังนั้นกลไกการดึงดูดตนเองแบบ 2 ทิศทางสามารถรวบรวม บริบทจากคำในด้านใดด้านหนึ่งของคำที่เข้าร่วม ในทางตรงกันข้าม กลไกการจดจ่อกับตนเองแบบทิศทางเดียวจะรวบรวมบริบทจากคำเท่านั้น ด้านหนึ่งของคำที่จะเข้าร่วม ความสนใจตนเองแบบ 2 ทิศทางคือ มีประโยชน์อย่างยิ่งในการสร้างภาพแสดงลำดับทั้งหมด แอปพลิเคชันที่สร้างลำดับโทเค็นต่อโทเค็นต้องใช้แบบทิศทางเดียว ความสนใจตนเอง ด้วยเหตุนี้ โปรแกรมเปลี่ยนไฟล์จึงใช้การจดจ่อกับตนเองแบบ 2 ทิศทาง ขณะที่ตัวถอดรหัสจะใช้ทิศทางเดียว

ความสนใจตนเองแบบหลายหัวคืออะไร

เลเยอร์ดึงดูดความสนใจตนเองแต่ละเลเยอร์มักประกอบด้วย ความสนใจในตัว เอาต์พุตของเลเยอร์เป็นการดำเนินการทางคณิตศาสตร์ (เช่น ค่าเฉลี่ยถ่วงน้ำหนักหรือผลิตภัณฑ์แบบจุด) ของเอาต์พุตของฟิลด์ ต่างหัวกัน

เนื่องจากเลเยอร์ความสนใจตัวเองแต่ละเลเยอร์เริ่มต้นเป็นค่าแบบสุ่ม ส่วนหัวที่ต่างกัน สามารถเรียนรู้ความสัมพันธ์ที่แตกต่างกันระหว่างแต่ละคำที่ใช้ กับ คำใกล้เคียง เช่น ชั้นดึงดูดความสนใจด้วยตัวเองที่อธิบายไว้ใน ซึ่งมุ่งเน้นที่การระบุคำสรรพนามที่คำสรรพนามนี้ใช้ อย่างไรก็ตาม ชั้นความสนใจตนเองอื่นๆ อาจเรียนรู้ถึงความเกี่ยวข้องทางไวยากรณ์ของ ไปยังแต่ละคำ หรือเรียนรู้การโต้ตอบระหว่างกัน

ทำไม Transformer จึงมีขนาดใหญ่

Transformer มีข้อมูลนับแสนล้านหรือแม้แต่ล้านล้าน parameters โดยทั่วไปหลักสูตรนี้จะแนะนำโมเดลสิ่งปลูกสร้างที่มีขนาดเล็ก จำนวนพารามิเตอร์ทับรายการที่มีพารามิเตอร์จำนวนมาก เพราะโมเดลที่มีพารามิเตอร์จำนวนน้อยกว่าจะใช้ทรัพยากรน้อยกว่า คาดการณ์ได้ดีกว่าโมเดลที่มีพารามิเตอร์จำนวนมาก อย่างไรก็ตาม งานวิจัยแสดงให้เห็นว่า Transformers ที่มีพารามิเตอร์มากกว่า มีประสิทธิภาพสูงกว่า Transformer อย่างต่อเนื่อง โดยใช้พารามิเตอร์ที่น้อยกว่า

แต่ LLM สร้างข้อความได้อย่างไร

คุณได้เห็นวิธีที่นักวิจัยฝึก LLM ให้คาดการณ์คำที่ขาดไป 1-2 คำ และคุณ อาจไม่ประทับใจ เพราะไม่ว่าอย่างไร การคาดการณ์คำสักหนึ่งหรือสองคำก็เป็นการ คุณสมบัติเติมข้อความอัตโนมัติซึ่งอยู่ในตัวข้อความ อีเมล และซอฟต์แวร์การเขียนที่หลากหลาย คุณอาจสงสัยว่า LLM สามารถสร้างประโยคหรือย่อหน้า หรือ haikus เกี่ยวกับการหากำไร

ที่จริงแล้ว LLM เป็นกลไกการเติมข้อความอัตโนมัติที่สามารถ คาดการณ์ (เสร็จสมบูรณ์แล้ว) โทเค็นหลายพันรายการ เช่น ลองพิจารณาประโยค 1 ประโยค ตามด้วยประโยคที่มาสก์:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

LLM สามารถสร้างความน่าจะเป็นสำหรับประโยคที่มาสก์ ได้แก่

Probability คำ
3.1% ตัวอย่างเช่น เขาสามารถนั่ง อยู่ต่อ และ พลิกไปด้านบน
2.9% เช่น เขารู้วิธีที่จะนั่ง อยู่ต่อ และ พลิกไปด้านบน

LLM ขนาดใหญ่เพียงพอจะสร้างความน่าจะเป็นสำหรับย่อหน้าและทั้งย่อหน้า เรียงความ ให้ลองคิดว่าคำถามของผู้ใช้ที่ส่งไปยัง LLM คือ "คำที่ให้" ประโยค ตามด้วยมาสก์ในจินตนาการ เช่น

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

LLM สร้างความน่าจะเป็นสำหรับคำตอบที่เป็นไปได้ต่างๆ

อีกตัวอย่างหนึ่งคือ LLM ได้ฝึกโดยใช้ "คำทางคณิตศาสตร์จำนวนมาก" ปัญหา" จะให้ลักษณะของการให้เหตุผลเชิงคณิตศาสตร์ที่ซับซ้อนได้ แต่ LLM เป็นเพียงการเติมข้อความอัตโนมัติให้กับพรอมต์ปัญหาเกี่ยวกับคำ

ประโยชน์ของ LLM

LLM สามารถสร้างข้อความที่ชัดเจนและเข้าใจง่ายสำหรับ ผู้ชมเป้าหมายที่หลากหลาย LLM จะคาดการณ์งานต่างๆ ที่สร้างขึ้นได้ และได้รับการฝึกมาอย่างชัดแจ้งใน นักวิจัยบางรายอ้างว่า LLM ยังสามารถ การคาดคะเนของอินพุตที่ไม่ได้ฝึกอย่างชัดเจน แต่ใช้ส่วนอื่นๆ นักวิจัยได้ปฏิเสธการกล่าวอ้างนี้

ปัญหาเกี่ยวกับ LLM

การฝึก LLM ทำให้เกิดปัญหาหลายประการ ได้แก่

  • กำลังรวบรวมชุดการฝึกขนาดใหญ่
  • กินเวลาหลายเดือนและใช้ทรัพยากรในการประมวลผลจำนวนมหาศาล ไฟฟ้า
  • การแก้ปัญหาความคล้ายคลึงกัน

การใช้ LLM เพื่ออนุมานการคาดการณ์จะทำให้เกิดปัญหาต่อไปนี้

  • LLM ความไม่สมเหตุสมผล ซึ่งหมายความว่าการคาดคะเนของพวกเขา มักจะมีความผิดพลาด
  • LLM ใช้ทรัพยากรการคำนวณและไฟฟ้าในปริมาณมหาศาล โดยทั่วไปการฝึก LLM บนชุดข้อมูลขนาดใหญ่จะลด ปริมาณทรัพยากรที่จำเป็นสำหรับการอนุมาน แม้ว่าการฝึกอบรมใน ชุดการสร้างทรัพยากรฝึกอบรมเพิ่มเติม
  • LLM สามารถแสดงอคติได้ทุกรูปแบบเช่นเดียวกับโมเดล ML ทั้งหมด

แบบฝึกหัด: ตรวจสอบความเข้าใจ

สมมติว่า Transformer ได้รับการฝึกกับเอกสารนับพันล้านชุด ได้แก่ เอกสารนับพันที่มีคำ อย่างน้อย 1 คำ elephant ข้อความใดต่อไปนี้เป็นจริง
ต้นอะคาเซียซึ่งเป็นส่วนสำคัญของอาหารของช้างจะ ค่อยๆ ได้รับคะแนนความสนใจตนเองสูงโดยใช้คำว่า elephant
ใช่ วิธีนี้จะช่วยให้ Transformer สามารถตอบคำถามเกี่ยวกับ อาหารของช้าง
Transformer จะเชื่อมโยงคำว่า elephant กับ สำนวนที่มีคำว่า elephant
ใช่ ระบบจะเริ่มมีคะแนนความสนใจตนเองสูง ระหว่างคำว่า elephant และคำอื่นๆ ใน สำนวนคล้ายช้าง
Transformer จะค่อยๆ เรียนรู้ที่จะละเว้นการเสียดสีหรือ การใช้คำว่า elephant แบบเสียดสีในข้อมูลการฝึก
Transformer ที่มีขนาดใหญ่พอที่ผ่านการฝึกบนเส้นทางที่กว้างขึ้นพอ ชุดการฝึกจะชำนาญมากขึ้นในด้านการจดจำการเสียดสี อารมณ์ขัน และล้อเลียน ดังนั้น แทนที่จะไม่สนใจคำประชดและเสียดสี Transformer เรียนรู้จากสิ่งนั้น