ข้อมูลเบื้องต้นเกี่ยวกับโมเดลภาษาขนาดใหญ่

หากเพิ่งเคยใช้โมเดลภาษาหรือโมเดลภาษาขนาดใหญ่ โปรดดูแหล่งข้อมูลด้านล่าง

โมเดลภาษาคืออะไร

โมเดลภาษาเป็นแมชชีนเลิร์นนิง โมเดล ซึ่งมุ่งพยากรณ์และสร้างภาษาที่เข้าใจง่าย การเติมข้อความอัตโนมัติคือ โมเดลภาษา เป็นต้น

โมเดลเหล่านี้ทำงานโดยการประมาณความน่าจะเป็นของ token หรือ ลำดับของโทเค็นที่เกิดขึ้นภายในโทเค็นลำดับที่ยาวกว่า พิจารณา ประโยคต่อไปนี้:

When I hear rain on my roof, I _______ in my kitchen.

ถ้าคุณสมมติว่าโทเค็นเป็นคำ โมเดลภาษาจะกำหนด ความเป็นไปได้ที่คำต่างๆ หรือลำดับของคำที่จะแทนที่ ขีดล่าง ตัวอย่างเช่น โมเดลภาษาอาจกำหนดสิ่งต่อไปนี้ ความน่าจะเป็น:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

"ลำดับโทเค็น" อาจเป็นประโยคทั้งประโยคหรือชุดประโยคก็ได้ กล่าวคือ โมเดลภาษาอาจคำนวณหาแนวโน้มของ ประโยคหรือบล็อกของข้อความ

การประมาณความน่าจะเป็นของสิ่งที่จะเกิดขึ้นถัดไปในลำดับมีประโยชน์สำหรับทุกคน สิ่งต่างๆ เช่น การสร้างข้อความ การแปลภาษา และการตอบคำถาม คำถาม เป็นต้น

โมเดลภาษาขนาดใหญ่คืออะไร

การสร้างแบบจำลองภาษาของมนุษย์ในวงกว้างมีความซับซ้อนและต้องใช้ทรัพยากรจำนวนมาก ความพยายาม เส้นทางสู่ความสามารถในปัจจุบันของโมเดลภาษาและ โมเดลภาษาขนาดใหญ่พัฒนาขึ้นเป็นเวลาหลายทศวรรษ

เมื่อโมเดลถูกสร้างขึ้นและมีขนาดใหญ่ขึ้น ความซับซ้อนและประสิทธิภาพก็เพิ่มขึ้นตามไปด้วย โมเดลภาษายุคแรกสามารถคาดการณ์ความน่าจะเป็นของคำเดียว ทันสมัย โมเดลภาษาขนาดใหญ่สามารถคาดการณ์ความน่าจะเป็นของประโยค ย่อหน้า หรือ หรือเอกสารทั้งฉบับ

ขนาดและความสามารถของโมเดลภาษามีขนาดใหญ่ขึ้นเป็นจำนวนมากในช่วง ไม่กี่ปีเมื่อหน่วยความจำคอมพิวเตอร์ ขนาดชุดข้อมูล และพลังในการประมวลผลเพิ่มขึ้น และ มีการพัฒนาเทคนิคที่มีประสิทธิภาพมากขึ้นในการสร้างแบบจำลองลำดับข้อความที่ยาวขึ้น

ใหญ่แค่ไหน

คำจำกัดความไม่ชัดเจน แต่ "ใหญ่" ใช้เพื่ออธิบาย BERT (110M ) รวมถึง PaLM 2 (พารามิเตอร์สูงสุด 340B)

พารามิเตอร์ คือ น้ำหนัก โมเดลที่เรียนรู้ระหว่างการฝึกใช้เพื่อคาดการณ์โทเค็นถัดไปใน ตามลำดับ "ใหญ่" อาจอ้างอิงจำนวนพารามิเตอร์ในโมเดล หรือ บางครั้งคือจำนวนคำในชุดข้อมูล

หม้อแปลง

พัฒนาการที่สำคัญในด้านการสร้างแบบจำลองทางภาษาคือการเปิดตัวในปี 2017 Transformers ซึ่งเป็นสถาปัตยกรรมที่ออกแบบมาภายใต้แนวคิด ความสนใจ ซึ่งทำให้เราสามารถประมวลผลลำดับที่ยาวกว่าโดยมุ่งเน้นที่ ที่สำคัญของอินพุต ในการแก้ปัญหาหน่วยความจำที่พบในก่อนหน้านี้

Transformers เป็นสถาปัตยกรรมล้ำสมัยสำหรับ แอปพลิเคชันโมเดลภาษา เช่น โปรแกรมแปล

หากอินพุตคือ "ฉันเป็นสุนัขที่ดี" ซึ่งเป็นนักแปลที่อิงจาก Transformer แปลงอินพุตนั้นเป็นเอาต์พุต "Je suis un bon chien." ซึ่งเป็น ประโยคเดียวกันที่แปลเป็นภาษาฝรั่งเศส

Transformer เต็มรูปแบบประกอบด้วย โปรแกรมเปลี่ยนไฟล์และ โปรแกรมถอดรหัส CANNOT TRANSLATE โปรแกรมเปลี่ยนไฟล์จะแปลงข้อความที่ป้อนเข้าเป็นสื่อแทนเสียงกลางและตัวถอดรหัส จะแปลงการนำเสนอข้อมูลระดับกลางเป็นข้อความที่มีประโยชน์

การใส่ใจตนเอง

Transformer อาศัยแนวคิดที่เรียกว่าความสนใจตนเองเป็นหลัก ความเป็นตัวเองของ การตระหนักรู้ในตนเองหมายถึง "การยึดถือตัวเองเป็นศูนย์กลาง" โฟกัสของแต่ละโทเค็นในคลังข้อมูล ในนามของแต่ละโทเค็นของข้อมูล ให้ตั้งใจถามว่า "ปริมาณ โทเค็นอินพุตอื่นๆ ทั้งหมดมีความสำคัญต่อฉันหรือไม่" เพื่อลดความซับซ้อนของเรื่อง สมมติว่าแต่ละโทเค็นเป็นคำ และบริบททั้งหมดเป็นคำเดียว ประโยค ลองพิจารณาประโยคต่อไปนี้

สัตว์ตัวนี้ไม่เดินข้ามถนนเพราะเหนื่อยเกินไป

ประโยคก่อนหน้ามีคำ 11 คำ ดังนั้น แต่ละคำ 11 คำจะเสีย ความสนใจกับอีก 10 อย่าง และสงสัยว่าคำทั้ง 10 คำนี้มีความหมายมากแค่ไหน ให้พวกเขาได้ ตัวอย่างเช่น โปรดสังเกตว่าประโยคมีคำสรรพนามว่า it คำสรรพนามมักไม่ชัดเจน คำสรรพนาม it หมายถึงคำนามล่าสุดเสมอ แต่ในประโยคตัวอย่าง ซึ่งคำนามล่าสุดนี้หมายถึง สัตว์ หรือถนน

กลไกการรับรู้ตนเองจะกำหนดความเกี่ยวข้องของคำใกล้เคียงแต่ละคำเพื่อ สรรพนาม it

กรณีการใช้งาน LLM มีอะไรบ้าง

LLM มีประสิทธิภาพมากในงานที่สร้างขึ้น เป็นข้อความที่เป็นไปได้มากที่สุดเมื่อตอบสนองต่ออินพุต พวกเขายังเริ่มแสดง ประสิทธิภาพที่ดีในงานอื่นๆ เช่น การสรุป คำถาม การตอบคำถาม และการจัดประเภทข้อความ ทั้งหมดนี้เรียกว่า ความสามารถฉุกเฉิน LLM ทำได้แม้กระทั่ง แก้โจทย์คณิตศาสตร์ และเขียนโค้ด (แต่แนะนำให้ตรวจสอบ งาน)

LLM สามารถเลียนแบบรูปแบบคำพูดของมนุษย์ได้อย่างดีเยี่ยม เหนือสิ่งอื่นใด มีความสามารถสูงในการรวมข้อมูลเข้ากับรูปแบบและน้ำเสียงที่แตกต่างกัน

แต่ LLM อาจเป็นองค์ประกอบของโมเดลที่ไม่ใช่แค่ สร้างข้อความ เราใช้ LLM ล่าสุดเพื่อสร้างเครื่องมือตรวจจับความรู้สึก ตัวแยกประเภทสารพิษ แล้วสร้างคำบรรยายภาพ

ข้อควรพิจารณาเกี่ยวกับ LLM

โมเดลที่มีขนาดใหญ่เช่นนี้ไม่ได้มีข้อเสีย

LLM ขนาดใหญ่ที่สุดมีราคาแพง แต่อาจใช้เวลาเป็นเดือนในการฝึกฝน ใช้ทรัพยากรจำนวนมาก

และยังนำมาใช้งานอื่นๆ ได้ด้วย ถือเป็นสิ่งล้ำค่าสำหรับคุณ

การฝึกโมเดลที่มีพารามิเตอร์ 1 ล้านล้านพารามิเตอร์สูงกว่า ความท้าทายด้านวิศวกรรม โครงสร้างพื้นฐานและการเขียนโปรแกรมพิเศษ เพื่อสอดประสานการไหลเวียนไปยังชิปแล้วย้อนกลับมาอีกครั้ง

การลดค่าใช้จ่ายของโมเดลขนาดใหญ่เหล่านี้ทำได้หลายวิธี มี 2 แนวทาง ได้แก่ การอนุมานออฟไลน์ และ การกลั่น

การให้น้ำหนักพิเศษอาจเป็นปัญหาในโมเดลขนาดใหญ่มากและควรนำมาพิจารณาในการฝึก และการใช้งานจริง

เนื่องจากโมเดลเหล่านี้ได้รับการฝึกโดยใช้ภาษามนุษย์ สิ่งนี้สามารถ ปัญหาด้านจริยธรรมที่อาจเกิดขึ้น รวมถึงการใช้ภาษาในทางที่ผิด อคติทางเชื้อชาติ เพศ ศาสนา และอื่นๆ

เห็นได้ชัดเจนว่าเมื่อโมเดลเหล่านี้มีขนาดใหญ่ขึ้นและทำงานได้อย่างมีประสิทธิภาพมากขึ้น ยังคงต้องมีความเข้าใจและ ลดข้อเสียของพวกเขา ดูข้อมูลเพิ่มเติมเกี่ยวกับแนวทางของ Google ในการ AI อย่างมีความรับผิดชอบ