ข้อมูลเบื้องต้นเกี่ยวกับโมเดลภาษาขนาดใหญ่

หากเพิ่งเคยใช้โมเดลภาษาหรือโมเดลภาษาขนาดใหญ่ ลองดูแหล่งข้อมูลด้านล่าง

โมเดลภาษาคืออะไร

โมเดลภาษาเป็นแมชชีนเลิร์นนิง โมเดล ซึ่งมุ่งพยากรณ์และสร้างภาษาที่เข้าใจง่าย เช่น การเติมข้อความอัตโนมัติเป็นโมเดลภาษา

โมเดลเหล่านี้ทำงานโดยประมาณความน่าจะเป็นที่โทเค็นหรือลำดับโทเค็นจะปรากฏภายในลำดับโทเค็นที่ยาวขึ้น ลองพิจารณาประโยคต่อไปนี้

When I hear rain on my roof, I _______ in my kitchen.

ถ้าคุณสมมติว่าโทเค็นเป็นคำ โมเดลภาษาจะกำหนด ความเป็นไปได้ที่คำต่างๆ หรือลำดับของคำที่จะแทนที่ ขีดล่าง ตัวอย่างเช่น โมเดลภาษาอาจระบุความน่าจะเป็นต่อไปนี้

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

"ลําดับโทเค็น" อาจเป็นทั้งประโยคหรือชุดประโยค กล่าวคือ โมเดลภาษาสามารถคํานวณความน่าจะเป็นของประโยคหรือบล็อกข้อความทั้งประโยคที่แตกต่างกัน

การประมาณความน่าจะเป็นของสิ่งที่จะเกิดขึ้นถัดไปในลำดับมีประโยชน์สำหรับทุกคน สิ่งต่างๆ เช่น การสร้างข้อความ การแปลภาษา และการตอบ คำถาม เป็นต้น

โมเดลภาษาขนาดใหญ่คืออะไร

การสร้างแบบจำลองภาษาของมนุษย์ในวงกว้างมีความซับซ้อนและต้องใช้ทรัพยากรจำนวนมาก ความพยายาม เส้นทางที่ทำให้เราบรรลุความสามารถในปัจจุบันของโมเดลภาษาและโมเดลภาษาขนาดใหญ่นั้นกินเวลาหลายทศวรรษ

เมื่อโมเดลถูกสร้างขึ้นและมีขนาดใหญ่ขึ้น ความซับซ้อนและประสิทธิภาพก็เพิ่มขึ้นตามไปด้วย โมเดลภาษายุคแรกสามารถคาดคะเนความน่าจะเป็นของคำเดียว แต่โมเดลภาษาขนาดใหญ่สมัยใหม่สามารถคาดคะเนความน่าจะเป็นของประโยค ย่อหน้า หรือแม้แต่ทั้งเอกสาร

ขนาดและความสามารถของโมเดลภาษาเพิ่มขึ้นอย่างมากในช่วง 2-3 ปีที่ผ่านมา เนื่องจากหน่วยความจําของคอมพิวเตอร์ ชุดข้อมูล และพลังการประมวลผลเพิ่มขึ้น รวมถึงมีการพัฒนาเทคนิคที่มีประสิทธิภาพมากขึ้นในการประมาณลำดับข้อความที่ยาวขึ้น

"ใหญ่" หมายถึงขนาดเท่าใด

คำจำกัดความนี้ค่อนข้างคลุมเครือ แต่เราใช้คำว่า "ขนาดใหญ่" เพื่ออธิบาย BERT (พารามิเตอร์ 110 ล้านรายการ) และ PaLM 2 (พารามิเตอร์สูงสุด 340,000 ล้านรายการ)

พารามิเตอร์คือน้ำหนักที่โมเดลเรียนรู้ระหว่างการฝึก ซึ่งใช้ในการคาดการณ์โทเค็นถัดไปในลำดับ "ขนาดใหญ่" อาจหมายถึงจํานวนพารามิเตอร์ในโมเดล หรือบางครั้งหมายถึงจํานวนคําในชุดข้อมูล

หม้อแปลง

พัฒนาการที่สำคัญในด้านการสร้างแบบจำลองทางภาษาคือการเปิดตัวในปี 2017 Transformers ซึ่งเป็นสถาปัตยกรรมที่ออกแบบมาภายใต้แนวคิด ความสนใจ ซึ่งทำให้ประมวลผลลำดับที่ยาวขึ้นได้ด้วยการมุ่งเน้นที่ส่วนสําคัญที่สุดของอินพุต ซึ่งช่วยแก้ปัญหาเกี่ยวกับหน่วยความจําที่พบในโมเดลก่อนหน้านี้

Transformers เป็นสถาปัตยกรรมล้ำสมัยสำหรับ แอปพลิเคชันโมเดลภาษา เช่น โปรแกรมแปล

หากอินพุตคือ "ฉันเป็นสุนัขที่ดี" ซึ่งเป็นนักแปลที่อิงจาก Transformer แปลงอินพุตนั้นเป็นเอาต์พุต "Je suis un bon chien." ซึ่งเป็น ประโยคเดียวกันที่แปลเป็นภาษาฝรั่งเศส

Transformers แบบสมบูรณ์ประกอบด้วย โปรแกรมเปลี่ยนไฟล์และโปรแกรมถอดรหัส CANNOT TRANSLATE โปรแกรมเปลี่ยนไฟล์จะแปลงข้อความที่ป้อนเข้าเป็นสื่อแทนเสียงกลางและตัวถอดรหัส จะแปลงการนำเสนอข้อมูลระดับกลางเป็นข้อความที่มีประโยชน์

การใส่ใจตนเอง

Transformer อาศัยแนวคิดที่เรียกว่าความสนใจตนเองเป็นหลัก ความเป็นตัวเองของ การตระหนักรู้ในตนเองหมายถึง "การยึดถือตัวเองเป็นศูนย์กลาง" โฟกัสของแต่ละโทเค็นในคลังข้อมูล ในแง่หนึ่งแล้ว การใส่ใจตนเองจะถามในนามของโทเค็นอินพุตแต่ละรายการว่า "โทเค็นอินพุตอื่นๆ แต่ละรายการสำคัญกับฉันมากน้อยเพียงใด" เพื่อความง่าย เราจะสมมติว่าแต่ละโทเค็นคือคําและบริบททั้งหมดคือประโยคเดียว ลองพิจารณาประโยคต่อไปนี้

สัตว์ตัวนี้ไม่เดินข้ามถนนเพราะเหนื่อยเกินไป

ประโยคก่อนหน้ามีคำ 11 คำ ดังนั้น แต่ละคำ 11 คำจะเสีย กับอีก 10 คน และสงสัยว่าคำทั้ง 10 คำนี้มีความหมายมากแค่ไหน ให้พวกเขาได้ ตัวอย่างเช่น สังเกตว่าประโยคนี้มีคำสรรพนาม it คำสรรพนามมักไม่ชัดเจน คําสรรพนาม it หมายถึงคำนามล่าสุดเสมอ แต่จากประโยคตัวอย่าง it หมายถึงคำนามล่าสุดใด สัตว์หรือถนน

กลไกการให้ความสำคัญกับตนเองจะกำหนดความเกี่ยวข้องของคำที่อยู่ใกล้เคียงแต่ละคำกับคำสรรพนาม it

กรณีการใช้งาน LLM มีอะไรบ้าง

LLM มีประสิทธิภาพมากในงานที่สร้างขึ้น เป็นข้อความที่เป็นไปได้มากที่สุดเมื่อตอบสนองต่ออินพุต พวกเขายังเริ่มแสดง ประสิทธิภาพที่ดีในงานอื่นๆ เช่น การสรุป คำถาม การตอบคำถาม และการจัดประเภทข้อความ ทั้งหมดนี้เรียกว่า ความสามารถฉุกเฉิน LLM สามารถแก้ปัญหาคณิตศาสตร์บางอย่างและเขียนโค้ดได้ (แต่ควรตรวจสอบงานของ LLM)

LLM สามารถเลียนแบบรูปแบบคำพูดของมนุษย์ได้อย่างดีเยี่ยม เหนือสิ่งอื่นใด มีความสามารถสูงในการรวมข้อมูลเข้ากับรูปแบบและน้ำเสียงที่แตกต่างกัน

แต่ LLM อาจเป็นองค์ประกอบของโมเดลที่ไม่ใช่แค่ สร้างข้อความ เราใช้ LLM ล่าสุดเพื่อสร้างเครื่องมือตรวจจับความรู้สึก ตัวแยกประเภทสารพิษ แล้วสร้างคำบรรยายภาพ

ข้อควรพิจารณาเกี่ยวกับ LLM

โมเดลขนาดใหญ่เช่นนี้ก็มีข้อเสียเช่นกัน

LLM ที่ใหญ่ที่สุดมีราคาแพง การฝึกอาจใช้เวลาหลายเดือน จึงต้องใช้ทรัพยากรจำนวนมาก

และยังนำมาใช้งานอื่นๆ ได้ด้วย ถือเป็นสิ่งล้ำค่าสำหรับคุณ

การฝึกโมเดลที่มีพารามิเตอร์มากกว่า 1 ล้านล้านรายการก่อให้เกิดความท้าทายทางวิศวกรรม ต้องใช้โครงสร้างพื้นฐานและเทคนิคการเขียนโปรแกรมพิเศษเพื่อประสานงานกับชิปและกลับอีกครั้ง

การลดค่าใช้จ่ายของโมเดลขนาดใหญ่เหล่านี้ทำได้หลายวิธี 2 แนวทางดังกล่าวคือการอนุมานแบบออฟไลน์ และการกลั่น

การให้น้ำหนักพิเศษอาจเป็นปัญหาในโมเดลขนาดใหญ่มากและควรนำมาพิจารณาในการฝึก และการใช้งานจริง

เนื่องจากโมเดลเหล่านี้ได้รับการฝึกด้วยภาษาของมนุษย์ จึงอาจทำให้เกิดปัญหาด้านจริยธรรมได้มากมาย ซึ่งรวมถึงการใช้ภาษาในทางที่ผิด รวมถึงอคติเกี่ยวกับเชื้อชาติ เพศ ศาสนา และอื่นๆ

เป็นที่แน่ชัดแล้วว่าเมื่อโมเดลเหล่านี้เติบโตขึ้นและมีประสิทธิภาพดีขึ้นเรื่อยๆ เราต้องพยายามทำความเข้าใจและลดข้อเสียของโมเดลเหล่านี้อย่างต่อเนื่อง ดูข้อมูลเพิ่มเติมเกี่ยวกับแนวทางของ Google ในการ AI อย่างมีความรับผิดชอบ

ดูข้อมูลเพิ่มเติมเกี่ยวกับ LLM

หากสนใจข้อมูลเบื้องต้นเพิ่มเติมเกี่ยวกับโมเดลภาษาขนาดใหญ่ ตรวจสอบ โมดูลโมเดลภาษาขนาดใหญ่ใหม่ ในหลักสูตรสั้นๆ เกี่ยวกับแมชชีนเลิร์นนิง