ข้อมูลเบื้องต้นเกี่ยวกับแบบจําลองภาษาขนาดใหญ่

หากเพิ่งเคยใช้โมเดลภาษาหรือโมเดลภาษาขนาดใหญ่ ลองดูแหล่งข้อมูลด้านล่าง

โมเดลภาษาคืออะไร

โมเดลภาษาคือโมเดลแมชชีนเลิร์นนิงที่มีเป้าหมายเพื่อคาดการณ์และสร้างภาษาที่เป็นไปได้ การเติมข้อความอัตโนมัติเป็น โมเดลภาษา เป็นต้น

โมเดลเหล่านี้ทํางานโดยประเมินความน่าจะเป็นของโทเค็นหรือผลลัพธ์ของโทเค็นที่เกิดขึ้นในลําดับที่นานขึ้น พิจารณาประโยคต่อไปนี้

When I hear rain on my roof, I _______ in my kitchen.

ถ้าคุณคิดว่าโทเค็นเป็นคํา โมเดลภาษาจะกําหนดความน่าจะเป็นของคําต่างๆ หรือลําดับของคําเพื่อแทนที่ขีดล่าง ตัวอย่างเช่น โมเดลภาษาอาจกําหนด ความน่าจะเป็นต่อไปนี้

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

"ลําดับของโทเค็น" อาจเป็นประโยคทั้งประโยคหรือชุดประโยคก็ได้ กล่าวคือ โมเดลภาษาอาจคํานวณความเป็นไปได้ของทั้งประโยคหรือการบล็อกข้อความที่แตกต่างกัน

การประมาณความน่าจะเป็นของลําดับถัดไปมีประโยชน์สําหรับทุกด้าน ไม่ว่าจะเป็นการสร้างข้อความ การแปลภาษา และการตอบคําถาม เป็นต้น

โมเดลภาษาขนาดใหญ่คืออะไร

การสร้างแบบจําลองภาษาของมนุษย์ในวงกว้าง เป็นความพยายามที่ซับซ้อนและต้องใช้ทรัพยากรจํานวนมาก เส้นทางสู่ความสามารถปัจจุบันของโมเดลภาษา และโมเดลภาษาขนาดใหญ่ได้กินเวลาหลายทศวรรษ

เมื่อโมเดลมีขนาดใหญ่ขึ้นเรื่อยๆ ความซับซ้อนและประสิทธิภาพก็จะเพิ่มขึ้นด้วย โมเดลภาษาเริ่มต้นจะคาดการณ์ความน่าจะเป็นของคําคําเดียวได้ โมเดลภาษาขนาดใหญ่สมัยใหม่สามารถคาดการณ์ความน่าจะเป็นของประโยค ย่อหน้า หรือแม้แต่เอกสารทั้งหมด

ขนาดและความสามารถของโมเดลภาษาเพิ่มขึ้นในช่วง 2-3 ปีที่ผ่านมาเมื่อหน่วยความจําคอมพิวเตอร์ ขนาดชุดข้อมูล และการเพิ่มประสิทธิภาพในการประมวลผลเพิ่มขึ้น รวมทั้งเทคนิคที่มีประสิทธิภาพมากขึ้นสําหรับการสร้างแบบจําลองข้อความที่ยาวขึ้น

ใหญ่เท่าใด

คําจํากัดความดูไม่ชัดเจน แต่มีการใช้ "ใหญ่" เพื่ออธิบาย BERT (พารามิเตอร์ 110 ล้าน) และ PaLM 2 (สูงสุด 340B)

พารามิเตอร์คือน้ําหนักที่โมเดลเรียนรู้ในระหว่างการฝึก ซึ่งใช้เพื่อคาดการณ์โทเค็นถัดไปในลําดับ "ใหญ่" หมายถึงจํานวนพารามิเตอร์ในโมเดล หรือบางครั้งก็เท่ากับจํานวนคําในชุดข้อมูล

หม้อแปลง

การพัฒนาที่สําคัญในการจําลองภาษาคือการเริ่มต้นในปี 2017 ของ Transformers ซึ่งเป็นสถาปัตยกรรมที่ออกแบบจาก ความสนใจ วิธีนี้ทําให้สามารถประมวลผลลําดับที่ยาวขึ้นได้โดยเน้นไปที่ส่วนที่สําคัญที่สุดของอินพุตและแก้ปัญหาหน่วยความจําที่พบในโมเดลก่อนหน้านี้

Transformers คือสถาปัตยกรรมที่ทันสมัยสําหรับแอปพลิเคชัน สร้างแบบจําลองภาษาที่หลากหลาย เช่น นักแปล

หากอินพุตคือ "ฉันเลี้ยงสุนัขดี" นักแปลที่แปลงรูปแบบจะเปลี่ยนรูปแบบอินพุตดังกล่าวเป็นเอาต์พุต "Je suis un bon chien" ซึ่งเป็นประโยคเดียวกับที่แปลเป็นภาษาฝรั่งเศส

การเปลี่ยนรูปแบบทั้งหมดประกอบด้วยโปรแกรมเปลี่ยนไฟล์และตัวถอดรหัส โปรแกรมเปลี่ยนไฟล์จะแปลงข้อความอินพุตเป็นการนําเสนอระดับกลาง และเครื่องมือถอดรหัสจะแปลงการนําเสนอดังกล่าวให้กลายเป็นข้อความที่มีประโยชน์

ความสนใจของตนเอง

หม้อแปลงส่วนใหญ่อาศัยแนวคิดที่เรียกว่าการดึงดูดตนเอง ส่วนความสนใจของตนเอง จะหมายถึงการเน้นไปที่ "จุดโฟกัส" ของโทเค็นแต่ละรายการในคอร์ปัส เพื่อประโยชน์ในกรณีที่ในนามของโทเค็นอินพุตแต่ละอย่าง ความสนใจของตนเองจะถามว่า "โทเค็นอินพุตอื่นๆ มีค่าเพียงใดต่อฉัน" หากต้องการทําให้กรณีง่ายขึ้น ให้สมมติว่าโทเค็นแต่ละรายการเป็นคํา และบริบทที่สมบูรณ์เป็นประโยคเดียว พิจารณาประโยคต่อไปนี้

สัตว์ไม่ได้ข้ามถนนเพราะเหนื่อยเกินไป

มีคําอยู่ 11 คําในประโยคก่อนหน้า ดังนั้น 11 คํานี้จึงสําคัญกับอีก 11 คําและสงสัยว่าแต่ละสิบคําเหล่านั้นสําคัญกับตนมากแค่ไหน ตัวอย่างเช่น โปรดสังเกตว่าประโยคมีสรรพนาม it คําสรรพนามมักไม่ชัดเจน คําสรรพนาม มัน จะอ้างอิงถึงคํานามเมื่อเร็วๆ นี้เสมอ แต่ในประโยคตัวอย่าง คํานามใดเมื่อเร็วๆ นี้ คําดังกล่าว อ้างอิงถึงคําว่าสัตว์หรือถนน

กลไกการดึงดูดความสนใจด้วยตัวเองจะเป็นตัวกําหนดความเกี่ยวข้องของแต่ละคําที่อยู่ใกล้เคียงกับสรรพนาม

กรณีการใช้งานสําหรับ LLM มีอะไรบ้าง

LLM มีประสิทธิภาพสูงในงานที่บริษัทสร้างขึ้น ซึ่งสร้างข้อความที่เหมาะสมที่สุดเท่าที่จะทําได้ เพื่อตอบสนองต่อการป้อนข้อมูล และแม้แต่เริ่มแสดงประสิทธิภาพที่ชัดเจนในงานอื่นๆ เช่น ข้อมูลสรุป การตอบคําถาม และการจําแนกข้อความ การดําเนินการเหล่านี้เรียกว่าความสามารถในการทํางานทันที LLM ยังช่วยแก้โจทย์คณิตศาสตร์และเขียนโค้ดได้ด้วย (ขอแนะนําให้ตรวจสอบงาน)

LLM สามารถเลียนแบบรูปแบบคําพูดของมนุษย์ได้เป็นอย่างดี ยิ่งไปกว่านั้น รูปแบบเหล่านี้ยัง สามารถรวมข้อมูลเข้ากับสไตล์และโทนต่างๆ ได้เป็นอย่างดี

แต่ LLM อาจเป็นองค์ประกอบ ของโมเดลที่ไม่ใช่แค่สร้างข้อความ เราใช้ LLM ล่าสุดเพื่อสร้างตัวตรวจจับความคิดเห็น ตัวแยกประเภทพิษ และสร้างคําบรรยายภาพ

ข้อควรพิจารณาเกี่ยวกับ LLM

แบบจําลองขนาดใหญ่นี้ไม่มีข้อเสีย

LLM ขนาดใหญ่ที่สุดมีราคาแพง อาจใช้เวลาฝึกหลายเดือน ทําให้ต้องใช้ทรัพยากรมาก

นอกจากนี้ยังนํามาใช้ซ้ําในงานอื่นๆ ได้ เช่น วัสดุบุเงิน

การฝึกโมเดลที่มีพารามิเตอร์ล้านล้านขึ้นไปเป็นการท้าทายด้านวิศวกรรม จําเป็นต้องมีโครงสร้างพื้นฐานและเทคนิคการวางโปรแกรมพิเศษ เพื่อประสานงานกับชิปและกลับมาอีกครั้ง

การลดต้นทุนของโมเดลขนาดใหญ่เหล่านี้ทําได้หลายวิธี ซึ่ง 2 วิธีคือการอนุมานแบบออฟไลน์และการกลั่น

การให้น้ําหนักพิเศษอาจเป็นปัญหาในแบบจําลองที่ใหญ่มาก และควรได้รับการพิจารณาในการฝึกอบรมและการปรับใช้งาน

เนื่องจากโมเดลเหล่านี้ได้รับการฝึกอบรมตามภาษามนุษย์ ซึ่งอาจทําให้เกิดปัญหาด้านจริยธรรมที่อาจเกิดขึ้นได้มากมาย ซึ่งรวมถึงการใช้ภาษาในทางที่ผิดและอคติเกี่ยวกับเชื้อชาติ เพศ ศาสนา และอื่นๆ

แน่นอนว่ารูปแบบเหล่านี้ยังคงใหญ่ขึ้นเรื่อยๆ และทํางานได้ดียิ่งขึ้น จึงต้องมีความรอบคอบในการทําความเข้าใจและบรรเทาข้อดีของตน ดูข้อมูลเพิ่มเติมเกี่ยวกับแนวทางของ AI อย่างมีความรับผิดชอบของ Google