อภิธานศัพท์ของแมชชีนเลิร์นนิง: การประเมินภาษา

หน้านี้มีคำศัพท์ในอภิธานศัพท์สำหรับการประเมินภาษา หากต้องการดูคำศัพท์ในอภิธานศัพท์ทั้งหมด คลิกที่นี่

A

โปรดทราบ

#language

กลไกที่ใช้ในโครงข่ายระบบประสาทซึ่งระบุความสำคัญของคำบางคำหรือบางส่วนของคำ Attention บีบอัดปริมาณข้อมูลที่โมเดลต้องใช้ในการคาดการณ์โทเค็น/คำถัดไป กลไกการพิจารณาโดยทั่วไปอาจประกอบด้วยผลรวมที่ถ่วงน้ำหนักในชุดอินพุต ซึ่งน้ำหนักของอินพุตแต่ละรายการจะคำนวณโดยส่วนหนึ่งของโครงข่ายประสาท

โปรดดูการจัดการตนเองและการจัดการตนเองแบบหลายศีรษะ ซึ่งเป็นองค์ประกอบสำคัญของ Transformers

โปรแกรมเปลี่ยนไฟล์อัตโนมัติ

#language
#image

ระบบที่เรียนรู้เพื่อดึงข้อมูลที่สำคัญที่สุดจากอินพุต โปรแกรมเปลี่ยนไฟล์อัตโนมัติเป็นการผสมผสานระหว่างโปรแกรมเปลี่ยนไฟล์และโปรแกรมถอดรหัส โปรแกรมเปลี่ยนไฟล์อัตโนมัติมีกระบวนการ 2 ขั้นตอนดังนี้

  1. โปรแกรมเปลี่ยนไฟล์จะแมปอินพุตกับรูปแบบ (ทั่วไป) แบบสูญเสียช่วงมิติ (ระดับกลาง)
  2. เครื่องมือถอดรหัสจะสร้างเวอร์ชันแบบสูญเสียข้อมูลอินพุตต้นฉบับโดยการแมปรูปแบบมิติข้อมูลที่ต่ำกว่าเข้ากับรูปแบบอินพุตที่มีมิติข้อมูลสูงกว่าแบบเดิม

โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะได้รับการฝึกจากต้นทางถึงปลายทางโดยให้เครื่องมือถอดรหัสพยายามสร้างอินพุตเดิมใหม่จากรูปแบบระดับกลางของโปรแกรมเปลี่ยนไฟล์ให้ใกล้เคียงที่สุด เนื่องจากรูปแบบระดับกลางมีขนาดเล็กกว่า (มีมิติต่ำกว่า) รูปแบบเดิม ตัวเข้ารหัสอัตโนมัติจึงถูกบังคับให้ศึกษาว่าข้อมูลใดในอินพุตเป็นข้อมูลที่สำคัญ และเอาต์พุตที่ได้จะไม่เหมือนกับอินพุตที่โดยสมบูรณ์

เช่น

  • หากข้อมูลอินพุตเป็นกราฟิก สำเนาที่ไม่ตรงทั้งหมดจะคล้ายกับกราฟิกต้นฉบับ แต่ได้รับการแก้ไขบ้าง สำเนาที่ไม่ใช่แบบตรงกันทั้งหมดอาจนำสัญญาณรบกวนออกจากกราฟิกต้นฉบับหรือเติมเต็มพิกเซลที่หายไปบางส่วน
  • หากข้อมูลอินพุตเป็นข้อความ โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะสร้างข้อความใหม่ที่เลียนแบบ (แต่ไม่เหมือนกับ) ข้อความต้นฉบับ

ดูข้อมูลเพิ่มเติมได้ในเครื่องมือเข้ารหัสอัตโนมัติรูปแบบต่างๆ

รูปแบบถดถอยอัตโนมัติ

#language
#image
#GenerativeAI

modelที่อนุมานการคาดการณ์จากการคาดคะเนก่อนหน้านี้ของตัวมันเอง ตัวอย่างเช่น โมเดลภาษาที่ถดถอยอัตโนมัติจะคาดการณ์โทเค็นถัดไปโดยอิงตามโทเค็นที่คาดการณ์ไว้ก่อนหน้านี้ โมเดลภาษาขนาดใหญ่ทั้งหมดที่อิงตาม Transformer จะถดถอยโดยอัตโนมัติ

ในทางตรงกันข้าม โมเดลรูปภาพแบบ GAN มักจะไม่ถดถอยอัตโนมัติเพราะสร้างรูปภาพผ่านการส่งต่อรายการเดียวและไม่เกิดซ้ำในขั้นตอน แต่โมเดลการสร้างรูปภาพบางโมเดลจะทำงานแบบถดถอยอัตโนมัติเนื่องจากสร้างรูปภาพในขั้นตอน

B

ถุงคำ

#language

การนำเสนอคำในวลีหรือข้อความ โดยไม่คำนึงถึงลำดับ ตัวอย่างเช่น กลุ่มคำจะประกอบไปด้วยวลี 3 วลีต่อไปนี้เหมือนกัน

  • สุนัขกระโดด
  • กระโดดสุนัข
  • หมากระโดด

แต่ละคำจะแมปกับดัชนีในเวกเตอร์แบบกระจัดกระจาย โดยที่เวกเตอร์จะมีดัชนีสำหรับทุกคำในคำศัพท์ ตัวอย่างเช่น วลีสุนัขกระโดดจะแมปเป็นเวกเตอร์ของฟีเจอร์ที่มีค่าที่ไม่ใช่ 0 ที่ดัชนี 3 รายการซึ่งตรงกับคำว่า the, dog และ jumps ค่าที่ไม่ใช่ 0 อาจเป็นค่าใดค่าหนึ่งต่อไปนี้

  • เลข 1 เพื่อบ่งบอกว่ามีคำ
  • จำนวนครั้งที่คำหนึ่งคำปรากฏขึ้นในถุง เช่น หากวลีคือ สุนัขสีน้ำตาลแดงเป็นสุนัขที่มีขนสีน้ำตาลแดง ทั้งสีน้ำตาลอมแดงและสุนัขก็จะแสดงเป็น 2 ขณะที่คำอื่นๆ จะแสดงเป็น 1
  • ค่าอื่นๆ เช่น ลอการิทึมของจำนวนครั้งที่คำปรากฏในถุง

BERT (การเข้ารหัสแบบ 2 ทิศทาง การรับรองจาก Transformers)

#language

สถาปัตยกรรมโมเดลสำหรับการนําเสนอข้อความ โมเดล BERT ที่ได้รับการฝึกจะทำหน้าที่เป็นส่วนหนึ่งของโมเดลขนาดใหญ่สำหรับการแยกประเภทข้อความหรืองาน ML อื่นๆ

BERT มีลักษณะดังต่อไปนี้

รูปแบบของ BERT ประกอบด้วย

  • ALBERT ซึ่งเป็นตัวย่อของ A Light BERT
  • LaBSE

ดูภาพรวมของ BERT ใน Open Sourching BERT: การฝึกอบรมล่วงหน้าอันล้ำสมัยสำหรับการประมวลผลภาษาธรรมชาติ สำหรับภาพรวมของ BERT

แบบ 2 ทาง

#language

คำที่ใช้อธิบายระบบที่ประเมินข้อความที่ทั้งอยู่หน้าและติดตามส่วนเป้าหมายของข้อความ ในทางตรงกันข้าม ระบบแบบทิศทางเดียวจะประเมินเฉพาะข้อความที่อยู่ก่อนหน้าข้อความในส่วนเป้าหมายเท่านั้น

เช่น ลองพิจารณาโมเดลภาษามาสก์ซึ่งต้องระบุความน่าจะเป็นสำหรับคำหรือกลุ่มคำที่แสดงถึงการขีดเส้นใต้ในคำถามต่อไปนี้

_____ กับคุณคืออะไร

โมเดลภาษาแบบทิศทางเดียวจะต้องอิงตามความน่าจะเป็นเฉพาะในบริบทที่ระบุด้วยคำว่า "อะไร" "คือ" และ "the" เท่านั้น ในทางตรงกันข้าม โมเดลภาษาแบบ 2 ทิศทางอาจได้รับบริบทจาก "with" และ "you" ซึ่งอาจช่วยให้โมเดลสร้างการคาดการณ์ที่ดีขึ้นได้

โมเดลภาษาแบบ 2 ทิศทาง

#language

โมเดลภาษาซึ่งกำหนดความน่าจะเป็นที่โทเค็นที่ระบุจะปรากฏในตำแหน่งหนึ่งๆ ในข้อความที่ตัดตอนมาจากข้อความโดยพิจารณาจากข้อความนำหน้าและที่ตามมา

Bigram

#seq
#language

N-gram ซึ่งมี N=2

BLEU (การศึกษาระหว่างการศึกษาวิจัยสองภาษา)

#language

คะแนนระหว่าง 0.0 ถึง 1.0 คือการระบุคุณภาพของคำแปลระหว่างภาษามนุษย์ 2 ภาษา (เช่น ภาษาอังกฤษและรัสเซีย) คะแนน BLEU เท่ากับ 1.0 บ่งบอกว่าคำแปลสมบูรณ์แบบ คะแนน BLEU ที่ 0.0 เป็นคำแปลที่แย่มาก

C

โมเดลภาษาทั่วไป

#language

คำพ้องความหมายของโมเดลภาษาแบบทิศทางเดียว

ดูโมเดลภาษาแบบ 2 ทิศทางเพื่อเปรียบต่างวิธีการกำหนดทิศทางที่แตกต่างกันในการประมาณภาษา

ข้อความแจ้งที่เป็นห่วงโซ่ความคิด

#language
#GenerativeAI

เทคนิค prompt Engineering ที่รองรับโมเดลภาษาขนาดใหญ่ (LLM) เพื่ออธิบายเหตุผลทีละขั้นตอน เช่น ลองพิจารณาข้อความต่อไปนี้โดย ใส่ใจเป็นพิเศษกับประโยคที่ 2

คนขับจะได้รับแรงผลักดันกี่แรงในรถยนต์จาก 0 เป็น 60 ไมล์ต่อชั่วโมงใน 7 วินาที แสดงการคำนวณที่เกี่ยวข้องทั้งหมดในคำตอบ

การตอบสนองของ LLM น่าจะเป็นดังนี้

  • แสดงลำดับสูตรฟิสิกส์ โดยการใส่ค่า 0, 60 และ 7 ในตำแหน่งที่เหมาะสม
  • อธิบายเหตุผลที่บริษัทเลือกสูตรเหล่านั้นและความหมายของตัวแปรต่างๆ

ห่วงโซ่แนวคิดจะบังคับให้ LLM คำนวณค่าทั้งหมด จึงอาจทำให้ได้คำตอบที่ถูกต้องมากขึ้น นอกจากนี้ ข้อความแจ้งเกี่ยวกับห่วงโซ่ความคิดช่วยให้ผู้ใช้ตรวจสอบขั้นตอนของ LLM เพื่อพิจารณาว่าคำตอบเหมาะสมหรือไม่

แชท

#language
#GenerativeAI

เนื้อหาของบทสนทนาโต้ตอบด้วยระบบ ML ซึ่งมักจะเป็นโมเดลภาษาขนาดใหญ่ การโต้ตอบก่อนหน้าในแชท (สิ่งที่คุณพิมพ์และโมเดลภาษาขนาดใหญ่ตอบสนอง) จะกลายเป็นบริบทสำหรับส่วนต่อๆ ไปของแชท

แชทบ็อตเป็นแอปพลิเคชันโมเดลภาษาขนาดใหญ่

การพูดคุย

#language

คำพ้องความหมายของ ความไม่สมเหตุสมผล

การบิดเบือนน่าจะเป็นคำที่แม่นยําทางเทคนิคมากกว่าความไม่สมเหตุสมผล อย่างไรก็ตาม ความไม่สมเหตุสมผลก็กลายเป็นเรื่องที่ได้รับความนิยมเป็นอันดับแรก

การแยกวิเคราะห์เขตเลือกตั้ง

#language

การแบ่งประโยคออกเป็นโครงสร้างไวยากรณ์ที่เล็กลง ("ส่วนประกอบ") ส่วนระบบ ML ส่วนหลัง เช่น โมเดลความเข้าใจภาษาที่เป็นธรรมชาติจะแยกวิเคราะห์ส่วนประกอบได้ง่ายกว่าประโยคต้นฉบับ ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

เพื่อนของฉันรับเลี้ยงแมว 2 ตัว

โปรแกรมแยกวิเคราะห์เขตเลือกตั้งสามารถแบ่งประโยคนี้เป็น 2 ส่วนประกอบต่อไปนี้

  • เพื่อนของฉันเป็นวลีนาม
  • adoptedtwo cats เป็นวลีกริยา

ผู้คนเหล่านี้สามารถแยกย่อยลงไปอีกเล็กน้อยได้อีก เช่น วลีกริยา

รับเลี้ยงแมว 2 ตัว

สามารถแบ่งย่อยต่อไปได้อีกดังนี้

  • adopted เป็นคำกริยา
  • two cats เป็นคำนามอีกคำหนึ่ง

การฝังภาษาที่ปรับตามบริบท

#language
#GenerativeAI

การฝังที่มีความคล้ายคลึงกับคำและวลีที่ "เข้าใจ" อย่างที่เจ้าของภาษาทำได้ การฝังภาษาที่ปรับตามบริบทสามารถเข้าใจไวยากรณ์ ความหมาย และบริบทที่ซับซ้อนได้

ตัวอย่างเช่น ลองฝังคำภาษาอังกฤษว่า cow การฝังตัวเก่า เช่น word2vec แสดงถึงคำภาษาอังกฤษที่ว่าระยะทางในพื้นที่การฝังจากวัวถึงบูลคล้ายกับระยะทางจากewe (แกะตัวเมีย) ถึงแกะ (แกะตัวผู้) หรือจากตัวเมียถึงตัวผู้ การฝังภาษาที่ปรับตามบริบทสามารถพัฒนาไปได้ไกลอีกขั้นเพราะรู้ว่าบางครั้งผู้พูดภาษาอังกฤษอาจใช้คำว่าวัวเพื่อหมายถึงวัวหรือวัวกระทิง

หน้าต่างบริบท

#language
#GenerativeAI

จำนวนโทเค็นที่โมเดลประมวลผลได้ในข้อความแจ้งที่ระบุ ยิ่งหน้าต่างบริบทมีขนาดใหญ่เท่าไร โมเดลก็จะยิ่งใช้ข้อมูลมากขึ้นเท่านั้นเพื่อแสดงคำตอบที่สอดคล้องกันและสอดคล้องกันสำหรับพรอมต์

Crash Blossom

#language

ประโยคหรือวลีที่มีความหมายกำกวม Crash Blossoms สร้างปัญหาสำคัญในความเข้าใจภาษาธรรมชาติ ตัวอย่างเช่น บรรทัดแรก Red Tape Holds Up Skyscraper เป็นกราฟเบ่งบานเนื่องจากโมเดล NLU สามารถตีความบรรทัดแรกได้ตรงตัวหรือตามจริง

D

เครื่องมือถอดรหัส

#language

โดยทั่วไป ระบบ ML ที่แปลงจากการนำเสนอแบบผ่านการประมวลผล แบบหนาแน่น หรือแบบภายในเป็นการนำเสนอแบบดิบ แบบเบาบาง หรือแบบภายนอก

ตัวถอดรหัสมักเป็นส่วนประกอบของโมเดลขนาดใหญ่ ซึ่งมักจะจับคู่กับโปรแกรมเปลี่ยนไฟล์

ในงานที่มีลำดับต่อเนื่อง เครื่องมือถอดรหัสจะเริ่มจากสถานะภายในที่โปรแกรมเปลี่ยนไฟล์สร้างขึ้นเพื่อคาดการณ์ลำดับถัดไป

โปรดดูคำจำกัดความของตัวถอดรหัสภายในสถาปัตยกรรม Transformer จาก Transformer

การลดเสียงรบกวน

#language

วิธีการทั่วไปสำหรับการเรียนรู้แบบควบคุมด้วยตนเองซึ่งมีลักษณะดังนี้

  1. มีการเพิ่ม Noise ลงในชุดข้อมูลโดยไม่เป็นจริง
  2. modelพยายามนำสัญญาณรบกวนออก

การตัดเสียงรบกวนช่วยให้เรียนรู้จากตัวอย่างที่ไม่มีป้ายกำกับได้ ชุดข้อมูลเดิมทำหน้าที่เป็นเป้าหมายหรือป้ายกำกับ และข้อมูลที่มีเสียงดังเป็นอินพุต

รูปแบบภาษาที่มาสก์บางรูปแบบใช้การตัดเสียงรบกวนดังต่อไปนี้

  1. ระบบจะเพิ่มนอยส์เข้าไปในประโยคที่ไม่มีป้ายกำกับโดยปลอมเป็นมาสก์บางส่วนของโทเค็น
  2. โมเดลจะพยายามคาดการณ์โทเค็นดั้งเดิม

การแสดงข้อความแจ้งโดยตรง

#language
#GenerativeAI

คำพ้องความหมายของ zero-shotข้อความเตือน

จ.

แก้ไขระยะทาง

#language

การวัดความคล้ายคลึงกันของสตริงข้อความ 2 สตริง ในแมชชีนเลิร์นนิง การแก้ไขระยะทางจะมีประโยชน์เนื่องจากคำนวณได้ง่าย และวิธีเปรียบเทียบ 2 สตริงที่ทราบว่าคล้ายคลึงหรือหาสตริงที่คล้ายกับสตริงได้อย่างมีประสิทธิภาพ

ระยะห่างของการแก้ไขมีคำจำกัดความหลายแบบ แต่ละคำใช้การทำงานสตริงต่างกัน เช่น ระยะ Levenshtein จะพิจารณาการดำเนินการลบ แทรก และแทนที่น้อยที่สุด

เช่น ระยะห่างของ Levenshtein ระหว่างคำว่า "หัวใจ" กับ "ลูกดอก" เท่ากับ 3 เพราะการแก้ไข 3 รายการต่อไปนี้เป็นการเปลี่ยนแปลงน้อยที่สุดที่เปลี่ยนคำหนึ่งให้เป็นอีกคำหนึ่ง

  1. หัวใจ → รัก (แทน "h" ด้วย "d")
  2. หัวใจ → ดาร์ต (ลบ "e")
  3. ลูกดอก → ลูกดอก (แทรก "s")

เลเยอร์ที่ฝัง

#language
#fundamentals

เลเยอร์ที่ซ่อนอยู่พิเศษที่ฝึกบนฟีเจอร์เชิงหมวดหมู่ที่มีมิติสูง เพื่อค่อยๆ เรียนรู้เวกเตอร์การฝังที่มีมิติข้อมูลต่ำกว่า เลเยอร์การฝังช่วยให้โครงข่ายประสาทฝึกได้อย่างมีประสิทธิภาพมากกว่าการฝึกเฉพาะฟีเจอร์เชิงหมวดหมู่ขั้นสูง

ตัวอย่างเช่น ปัจจุบัน Earth สนับสนุนต้นไม้ประมาณ 73,000 ชนิด สมมติว่าสปีชีส์ของต้นไม้เป็นฟีเจอร์ในโมเดลของคุณ ดังนั้นเลเยอร์อินพุตของโมเดลจึงมีเวกเตอร์หนึ่งร้อน องค์ประกอบยาว 73,000 รายการ ตัวอย่างเช่น หน้าของ baobab อาจมีลักษณะดังนี้

อาร์เรย์ขององค์ประกอบ 73,000 รายการ องค์ประกอบ 6,232 รายการแรกมีค่า 0 องค์ประกอบถัดไปมีค่า 1 องค์ประกอบ 66,767 สุดท้ายจะมีค่าเป็น 0

อาร์เรย์ 73,000 องค์ประกอบยาวมาก หากคุณไม่เพิ่มเลเยอร์ที่ฝังไปยังโมเดล การฝึกจะใช้เวลานานมากเนื่องจากมีการคูณ 0 ถึง 72,999 ตัว คุณอาจเลือกเลเยอร์การฝัง ให้ประกอบด้วยมิติข้อมูล 12 แบบ เลเยอร์การฝังจะค่อยๆ เรียนรู้ เวกเตอร์การฝังใหม่สำหรับต้นไม้แต่ละชนิด

ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผลแทนการใช้เลเยอร์ที่ฝัง

พื้นที่ที่ฝัง

#language

พื้นที่ของเวกเตอร์ D-dimension ที่คุณลักษณะจากพื้นที่เวกเตอร์มิติที่สูงกว่าจะถูกจับคู่ ตามหลักการแล้ว พื้นที่ที่ฝังมีโครงสร้างที่ให้ผลลัพธ์ทางคณิตศาสตร์ที่มีความหมาย ตัวอย่างเช่น ในพื้นที่การฝังที่ดีที่สุด การเพิ่มและการลบการฝังจะช่วยแก้งานอุปมาอุปไมยได้

ผลคูณแบบจุดของการฝัง 2 อันเป็นตัววัดความคล้ายคลึงกัน

การฝังเวกเตอร์

#language

หรือพูดกว้างๆ ก็คืออาร์เรย์ของจำนวนจุดลอยตัวที่ดึงมาจากเลเยอร์ที่ซ่อนซึ่งจะอธิบายอินพุตไปยังเลเยอร์ที่ซ่อนอยู่ เวกเตอร์ที่ฝังอยู่บ่อยๆ คืออาร์เรย์ของจำนวนจุดลอยตัวที่ฝึกในเลเยอร์ที่ฝัง ตัวอย่างเช่น สมมติว่าเลเยอร์การฝังต้องเรียนรู้เวกเตอร์การฝังสำหรับต้นไม้ทุก 73,000 สายพันธุ์ในโลก อาร์เรย์ต่อไปนี้อาจเป็นเวกเตอร์การฝังของต้นเบาบับ

อาร์เรย์ขององค์ประกอบ 12 รายการ โดยแต่ละรายการจะมีจำนวนจุดลอยตัวระหว่าง 0.0 ถึง 1.0

เวกเตอร์ที่ฝังไม่ใช่ชุดตัวเลขสุ่ม เลเยอร์ที่ฝังจะกำหนดค่าเหล่านี้ผ่านการฝึก คล้ายกับที่โครงข่ายประสาทเรียนรู้การถ่วงน้ำหนักอื่นๆ ระหว่างการฝึก แต่ละองค์ประกอบของอาร์เรย์คือการให้คะแนนตามลักษณะบางอย่างของต้นไม้สายพันธุ์ องค์ประกอบใดแสดงลักษณะของต้นไม้ชนิดใด มนุษย์มีวิธีระบุยากมาก

ส่วนที่โดดเด่นทางคณิตศาสตร์ของเวกเตอร์การฝังก็คือรายการที่คล้ายกัน จะมีชุดจำนวนจุดลอยตัวที่คล้ายกัน เช่น ชนิดของต้นไม้ที่คล้ายกันจะมีชุดจำนวนจุดลอยตัวที่คล้ายกันมากกว่าชนิดต้นไม้ที่ไม่เหมือนกัน เรดวูดและซีคัวยาเป็นพันธุ์ของต้นไม้ที่เกี่ยวข้อง จึงจะมีชุดตัวเลขชี้ลอยคล้ายกับเรดวูดและต้นมะพร้าว ตัวเลขในเวกเตอร์การฝังจะเปลี่ยนแปลงทุกครั้งที่คุณฝึกโมเดลอีกครั้ง แม้ว่าคุณจะฝึกโมเดลอีกครั้งด้วยอินพุตที่เหมือนกันก็ตาม

โปรแกรมเปลี่ยนไฟล์

#language

โดยทั่วไป ระบบ ML ที่แปลงจากการนำเสนอแบบไม่ชัดเจน หยาบๆ หรือจากภายนอกไปเป็นการนำเสนอภายในที่ประมวลผลแล้ว หนาแน่นขึ้น หรือเป็นการเป็นตัวแทนภายในมากกว่า

โปรแกรมเปลี่ยนไฟล์มักเป็นองค์ประกอบของโมเดลขนาดใหญ่ ซึ่งมักจะจับคู่กับโปรแกรมถอดรหัส Transformers บางรุ่นจับคู่โปรแกรมเปลี่ยนไฟล์กับตัวถอดรหัส ในขณะที่ Transformer อื่นๆ จะใช้เพียงโปรแกรมเปลี่ยนไฟล์หรือเพียงตัวถอดรหัสเท่านั้น

บางระบบใช้เอาต์พุตของโปรแกรมเปลี่ยนไฟล์เป็นอินพุตไปยังเครือข่ายการแยกประเภทหรือเครือข่ายการถดถอย

ในงานที่มีลำดับขั้นตอน โปรแกรมเปลี่ยนไฟล์จะจับลำดับอินพุตและแสดงผลสถานะภายใน (เวกเตอร์) จากนั้นเครื่องมือถอดรหัสจะใช้สถานะภายในนั้นเพื่อคาดการณ์ลำดับถัดไป

ดูคำจำกัดความของโปรแกรมเปลี่ยนไฟล์ในสถาปัตยกรรมของ Transformer ได้ที่ Transformer

F

การแสดงข้อความแจ้งแบบ 2-3 ช็อต

#language
#GenerativeAI

ข้อความแจ้งที่มีตัวอย่างมากกว่า 1 รายการ ("2-3 รายการ") ที่แสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ควรตอบสนองอย่างไร เช่น พรอมต์ที่ยาวต่อไปนี้มี 2 ตัวอย่างที่แสดงวิธีตอบคำถามของโมเดลภาษาขนาดใหญ่

ส่วนต่างๆ ของข้อความแจ้งรายการเดียว Notes
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคืออะไร คำถามที่ต้องการให้ LLM ตอบ
ฝรั่งเศส: EUR เช่น
สหราชอาณาจักร: GBP อีกตัวอย่างหนึ่ง
อินเดีย: ข้อความค้นหาจริง

โดยทั่วไปแล้ว การแสดงข้อความแจ้งเพียงเล็กน้อยจะให้ผลลัพธ์ที่น่าพอใจมากกว่าข้อความแจ้งแบบ Zero shot และข้อความแจ้งแบบช็อตเดียว อย่างไรก็ตาม การแสดงข้อความแจ้งเพียงไม่กี่ช็อต ต้องใช้พรอมต์ที่ยาวกว่า

ข้อความแจ้งข้อผิดพลาดเล็กน้อยเป็นรูปแบบหนึ่งของการเรียนรู้แบบรวดเร็วที่ใช้กับการเรียนรู้จากข้อความแจ้ง

ฟิดเดิล

#language

ไลบรารีการกำหนดค่าแบบ Python-first ที่มีการกำหนดค่าของฟังก์ชันและคลาสโดยไม่ต้องมีโค้ดหรือโครงสร้างพื้นฐานที่รุกล้ำเข้ามา ในกรณีของ Pax และโค้ดเบส ML อื่นๆ ฟังก์ชันและคลาสเหล่านี้แสดงถึงโมเดลและการฝึก ไฮเปอร์พารามิเตอร์

Fiddle สันนิษฐานว่าโดยทั่วไปโค้ดเบสของแมชชีนเลิร์นนิงจะแบ่งออกเป็นรายการต่อไปนี้

  • โค้ดไลบรารี ซึ่งระบุเลเยอร์และตัวเพิ่มประสิทธิภาพ
  • โค้ด "Glue" ของชุดข้อมูล ซึ่งเรียกไลบรารีและเชื่อมต่อทุกอย่างเข้าด้วยกัน

Fiddle จับโครงสร้างการเรียกของ Glue Code มาในรูปแบบที่ยังไม่ประเมินและเปลี่ยนแปลงได้

การปรับแต่ง

#language
#image
#GenerativeAI

บัตรผ่านการฝึกเฉพาะงานรายการที่ 2 ที่ดำเนินการในโมเดลที่ฝึกล่วงหน้าเพื่อปรับแต่งพารามิเตอร์สำหรับ Use Case ที่เฉพาะเจาะจง ตัวอย่างเช่น ลำดับการฝึกแบบเต็มสำหรับโมเดลภาษาขนาดใหญ่บางโมเดลมีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลภาษาขนาดใหญ่ในชุดข้อมูลทั่วไปขนาดใหญ่ เช่น หน้า Wikipedia ภาษาอังกฤษทุกหน้า
  2. การปรับแต่ง: ฝึกโมเดลที่ฝึกล่วงหน้าให้ทำงานแบบเจาะจง เช่น การตอบคำถามทางการแพทย์ การปรับแต่งโดยทั่วไปจะมีตัวอย่างหลายร้อยหรือหลายพันตัวอย่างที่มุ่งเน้นงานนั้นๆ

อีกตัวอย่างหนึ่ง ลำดับการฝึกทั้งหมดสำหรับโมเดลรูปภาพขนาดใหญ่มีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลรูปภาพขนาดใหญ่บนชุดข้อมูลรูปภาพทั่วไปขนาดใหญ่ เช่น รูปภาพทั้งหมดใน Wikimedia Common
  2. การปรับแต่ง: ฝึกโมเดลที่ฝึกล่วงหน้าให้ทำงานแบบเจาะจง เช่น การสร้างรูปภาพวาฬเพชฌฆาต

การปรับแต่งอาจทำให้เกิดชุดค่าผสมของกลยุทธ์ต่อไปนี้

  • กำลังแก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลที่ฝึกล่วงหน้าทั้งหมด ซึ่งในบางครั้งเรียกว่าการปรับแต่งทั้งหมด
  • แก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลที่ฝึกล่วงหน้าบางส่วนเท่านั้น (โดยทั่วไปคือเลเยอร์ที่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด) โดยไม่เปลี่ยนแปลงพารามิเตอร์อื่นๆ ที่มีอยู่ (โดยทั่วไปจะเป็นเลเยอร์ที่ใกล้กับเลเยอร์อินพุตมากที่สุด) ดู การปรับแต่งแบบมีประสิทธิภาพพารามิเตอร์
  • การเพิ่มเลเยอร์ ซึ่งโดยปกติจะอยู่ที่ด้านบนของเลเยอร์ที่มีอยู่ซึ่งอยู่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด

การปรับแต่งเป็นรูปแบบของการเรียนรู้แบบถ่ายโอน ดังนั้น การปรับแต่งอาจใช้ฟังก์ชันการสูญเสียข้อมูลหรือโมเดลประเภทอื่นที่ต่างจากที่ใช้ในการฝึกโมเดลที่ฝึกล่วงหน้า เช่น ปรับแต่งโมเดลอิมเมจขนาดใหญ่ที่ฝึกล่วงหน้าเพื่อสร้างโมเดลการถดถอยที่แสดงผลลัพธ์จำนวนนกในอิมเมจอินพุต

เปรียบเทียบการปรับแต่งอย่างละเอียดกับข้อความต่อไปนี้

เหลืองแฟลกซ์

#language

ไลบรารีโอเพนซอร์สประสิทธิภาพสูงสำหรับการเรียนรู้เชิงลึกซึ่งสร้างต่อยอดจาก JAX Flax มีฟังก์ชันสำหรับการฝึก โครงข่ายประสาท ตลอดจนวิธีประเมินประสิทธิภาพ

Flaxformer

#language

ไลบรารี Transformer แบบโอเพนซอร์สซึ่งสร้างขึ้นใน Flax และออกแบบมาสำหรับการประมวลผลภาษาธรรมชาติและการวิจัยแบบหลายโมดัลเป็นหลัก

G

Generative AI

#language
#image
#GenerativeAI

คือสาขาที่สามารถเปลี่ยนแปลงรูปแบบใหม่ๆ ซึ่งไม่มีคำจำกัดความที่เป็นทางการ อย่างไรก็ตาม ผู้เชี่ยวชาญส่วนใหญ่เห็นด้วยว่าโมเดล Generative AI สามารถสร้าง ("สร้าง") เนื้อหาที่มีลักษณะดังต่อไปนี้ได้

  • ซับซ้อน
  • สอดคล้องกัน
  • เดิม

ตัวอย่างเช่น โมเดล Generative AI สามารถสร้างเรียงความหรือรูปภาพที่ซับซ้อนได้

เทคโนโลยีรุ่นก่อนๆ เช่น LSTM และ RNN สามารถสร้างเนื้อหาต้นฉบับที่สอดคล้องและเหมือนกันได้ด้วย ผู้เชี่ยวชาญบางคนมองว่าเทคโนโลยียุคก่อนเหล่านี้เป็น Generative AI ในขณะที่บางคนรู้สึกว่า Generative AI ที่แท้จริงต้องการผลลัพธ์ที่ซับซ้อนกว่าเทคโนโลยีแรกๆ ที่เทคโนโลยีเหล่านี้ทำได้

คอนทราสต์กับ ML แบบคาดการณ์

GPT (Transformer ก่อนการฝึก Generative)

#language

ชุดโมเดลภาษาขนาดใหญ่ที่พัฒนาโดย Transformer ซึ่งพัฒนาโดย OpenAI

ตัวแปรของ GPT ใช้ได้กับวิธีหลายรูปแบบ ดังนี้

  • การสร้างรูปภาพ (เช่น ImageGPT)
  • การสร้างข้อความเป็นรูปภาพ (เช่น DALL-E)

ฮิต

ความไม่สมเหตุสมผล

#language

การสร้างผลลัพธ์ที่ดูสมเหตุสมผลแต่ไม่ถูกต้องตามข้อเท็จจริงโดยโมเดล Generative AI ที่อ้างว่าเป็นการยืนยันเกี่ยวกับโลกแห่งความเป็นจริง ตัวอย่างเช่น โมเดล Generative AI ที่อ้างว่าบารัก โอบามาเสียชีวิตในปี 1865 เป็นภาพหลอน

I

การเรียนรู้ในบริบท

#language
#GenerativeAI

คำพ้องความหมายของ few-shot prompting

L

LaMDA (โมเดลภาษาสำหรับแอปพลิเคชันด้านการโต้ตอบ หรือ Language Model for Dialogue Applications)

#language

โมเดลภาษาขนาดใหญ่ที่อิงตามTransformer ซึ่งพัฒนาโดย Google ได้รับการฝึกผ่านชุดข้อมูลการสนทนาขนาดใหญ่ที่จะสร้างคำตอบที่เป็นการสนทนาที่สมจริงได้

LaMDA: เทคโนโลยีการสนทนาที่โดดเด่นของเรามีภาพรวม

โมเดลภาษา

#language

modelที่ประมาณความเป็นไปได้ของmodelหรือลำดับของโทเค็นที่เกิดขึ้นในลำดับที่ยาวกว่าของโทเค็น

โมเดลภาษาขนาดใหญ่

#language

คำที่ไม่เป็นทางการที่ไม่มีคำจำกัดความที่เข้มงวดซึ่งมักจะหมายถึงโมเดลภาษาที่มีพารามิเตอร์จำนวนมาก โมเดลภาษาขนาดใหญ่บางโมเดลมีพารามิเตอร์มากกว่า 1 แสนล้านพารามิเตอร์

พื้นที่แฝง

#language

คำพ้องความหมายของ พื้นที่การฝัง

แอลเอ็ม

#language

ตัวย่อของโมเดลภาษาขนาดใหญ่

LoRA

#language
#GenerativeAI

เป็นตัวย่อของการปรับตัวได้ในระดับต่ำ

ความสามารถในการปรับตัวที่มีอันดับต่ำ (LoRA)

#language
#GenerativeAI

อัลกอริทึมสำหรับการดำเนินการ การปรับแต่งพารามิเตอร์อย่างมีประสิทธิภาพที่ ปรับแต่งเฉพาะบางส่วนของพารามิเตอร์ โมเดลภาษาขนาดใหญ่เท่านั้น LoRA มีประโยชน์ดังต่อไปนี้

  • ปรับแต่งได้เร็วกว่าเทคนิคที่ต้องมีการปรับแต่งพารามิเตอร์ทั้งหมดของโมเดล
  • ลดต้นทุนการคำนวณของการอนุมานในโมเดลที่ปรับแต่งอย่างละเอียด

โมเดลที่ปรับแต่งด้วย LoRA จะรักษาหรือปรับปรุงคุณภาพการคาดการณ์

LoRA เปิดใช้โมเดลพิเศษหลายเวอร์ชัน

M

โมเดลภาษาที่มาสก์

#language

โมเดลภาษาที่คาดการณ์ความน่าจะเป็นของโทเค็นผู้สมัครที่จะเติมข้อความว่างในลำดับ ตัวอย่างเช่น โมเดลภาษาที่มาสก์สามารถคำนวณความน่าจะเป็นสำหรับคำที่ผู้สมัครจะแทนที่การขีดเส้นใต้ในประโยคต่อไปนี้

____ ในหมวกกลับมาแล้ว

โดยทั่วไป วรรณกรรมจะใช้สตริง "MASK" แทนการขีดเส้นใต้ เช่น

"MASK" ในหมวกกลับมาแล้ว

โมเดลภาษาแบบมาสก์สมัยใหม่ส่วนใหญ่เป็นแบบแบบ 2 ทิศทาง

การเรียนรู้เมตา

#language

ชุดย่อยของแมชชีนเลิร์นนิงที่ค้นหาหรือปรับปรุงอัลกอริทึมการเรียนรู้ ระบบการเรียนรู้เมตายังสามารถมุ่งฝึกโมเดลให้เรียนรู้งานใหม่ได้อย่างรวดเร็วจากข้อมูลปริมาณน้อยหรือจากประสบการณ์ที่ได้รับในงานก่อนหน้า โดยทั่วไปอัลกอริทึมการเรียนรู้แบบเมตาจะพยายามบรรลุเป้าหมายต่อไปนี้

  • ปรับปรุงหรือเรียนรู้ฟีเจอร์ที่คุณออกแบบเอง (เช่น เครื่องมือเริ่มต้นหรือเครื่องมือเพิ่มประสิทธิภาพ)
  • เพิ่มประสิทธิภาพข้อมูลและการประมวลผลได้อย่างมีประสิทธิภาพยิ่งขึ้น
  • ปรับปรุงข้อมูลทั่วไป

การเรียนรู้แบบเมตานั้นเกี่ยวข้องกับการเรียนรู้แบบรวดเร็ว

รูปแบบ

#language

หมวดหมู่ข้อมูลระดับสูง ตัวอย่างเช่น ตัวเลข ข้อความ รูปภาพ วิดีโอ และเสียง มีรูปแบบที่แตกต่างกัน 5 แบบ

โมเดลขนานกัน

#language

วิธีปรับขนาดการฝึกหรือการอนุมานที่นำส่วนต่างๆ ของmodelหนึ่งมาไว้ในmodelที่แตกต่างกัน การทำโมเดลพร้อมกันทำให้โมเดลที่ใหญ่เกินไปจะวางในอุปกรณ์เดียวได้

ในการใช้โมเดลพร้อมกัน โดยทั่วไประบบจะทำสิ่งต่อไปนี้

  1. ชาร์ด (แบ่ง) โมเดลออกเป็นส่วนย่อยๆ
  2. กระจายการฝึกชิ้นส่วนเล็กๆ เหล่านั้นไปยังโปรเซสเซอร์หลายเครื่อง โปรเซสเซอร์แต่ละตัวจะฝึกส่วนของตัวเองในโมเดล
  3. รวมผลลัพธ์เพื่อสร้างรูปแบบเดียว

การทำงานพร้อมกันของโมเดลจะทำให้การฝึกทำงานช้า

ดูข้อมูลพร้อมกันด้วย

การดูแลตนเองแบบหลายหัว

#language

การขยายเวลาของ Self-attention ที่ใช้กลไกการจัดการตนเองหลายครั้งสำหรับแต่ละตำแหน่งในลำดับอินพุต

Transformers เปิดตัวการดูแลตัวเองแบบหลายส่วนหัว

โมเดลแบบหลายโมดัล

#language

โมเดลที่มีอินพุตและ/หรือเอาต์พุตมีรูปแบบมากกว่า 1 รูปแบบ ตัวอย่างเช่น ลองพิจารณาโมเดลที่ใช้ทั้งรูปภาพและคำบรรยายภาพ (วิธีการ 2 แบบ) เป็นฟีเจอร์ แล้วจะแสดงคะแนนที่ระบุว่าคำบรรยายภาพเหมาะกับรูปภาพเพียงใด ดังนั้นอินพุตของโมเดลนี้จะเป็นแบบหลายโมดัลและเอาต์พุตเป็นแบบยูนิโมดัล

N

ความเข้าใจภาษาธรรมชาติ

#language

การพิจารณาความตั้งใจของผู้ใช้จากสิ่งที่ผู้ใช้พิมพ์หรือพูด ตัวอย่างเช่น เครื่องมือค้นหาใช้ความเข้าใจภาษาที่เป็นธรรมชาติเพื่อระบุสิ่งที่ผู้ใช้กำลังค้นหาตามสิ่งที่ผู้ใช้พิมพ์หรือพูด

N-แกรม

#seq
#language

ลำดับคำตามลำดับ N คำ ตัวอย่างเช่น บ้าจริงๆ คือ 2 กรัม ลำดับมีความเกี่ยวข้อง อย่างบ้าคลั่ง จึงไม่ต่างจาก 2 กรัมบ้าสุดๆ

N ชื่อสำหรับ N-gram ประเภทนี้ ตัวอย่าง
2 Bigram หรือ 2 กรัม จะไป ไป กินข้าวเที่ยง กินข้าวเย็น
3 Trigram หรือ 3-gram กินมากเกินไป หนูตาบอด 3 ตัว และค่าผ่านทาง
4 4 กรัม เดินในสวนสาธารณะ ฝุ่นปลิวไปตามสายลม เด็กชายกินถั่วเลนทิล

โมเดลการทำความเข้าใจภาษาที่เป็นธรรมชาติหลายโมเดลจะอาศัย N-gram เพื่อคาดเดาคำถัดไปที่ผู้ใช้จะพิมพ์หรือพูด ตัวอย่างเช่น สมมติว่าผู้ใช้พิมพ์ตาบอด 3 อัน โมเดล NLU ที่อิงตาม Trigrams น่าจะคาดการณ์ว่าผู้ใช้จะพิมพ์ เมาส์ เป็นลำดับถัดไป

คอนทราสต์ N กรัมกับถุงคำ ซึ่งเป็นชุดคำที่ไม่เรียงลำดับ

NLU

#language

ตัวย่อของการทำความเข้าใจภาษาที่เป็นธรรมชาติ

O

ข้อความแจ้งในช็อตเดียว

#language
#GenerativeAI

ข้อความแจ้งที่มีตัวอย่าง 1 รายการที่แสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ควรตอบสนองอย่างไร เช่น พรอมต์ต่อไปนี้มีตัวอย่างหนึ่งที่แสดงโมเดลภาษาขนาดใหญ่ว่าควรตอบคำถามอย่างไร

ส่วนต่างๆ ของข้อความแจ้งรายการเดียว Notes
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคืออะไร คำถามที่ต้องการให้ LLM ตอบ
ฝรั่งเศส: EUR เช่น
อินเดีย: ข้อความค้นหาจริง

เปรียบเทียบระหว่างข้อความแจ้งแบบช็อตเดียวกับคำศัพท์ต่อไปนี้

คะแนน

การปรับแต่งให้มีประสิทธิภาพเกี่ยวกับพารามิเตอร์

#language
#GenerativeAI

ชุดเทคนิคในการปรับแต่งโมเดลภาษา (PLM) (PLM) ขนาดใหญ่ได้อย่างมีประสิทธิภาพมากกว่าการปรับแต่งเต็มรูปแบบ การปรับแต่งแบบมีประสิทธิภาพพารามิเตอร์มักจะปรับแต่งพารามิเตอร์น้อยกว่าการปรับแต่งแบบเต็มรูปแบบมาก แต่โดยทั่วไปจะสร้างโมเดลภาษาขนาดใหญ่ซึ่งมีประสิทธิภาพดี (หรือเกือบเท่ากัน) เหมือนโมเดลภาษาขนาดใหญ่ที่สร้างจากการปรับแต่งทั้งหมด

เปรียบเทียบการปรับแต่งประสิทธิภาพพารามิเตอร์กับสิ่งต่อไปนี้

การปรับแต่งอย่างมีประสิทธิภาพพารามิเตอร์เรียกอีกอย่างว่าการปรับแต่งให้มีประสิทธิภาพพารามิเตอร์

ไปป์ไลน์

#language

รูปแบบของโมเดลที่ทำงานขนานกัน ซึ่งการประมวลผลของโมเดลจะแบ่งเป็นขั้นตอนต่างๆ ติดต่อกัน และดำเนินการกับแต่ละระยะในอุปกรณ์ที่แตกต่างกัน ในขณะที่ขั้นตอนหนึ่งกำลังประมวลผล 1 กลุ่ม ระยะก่อนหน้าจะทำงานในกลุ่มถัดไปได้

ดูข้อมูลเพิ่มเติมได้ในการฝึกอบรมแบบทีละขั้น

โปแลนด์

#language
#GenerativeAI

ตัวย่อของโมเดลภาษาก่อนการฝึก

การเข้ารหัสตามตำแหน่ง

#language

เทคนิคในการเพิ่มข้อมูลเกี่ยวกับตำแหน่งของโทเค็นในลำดับให้กับการฝังของโทเค็น โมเดลหม้อแปลงใช้การเข้ารหัสตำแหน่งเพื่อให้เข้าใจความสัมพันธ์ระหว่างส่วนต่างๆ ของลำดับได้ดียิ่งขึ้น

การใช้การเข้ารหัสตามตำแหน่งที่พบได้ทั่วไปจะใช้ฟังก์ชันไซนัสซอยด์ (โดยเฉพาะอย่างยิ่ง ความถี่และแอมพลิจูดของฟังก์ชันไซนัสซอยด์จะกำหนดโดยตำแหน่งของโทเค็นในลำดับ) เทคนิคนี้ช่วยให้โมเดล Transformer เรียนรู้การเข้าร่วมส่วนต่างๆ ของลำดับตามตำแหน่งได้

โมเดลก่อนการฝึก

#language
#image
#GenerativeAI

โมเดลหรือคอมโพเนนต์ของโมเดล (เช่น เวกเตอร์การฝัง) ที่ได้รับการฝึกแล้ว บางครั้งคุณจะป้อนเวกเตอร์การฝังที่ฝึกล่วงหน้าไว้ในโครงข่ายระบบประสาทเทียม แต่บางครั้งโมเดลจะฝึกเวกเตอร์การฝังเองแทนที่จะพึ่งพาการฝังที่ฝึกล่วงหน้า

คำว่าโมเดลภาษาก่อนการฝึกหมายถึงโมเดลภาษาขนาดใหญ่ที่ผ่านการฝึกล่วงหน้า

ก่อนการฝึก

#language
#image
#GenerativeAI

การฝึกเบื้องต้นของโมเดลบนชุดข้อมูลขนาดใหญ่ โมเดลก่อนการฝึกบางรุ่นเป็นยักษ์ที่งุ่มง่ามและมักต้องปรับแต่งผ่านการฝึกเพิ่มเติม เช่น ผู้เชี่ยวชาญ ML อาจฝึกโมเดลภาษาขนาดใหญ่ไว้ล่วงหน้าบนชุดข้อมูลข้อความจำนวนมาก เช่น หน้าภาษาอังกฤษทุกหน้าใน Wikipedia หลังการฝึกล่วงหน้า โมเดลผลลัพธ์อาจมีการปรับแต่งเพิ่มเติมผ่านเทคนิคต่อไปนี้

ข้อความแจ้ง

#language
#GenerativeAI

ข้อความที่ป้อนเป็นอินพุตในโมเดลภาษาขนาดใหญ่เพื่อกำหนดเงื่อนไขให้โมเดลทำงานในลักษณะใดลักษณะหนึ่ง พรอมต์อาจสั้นแค่วลีหรือมีความยาวใดก็ได้ (เช่น ข้อความทั้งหมดในนิยาย) พรอมต์แบ่งออกเป็นหลายหมวดหมู่ รวมถึงหมวดหมู่ที่แสดงในตารางต่อไปนี้

หมวดหมู่ของข้อความแจ้ง ตัวอย่าง Notes
คำถาม นกพิราบบินได้เร็วแค่ไหน
โรงเรียนฝึกอบรม เขียนบทกวีตลกๆ เกี่ยวกับการหากำไร พรอมต์ที่ขอให้โมเดลภาษาขนาดใหญ่ทำบางอย่าง
ตัวอย่าง แปลโค้ดมาร์กดาวน์เป็น HTML เช่น
Markdown: * รายการ
HTML: <ul> <li>รายการ</li> </ul>
ประโยคแรกในพรอมต์ตัวอย่างนี้คือคำสั่ง ส่วนที่เหลือของข้อความแจ้งคือตัวอย่าง
บทบาท อธิบายเหตุผลที่มีการใช้การไล่ระดับสีในการฝึกแมชชีนเลิร์นนิงจนถึงปริญญาเอกสาขาฟิสิกส์ ส่วนแรกของประโยคคือคำสั่ง วลี "ต่อปริญญาเอกสาขาฟิสิกส์" คือส่วนบทบาท
ป้อนข้อมูลบางส่วนเพื่อให้โมเดลเสร็จสมบูรณ์ นายกรัฐมนตรีของสหราชอาณาจักรอาศัยอยู่ที่ พรอมต์การป้อนข้อมูลบางส่วนอาจสิ้นสุดอย่างกะทันหัน (ดังตัวอย่างนี้) หรือลงท้ายด้วยขีดล่างก็ได้

โมเดล Generative AI สามารถตอบสนองต่อพรอมต์ด้วยข้อความ โค้ด รูปภาพ การฝัง วิดีโอ และอื่นๆ แทบทุกอย่าง

การเรียนรู้จากข้อความแจ้ง

#language
#GenerativeAI

ความสามารถของโมเดลบางรูปแบบที่ช่วยให้ปรับลักษณะการทำงานให้ตอบสนองต่อการป้อนข้อความที่กำหนดเอง (ข้อความแจ้ง) ในรูปแบบการเรียนรู้ตามพรอมต์โดยทั่วไป โมเดลภาษาขนาดใหญ่จะตอบสนองต่อพรอมต์ด้วยการสร้างข้อความ เช่น สมมติว่าผู้ใช้ป้อนพรอมต์ต่อไปนี้

สรุปกฎการเคลื่อนที่ข้อที่ 3 ของนิวตัน

โมเดลที่สามารถเรียนรู้จากข้อความแจ้งไม่ได้รับการฝึกให้ตอบพรอมต์ก่อนหน้าโดยเฉพาะ แต่โมเดลนี้จะ "รู้" ข้อเท็จจริงมากมายเกี่ยวกับฟิสิกส์ เกี่ยวกับกฎภาษาทั่วไป และหลายๆ อย่างเกี่ยวกับสิ่งที่ประกอบขึ้นเป็นคำตอบที่มีประโยชน์โดยทั่วไป ความรู้ดังกล่าวเพียงพอที่จะให้คำตอบที่เป็นประโยชน์ (หวังว่า) ความคิดเห็นเพิ่มเติมจากมนุษย์ ("คำตอบนั้นซับซ้อนเกินไป" หรือ "ปฏิกิริยาคืออะไร") จะช่วยให้ระบบการเรียนรู้จากพรอมต์บางระบบค่อยๆ ปรับปรุงการมีประโยชน์ของคำตอบ

การออกแบบข้อความแจ้ง

#language
#GenerativeAI

คำพ้องความหมายของprompt Engineering

พรอมต์วิศวกรรม

#language
#GenerativeAI

ศิลปะในการสร้างข้อความแจ้งซึ่งกระตุ้นให้เกิดคำตอบที่ต้องการจากโมเดลภาษาขนาดใหญ่ มนุษย์ออกแบบระบบ พรอมต์ การเขียนพรอมต์ที่มีโครงสร้างดีเป็นส่วนสำคัญในการสร้างคำตอบที่เป็นประโยชน์จากโมเดลภาษาขนาดใหญ่ การส่งพรอมต์วิศวกรรมขึ้นอยู่กับปัจจัยหลายอย่าง เช่น

ดูรายละเอียดเพิ่มเติมเกี่ยวกับการเขียนพรอมต์ที่มีประโยชน์ได้ในข้อมูลเบื้องต้นเกี่ยวกับการออกแบบพรอมต์

การออกแบบพรอมต์ (Prompt Design) คือคำพ้องความหมายสำหรับวิศวกรรมพรอมต์

การปรับแต่งข้อความแจ้ง

#language
#GenerativeAI

กลไกการปรับแต่งพารามิเตอร์อย่างมีประสิทธิภาพซึ่งจะเรียนรู้ "คำนำหน้า" ซึ่งระบบจะใส่ไว้ข้างหน้าข้อความแจ้งจริง

การปรับแต่งพรอมต์รูปแบบหนึ่งที่บางครั้งเรียกว่าการปรับแต่งคำนำหน้าคือการเพิ่มคำนำหน้าในทุกเลเยอร์ ในทางตรงกันข้าม การปรับแต่งข้อความแจ้งส่วนใหญ่ จะเพิ่มคำนำหน้าลงในเลเยอร์อินพุตเท่านั้น

R

ข้อความแจ้งบทบาท

#language
#GenerativeAI

ส่วนที่ไม่บังคับของข้อความแจ้งที่ระบุกลุ่มเป้าหมายสำหรับคำตอบของโมเดล Generative AI หากไม่มีข้อความแจ้งบทบาท โมเดลภาษาขนาดใหญ่จะให้คำตอบที่อาจเป็นประโยชน์หรือไม่มีประโยชน์สำหรับผู้ที่ถามคำถาม เมื่อมีการพรอมต์บทบาท โมเดลภาษาขนาดใหญ่จะสามารถตอบคำถามที่เหมาะสมและมีประโยชน์มากขึ้นสำหรับกลุ่มเป้าหมายที่เฉพาะเจาะจง เช่น ส่วนพรอมต์บทบาทของข้อความแจ้งต่อไปนี้จะเป็นตัวหนา

  • สรุปบทความนี้สำหรับปริญญาเอกด้านเศรษฐศาสตร์
  • อธิบายวิธีการทำงานของกระแสน้ำสำหรับเด็กอายุ 10 ปี
  • อธิบายวิกฤตทางการเงินปี 2008 พูดเหมือนคุณอาจพูดกับเด็กเล็ก หรือสุนัขพันธุ์โกลเด้นรีทรีฟเวอร์

S

self-attention (หรือเรียกว่า Self-Attention Layer)

#language

เลเยอร์โครงข่ายประสาทที่เปลี่ยนลำดับการฝัง (เช่น การฝังโทเค็น) เป็นการฝังอีกลำดับหนึ่ง การฝังแต่ละรายการในลำดับเอาต์พุตสร้างขึ้นโดยการผสานรวมข้อมูลจากองค์ประกอบของลำดับอินพุตผ่านกลไก attention

ส่วนตนเองของความสนใจตนเองหมายถึงลำดับที่ให้ความสำคัญกับตนเอง แทนที่จะเป็นบริบทอื่นๆ การจดจ่อด้วยตนเองเป็นหนึ่งในโครงสร้างหลักสำหรับ Transformers และใช้คำศัพท์ในการค้นหาพจนานุกรม เช่น "query", "key" และ "value"

เลเยอร์ความสนใจตนเองจะเริ่มด้วยลำดับการนำเสนออินพุต 1 รายการต่อ 1 คำ การแสดงอินพุตสำหรับคำอาจเป็นการฝัง ที่ไม่ซับซ้อน สำหรับแต่ละคำในลำดับอินพุต เครือข่ายจะให้คะแนนความเกี่ยวข้องของคำนั้นกับทุกองค์ประกอบในลำดับคำทั้งหมด คะแนนความเกี่ยวข้องจะกำหนดว่าสิ่งที่นำเสนอในขั้นสุดท้ายของคำนั้นรวมอยู่กับคำอื่นๆ มากเพียงใด

ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

สัตว์ไม่ได้ข้ามถนนเพราะเหนื่อยเกินไป

ภาพประกอบต่อไปนี้ (จาก Transformer: A Novel Neural Network Architecture for Language Understanding) แสดงรูปแบบการดึงดูดความสนใจของเลเยอร์การสนใจตัวเองสำหรับคำสรรพนาม it โดยที่แต่ละบรรทัดจะบอกว่าแต่ละคำมีส่วนช่วยในการนำเสนอมากน้อยเพียงใด

ประโยคต่อไปนี้ปรากฏขึ้น 2 ครั้ง: สัตว์ไม่ได้ข้ามถนนเพราะเหนื่อยเกินไป บรรทัดต่างๆ จะเชื่อมคำสรรพนามใน 1 ประโยคเข้ากับโทเค็น 5 ตัว (The, art, street, it และ the period) ในอีกประโยค  เส้นแบ่งระหว่างคำสรรพนามกับคำว่า &quot;สัตว์&quot; แข็งแกร่งที่สุด

โดยเลเยอร์การจัดการตนเองจะไฮไลต์คำที่เกี่ยวข้องกับ "it" ในกรณีนี้ ชั้นความสนใจเรียนรู้ที่จะไฮไลต์คำที่ตัวมันอาจอ้างถึง เพื่อกำหนดน้ำหนักสูงสุดให้กับสัตว์

สำหรับลำดับของ n โทเค็น การจัดการตนเองจะเปลี่ยนลำดับของการฝัง n เวลาแยกกัน 1 ครั้งในแต่ละตำแหน่งในลำดับ

โปรดดูหัวข้อความสนใจและการจัดการตนเองแบบหลายส่วนหัว

การวิเคราะห์ความเห็น

#language

การใช้อัลกอริทึมทางสถิติหรือแมชชีนเลิร์นนิงเพื่อกำหนดทัศนคติโดยรวมของกลุ่ม ทั้งในแง่บวกหรือแง่ลบต่อบริการ ผลิตภัณฑ์ องค์กร หรือหัวข้อหนึ่งๆ ตัวอย่างเช่น การใช้ความเข้าใจภาษาที่เป็นธรรมชาติจะช่วยให้อัลกอริทึมวิเคราะห์ความเห็นที่มีต่อข้อความที่ได้รับจากหลักสูตรในมหาวิทยาลัยเพื่อระบุระดับการศึกษาที่นักเรียนส่วนใหญ่ชอบหรือไม่ชอบในหลักสูตรนี้

งานแบบเรียงตามลำดับ

#language

งานที่แปลงลำดับอินพุตของโทเค็นเป็นลำดับเอาต์พุตของโทเค็น เช่น งานแบบเรียงตามลำดับที่นิยม 2 ประเภท ได้แก่

  • นักแปล
    • ตัวอย่างลำดับการป้อนข้อมูล: "ฉันรักเธอ"
    • ตัวอย่างลำดับเอาต์พุต: "Je t'aime"
  • การตอบคำถาม:
    • ตัวอย่างลำดับการป้อนข้อมูล: "ฉันต้องใช้รถในนิวยอร์กซิตี้ไหม"
    • ลำดับเอาต์พุตตัวอย่าง: "ไม่ โปรดเก็บรถไว้ที่บ้าน"

ข้าม-แกรม

#language

n-gram ที่อาจละคำ (หรือ "ข้าม") คำจากบริบทเดิมไป ซึ่งหมายความว่าคำ N คำนั้นอาจไม่ได้อยู่ติดกันแต่เดิม พูดง่ายๆ ก็คือ "k-skip-n-gram" คือ n-gram ที่อาจถูกข้ามไปถึง k คำ

เช่น "หมาจิ้งจอกด่วน" มีปริมาณ 2 กรัมที่เป็นไปได้ดังนี้

  • "ทางลัด"
  • "สีน้ำตาลด่วน"
  • "บราวน์จิ้งจอก"

"1-skip-2-gram" คือคู่ของคำที่ประกอบด้วยคำไม่เกิน 1 คำระหว่างคำ ดังนั้น "จิ้งจอกด่วน" จึงมีน้ำหนัก 1-2 กรัมต่อไปนี้

  • "สีน้ำตาล"
  • "จิ้งจอกด่วน"

นอกจากนี้ ค่า 2 กรัมทั้งหมดก็ 1-skip-2-2 กรัมด้วย เนื่องจากระบบอาจข้ามน้อยกว่า 1 คำ

การข้ามกรัมมีประโยชน์ในการทำความเข้าใจบริบทโดยรอบของคำมากขึ้น ในตัวอย่าง "สุนัขจิ้งจอก" เชื่อมโยงโดยตรงกับ "ด่วน" ในชุด 1-skip-2-กรัม แต่ไม่อยู่ในชุด 2-กรัม

การข้ามกรัมช่วยฝึก การฝังคำ

การปรับแต่ง Soft Prompt

#language
#GenerativeAI

เทคนิคในการปรับแต่งโมเดลภาษาขนาดใหญ่สำหรับงานหนึ่งๆ โดยไม่ต้องปรับแต่งการใช้ทรัพยากรอย่างละเอียด แทนที่จะฝึกน้ำหนักทั้งหมดในโมเดล การปรับแต่ง Soft Prompt จะปรับข้อความแจ้งโดยอัตโนมัติเพื่อให้บรรลุเป้าหมายเดียวกัน

โดยทั่วไปแล้ว การปรับแต่ง Soft Prompt จะปรากฎขึ้นเมื่อมีข้อความแจ้งที่เป็นข้อความ แล้วจะเพิ่มโทเค็นที่ฝังเพิ่มเติมต่อท้ายพรอมต์และใช้การเผยแพร่ย้อนกลับเพื่อเพิ่มประสิทธิภาพอินพุต

ข้อความแจ้ง "ฮาร์ด" จะมีโทเค็นจริงแทนการฝังโทเค็น

พื้นที่กระจัดกระจาย

#language
#fundamentals

ฟีเจอร์ที่มีค่าส่วนใหญ่เป็น 0 หรือว่างเปล่า เช่น ฟีเจอร์ที่มีค่า 1 ค่าเดียวแต่ 0 ล้านค่านั้นมีน้อย ในทางตรงกันข้าม ฟีเจอร์ที่หนาแน่นจะมีค่าที่ส่วนใหญ่ไม่ใช่ 0 หรือว่างเปล่า

ในแมชชีนเลิร์นนิง จำนวนฟีเจอร์ที่น่าประหลาดใจคือฟีเจอร์จำนวนน้อย ฟีเจอร์เชิงหมวดหมู่มักจะเป็นฟีเจอร์ที่ไม่ซับซ้อน เช่น จากต้นไม้ 300 ชนิดที่เป็นไปได้ในป่า ตัวอย่างหนึ่งอาจระบุเพียงต้นเมเปิล หรือวิดีโอที่เป็นไปได้หลายล้านรายการในคลังวิดีโอ ตัวอย่างหนึ่งอาจระบุแค่คำว่า "คาซาบลังกา"

ในโมเดลหนึ่ง โดยปกติแล้วคุณจะแสดงฟีเจอร์ที่กระจัดกระจายด้วยการเข้ารหัสแบบ One-Hot หากการเข้ารหัสแบบ 1-Hot มีขนาดใหญ่ คุณอาจวาง เลเยอร์การฝัง ไว้ด้านบนของการเข้ารหัสแบบ 1 Hot เพื่อประสิทธิภาพที่ดียิ่งขึ้น

การเป็นตัวแทนแบบย่อ

#language
#fundamentals

การจัดเก็บเฉพาะตำแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์ที่กระจัดกระจาย

ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ species ระบุพันธุ์ไม้ 36 ต้นในป่าหนึ่งๆ นอกจากนี้ สมมุติว่าตัวอย่างแต่ละรายการระบุสายพันธุ์ได้เพียง 1 สปีชีส์เท่านั้น

คุณสามารถใช้เวกเตอร์หนึ่งที่น่าสนใจเพื่อแสดงถึงสปีชีส์ของต้นไม้ในแต่ละตัวอย่าง เวกเตอร์ 1 รายการที่เร็ว ๆ จะมี 1 เดียว (เพื่อแสดงถึงสปีชีส์ของต้นไม้เฉพาะในตัวอย่าง) และ 35 0 (เพื่อแสดงถึงต้นไม้ 35 ชนิดที่ไม่ใช่ในตัวอย่างนั้น) ดังนั้น การนำเสนอ maple แบบร้อนแรง อาจมีลักษณะประมาณนี้

เวกเตอร์ที่ตำแหน่ง 0 ถึง 23 มีค่า 0 ตำแหน่ง 24 มีค่า 1 และตำแหน่งที่ 25 ถึง 35 มีค่าเป็น 0

อีกตัวอย่างหนึ่งคือ การแทนแบบกระจัดกระจายอาจแค่ระบุตำแหน่งของสปีชีส์หนึ่งๆ เท่านั้น หาก maple อยู่ที่ตำแหน่ง 24 การแสดงแบบคร่าวๆ ของ maple จะมีลักษณะดังนี้

24

สังเกตว่าการนำเสนอแบบกระทัดรัดนั้นกะทัดรัดมากกว่าการนำเสนอแบบเดี่ยวๆ มาก

การฝึกอบรมแบบทีละขั้น

#language

กลยุทธ์ของการฝึกโมเดลตามลำดับขั้นที่ไม่ต่อเนื่อง เป้าหมายอาจเป็นการเร่งกระบวนการฝึก หรือการปรับปรุงคุณภาพโมเดลให้ดีขึ้น

ภาพประกอบของวิธีการกองซ้อนแบบโปรเกรสซีฟแสดงอยู่ด้านล่าง

  • ขั้นที่ 1 มีเลเยอร์ที่ซ่อนไว้ 3 เลเยอร์ ขั้นที่ 2 มีเลเยอร์ที่ซ่อนไว้ 6 เลเยอร์ และขั้นตอนที่ 3 มีเลเยอร์ที่ซ่อนไว้ 12 เลเยอร์
  • ขั้นที่ 2 จะเริ่มการฝึกด้วยน้ำหนักที่ได้เรียนรู้ใน 3 ชั้นที่ซ่อนอยู่ของระยะที่ 1 ขั้นที่ 3 จะเริ่มการฝึกด้วยน้ำหนักที่ได้เรียนรู้ใน 6 ชั้นที่ซ่อนอยู่ของระยะที่ 2

มี 3 ระยะ ได้แก่ ระยะที่ 1, ระยะที่ 2 และระยะที่ 3
          แต่ละขั้นตอนมีจำนวนเลเยอร์ไม่เท่ากัน ระยะที่ 1 มี 3 เลเยอร์ ระยะที่ 2 มี 6 เลเยอร์ และระยะที่ 3 มี 12 เลเยอร์
          3 เลเยอร์จากระยะที่ 1 จะกลายเป็น 3 เลเยอร์แรกของระยะที่ 2
          ในทำนองเดียวกัน ทั้ง 6 เลเยอร์จากระยะที่ 2 จะกลายเป็น 6 เลเยอร์แรกของระยะที่ 3

ดูไปป์ไลน์เพิ่มเติม

โทเค็นคำย่อย

#language

ในโมเดลภาษา จะมีโทเค็นที่เป็นสตริงย่อยของคำ ซึ่งอาจเป็นทั้งคำ

ตัวอย่างเช่น คำอย่างเช่น "itemize" อาจแบ่งออกเป็น "item" (คำราก) และ "ize" (คำต่อท้าย) ซึ่งแต่ละคำจะแสดงด้วยโทเค็นของตนเอง การแยกคำที่ไม่ได้ใช้บ่อยออกเป็นส่วนๆ ที่เรียกว่าคำย่อยจะช่วยให้โมเดลภาษาดำเนินการกับส่วนประกอบของคำที่พบบ่อยได้ เช่น คำนำหน้าและคำต่อท้าย

ในทางกลับกัน คำทั่วไป เช่น "ไป" อาจไม่มีการแยกส่วนและอาจนำเสนอด้วยโทเค็นเดียว

T

T5

#language

โมเดลการเรียนรู้ในการโอนข้อมูลจากการแปลงข้อความเป็นข้อความ เปิดตัวโดย AI ของ Google ในปี 2020 T5 คือโมเดลโปรแกรมเปลี่ยนไฟล์ตัวถอดรหัสตามสถาปัตยกรรม Transformer โดยได้รับการฝึกจากชุดข้อมูลที่มีขนาดใหญ่มาก วิธีนี้มีประสิทธิภาพสำหรับงานประมวลผลภาษาธรรมชาติหลากหลายชนิด เช่น การสร้างข้อความ การแปลภาษา และการตอบคำถามในลักษณะการสนทนา

T5 ได้ชื่อมาจาก T ทั้ง 5 ตัวใน "Transformer สำหรับการแปลงจากข้อความสู่ข้อความ"

T5X

#language

เฟรมเวิร์กแมชชีนเลิร์นนิงแบบโอเพนซอร์สที่ออกแบบมาเพื่อสร้างและฝึกโมเดลการประมวลผลภาษาธรรมชาติ (NLP) ขนาดใหญ่ T5 ใช้งานบนฐานของโค้ด T5X (ซึ่งสร้างบน JAX และ Flax)

อุณหภูมิ

#language
#image
#GenerativeAI

ไฮเปอร์พารามิเตอร์ที่ควบคุมระดับความสุ่มของเอาต์พุตโมเดล อุณหภูมิที่สูงขึ้นจะส่งผลให้เอาต์พุตแบบสุ่มมากขึ้น ส่วนอุณหภูมิที่ต่ำลงทำให้เอาต์พุตแบบสุ่มน้อยลง

การเลือกอุณหภูมิที่ดีที่สุดขึ้นอยู่กับแอปพลิเคชันเฉพาะและคุณสมบัติที่ต้องการของเอาต์พุตโมเดล เช่น คุณอาจเพิ่มอุณหภูมิเมื่อสร้างแอปพลิเคชันที่สร้างเอาต์พุตครีเอทีฟโฆษณา ในทางกลับกัน คุณอาจลดอุณหภูมิลงเมื่อคุณสร้างโมเดลที่แยกประเภทรูปภาพหรือข้อความเพื่อปรับปรุงความแม่นยำและความสอดคล้องของโมเดล

อุณหภูมิมักใช้กับ softmax

ช่วงข้อความ

#language

ช่วงดัชนีอาร์เรย์ที่เชื่อมโยงกับส่วนย่อยเฉพาะของสตริงข้อความ ตัวอย่างเช่น คำว่า good ในสตริง Python s="Be good now" จะใช้ช่วงของข้อความตั้งแต่ 3 ถึง 6

โทเค็น

#language

ในโมเดลภาษา คือหน่วยอะตอมที่โมเดลกำลังฝึกและสร้างการคาดการณ์ โดยโทเค็นมีลักษณะอย่างใดอย่างหนึ่งต่อไปนี้

  • คำ ตัวอย่างเช่น วลี "สุนัขอย่างแมว" ประกอบด้วยโทเค็น 3 คำ คือ "สุนัข" "ชอบ" และ "แมว"
  • ตัวอักขระ เช่น วลี "จักรยานปลา" ประกอบด้วยโทเค็นอักขระ 9 ตัว (โปรดทราบว่าพื้นที่ว่างจะนับเป็นโทเค็นใดโทเค็นหนึ่ง)
  • คำย่อย กล่าวคือ คำ 1 คำอาจเป็นโทเค็นเดียวหรือหลายโทเค็นก็ได้ คำย่อยประกอบด้วยคำราก คำนำหน้า หรือคำต่อท้าย ตัวอย่างเช่น โมเดลภาษาที่ใช้คำย่อยเป็นโทเค็นอาจเห็นคำว่า "สุนัข" เป็นโทเค็น 2 ตัว (คำราก "สุนัข" และคำต่อท้าย "s") โมเดลภาษาเดียวกันอาจเห็นคำเดียวว่า "taller" เป็นคำย่อย 2 คำ (คำราก "tall" และคำต่อท้าย "er")

ในโดเมนนอกโมเดลภาษา โทเค็นอาจเป็นตัวแทนของหน่วยอะตอมประเภทอื่นๆ เช่น ในคอมพิวเตอร์วิทัศน์ โทเค็นอาจเป็นชุดย่อยของรูปภาพ

หม้อแปลง

#language

สถาปัตยกรรมโครงข่ายระบบประสาทเทียมที่ Google พัฒนาขึ้นโดยใช้กลไกการให้ความสนใจตัวเองเพื่อเปลี่ยนลำดับการฝังอินพุตเป็นการฝังเอาต์พุตโดยไม่ต้องอาศัยคอนโวลูชันหรือโครงข่ายประสาทแบบเกิดซ้ำ Transformer อาจดูเหมือนเป็นเลเยอร์ซ้อนกัน

Transformer อาจรวมถึงสิ่งต่อไปนี้

โปรแกรมเปลี่ยนไฟล์จะเปลี่ยนลำดับการฝังเป็นลำดับใหม่ที่มีความยาวเท่ากัน โปรแกรมเปลี่ยนไฟล์จะมีเลเยอร์ที่เหมือนกัน N เลเยอร์ โดยแต่ละเลเยอร์จะมีเลเยอร์ย่อย 2 เลเยอร์ เลเยอร์ย่อยทั้ง 2 ชั้นนี้จะนำไปใช้กับแต่ละตำแหน่งของลำดับการฝังอินพุต ซึ่งจะเปลี่ยนองค์ประกอบแต่ละรายการของลำดับเป็นการฝังใหม่ เลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์แรกจะรวบรวมข้อมูลจากลำดับอินพุต เลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์ที่สองจะแปลงข้อมูลรวมเป็น การฝังเอาต์พุต

ตัวถอดรหัสจะเปลี่ยนลำดับของการฝังอินพุตเป็นลำดับของการฝังเอาต์พุตที่อาจมีความยาวต่างกัน เครื่องมือถอดรหัสยังมีเลเยอร์ที่เหมือนกัน N เลเยอร์ที่มีเลเยอร์ย่อย 3 เลเยอร์ ซึ่ง 2 เลเยอร์คล้ายกับเลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์ เลเยอร์ย่อยตัวถอดรหัสที่ 3 จะใช้เอาต์พุตจากโปรแกรมเปลี่ยนไฟล์และใช้กลไก Self-Attention ในการรวบรวมข้อมูล

บล็อกโพสต์ Transformer: A Novel Neural Network Architecture for Language Understanding ช่วยให้แนะนำ Transformers ได้เป็นอย่างดี

Trigram

#seq
#language

N-gram ซึ่งมี N=3

U

แบบทางเดียว

#language

ระบบที่ประเมินเฉพาะข้อความที่อยู่ด้านหน้าข้อความในส่วนเป้าหมายเท่านั้น ในทางตรงกันข้าม ระบบแบบ 2 ทิศทางจะประเมินทั้งข้อความที่มาก่อนและติดตามส่วนเป้าหมายของข้อความ ดูรายละเอียดเพิ่มเติมได้ที่แบบ 2 ทิศทาง

โมเดลภาษาแบบทิศทางเดียว

#language

โมเดลภาษาที่อิงตามความน่าจะเป็นจากโทเค็นที่ปรากฏก่อน ไม่ใช่หลังโทเค็นเป้าหมายเท่านั้น คอนทราสต์กับโมเดลภาษาแบบ 2 ทิศทาง

V

โปรแกรมเปลี่ยนไฟล์อัตโนมัติรูปแบบต่างๆ (VAE)

#language

ประเภทของ autoencoder ที่ใช้ประโยชน์จากความคลาดเคลื่อนระหว่างอินพุตและเอาต์พุตเพื่อสร้างอินพุตเวอร์ชันที่มีการแก้ไข โปรแกรมเปลี่ยนไฟล์อัตโนมัติรูปแบบต่างๆ มีประโยชน์สำหรับ Generative AI

VAE อิงตามการอนุมานตัวแปร ซึ่งเป็นเทคนิคในการประมาณพารามิเตอร์ของโมเดลความน่าจะเป็น

W

การฝังคำ

#language

แสดงแต่ละคำในชุดคำภายในเวกเตอร์การฝัง ซึ่งก็คือการแสดงแต่ละคำเป็นเวกเตอร์ของค่าจุดลอยตัวระหว่าง 0.0 ถึง 1.0 คำที่มีความหมายคล้ายคลึงกันจะมีการนำเสนอที่คล้ายกันมากกว่าคำที่มีความหมายต่างกัน เช่น แครอท คึ่นช่าย และแตงกวาต่างก็มีการนำเสนอที่ค่อนข้างคล้ายกัน ซึ่งแตกต่างอย่างมากจากการนำเสนอเครื่องบิน แว่นกันแดด และยาสีฟัน

Z

ข้อความแจ้งการตั้งค่าศูนย์ช็อต

#language
#GenerativeAI

ข้อความแจ้งที่ไม่ได้แสดงตัวอย่างวิธีที่คุณต้องการให้โมเดลภาษาขนาดใหญ่ตอบสนอง เช่น

ส่วนต่างๆ ของข้อความแจ้งรายการเดียว Notes
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคืออะไร คำถามที่ต้องการให้ LLM ตอบ
อินเดีย: ข้อความค้นหาจริง

โมเดลภาษาขนาดใหญ่อาจตอบกลับด้วยสิ่งต่อไปนี้

  • รูปี
  • INR
  • รูปีอินเดีย
  • รูปี
  • รูปีอินเดีย

ถูกทุกข้อ แต่คุณควรใช้รูปแบบใดรูปแบบหนึ่งโดยเฉพาะ

เปรียบเทียบข้อความแจ้งแบบเซโรช็อตกับข้อความต่อไปนี้