หน้านี้ได้รับการแปลโดย Cloud Translation API

การแสดงข้อความแจ้งเกี่ยวกับข้อความและรูปภาพหลายรูปแบบ

พรอมต์แบบหลายโมดัลเป็นพรอมต์ประเภทหนึ่งสำหรับโมเดลภาษาขนาดใหญ่ (LLM) ซึ่งรวมรูปแบบอินพุตหลายรูปแบบเข้าด้วยกัน รูปแบบที่เราใช้หมายถึงอินพุตอย่างข้อความ หรือรูปภาพ พรอมต์หลายรูปแบบและ LLM ที่รองรับข้อมูลดังกล่าวจะช่วยให้ได้กรณีการใช้งานที่น่าสนใจหลากหลาย เช่น การจัดประเภทรูปภาพ การจดจำลายมือ การแปล และสถานการณ์สร้างสรรค์อื่นๆ

ในเอกสารนี้ เราจะเน้นประเภทของพรอมต์ที่สามารถทำได้เมื่อป้อนข้อความและรูปภาพลงในโมเดล Gemini และได้รับการตอบกลับที่เป็นข้อความเท่านั้นด้วยการสำรวจตัวอย่างที่น่าสนใจ 8 รายการ

ข้อความแจ้งแบบหลายโมดัลคืออะไร

ปัจจุบัน Gemini จะได้รับข้อความแจ้งด้วยข้อความและ/หรือรูปภาพผสมกัน และแสดงผลการตอบกลับแบบข้อความเท่านั้น ข้อความอาจใช้เพื่อให้บริบทสำหรับรูปภาพ หรืออาจใช้เพื่อขอให้โมเดลทำงานหรือสร้างคำตอบเกี่ยวกับรูปภาพ

ตัวอย่างต่อไปนี้เป็นพรอมต์แบบหลายโมดัล

alt_text

"แมวสีอะไร"

ข้อความในพรอมต์นี้ให้บริบทของรูปภาพโดยอธิบายให้ชัดเจนว่ามีแมวอยู่ในรูปภาพ และเราสนใจเฉพาะแมวเท่านั้นและสีของแมว

ข้อความแจ้งแบบหลายโมดัลแบบง่าย 3 รายการ

ต่อไปนี้เป็นตัวอย่างง่ายๆ 3 ตัวอย่างสำหรับการส่งรูปภาพพร้อมกับข้อความไปยัง LLM และการยอมรับการตอบกลับที่เป็นข้อความเท่านั้น เราจะสำรวจแนวคิดของการจดจำเอนทิตีประเภทหนึ่งในรูป จำแนกเอนทิตีในรูปภาพโดยไม่มีความรู้ที่กำหนดไว้ล่วงหน้า และสุดท้ายคือตัวอย่างการรวมการจดจำเข้ากับการคำนวณ

การจำแนกประเภท

alt_text

"รูปนี้มีแมวไหม ให้ตอบว่าจริงหรือเท็จก็ได้"

คำตอบจาก Gemini:

จริง

นี่เป็นตัวอย่างง่ายๆ ที่ไฮไลต์ความสามารถของ LLM ในการจดจำสิ่งที่อยู่ในรูปภาพหรือไม่ และโต้ตอบกับนักพัฒนาซอฟต์แวร์ในลักษณะบูลีน วิธีนี้อาจเป็นประโยชน์สำหรับการตรวจหาเนื้อหาที่เฉพาะเจาะจงเพื่อการกรองหรือวัตถุประสงค์อื่นๆ

โปรดทราบว่าโมเดลการจดจำรูปภาพโดยเฉพาะอาจมีประสิทธิภาพมากกว่าสำหรับงานที่เฉพาะเจาะจงมากๆ อย่างไรก็ตาม การสร้างรูปแบบ ML ที่กำหนดเอง ต้องใช้เวลาและความเชี่ยวชาญ โซลูชันที่ใช้ Gemini สามารถสร้างได้รวดเร็วมากขึ้น ดังนั้น คุณจึงจำเป็นต้องเปรียบเทียบคุณภาพของคำตอบที่มีในรูปแบบต่างๆ และตัดสินใจตามข้อดีข้อเสียเหล่านี้

เป็นที่จดจำ

alt_text

"ขอรายการสิ่งสำคัญในรูปนี้หน่อย"

คำตอบจาก Gemini:

Google Notebook

ปากกา Google

แก้วกาแฟ

ตัวอย่างด้านบนไฮไลต์ข้อเท็จจริงที่ว่าเราสามารถยื่นคําถามแบบเปิดไปยัง LLM เกี่ยวกับเนื้อหาที่ปรากฏในรูปภาพ การใช้ Gemini ช่วยให้ขั้นตอนการแยกประเภทรูปภาพไม่จำเป็นต้องใช้โมเดลที่ต่างกันสำหรับออบเจ็กต์ประเภทต่างๆ (เช่น หนังสือหรือแก้วกาแฟ) แต่หากใช้โมเดลเดียว เราได้ระบุ องค์ประกอบสำคัญทั้งหมดไว้ในขั้นตอนเดียว

การนับ

alt_text

"นับจำนวนแมวในรูปภาพนี้ ขอเฉพาะตัวเลขสุดท้ายในคำตอบนะ
บอกหมายเลขกลับเท่านั้นนะ"

คำตอบจาก Gemini:

3

ในตัวอย่างนี้ เราจะมีคำขอให้เฉพาะออบเจ็กต์ประเภทหนึ่งๆ เท่านั้น และระบุว่าเราต้องการให้นับรวมในรูป นอกจากนี้ เราได้ขอให้คำตอบนั้นมาจากคำตอบที่เป็นตัวเลขบริสุทธิ์ในข้อความแจ้ง อย่างไรก็ตาม คุณภาพอาจแตกต่างกันไปขึ้นอยู่กับจำนวนวัตถุในรูปภาพที่ต้องนับ เนื่องจาก Gemini เป็นโมเดลแบบหลายโมดัลสำหรับวัตถุประสงค์ทั่วไป ความแม่นยำมากกว่าจำนวนที่น้อยจึงอาจถูกจำกัด

ข้อความแจ้งแบบหลายโมดัลขั้นสูง 5 รายการ

ต่อไป เราจะพาไปดูตัวอย่างที่น่าสนใจเกี่ยวกับวิธีอื่นๆ ขั้นสูงที่ช่วยให้สามารถใช้การป้อนข้อมูลข้อความและรูปภาพในหลายรูปแบบได้

การจดจำข้อความ การให้เหตุผล และการคำนวณ

alt_text

"วันนี้เราทำเงินได้เท่าไหร่ โปรดอธิบายเหตุผลของคุณ"

คำตอบจาก Gemini:

รายได้ทั้งหมดที่ได้รับวันนี้เท่ากับ 3,000 บาท

เพราะในโน้ตบอกว่าแต่ละปฏิทินขายในราคา $20 5 x $20 = $100

พรอมต์และรูปภาพขั้นสูงขึ้นนี้แสดงฟีเจอร์ของ Gemini หลายๆ อย่างในครั้งเดียว อย่างแรกคือการจดจำลายมือ AI รับรู้ได้ว่าข้อความที่เขียนเป็นภาษาอังกฤษอ้างถึงจำนวนปฏิทินที่ขายและขายแต่ละปฏิทินในราคาเท่าไร นอกจากนี้ เมื่อมีข้อความแจ้งซึ่งแสดงถึงแนวคิดในการนับตัวเลข AI ก็จดจำสัญลักษณ์ในการนับ 5 แต้ม (กล่าวคือ เส้นแนวตั้ง 4 เส้นและขีดทับแนวนอน 1 เส้น) สุดท้าย ข้อความแจ้งที่นำทาง AI ในขั้นตอนการคำนวณทำให้เราได้รับคำแนะนำแบบทีละขั้นเกี่ยวกับวิธีที่ AI คำนวณรายได้

บริบทของโลกและการให้เหตุผล

alt_text

"ภาพนี้เป็นเวลา 24 ชั่วโมงของวันเท่าไร"

คำตอบจาก Gemini:

19:30

ตัวอย่างนี้ไฮไลต์ความสามารถของโมเดลในการจดจำแสงของฉากและอนุมานข้อมูลเชิงเวลาจากภาพภายในระยะเวลาที่กำหนด

การตีความและความคิดสร้างสรรค์

alt_text

"เขียนกลอนไฮกุเกี่ยวกับรูปภาพนี้"

คำตอบจาก Gemini:

ม้านั่งริมทะเลสาบ

วิวเทือกเขาที่อยู่ไกลออกไป

ช่วงเวลาแห่งความสงบ

เราเห็นศักยภาพของ Gemini ในการเล่าเรื่องและวิธีที่ใช้ Generative AI อย่างสร้างสรรค์มากขึ้น การใส่รูปภาพเป็นจุดเริ่มต้นที่ทำให้เราประหลาดใจได้ด้วยว่า AI นำโครงเรื่องหรือฟีเจอร์ใดบ้างจากรูปภาพที่ AI ตัดสินใจผสานรวมเข้ากับเรื่องราวโดยเฉพาะ พรอมต์ข้อความล้วนๆ สำหรับการสร้างเรื่องราวมักจำกัดอยู่แค่ไอเดียแรกเริ่มของเราเอง แต่รูปภาพในชีวิตจริงสามารถเป็นจุดเริ่มต้นที่ทรงพลังในกระบวนการคิดของ AI ได้

ความคืบหน้าเชิงตรรกะ

alt_text

"จะเกิดอะไรขึ้นต่อไป อธิบายเหตุผลของคุณ"

คำตอบจาก Gemini:

สามเหลี่ยมมี 3 ด้าน สี่เหลี่ยมจัตุรัสมี 4 ด้าน และห้าเหลี่ยมมี 5 ด้าน จำนวนด้านจะเพิ่มขึ้น 1 ด้านสำหรับแต่ละรูปร่าง ดังนั้น รูปร่างถัดไปควรมี 6 ด้าน ซึ่งก็คือหกเหลี่ยม

ตัวอย่างนี้เป็นการรวมทักษะหลายอย่างของ Gemini เข้าด้วยกันแล้ว มันไม่เพียงแค่จดจำรูปทรงเท่านั้น แต่ยังเข้าใจว่ารูปร่างแม้จะวาดอย่างหยาบๆ แต่รูปร่างนั้นมีเจตนาที่จะเป็นรูปทรงที่สัมพันธ์กันทางคณิตศาสตร์ที่แตกต่างกันด้วยคุณลักษณะเฉพาะ (เช่น 3 ด้าน, 4 ด้าน, 5 ด้าน)

นอกจากนี้ การแสดงเครื่องหมายคำถามไม่ได้สร้างความสับสนให้กับราศีเมถุนในการตีความความคืบหน้าเชิงตรรกะของรูปทรงเรขาคณิต แต่ราศีเมถุน "เห็น" ว่านี่คือความคืบหน้าทางคณิตศาสตร์จาก 3, 4 ถึง 5 และรูปทรงสุดท้ายจะเป็น 6 ด้านและนำเสนอรูปหกเหลี่ยมอย่างเหมาะสม

การตีความและการทำความเข้าใจโลก

alt_text

ข้อใดต่อไปนี้ที่เหมาะแก่การเขียนมากที่สุด ข้อใดเหมาะกว่านำไปทำเป็นผ้าพันคอ

คำตอบจาก Gemini:

ควรใช้กระดาษที่ใช้เขียนมากกว่า เพราะพื้นผิวเรียบและหมึกไม่ไหลผ่าน การนำผ้าไปทำเป็นผ้าพันคอจะดีกว่า เพราะมีความนุ่มและอุ่นใจเสมอ

ตรงนี้เราใช้ประโยชน์จาก Gemini อย่างสร้างสรรค์มาก AI ไม่เพียงเข้าใจภาพเท่านั้น แต่ยังอนุมานคุณลักษณะและลักษณะทางกายภาพในชีวิตจริงจากสิ่งที่เห็น การให้เหตุผลอิงตามความเข้าใจในภาพเกี่ยวกับวัสดุของวัตถุ และวิธีที่วัตถุโต้ตอบกับวัตถุประสงค์ที่ระบุไว้ในพรอมต์

สรุป

ตัวอย่างการใช้ข้อความแจ้งแบบหลายโมดัลมีดังนี้ เมื่อใช้ LLM คุณสามารถใช้พรอมต์แบบหลายโมดัลเพื่อทำความเข้าใจข้อความและรูปภาพ รวมถึงสร้างแนวคิดใหม่หรือแยกความเข้าใจออกจากข้อความได้ เราขอแนะนำให้คุณทดลองใช้พรอมต์ในหลายโมดัลประเภทต่างๆ และดูว่าคุณจะสร้างอะไรได้บ้าง