הנחיות עם טקסט ותמונה בכמה מצבים

הנחיות מרובות מצבים הן סוג של הנחיות למודלים גדולים של שפה (LLM) שמשלבים כמה פורמטים של סוגי קלט. בפורמטים אנחנו מתייחסים לקלט כמו טקסט או תמונות. הנחיות מרובות מודלים ו-LLMs שתומכים בהן מאפשרות מגוון תרחישים מעניינים לשימוש, כולל סיווג תמונות, זיהוי כתב יד, תרגום ותרחישים יצירתיים אחרים.

במסמך הזה נתמקד בסוגים של הנחיות שאפשר לקבל כשמזינים טקסט ותמונה במודל Gemini, וכשמקבלים תגובה עם טקסט בלבד, מקבלים 8 דוגמאות מעניינות.

מהי פרומפט מרובה מצבים?

כיום, ניתן כעת להציג ב-Gemini שילוב של קלט טקסט ו/או תמונה ולהחזיר תשובה של טקסט בלבד. אפשר להשתמש בטקסט כדי לספק הקשר לתמונה או כדי לבקש מהמודל להפעיל או ליצור תשובה לגבי התמונה.

לדוגמה, זו פרומפט מרובה מצבים:

alt_text

"What color is the cat?"

הטקסט בהנחיה הזו מבהיר שבתמונה יש חתול ושאנחנו מעוניינים בעיקר רק בחתול ובצבעו.

3 הנחיות פשוטות בכמה מצבים

בהמשך מוצגות שלוש דוגמאות פשוטות מאוד לניסוח תמונה עם טקסט ל-LLM ולקבלת תשובה בפורמט טקסט בלבד. נחקור את המושגים של זיהוי סוג של ישות בתמונה, נסווג ישויות בתמונה בלי ידע מוגדר מראש, ולבסוף נדגים איך לשלב זיהוי עם חישוב.

סיווג

alt_text

"האם התמונה הזו מכילה חתול? יש להשיב עם הערך 'true' או 'false'."

תשובה מ-Gemini:

נכון

זו דוגמה פשוטה מאוד שמדגישה את היכולת של ה-LLM לזהות את הקיום של משהו שנמצא בתמונה או לא, ולהגיב למפתח באופן בוליאני. זה יכול להיות שימושי לזיהוי תוכן ספציפי לצורכי סינון או מטרות אחרות.

חשוב לציין שמודלים ייעודיים לזיהוי תמונות יכולים להיות יעילים יותר במשימות מאוד ספציפיות. אבל כדי ליצור מודלים מותאמים אישית של למידת מכונה, צריך זמן ומומחיות. אפשר לפתח במהירות פתרונות באמצעות Gemini. לכן חשוב להשוות את איכות התשובות הזמינות בין המודלים השונים, ולהחליט על סמך ההשפעות האלה.

הכרה

alt_text

"אני רוצה לקבל רשימה של כל הדברים החשובים בתמונה הזו".

תשובה מ-Gemini:

  1. מחברת של Google
  2. עט של Google
  3. ספל

הדוגמה שלמעלה מדגישה את העובדה שאנחנו יכולים לבקש ל-LLM שאלה פתוחה לגבי התוכן שמופיע בתמונה. באמצעות Gemini, תהליך סיווג התמונות לא מחייב מודלים שונים לסוגים שונים של אובייקטים (כמו ספרים או ספלים). במקום זאת, באמצעות מודל אחד, זיהינו את כל הרכיבים המשמעותיים במעבר אחד.

ספירה

alt_text

"כמה חתולים יש בתמונה הזו. תמסור לי רק את המספר הסופי בתשובה.
אני רוצה לקבל רק מספר"

תשובה מ-Gemini:

3

בדוגמה הזו, יש לנו את הבקשה לאובייקט מסוג מסוים בלבד ומציינים שאנחנו רוצים שהיא תיספר בתמונה. בנוסף, ביקשנו מכם לכלול את התשובה בתשובה מספרית בלבד בהנחיה. עם זאת, האיכות עשויה להשתנות בהתאם למספר האובייקטים בתמונה שצריך לספור. Gemini הוא מודל רב-אופני למטרה כללית, כך שהדיוק שלו מעבר למספרים קטנים עשוי להיות מוגבל.

5 הנחיות מתקדמות בנושא ריבוי מצבים

בהמשך נסביר על כמה דוגמאות מעניינות לדרכים מתקדמות יותר שבהן אפשר להשתמש בהנחיות לכמה מצבים עם קלט טקסט ותמונה.

זיהוי טקסט, הסבר וחישוב

alt_text

"כמה כסף הרווחנו היום? מסבירים את ההיגיון שלכם."

תשובה מ-Gemini:

סכום הכסף הכולל שהרווחת היום הוא 100$.

זאת מכיוון שבהערה כתוב ש-5 יומנים נמכרו ב-80 ש"ח לכל אחד. 5 x 80 ש"ח = 400 ש"ח.

באמצעות התמונה וההנחיה המתקדמות האלה, מדגימות כמה תכונות של Gemini בו-זמנית. קודם כל, טכנולוגיית ה-AI זיהתה שהטקסט שנכתב באנגלית מתייחס למספר היומנים שנמכרו ובאיזה מחיר נמכר כל אחד. בנוסף, מכיוון שההנחיה שלנו מתארת את המושג 'חישוב מספרים', ה-AI זיהה את הסימון של 5 נקודות (כלומר, 4 קווים אנכיים וקו חוצה אופקי אחד). לבסוף, בעזרת ההנחיות שלנו ל-AI לפי שלבי החישוב, אנחנו יכולים לקבל הדרכה מפורטת על האופן שבו מערכת ה-AI חישבה את ההכנסות.

הקשר עולמי והיגיון

alt_text

"What time of day is it in this picture in 24 hours time"

תשובה מ-Gemini:

19:30

בדוגמה הזו מודגשת היכולת של המודל לזהות את התאורה של הסצנה ולהסיק את המידע על זמני התמונות במסגרת זמן מסוימת.

פרשנות ויצירתיות

alt_text

"כתיבת הייקו על התמונה הזו".

תשובה מ-Gemini:

ספסל על שפת האגם,

נוף של ההרים שמעבר,

רגע של שלווה.

כאן אנחנו רואים את היכולות של Gemini לסיפורים, ודרכים יצירתיות יותר לשימוש ב-AI גנרטיבי. תמונה כנקודת ההתחלה היא הדרך שלנו להפתיע את עצמנו: לאן ה-AI לוקח את העלילה או אילו תכונות מהתמונה הזו החליטו לשלב בסיפור. יצירת טקסט טהור ליצירת סיפורים מוגבלת בדרך כלל לרעיון הראשוני שלנו, אבל תמונה מהעולם האמיתי יכולה להיות נקודת התחלה מצוינת לתהליך החשיבה של AI.

התקדמות לוגית

alt_text

"מה השלב הבא? להסביר את הנימוקים שלכם"

תשובה מ-Gemini:

למשולש יש 3 צלעות, לריבוע יש 4 צלעות ולמחומש יש 5 צלעות. מספר הצלעות גדל ב-1 בכל צורה. לכן, לצורה הבאה צריכים להיות 6 צדדים שהם משושה.

הדוגמה הזו עדיין משלבת מספר מיומנויות של Gemini. לא זו בלבד שהיא מזהה את הצורות, אלא גם מבינה שהצורות, על אף שהן מסומנות קצת בגסות, נועדו להיות צורות מובחןות עם קשר מתמטי עם מאפיינים ספציפיים (למשל 3 צלעות, 4 צלעות, 5 צלעות).

מעבר לכך, נוכחות סימן השאלה לא מבלבלת את Gemini בפרשנות הלוגית להתקדמות הלוגית של הצורות הגאומטריות. במקום זאת, תאומים "רואים" שזו התקדמות מתמטית מ-3, 4 ל-5 ושלכן הצורה האחרונה תהיה דו-צדדית ומציעה משושה בצורה הולמת.

פרשנות והבנת עולם

alt_text

באיזה נושא הכי מתאים לכתוב? איך אפשר להכין צעיף?

תשובה מ-Gemini:

הוא מתאים יותר לכתיבה כי הוא משטח חלק והדיו לא מדמם. הבד מתאים יותר לצעיף כי הוא רך ויחמם אתכם.

כאן אנחנו ממנפים את Gemini בדרך חדשנית מאוד. הבינה המלאכותית לא רק מבינה את התמונות, אלא מסיקה מאפיינים ופיזיקליות בעולם האמיתי על סמך מה שהיא רואה. הסיבה לכך מבוססת על הבנה חזותית של החומרים של האובייקטים ועל האינטראקציה שלהם עם המטרות המתוארות בהנחיה.

סיכום

אלה רק כמה דוגמאות לדרכים שבהן אפשר להשתמש בהנחיות מרובות מצבים. במודלי שפה גדולים אפשר להשתמש בהנחיות מרובות מצבים, לא רק כדי להבין טקסט ותמונות, אלא גם כדי לגבש רעיונות חדשים או לחלץ מהם הבנה. אנחנו ממליצים לנסות סוגים שונים של הנחיות מרובות מצבים כדי לראות מה אפשר ליצור.