멀티모달 텍스트 및 이미지 프롬프팅

멀티모달 프롬프트는 여러 입력 유형 형식을 결합하는 대규모 언어 모델 (LLM)을 위한 프롬프트 유형입니다. 형식이란 텍스트나 이미지와 같은 입력을 나타냅니다. 멀티모달 프롬프트와 이를 지원하는 LLM은 이미지 분류, 필기 인식, 번역, 기타 창의적인 시나리오 등 흥미로운 여러 사용 사례를 지원합니다.

이 문서에서는 Gemini 모델에 텍스트와 이미지를 입력하고 텍스트 전용 응답을 받을 때 8가지 흥미로운 예를 탐색하여 얻을 수 있는 프롬프트 유형에 중점을 둡니다.

멀티모달 프롬프트란 무엇인가요?

현재 Gemini는 텍스트 또는 이미지 입력을 혼합하여 메시지를 표시하고 텍스트 전용 응답을 반환할 수 있습니다. 텍스트는 이미지의 컨텍스트를 제공하거나 모델이 작동하도록 요청하거나 이미지에 대한 응답을 생성하는 데 사용할 수 있습니다.

예를 들어 다음은 멀티모달 프롬프트입니다.

alt_text

"고양이가 무슨 색이야?"

이 프롬프트의 텍스트는 이미지에 고양이가 있으며 주로 고양이와 고양이의 색에만 관심이 있음을 명확히 하여 이미지의 컨텍스트를 제공합니다.

3가지 간단한 멀티모달 프롬프트

다음은 LLM에 텍스트와 함께 이미지를 제공하고 텍스트 전용 응답을 허용하는 매우 간단한 세 가지 예입니다. 이미지에서 항목 유형을 인식하고 사전 결정되지 않은 지식 없이 이미지 속 항목을 분류하는 개념, 마지막으로 인식과 계산을 결합하는 예를 살펴보겠습니다.

분류

alt_text

"이 이미지에 고양이가 포함되어 있나요? 참 또는 거짓으로 응답하세요."

Gemini의 응답:

이 예는 이미지에 있는 항목의 존재 여부를 인식하고 불리언 방식으로 개발자에게 응답하는 LLM의 기능을 강조하는 매우 간단한 예입니다. 이 접근 방식은 필터링 또는 기타 목적으로 특정 콘텐츠를 감지하는 데 유용할 수 있습니다.

전용 영상 인식 모델은 특정 작업에서는 잠재적으로 더 효과적일 수 있습니다. 하지만 커스텀 ML 모델을 만들려면 시간과 전문 지식이 필요합니다 Gemini를 사용한 솔루션을 더 빠르게 빌드할 수 있습니다. 따라서 여러 모델에서 사용 가능한 응답 품질을 비교하고 이러한 절충점을 기준으로 결정하는 것이 중요합니다.

인정

alt_text

"이 사진의 중요한 항목을 모두 나열해 줘."

Gemini의 응답:

  1. Google 노트북
  2. Google 펜
  3. 머그잔

위의 예시는 이미지에 나타나는 콘텐츠와 관련하여 LLM에 미해결 질문을 요청할 수 있다는 사실을 강조합니다. Gemini를 사용하면 이미지 분류 프로세스에 다양한 유형의 객체 (예: 책 또는 머그잔)에 다른 모델이 필요하지 않습니다. 대신 단일 모델을 사용하여 한 번의 패스에서 모든 중요한 요소를 식별했습니다.

개수 계산

alt_text

"이 사진에 있는 고양이의 수를 세어 보세요. 응답의 최종 숫자만 알려주세요.
번호만 알려주세요.'

Gemini의 응답:

3

이 예에서는 특정 유형 객체에 대한 요청을 포함하고 그림에서 집계되도록 지정합니다. 또한 프롬프트의 순수한 숫자 응답에 응답을 포함하도록 요청했습니다. 그러나 계산해야 하는 이미지의 객체 수에 따라 품질이 다를 수 있습니다. Gemini는 범용 멀티모달 모델이므로 작은 숫자를 넘어서는 정밀도가 제한될 수 있습니다.

5가지 고급 멀티모달 프롬프트

이제 텍스트 및 이미지 입력이 포함된 멀티모달 프롬프팅을 활용할 수 있는 고급 방법의 몇 가지 흥미로운 예를 살펴보겠습니다.

텍스트 인식, 추론, 계산

alt_text

"오늘 벌어들인 총 금액은 얼마였어? 이유를 설명하세요."

Gemini의 응답:

오늘 벌어들인 총 금액은 100달러입니다.

메모에 캘린더 5개가 각각 20달러에 판매되었다고 되어 있기 때문입니다. 5 x 20,000원 = 100,000원

이 고급 프롬프트와 이미지는 Gemini의 여러 기능을 한 번에 보여줍니다. 첫 번째는 필기 인식입니다. AI는 영어로 된 텍스트가 판매된 캘린더 수와 판매 가격을 나타낸다는 것을 인식했습니다. 또한 숫자 집계 개념을 나타내는 프롬프트를 통해 AI는 5점 총계 (즉, 세로선 4개와 가로 취소선 1개)의 표기법을 인식했습니다. 마지막으로 AI에 계산 단계를 안내하는 프롬프트를 통해 AI가 수익을 계산하는 방법을 살펴볼 수 있습니다.

세계 상황 및 이유

alt_text

"24시간 후에 이 사진에서 지금 몇 시야?"

Gemini의 응답:

19:30

이 예에서는 모델이 장면의 조명을 인식하고 특정 시간 범위 내의 이미지에서 시간 정보를 추론하는 기능을 강조합니다.

해석 및 창의성

alt_text

"이 사진에 관한 하이쿠를 작성해 줘."

Gemini의 응답:

호수 옆에 벤치가 있고

너머의 산 전망,

평화로운 순간

스토리텔링에 활용되는 Gemini의 힘과 생성형 AI를 더욱 창의적인 방식으로 활용하는 방법을 살펴보겠습니다. 이미지를 시작점으로 제공하면 AI가 스토리를 가져오는 위치 또는 이미지의 어떤 특징을 AI가 특히 스토리와 통합하기로 결정하는지 확인할 수 있습니다. 이야기 생성을 요청하는 순수한 텍스트는 초기 아이디어로 제한되는 경우가 많지만 실제 사진은 AI의 사고 과정을 위한 강력한 출발점이 될 수 있습니다.

논리적 진행

alt_text

'다음 단계는 무엇인가요? 이유를 설명하세요."

Gemini의 응답:

삼각형의 변은 3개이고 정사각형은 변이 4개이며 오각형의 변은 5개입니다. 면 수는 각 도형마다 1씩 증가합니다. 따라서 다음 도형은 6개의 면으로, 즉 육각형이어야 합니다.

이 예에서는 Gemini의 여러 기술을 결합했습니다. 도형을 인식할 뿐만 아니라 도형이 약간 조잡하게 그려졌지만 수학적으로 결합된 고유한 도형이며 특정 속성 (예: 3면, 4면, 5면)임을 이해합니다.

또한 물음표가 표시되더라도 기하학적 도형의 논리적 진행을 해석할 때 Gemini를 혼란스럽게 하지 않습니다. 대신 Gemini는 이것이 3, 4에서 5로 수학적 진행이며 마지막 도형이 6면이고 적절하게 육각형을 제안할 것임을 '인식'합니다.

세계 해석 및 이해

alt_text

다음 중 글을 작성하기에 더 적합한 것은 무엇입니까? 어떤 스카프가 더 적합할까요?

Gemini의 응답:

표면이 매끄럽고 잉크가 번져 나오지 않으므로 종이에 글씨를 쓸 때 더 좋습니다. 이 천은 부드럽고 보온을 보이므로 스카프를 만들기에 더 좋습니다.

여기서는 매우 혁신적인 방식으로 Gemini를 활용하고 있습니다. AI는 이미지를 이해할 뿐만 아니라, 보이는 것에서 속성과 실제 세계의 물리적 특성을 유추합니다. 추론은 객체의 재료에 대한 시각적인 이해와 프롬프트에 설명된 목적과 상호작용하는 방식을 기반으로 합니다.

결론

이상은 멀티모달 프롬프트를 사용하는 방법의 몇 가지 예에 불과합니다. LLM을 사용하면 멀티모달 프롬프트를 사용하여 텍스트와 이미지를 이해할 수 있을 뿐만 아니라 새로운 아이디어를 형성하거나 이러한 아이디어에서 이해를 추출할 수 있습니다. 다양한 유형의 멀티모달 프롬프트를 실험해 보고 무엇을 만들 수 있는지 확인하는 것이 좋습니다.