प्रीफ़िक्स कैश मेमोरी की मदद से, अनुमान लगाने की प्रोसेस को ऑप्टिमाइज़ करना

प्रीफ़िक्स कैश मेमोरी एक ऐसी सुविधा है जो अनुमान लगाने में लगने वाले समय को कम करती है. ऐसा इसलिए होता है, क्योंकि यह सुविधा शेयर किए गए और बार-बार इस्तेमाल किए जाने वाले प्रॉम्प्ट प्रीफ़िक्स के प्रोसेसिंग के दौरान एलएलएम की इंटरमीडिएट स्थिति को सेव करती है और उसका फिर से इस्तेमाल करती है. प्रीफ़िक्स कैश मेमोरी को चालू करने के लिए, आपको अपने एपीआई अनुरोध में स्टैटिक प्रीफ़िक्स को डाइनैमिक सफ़िक्स से अलग करना होगा.

फ़िलहाल, प्रीफ़िक्स कैश मेमोरी में सिर्फ़ टेक्स्ट वाला इनपुट सेव किया जा सकता है. इसलिए, अगर आपको अपने प्रॉम्प्ट में कोई इमेज देनी है, तो इस सुविधा का इस्तेमाल न करें.

प्रीफ़िक्स कैश मेमोरी को लागू करने के दो तरीके हैं: इंप्लिसिट या एक्सप्लिसिट:

प्रीफ़िक्स कैश मेमोरी का इस्तेमाल करना

प्रीफ़िक्स कैश मेमोरी की सुविधा चालू करने के लिए, प्रॉम्प्ट के शेयर किए गए हिस्से को promptPrefix फ़ील्ड में जोड़ें. ऐसा करने का तरीका, यहां दिए गए कोड स्निपेट में दिखाया गया है:

Kotlin

val promptPrefix = "Reverse the given sentence: "
val dynamicSuffix = "Hello World"

val result = generativeModel.generateContent(
  generateContentRequest(TextPart(dynamicSuffix)) {
    promptPrefix = PromptPrefix(promptPrefix)
  }
)

Java

String promptPrefix = "Reverse the given sentence: ";
String dynamicSuffix = "Hello World";

GenerateContentResponse response = generativeModelFutures.generateContent(
    new GenerateContentRequest.Builder(new TextPart(dynamicSuffix))
    .setPromptPrefix(new PromptPrefix(promptPrefix))
    .build())
    .get();

ऊपर दिए गए स्निपेट में, dynamicSuffix को मुख्य कॉन्टेंट के तौर पर पास किया गया है. साथ ही, promptPrefix को अलग से उपलब्ध कराया गया है.

परफ़ॉर्मेंस में अनुमानित बढ़ोतरी

प्रीफ़िक्स कैश मेमोरी के बिना

cache-hit प्रीफ़िक्स के साथ

(प्रीफ़िक्स का इस्तेमाल पहली बार करने पर, प्रीफ़िक्स कैश मेमोरी में मौजूद न होने की समस्या हो सकती है)

Pixel 9 के लिए, 300 टोकन वाला फ़िक्स्ड प्रीफ़िक्स और 50 टोकन वाला डाइनैमिक सफ़िक्स प्रॉम्प्ट

0.82 सेकंड

0.45 सेकंड

Pixel 9 के लिए, 1,000 टोकन वाला फ़िक्स्ड प्रीफ़िक्स और 100 टोकन वाला डाइनैमिक सफ़िक्स प्रॉम्प्ट

2.11 सेकंड

0.5 सेकंड

स्टोरेज से जुड़ी बातें

इम्प्लिसिट प्रीफ़िक्स कैश मेमोरी की सुविधा के साथ, कैश मेमोरी वाली फ़ाइलें क्लाइंट ऐप्लिकेशन के प्राइवेट स्टोरेज में सेव की जाती हैं. इससे आपके ऐप्लिकेशन के स्टोरेज का इस्तेमाल बढ़ जाता है. एन्क्रिप्ट की गई कैश मेमोरी फ़ाइलें और उनसे जुड़ा मेटाडेटा सेव किया जाता है. इसमें ओरिजनल प्रीफ़िक्स टेक्स्ट भी शामिल है. स्टोरेज से जुड़ी इन बातों का ध्यान रखें:

  • कैश की संख्या को एलआरयू (लीस्ट रिसेंटली यूज़्ड) मेकेनिज़्म से मैनेज किया जाता है. कैश मेमोरी की कुल सीमा से ज़्यादा होने पर, सबसे कम इस्तेमाल की गई कैश मेमोरी अपने-आप मिट जाती है.
  • प्रॉम्प्ट कैश मेमोरी का साइज़, प्रीफ़िक्स की लंबाई पर निर्भर करता है.
  • प्रीफ़िक्स कैश मेमोरी की सुविधा से बनाई गई सभी कैश मेमोरी मिटाने के लिए, generativeMode.clearImplicitCaches() तरीके का इस्तेमाल करें.

कैश मेमोरी को मैनेज करने के लिए, साफ़ तौर पर निर्देश देना

Prompt API में, कैश मेमोरी को मैनेज करने के तरीके शामिल हैं. इससे डेवलपर को यह कंट्रोल मिलता है कि कैश मेमोरी कैसे बनाई जाती है, खोजी जाती है, इस्तेमाल की जाती है, और हटाई जाती है. ये मैन्युअल ऑपरेशन, सिस्टम के अपने-आप कैश मेमोरी मैनेज करने की सुविधा से अलग होते हैं.

इस उदाहरण में, कैश मेमोरी को मैनेज करने की सुविधा को चालू करने और अनुमान लगाने का तरीका बताया गया है:

Kotlin

val cacheName = "my_cache"
val promptPrefix = "Reverse the given sentence: "
val dynamicSuffix = "Hello World"

// Create a cache
val cacheRequest = createCachedContextRequest(cacheName, PromptPrefix(promptPrefix))
val cache = generativeModel.caches.create(cacheRequest)

// Run inference with the cache
val response = generativeModel.generateContent(
  generateContentRequest(TextPart(dynamicSuffix)) {
    cachedContextName = cache.name
  }
)

Java

String cacheName = "my_cache";
String promptPrefix = "Reverse the given sentence: ";
String dynamicSuffix = "Hello World";

// Create a cache
CachedContext cache = cachesFutures.create(
  new CreateCachedContextRequest.Builder(cacheName, new PromptPrefix(promptPrefix))
  .build())
  .get();

// Run inference with the cache
GenerateContentResponse response = generativeModelFutures.generateContent(
  new GenerateContentRequest.Builder(new TextPart(dynamicSuffix))
  .setCachedContextName(cache.getName())
  .build())
  .get();

इस उदाहरण में, generativeModel.caches का इस्तेमाल करके, साफ़ तौर पर मैनेज की गई कैश मेमोरी को क्वेरी करने, वापस पाने, और मिटाने का तरीका बताया गया है:

Kotlin

val cacheName = "my_cache"

// Query pre-created caches
for (cache in generativeModel.caches.list()) {
  // Do something with cache
}

// Get specific cache
val cache = generativeModel.caches.get(cacheName)

// Delete a pre-created cache
generativeModel.caches.delete(cacheName)

Java

String cacheName = "my_cache";

// Query pre-created caches
for (PrefixCache cache : cachesFutures.list().get()) {
  // Do something with cache
}

// Get specific cache
PrefixCache cache = cachesFutures.get(cacheName).get();

// Delete a pre-created cache
cachesFutures.delete(cacheName);