प्रीफ़िक्स कैश मेमोरी एक ऐसी सुविधा है जो अनुमान लगाने में लगने वाले समय को कम करती है. ऐसा इसलिए होता है, क्योंकि यह सुविधा शेयर किए गए और बार-बार इस्तेमाल किए जाने वाले प्रॉम्प्ट प्रीफ़िक्स के प्रोसेसिंग के दौरान एलएलएम की इंटरमीडिएट स्थिति को सेव करती है और उसका फिर से इस्तेमाल करती है. प्रीफ़िक्स कैश मेमोरी को चालू करने के लिए, आपको अपने एपीआई अनुरोध में स्टैटिक प्रीफ़िक्स को डाइनैमिक सफ़िक्स से अलग करना होगा.
फ़िलहाल, प्रीफ़िक्स कैश मेमोरी में सिर्फ़ टेक्स्ट वाला इनपुट सेव किया जा सकता है. इसलिए, अगर आपको अपने प्रॉम्प्ट में कोई इमेज देनी है, तो इस सुविधा का इस्तेमाल न करें.
प्रीफ़िक्स कैश मेमोरी को लागू करने के दो तरीके हैं: इंप्लिसिट या एक्सप्लिसिट:
- इंप्लिसिट प्रीफ़िक्स कैश मेमोरी एक आसान तरीका है. इसमें ऐप्लिकेशन को सिर्फ़ प्रॉम्प्ट का शेयर किया गया हिस्सा तय करना होता है.
- प्रीफ़िक्स को साफ़ तौर पर कैश मेमोरी में सेव करने की सुविधा की मदद से, ऐप्लिकेशन को कैश मेमोरी पर ज़्यादा कंट्रोल मिलता है. जैसे, कैश मेमोरी बनाना, क्वेरी करना, और उसे मिटाना.
प्रीफ़िक्स कैश मेमोरी का इस्तेमाल करना
प्रीफ़िक्स कैश मेमोरी की सुविधा चालू करने के लिए, प्रॉम्प्ट के शेयर किए गए हिस्से को promptPrefix फ़ील्ड में जोड़ें. ऐसा करने का तरीका, यहां दिए गए कोड स्निपेट में दिखाया गया है:
Kotlin
val promptPrefix = "Reverse the given sentence: "
val dynamicSuffix = "Hello World"
val result = generativeModel.generateContent(
generateContentRequest(TextPart(dynamicSuffix)) {
promptPrefix = PromptPrefix(promptPrefix)
}
)
Java
String promptPrefix = "Reverse the given sentence: ";
String dynamicSuffix = "Hello World";
GenerateContentResponse response = generativeModelFutures.generateContent(
new GenerateContentRequest.Builder(new TextPart(dynamicSuffix))
.setPromptPrefix(new PromptPrefix(promptPrefix))
.build())
.get();
ऊपर दिए गए स्निपेट में, dynamicSuffix को मुख्य कॉन्टेंट के तौर पर पास किया गया है. साथ ही, promptPrefix को अलग से उपलब्ध कराया गया है.
परफ़ॉर्मेंस में अनुमानित बढ़ोतरी
प्रीफ़िक्स कैश मेमोरी के बिना |
cache-hit प्रीफ़िक्स के साथ (प्रीफ़िक्स का इस्तेमाल पहली बार करने पर, प्रीफ़िक्स कैश मेमोरी में मौजूद न होने की समस्या हो सकती है) |
|
Pixel 9 के लिए, 300 टोकन वाला फ़िक्स्ड प्रीफ़िक्स और 50 टोकन वाला डाइनैमिक सफ़िक्स प्रॉम्प्ट |
0.82 सेकंड |
0.45 सेकंड |
Pixel 9 के लिए, 1,000 टोकन वाला फ़िक्स्ड प्रीफ़िक्स और 100 टोकन वाला डाइनैमिक सफ़िक्स प्रॉम्प्ट |
2.11 सेकंड |
0.5 सेकंड |
स्टोरेज से जुड़ी बातें
इम्प्लिसिट प्रीफ़िक्स कैश मेमोरी की सुविधा के साथ, कैश मेमोरी वाली फ़ाइलें क्लाइंट ऐप्लिकेशन के प्राइवेट स्टोरेज में सेव की जाती हैं. इससे आपके ऐप्लिकेशन के स्टोरेज का इस्तेमाल बढ़ जाता है. एन्क्रिप्ट की गई कैश मेमोरी फ़ाइलें और उनसे जुड़ा मेटाडेटा सेव किया जाता है. इसमें ओरिजनल प्रीफ़िक्स टेक्स्ट भी शामिल है. स्टोरेज से जुड़ी इन बातों का ध्यान रखें:
- कैश की संख्या को एलआरयू (लीस्ट रिसेंटली यूज़्ड) मेकेनिज़्म से मैनेज किया जाता है. कैश मेमोरी की कुल सीमा से ज़्यादा होने पर, सबसे कम इस्तेमाल की गई कैश मेमोरी अपने-आप मिट जाती है.
- प्रॉम्प्ट कैश मेमोरी का साइज़, प्रीफ़िक्स की लंबाई पर निर्भर करता है.
प्रीफ़िक्स कैश मेमोरी की सुविधा से बनाई गई सभी कैश मेमोरी मिटाने के लिए,
generativeMode.clearImplicitCaches()तरीके का इस्तेमाल करें.
कैश मेमोरी को मैनेज करने के लिए, साफ़ तौर पर निर्देश देना
Prompt API में, कैश मेमोरी को मैनेज करने के तरीके शामिल हैं. इससे डेवलपर को यह कंट्रोल मिलता है कि कैश मेमोरी कैसे बनाई जाती है, खोजी जाती है, इस्तेमाल की जाती है, और हटाई जाती है. ये मैन्युअल ऑपरेशन, सिस्टम के अपने-आप कैश मेमोरी मैनेज करने की सुविधा से अलग होते हैं.
इस उदाहरण में, कैश मेमोरी को मैनेज करने की सुविधा को चालू करने और अनुमान लगाने का तरीका बताया गया है:
Kotlin
val cacheName = "my_cache"
val promptPrefix = "Reverse the given sentence: "
val dynamicSuffix = "Hello World"
// Create a cache
val cacheRequest = createCachedContextRequest(cacheName, PromptPrefix(promptPrefix))
val cache = generativeModel.caches.create(cacheRequest)
// Run inference with the cache
val response = generativeModel.generateContent(
generateContentRequest(TextPart(dynamicSuffix)) {
cachedContextName = cache.name
}
)
Java
String cacheName = "my_cache";
String promptPrefix = "Reverse the given sentence: ";
String dynamicSuffix = "Hello World";
// Create a cache
CachedContext cache = cachesFutures.create(
new CreateCachedContextRequest.Builder(cacheName, new PromptPrefix(promptPrefix))
.build())
.get();
// Run inference with the cache
GenerateContentResponse response = generativeModelFutures.generateContent(
new GenerateContentRequest.Builder(new TextPart(dynamicSuffix))
.setCachedContextName(cache.getName())
.build())
.get();
इस उदाहरण में, generativeModel.caches का इस्तेमाल करके, साफ़ तौर पर मैनेज की गई कैश मेमोरी को क्वेरी करने, वापस पाने, और मिटाने का तरीका बताया गया है:
Kotlin
val cacheName = "my_cache"
// Query pre-created caches
for (cache in generativeModel.caches.list()) {
// Do something with cache
}
// Get specific cache
val cache = generativeModel.caches.get(cacheName)
// Delete a pre-created cache
generativeModel.caches.delete(cacheName)
Java
String cacheName = "my_cache";
// Query pre-created caches
for (PrefixCache cache : cachesFutures.list().get()) {
// Do something with cache
}
// Get specific cache
PrefixCache cache = cachesFutures.get(cacheName).get();
// Delete a pre-created cache
cachesFutures.delete(cacheName);