প্রিফিক্স ক্যাশিং ব্যবহার করে অনুমানের গতি অপ্টিমাইজ করুন

প্রিফিক্স ক্যাশিং এমন একটি বৈশিষ্ট্য যা একটি শেয়ার্ড এবং পুনরাবৃত্ত প্রম্পট প্রিফিক্স অংশ প্রক্রিয়াকরণের মধ্যবর্তী LLM অবস্থা সংরক্ষণ এবং পুনঃব্যবহার করে অনুমানের সময় হ্রাস করে। প্রিফিক্স ক্যাশিং সক্ষম করতে, আপনাকে কেবল আপনার API অনুরোধে ডায়নামিক প্রিফিক্স থেকে স্ট্যাটিক প্রিফিক্স আলাদা করতে হবে।

প্রিফিক্স ক্যাশিং বর্তমানে শুধুমাত্র টেক্সট-ওনলি ইনপুট সমর্থন করে, তাই আপনার প্রম্পটে কোনও ছবি প্রদান করলে এই বৈশিষ্ট্যটি ব্যবহার করা উচিত নয়।

প্রিফিক্স ক্যাশিং বাস্তবায়নের দুটি পদ্ধতি রয়েছে: অন্তর্নিহিত বা স্পষ্ট:

প্রিফিক্স ক্যাশিং পরোক্ষভাবে ব্যবহার করুন

প্রিফিক্স ক্যাশিং সক্ষম করতে, প্রম্পটের ভাগ করা অংশটি promptPrefix ফিল্ডে যোগ করুন, যেমনটি নিম্নলিখিত কোড স্নিপেটে দেখানো হয়েছে:

কোটলিন

val promptPrefix = "Reverse the given sentence: "
val dynamicSuffix = "Hello World"

val result = generativeModel.generateContent(
  generateContentRequest(TextPart(dynamicSuffix)) {
    promptPrefix = PromptPrefix(promptPrefix)
  }
)

জাভা

String promptPrefix = "Reverse the given sentence: ";
String dynamicSuffix = "Hello World";

GenerateContentResponse response = generativeModelFutures.generateContent(
    new GenerateContentRequest.Builder(new TextPart(dynamicSuffix))
    .setPromptPrefix(new PromptPrefix(promptPrefix))
    .build())
    .get();

পূর্ববর্তী স্নিপেটে, dynamicSuffix কে প্রধান কন্টেন্ট হিসেবে পাস করা হয়েছে, এবং promptPrefix আলাদাভাবে প্রদান করা হয়েছে।

আনুমানিক কর্মক্ষমতা লাভ

প্রিফিক্স ক্যাশিং ছাড়াই

প্রিফিক্স ক্যাশে-হিট সহ

(প্রথমবার প্রিফিক্স ব্যবহার করলে প্রিফিক্স ক্যাশে-মিস হতে পারে)

৩০০-টোকেন ফিক্সড প্রিফিক্স এবং ৫০-টোকেন ডাইনামিক সাফিক্স প্রম্পট সহ পিক্সেল ৯

০.৮২ সেকেন্ড

০.৪৫ সেকেন্ড

১,০০০-টোকেন ফিক্সড প্রিফিক্স এবং ১০০-টোকেন ডাইনামিক সাফিক্স প্রম্পট সহ পিক্সেল ৯

২.১১ সেকেন্ড

০.৫ সেকেন্ড

স্টোরেজ বিবেচ্য বিষয়গুলি

অন্তর্নিহিত প্রিফিক্স ক্যাশিংয়ের মাধ্যমে, ক্যাশে ফাইলগুলি ক্লায়েন্ট অ্যাপ্লিকেশনের ব্যক্তিগত স্টোরেজে সংরক্ষণ করা হয়, যা আপনার অ্যাপের স্টোরেজ ব্যবহার বৃদ্ধি করে। এনক্রিপ্ট করা ক্যাশে ফাইল এবং তাদের সম্পর্কিত মেটাডেটা, মূল প্রিফিক্স টেক্সট সহ, সংরক্ষণ করা হয়। নিম্নলিখিত স্টোরেজ বিবেচনাগুলি মনে রাখবেন:

  • ক্যাশের সংখ্যা একটি LRU (সর্বনিম্ন ব্যবহৃত) প্রক্রিয়া দ্বারা পরিচালিত হয়। সর্বাধিক মোট ক্যাশের পরিমাণ অতিক্রম করলে সর্বনিম্ন ব্যবহৃত ক্যাশ স্বয়ংক্রিয়ভাবে মুছে ফেলা হয়।
  • প্রম্পট ক্যাশের আকার প্রিফিক্সের দৈর্ঘ্যের উপর নির্ভর করে।
  • প্রিফিক্স ক্যাশিং থেকে তৈরি সমস্ত ক্যাশ সাফ করতে, generativeMode.clearImplicitCaches() পদ্ধতিটি ব্যবহার করুন।

স্পষ্ট ক্যাশে ব্যবস্থাপনা ব্যবহার করুন

প্রম্পট এপিআইতে স্পষ্ট ক্যাশে ব্যবস্থাপনা পদ্ধতি অন্তর্ভুক্ত রয়েছে যা ডেভেলপারদের ক্যাশে কীভাবে তৈরি, অনুসন্ধান, ব্যবহার এবং অপসারণ করা হয় তার উপর আরও সুনির্দিষ্ট নিয়ন্ত্রণ দেয়। এই ম্যানুয়াল ক্রিয়াকলাপগুলি সিস্টেমের স্বয়ংক্রিয় ক্যাশে পরিচালনার উপর নির্ভর করে স্বাধীনভাবে চলে।

এই উদাহরণটি ব্যাখ্যা করে কিভাবে স্পষ্ট ক্যাশে ব্যবস্থাপনা শুরু করতে হয় এবং অনুমান করতে হয়:

কোটলিন

val cacheName = "my_cache"
val promptPrefix = "Reverse the given sentence: "
val dynamicSuffix = "Hello World"

// Create a cache
val cacheRequest = createCachedContextRequest(cacheName, PromptPrefix(promptPrefix))
val cache = generativeModel.caches.create(cacheRequest)

// Run inference with the cache
val response = generativeModel.generateContent(
  generateContentRequest(TextPart(dynamicSuffix)) {
    cachedContextName = cache.name
  }
)

জাভা

String cacheName = "my_cache";
String promptPrefix = "Reverse the given sentence: ";
String dynamicSuffix = "Hello World";

// Create a cache
CachedContext cache = cachesFutures.create(
  new CreateCachedContextRequest.Builder(cacheName, new PromptPrefix(promptPrefix))
  .build())
  .get();

// Run inference with the cache
GenerateContentResponse response = generativeModelFutures.generateContent(
  new GenerateContentRequest.Builder(new TextPart(dynamicSuffix))
  .setCachedContextName(cache.getName())
  .build())
  .get();

এই উদাহরণটি দেখায় কিভাবে generativeModel.caches ব্যবহার করে স্পষ্টভাবে পরিচালিত ক্যাশেগুলি অনুসন্ধান, পুনরুদ্ধার এবং মুছে ফেলা যায়:

কোটলিন

val cacheName = "my_cache"

// Query pre-created caches
for (cache in generativeModel.caches.list()) {
  // Do something with cache
}

// Get specific cache
val cache = generativeModel.caches.get(cacheName)

// Delete a pre-created cache
generativeModel.caches.delete(cacheName)

জাভা

String cacheName = "my_cache";

// Query pre-created caches
for (PrefixCache cache : cachesFutures.list().get()) {
  // Do something with cache
}

// Get specific cache
PrefixCache cache = cachesFutures.get(cacheName).get();

// Delete a pre-created cache
cachesFutures.delete(cacheName);