LLM Inference API به شما امکان می دهد مدل های زبان بزرگ (LLM) را به طور کامل در مرورگر برای برنامه های کاربردی وب اجرا کنید، که می توانید از آنها برای انجام طیف گسترده ای از وظایف مانند تولید متن، بازیابی اطلاعات به صورت زبان طبیعی و خلاصه کردن اسناد استفاده کنید. این وظیفه پشتیبانی داخلی از چندین مدل زبان بزرگ متن به متن را ارائه میکند، بنابراین میتوانید آخرین مدلهای هوش مصنوعی تولیدی روی دستگاه را در برنامههای وب خود اعمال کنید.
این وظیفه از انواع زیر Gemma پشتیبانی می کند: Gemma-2 2B، Gemma 2B و Gemma 7B. جما خانواده ای از مدل های باز سبک وزن و پیشرفته است که از همان تحقیقات و فناوری استفاده شده برای ساخت مدل های جمینی ساخته شده است. همچنین از مدل های خارجی زیر پشتیبانی می کند: Phi-2 ، Falcon-RW-1B و StableLM-3B .
شما می توانید این کار را با نسخه ی نمایشی MediaPipe Studio مشاهده کنید. برای اطلاعات بیشتر در مورد قابلیتها، مدلها و گزینههای پیکربندی این کار، به نمای کلی مراجعه کنید.
نمونه کد
برنامه مثال برای LLM Inference API یک پیاده سازی اساسی از این کار در جاوا اسکریپت را برای مرجع شما ارائه می دهد. می توانید از این نمونه برنامه برای شروع ساخت برنامه تولید متن خود استفاده کنید.
میتوانید به برنامه نمونه API LLM Inference در GitHub دسترسی داشته باشید.
راه اندازی
این بخش مراحل کلیدی را برای راه اندازی محیط توسعه و پروژه های کد به طور خاص برای استفاده از LLM Inference API توضیح می دهد. برای اطلاعات کلی در مورد تنظیم محیط توسعه خود برای استفاده از MediaPipe Tasks، از جمله الزامات نسخه پلت فرم، به راهنمای راه اندازی برای وب مراجعه کنید.
سازگاری با مرورگر
LLM Inference API به یک مرورگر وب با سازگاری WebGPU نیاز دارد. برای فهرست کامل مرورگرهای سازگار، به سازگاری مرورگر GPU مراجعه کنید.
بسته های جاوا اسکریپت
کد API استنتاج LLM از طریق بسته @mediapipe/tasks-genai
در دسترس است. میتوانید این کتابخانهها را از پیوندهای ارائه شده در راهنمای راهاندازی پلتفرم پیدا و دانلود کنید.
بسته های مورد نیاز را برای مرحله بندی محلی نصب کنید:
npm install @mediapipe/tasks-genai
برای استقرار در سرور، از یک سرویس شبکه تحویل محتوا (CDN) مانند jsDelivr استفاده کنید تا کد را مستقیماً به صفحه HTML خود اضافه کنید:
<head>
<script src="https://cdn.jsdelivr.net/npm/@mediapipe/tasks-genai/genai_bundle.cjs"
crossorigin="anonymous"></script>
</head>
مدل
MediaPipe LLM Inference API به یک مدل آموزش دیده نیاز دارد که با این کار سازگار باشد. برای برنامه های تحت وب، مدل باید با GPU سازگار باشد.
برای اطلاعات بیشتر در مورد مدلهای آموزشدیده موجود برای LLM Inference API، بخش مدلهای نمای کلی کار را ببینید.
دانلود یک مدل
قبل از راه اندازی API استنتاج LLM، یکی از مدل های پشتیبانی شده را دانلود کنید و فایل را در فهرست پروژه خود ذخیره کنید:
- Gemma-2 2B : آخرین نسخه از خانواده مدل های Gemma. بخشی از یک خانواده از مدلهای باز سبک وزن و پیشرفته که از همان تحقیقات و فناوری استفاده شده برای ایجاد مدلهای Gemini ساخته شدهاند.
- Gemma 2B : بخشی از خانواده مدلهای باز سبک وزن و پیشرفته که از همان تحقیقات و فناوری استفاده شده برای ساخت مدلهای Gemini ساخته شدهاند. برای انواع وظایف تولید متن، از جمله پاسخ به سؤال، خلاصهسازی و استدلال مناسب است.
- Phi-2 : مدل ترانسفورماتور با پارامتر 2.7 میلیاردی، بهترین گزینه برای فرمت پرسش-پاسخ، چت و کد.
- Falcon-RW-1B : مدل 1 میلیارد پارامتری فقط رمزگشای علی که روی 350B توکن RefinedWeb آموزش داده شده است.
- StableLM-3B : مدل زبانی فقط رمزگشای 3 میلیارد پارامتری که از قبل بر روی 1 تریلیون توکن مجموعه داده های انگلیسی و کدهای متنوع آموزش داده شده است.
علاوه بر مدلهای پشتیبانیشده، میتوانید از AI Edge Torch Google برای صادرات مدلهای PyTorch به مدلهای LiteRT ( tflite
) با امضای چندگانه استفاده کنید. برای اطلاعات بیشتر، تبدیل Torch Generative برای مدلهای PyTorch را ببینید.
توصیه می کنیم از Gemma-2 2B استفاده کنید که در Kaggle Models موجود است. برای اطلاعات بیشتر در مورد سایر مدلهای موجود، به بخش مدلهای نمای کلی کار مراجعه کنید.
تبدیل مدل به فرمت MediaPipe
LLM Inference API با دو دسته از مدلها سازگار است که برخی از آنها نیاز به تبدیل مدل دارند. از جدول برای شناسایی روش مراحل مورد نیاز برای مدل خود استفاده کنید.
مدل ها | روش تبدیل | پلتفرم های سازگار | نوع فایل | |
---|---|---|---|---|
مدل های پشتیبانی شده | Gemma 2B، Gemma 7B، Gemma-2 2B، Phi-2، StableLM، Falcon | MediaPipe | اندروید، iOS، وب | .bin |
سایر مدل های PyTorch | همه مدل های PyTorch LLM | کتابخانه AI Edge Torch Generative | اندروید، iOS | وظیفه |
ما فایلهای .bin
تبدیل شده را برای Gemma 2B، Gemma 7B، و Gemma-2 2B در Kaggle میزبانی میکنیم. این مدل ها را می توان مستقیماً با استفاده از LLM Inference API ما مستقر کرد. برای آشنایی با نحوه تبدیل مدل های دیگر، به بخش تبدیل مدل مراجعه کنید.
اضافه کردن مدل به فهرست پروژه
مدل را در فهرست پروژه خود ذخیره کنید:
<dev-project-root>/assets/gemma-2b-it-gpu-int4.bin
مسیر مدل را با پارامتر شی baseOptions
modelAssetPath
مشخص کنید:
baseOptions: { modelAssetPath: `/assets/gemma-2b-it-gpu-int4.bin`}
کار را ایجاد کنید
از یکی از توابع LLM Inference API createFrom...()
برای آماده سازی کار برای اجرای استنتاج ها استفاده کنید. می توانید از تابع createFromModelPath()
با یک مسیر نسبی یا مطلق به فایل مدل آموزش دیده استفاده کنید. مثال کد از تابع createFromOptions()
استفاده می کند. برای اطلاعات بیشتر در مورد گزینه های پیکربندی موجود، به گزینه های پیکربندی مراجعه کنید.
کد زیر نحوه ساخت و پیکربندی این وظیفه را نشان می دهد:
const genai = await FilesetResolver.forGenAiTasks(
// path/to/wasm/root
"https://cdn.jsdelivr.net/npm/@mediapipe/tasks-genai@latest/wasm"
);
llmInference = await LlmInference.createFromOptions(genai, {
baseOptions: {
modelAssetPath: '/assets/gemma-2b-it-gpu-int4.bin'
},
maxTokens: 1000,
topK: 40,
temperature: 0.8,
randomSeed: 101
});
گزینه های پیکربندی
این کار دارای گزینه های پیکربندی زیر برای برنامه های وب و جاوا اسکریپت است:
نام گزینه | توضیحات | محدوده ارزش | مقدار پیش فرض |
---|---|---|---|
modelPath | مسیری که مدل در دایرکتوری پروژه ذخیره می شود. | PATH | N/A |
maxTokens | حداکثر تعداد نشانهها (توکنهای ورودی + نشانههای خروجی) که مدل کنترل میکند. | عدد صحیح | 512 |
topK | تعداد نشانه هایی که مدل در هر مرحله از تولید در نظر می گیرد. پیشبینیها را به k توکنهای محتملتر محدود میکند. | عدد صحیح | 40 |
temperature | مقدار تصادفی معرفی شده در طول تولید. دمای بالاتر منجر به خلاقیت بیشتر در متن تولید شده می شود، در حالی که دمای پایین تر تولید قابل پیش بینی بیشتری را تولید می کند. | شناور | 0.8 |
randomSeed | دانه تصادفی مورد استفاده در تولید متن. | عدد صحیح | 0 |
loraRanks | رتبهبندی LoRA برای استفاده توسط مدلهای LoRA در طول زمان اجرا. توجه: این فقط با مدل های GPU سازگار است. | آرایه عدد صحیح | N/A |
داده ها را آماده کنید
LLM Inference API داده های متن ( string
) را می پذیرد. این وظیفه، پیش پردازش ورودی داده، از جمله پیش پردازش توکن و تانسور را انجام می دهد.
تمام پیش پردازش ها در تابع generateResponse()
انجام می شود. نیازی به پیش پردازش اضافی متن ورودی نیست.
const inputPrompt = "Compose an email to remind Brett of lunch plans at noon on Saturday.";
وظیفه را اجرا کنید
API استنتاج LLM از تابع generateResponse()
برای استنتاج استفاده می کند. برای طبقهبندی متن، این به معنای برگرداندن دستههای ممکن برای متن ورودی است.
کد زیر نحوه اجرای پردازش با مدل وظیفه را نشان می دهد.
const response = await llmInference.generateResponse(inputPrompt);
document.getElementById('output').textContent = response;
برای پخش جریانی پاسخ، از موارد زیر استفاده کنید:
llmInference.generateResponse(
inputPrompt,
(partialResult, done) => {
document.getElementById('output').textContent += partialResult;
});
کنترل و نمایش نتایج
LLM Inference API رشته ای را برمی گرداند که شامل متن پاسخ تولید شده است.
Here's a draft you can use:
Subject: Lunch on Saturday Reminder
Hi Brett,
Just a quick reminder about our lunch plans this Saturday at noon.
Let me know if that still works for you.
Looking forward to it!
Best,
[Your Name]
سفارشی سازی مدل LoRA
Mediapipe LLM inference API را می توان برای پشتیبانی از سازگاری با رتبه پایین (LoRA) برای مدل های زبان بزرگ پیکربندی کرد. توسعه دهندگان با استفاده از مدل های LoRA دقیق تنظیم شده می توانند رفتار LLM ها را از طریق یک فرآیند آموزشی مقرون به صرفه سفارشی کنند.
پشتیبانی LoRA از LLM Inference API برای همه انواع Gemma و مدلهای Phi-2 برای باطن GPU کار میکند، با وزنهای LoRA فقط برای لایههای توجه قابل اعمال است. این پیادهسازی اولیه بهعنوان یک API آزمایشی برای پیشرفتهای آینده با برنامههایی برای پشتیبانی از مدلهای بیشتر و انواع لایههای مختلف در بهروزرسانیهای آتی عمل میکند.
مدل های LoRA را آماده کنید
دستورالعملهای HuggingFace را دنبال کنید تا یک مدل LoRA تنظیمشده را روی مجموعه دادههای خود با انواع مدلهای پشتیبانیشده، Gemma یا Phi-2 آموزش دهید. مدلهای Gemma-2 2B ، Gemma 2B و Phi-2 هر دو در HuggingFace در قالب محافظهای ایمنی موجود هستند. از آنجایی که LLM Inference API فقط از LoRA در لایه های توجه پشتیبانی می کند، در حین ایجاد LoraConfig
فقط لایه های توجه را به صورت زیر مشخص کنید:
# For Gemma
from peft import LoraConfig
config = LoraConfig(
r=LORA_RANK,
target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
)
# For Phi-2
config = LoraConfig(
r=LORA_RANK,
target_modules=["q_proj", "v_proj", "k_proj", "dense"],
)
برای آزمایش، مدلهای LoRA با تنظیم دقیق در دسترس عموم و متناسب با LLM Inference API موجود در HuggingFace وجود دارد. به عنوان مثال، monsterapi/gemma-2b-lora-maths-orca-200k برای Gemma-2B و lole25/phi-2-sft-ultrachat-lora برای Phi-2.
پس از آموزش بر روی مجموعه داده آماده شده و ذخیره مدل، یک فایل adapter_model.safetensors
حاوی وزن های مدل LoRA تنظیم شده به دست می آورید. فایل Safetensors نقطه بازرسی LoRA است که در تبدیل مدل استفاده می شود.
به عنوان گام بعدی، باید وزن های مدل را با استفاده از بسته MediaPipe Python به یک Flatbuffer Flatbuffer TensorFlow Lite تبدیل کنید. ConversionConfig
باید گزینه های مدل پایه و همچنین گزینه های LoRA اضافی را مشخص کند. توجه داشته باشید که از آنجایی که API فقط از استنتاج LoRA با GPU پشتیبانی می کند، backend باید روی 'gpu'
تنظیم شود.
import mediapipe as mp
from mediapipe.tasks.python.genai import converter
config = converter.ConversionConfig(
# Other params related to base model
...
# Must use gpu backend for LoRA conversion
backend='gpu',
# LoRA related params
lora_ckpt=LORA_CKPT ,
lora_rank=LORA_RANK ,
lora_output_tflite_file=LORA_OUTPUT_TFLITE_FILE ,
)
converter.convert_checkpoint(config)
مبدل دو فایل فلت بافر TFLite را خروجی می دهد، یکی برای مدل پایه و دیگری برای مدل LoRA.
استنتاج مدل LoRA
Web، Android و iOS LLM Inference API برای پشتیبانی از استنتاج مدل LoRA به روز شده است.
وب از LoRA پویا در طول زمان اجرا پشتیبانی می کند. یعنی، کاربران اعلام میکنند که رتبههای LoRA قرار است در طول مقداردهی اولیه استفاده شوند، و میتوانند مدلهای LoRA مختلف را در طول زمان اجرا عوض کنند.const genai = await FilesetResolver.forGenAiTasks(
// path/to/wasm/root
"https://cdn.jsdelivr.net/npm/@mediapipe/tasks-genai@latest/wasm"
);
const llmInference = await LlmInference.createFromOptions(genai, {
// options for the base model
...
// LoRA ranks to be used by the LoRA models during runtime
loraRanks: [4, 8, 16]
});
در طول زمان اجرا، پس از مقداردهی اولیه مدل پایه، مدل های LoRA مورد استفاده را بارگذاری کنید. همچنین، مدل LoRA را با عبور از مرجع مدل LoRA در حین ایجاد پاسخ LLM فعال کنید.
// Load several LoRA models. The returned LoRA model reference is used to specify
// which LoRA model to be used for inference.
loraModelRank4 = await llmInference.loadLoraModel(loraModelRank4Url);
loraModelRank8 = await llmInference.loadLoraModel(loraModelRank8Url);
// Specify LoRA model to be used during inference
llmInference.generateResponse(
inputPrompt,
loraModelRank4,
(partialResult, done) => {
document.getElementById('output').textContent += partialResult;
});