LLM'ler: Hassas ayar, damıtma ve istem mühendisliği

Önceki birimde, genel amaçlı LLM'ler çeşitli şekillerde açıklanıyordu. şu adla bilinir:

  • temel LLM'ler
  • temel LLM'ler
  • önceden eğitilmiş LLM'ler

Vakıf LLM'si, "bilmesi" için yeterli doğal dil kullanılarak eğitilmiştir dikkate değer bir dilbilgisi, kelime ve deyimler konusunda ısrarla durmayın. Temel dil modeli, eğitim aldığı konularla ilgili faydalı cümleler üretmek. Dahası, vakıf LLM'si geleneksel olarak adlandırılan belirli görevleri yerine getirebilir "yaratıcı", şiir yazmak gibidir. Ancak, temel LLM'nin üretken metni çıkış, makine öğrenimi gibi diğer yaygın makine öğrenimi sorunları için bir çözüm değildir. regresyon veya sınıflandırma. Bu kullanım alanları için temel bir LLM (büyük dil modeli) platform olarak düşünebilirsiniz.

Temel LLM'yi, uygulamanın gerekliliklerini karşılayan bir çözüme dönüştürme ince ayar adı verilen bir işlem gerektirir. Görev adı verilen distillation, ince ayar yapılmış öğenin daha küçük (daha az parametre) bir sürümünü oluşturur modeli.

İnce ayar

Araştırmalar, bir temelin örüntü tanıma yeteneğinin dil modelleri o kadar güçlüdür ki bazen bu modellere öğrenmeye yönelik biraz ek eğitim alabilirsiniz. Bu ek eğitim, modelin daha iyi tahminlerde bulunmasına yardımcı olur. karar verebilirsiniz. Proje yönetimi ince ayarlar, LLM'nin pratik yönünü ortaya çıkarır.

İnce ayarlar, uygulamanızın görevine özel örneklerle eğitilir iyi bir fikir olabilir. Mühendisler bazen temelde bir LLM'de ince ayar yapabilirler. yüz veya birkaç bin eğitim örneği.

Eğitim örnekleri çok az olsa da standart ince ayar ayarları genellikle işlem yükü açısından pahalıdır. Çünkü standart ince ayar ayarları her bir parametrenin ağırlığını ve yanlılığını güncelleyerek geri yayılım yinelemesi. Neyse ki, parametre açısından verimli adlı daha akıllı bir süreç ince ayar her birinde yalnızca bir parametre alt kümesini ayarlayarak bir LLM'de ince ayar yapabilir. geri yayılım yinelemesi.

İnce ayarlanmış bir modelin tahminleri genellikle temel LLM'nin tahminlerinden daha iyi olur tahminler. Ancak ince ayar yapılmış bir model parametrelerini temel LLM olarak seçeceğiz. Yani, temel bir LLM'de 10 milyar bu durumda ince ayar yapılmış sürüm, on milyar parametreleridir.

Damıtma

Çoğu ince ayar yapılmış LLM'ler çok sayıda parametre içerir. Bunun sonucunda, Vakıf LLM'leri, devasa bilişim ve çevre kaynakları gerektiriyor. oluşturmak için kullanabilirsiniz. Bu parametrelerin büyük bir kısmının söz konusu uygulama için alakasız olduğundan emin olun.

Ayıklama LLM'nin daha küçük bir sürümünü oluşturur. Arıtılmış LLM tahmin oluşturur daha az hesaplama ve çevre kaynağı gerektirir. tam kapsamlı dil modeli. Ancak, damıtılmış modelin tahminleri genelde tahminleri kadar iyi sonuçlar verebilir. LLM'lerin ne kadar çok parametreleri, daha az öğe içeren LLM'lere göre hemen hemen her zaman daha iyi tahminler parametreleridir.

İstem mühendisliği

İstem mühendisliği LLM'nin son kullanıcılarının model çıkışını özelleştirmesini sağlar. Yani son kullanıcılar, LLM'nin istemlerine nasıl yanıt vermesi gerektiğini netleştirir.

İnsanlar örneklerden daha iyi öğrenir. LLM'ler de öyle. LLM'ye bir örnek gösterme adı tek seferlik istem. Örneğin, bir modelin aşağıdaki biçimi kullanmasını istediğinizi varsayalım: bir meyvenin ailesi:

Kullanıcı bir meyvenin adını girer: LLM, meyvenin sınıfını verir.

Tek seferlik istem, LLM'ye önceki biçimin tek bir örneğini gösterir. ve ardından LLM'den bu örneğe göre bir sorgu tamamlamasını ister. Örneğin:

peach: drupe
apple: ______

Bazen tek bir örnek yeterlidir. Öyleyse LLM yararlı bir bir tahmindir. Örneğin:

apple: pome

Bazı durumlarda ise tek bir örnek yeterli olmaz. Yani kullanıcı LLM birden çok örneğini gösterin. Örneğin, aşağıdaki istemde iki örnek verelim:

plum: drupe
pear: pome
lemon: ____

Birden fazla örnek sağlamak birkaç çekim istemi. Bir önceki istemin ilk iki satırını, örnekler.

LLM, örnek olmaksızın faydalı tahminler sunabiliyor mu (sıfır çekim) soru sorma)? Bazen ama LLM'ler bağlamı sever. Bağlam olmadan, aşağıdaki sıfır çekim istemi meyve yerine teknoloji şirketi hakkında bilgi döndürecek olan:

apple: _______
.

Çevrimdışı çıkarım

Bir LLM'deki parametrelerin sayısı bazen bu online çıkarım regresyon veya fonksiyonel deneme gibi gerçek hayattaki görevler için en iyi uygulamaları görelim. Sonuç olarak, birçok mühendislik ekibi çevrimdışı çıkarım (ayrıca toplu çıkarım veya statik çıkarım olarak bilinir). Başka bir deyişle, sorgulara yayın sırasında yanıt vermek yerine, eğitilen model, tahminleri önceden yapar ve ardından bu tahminleri önbelleğe alır.

LLM'nin görevi tamamlamasının uzun sürmesinin LLM'nin görevi haftada veya ayda bir kez yerine getirmesi yeterlidir.

Örneğin, Google Arama büyük dil modeli kullandım 800'den fazla eş anlamlı terimin yer aldığı bir listeyi önbelleğe almak için çevrimdışı çıkarım . Google Arama daha sonra önbelleğe alınmış listeyi kullanarak, canlı trafikteki aşılarla ilgili sorguları tespit edebilirsiniz.

LLM'leri sorumlu bir şekilde kullanın

Tüm makine öğrenimi biçimleri gibi LLM'ler de genellikle şu ön yargıları paylaşır:

  • Eğitim yaptıkları veriler.
  • Ayrıştırıldıkları veriler.

LLM'leri, sunulan derslere uygun adil ve sorumlu bir şekilde kullanın ele alacağız.

Alıştırma: Öğrendiklerinizi sınayın

LLM'ler hakkında aşağıdaki ifadelerden hangisi doğrudur?
Damıtılmış bir LLM, temelden daha az parametre içerir. bu dil modeli vardır.
Evet, damıtma işlemi parametre sayısını azaltır.
İnce ayarlanmış bir LLM, temelden daha az parametre içerir. temel eğitim dilidir.
İnce ayar yapılmış bir model, şununla aynı sayıda parametre içerir: ilk temel dil modeli olacak.
Kullanıcılar daha fazla istem mühendisliği gerçekleştirdikçe parametrelerin sayısı geliştirmenin yollarını konuştuk.
İstem mühendisliği LLM eklemiyor (veya kaldırmıyor ya da değiştirmiyor) parametreleridir.
.