Bu sayfa, Cloud Translation API ile çevrilmiştir.

LLM'ler: Hassas ayar, damıtma ve istem mühendisliği

Önceki birimde, şu şekilde bilinen genel amaçlı LLM'ler açıklanıyordu:

temel LLM'ler
temel büyük dil modelleri
önceden eğitilmiş büyük dil modelleri

Temel LLM, dil bilgisi, kelimeler ve deyimler hakkında önemli miktarda bilgi edinecek kadar doğal dil eğitimi alır. Temel dil modelleri, eğitildikleri konularla ilgili faydalı cümleler oluşturabilir. Ayrıca, temel LLM'ler şiir yazma gibi geleneksel olarak "yaratıcı" olarak adlandırılan belirli görevleri de gerçekleştirebilir. Ancak temel LLM'nin üretken metin çıkışı, regresyon veya sınıflandırma gibi diğer yaygın makine öğrenimi sorunları için bir çözüm değildir. Bu kullanım alanlarında, temel LLM bir çözümden ziyade platform olarak kullanılabilir.

Temel LLM'yi, bir uygulamanın ihtiyaçlarını karşılayan bir çözüme dönüştürmek için ince ayar adı verilen bir işlem gerekir. Damıtma adı verilen ikincil bir işlem, ince ayar yapılmış modelin daha küçük (daha az parametre) bir sürümünü oluşturur.

İnce ayar

Araştırmalar, temel dil modellerinin kalıp tanıma yeteneklerinin o kadar güçlü olduğunu gösteriyor ki bazen belirli görevleri öğrenmek için nispeten az ek eğitime ihtiyaç duyuyorlar. Bu ek eğitim, modelin belirli bir görevle ilgili daha iyi tahminler yapmasına yardımcı olur. İnce ayar olarak adlandırılan bu ek eğitim, LLM'nin pratik yönünü ortaya çıkarır.

İnce ayarlar, uygulamanızın gerçekleştireceği göreve özel örnekler üzerinde eğitilir. Mühendisler bazen sadece birkaç yüz ya da birkaç bin eğitim örneğine dayanarak bir temel LLM'de ince ayar yapabilirler.

Nispeten az sayıda eğitim örneğine rağmen standart hassas ayar genellikle hesaplama açısından pahalıdır. Bunun nedeni, standart hassas ayarlama işleminin her backpropagation iterasyonunda her parametrenin ağırlığını ve önyargısını güncellemesidir. Neyse ki parametre verimliliği odaklı ayarlama adlı daha akıllı bir işlem, her geri yayılma iterasyonunda parametrelerin yalnızca bir alt kümesini ayarlayarak LLM'ye ince ayar yapabilir.

İnce ayarlanmış bir modelin tahminleri genellikle temel LLM'nin tahminlerinden daha iyidir. Ancak hassas ayarlanmış bir model, temel LLM ile aynı sayıda parametre içerir. Dolayısıyla, bir temel LLM on milyar parametre içeriyorsa hassas ayarlanmış sürüm de on milyar parametre içerir.

Damıtma

İnce ayarlanmış büyük dil modellerinin çoğu çok sayıda parametre içerir. Sonuç olarak temel LLM'ler, tahmin oluşturmak için devasa bilgi işlem ve çevre kaynaklarına ihtiyaç duyar. Bu parametrelerin büyük bölümünün genellikle belirli bir uygulama için alakasız olduğunu unutmayın.

Damıtma, LLM'nin daha küçük bir sürümünü oluşturur. Arıtılmış LLM, tahminleri çok daha hızlı oluşturur ve tam LLM'ye göre daha az işlemsel ve çevresel kaynak gerektirir. Ancak damıtılmış modelin tahminleri genellikle orijinal LLM'nin tahminleri kadar iyi değildir. Daha fazla parametreye sahip LLM'lerin neredeyse her zaman daha az parametreye sahip LLM'lerden daha iyi tahminler oluşturduğunu unutmayın.

Damıtma işleminin işleyiş şeklini öğrenmek için simgeyi tıklayın.

En yaygın damıtma biçimi, verileri etiketlemek için toplu çıkarım kullanır. Bu etiketli veriler daha sonra daha uygun maliyetli bir şekilde yayınlanabilecek yeni ve daha küçük bir model (öğrenci modeli olarak bilinir) eğitmek için kullanılır. Etiketli veriler, daha büyük modelin (öğretmen modeli olarak bilinir) bilgilerini daha küçük modele aktardığı bir kanal görevi görür.

Örneğin, yorumların otomatik olarak denetlenmesi için bir online toksik puanlayıcıya ihtiyacınız olduğunu varsayalım. Bu durumda, eğitim verilerini etiketlemek için büyük bir çevrimdışı toksisite puanlayıcı kullanabilirsiniz. Ardından, bu eğitim verilerini kullanarak yayınlanacak ve canlı trafiği işleyebilecek kadar küçük bir toksisite puanlayıcı modeli oluşturabilirsiniz.

Öğretmen modelleri bazen eğitildiklerinden daha fazla etiketli veri sağlayabilir. Alternatif olarak, öğretmen modeli öğrenci modeline ikili etiket yerine sayısal bir puan aktarabilir. Sayısal puan, ikili etiketten daha zengin bir eğitim sinyali sağlar. Bu sayede öğrenci modeli, yalnızca pozitif ve negatif sınıfları değil, sınırdaki sınıfları da tahmin edebilir.

İstem mühendisliği

İstem mühendisliği, LLM'nin son kullanıcılarının modelin çıktısını özelleştirmesini sağlar. Yani son kullanıcılar, LLM'nin istemlerine nasıl yanıt vermesi gerektiğini netleştirir.

İnsanlar örneklerden iyi öğrenir. LLM'ler de öyle. LLM'ye bir örnek göstermek, tek çekimlik istem olarak adlandırılır. Örneğin, bir modelin bir meyvenin ailesini döndürmek için aşağıdaki biçimi kullanmasını istediğinizi varsayalım:

Kullanıcı bir meyvenin adını girer: LLM, bu meyvenin sınıfını döndürür.

Tek seferlik istem, LLM'ye önceki biçimin tek bir örneğini gösterir ve ardından LLM'den bu örneğe dayalı bir sorguyu tamamlamasını ister. Örneğin:

peach: drupe
apple: ______

Bazen tek bir örnek yeterlidir. Bu durumda LLM yararlı bir tahmin verir. Örneğin:

apple: pome

Diğer durumlarda tek bir örnek yeterli değildir. Yani kullanıcı, LLM birden fazla örneği göstermelidir. Örneğin, aşağıdaki istem iki örnek içerir:

plum: drupe
pear: pome
lemon: ____

Birden fazla örnek sağlama işlemine çok görevli istem denir. Önceki istemin ilk iki satırını eğitim örnekleri olarak düşünebilirsiniz.

LLM'ler örnek olmadan yararlı tahminler sağlayabilir mi (sıfır görevli istem)? Bazen, ancak LLM'ler bağlamı sever. Bağlam olmadan, aşağıdaki sıfır atış istemi meyve yerine teknoloji şirketiyle ilgili bilgi döndürebilir:

apple: _______

Çevrimdışı çıkarım

Bir LLM'deki parametre sayısı bazen o kadar büyüktür ki online çıkarım, regresyon veya sınıflandırma gibi gerçek dünyadaki görevler için pratik olmaktan çıkar. Sonuç olarak, birçok mühendislik ekibi bunun yerine çevrimdışı çıkarım'ı (toplu çıkarım veya statik çıkarım olarak da bilinir) kullanır. Diğer bir deyişle, eğitilmiş model, sorguları yayınlama zamanında yanıtlamak yerine önceden tahminler yapar ve ardından bu tahminleri önbelleğe alır.

LLM'nin görevini yalnızca haftada bir veya ayda bir gerçekleştirmesi gerekiyorsa görevin tamamlanmasının uzun sürmesi önemli değildir.

Örneğin, Google Arama 50'den fazla dilde Covid aşıları için 800'den fazla eş anlamlı kelimenin listesini önbelleğe almak amacıyla çevrimdışı çıkarım yapmak için LLM kullandı. Ardından Google Arama, canlı trafikte aşılarla ilgili sorguları belirlemek için önbelleğe alınmış listeyi kullandı.

LLM'leri sorumlu bir şekilde kullanma

Tüm makine öğrenimi biçimleri gibi LLM'ler de genellikle şu ön yargıları paylaşır:

Eğitildikleri veriler.
Ayrıştırıldıkları veriler.

Bu kursta daha önce sunulan derslere uygun olarak LLM'leri adil ve sorumlu bir şekilde kullanın.

Alıştırma: Anladığınızdan emin olun

LLM'ler hakkında aşağıdaki ifadelerden hangisi doğrudur?

Özetlenmiş LLM, temel aldığı temel dil modelinden daha az parametre içerir.

Evet, damıtma parametre sayısını azaltır.

İnce ayarlanmış bir LLM, eğitildiği temel dil modelinden daha az parametre içerir.

İnce ayarlanmış bir model, orijinal temel dil modeliyle aynı sayıda parametreye sahiptir.

Kullanıcılar daha fazla istem mühendisliği gerçekleştirdikçe LLM'deki parametrelerin sayısı da artar.

İstem mühendisliği, LLM parametreleri eklemez (veya kaldırmaz ya da değiştirmez).

Büyük Dil Modeli Nedir? (15 dk.)

Bilginizi test edin (10 dk.)