Bu sayfa, Cloud Translation API ile çevrilmiştir.

LLM'ler: Hassas ayar, damıtma ve istem mühendisliği

Önceki birimde, genel amaçlı LLM'ler açıklanmıştı. Bu modeller şu adlarla da bilinir:

temel LLM'ler
temel büyük dil modelleri
önceden eğitilmiş büyük dil modelleri

Temel LLM, dil bilgisi, kelimeler ve deyimler hakkında önemli miktarda bilgi edinecek kadar doğal dil eğitimi alır. Temel dil modelleri, eğitildikleri konularla ilgili faydalı cümleler oluşturabilir. Ayrıca, temel LLM'ler şiir yazma gibi geleneksel olarak "yaratıcı" olarak adlandırılan belirli görevleri de gerçekleştirebilir. Ancak temel LLM'nin üretken metin çıkışı, regresyon veya sınıflandırma gibi diğer yaygın makine öğrenimi sorunları için bir çözüm değildir. Bu kullanım alanlarında, temel LLM bir çözümden ziyade platform olarak kullanılabilir.

Temel LLM'yi, bir uygulamanın ihtiyaçlarını karşılayan bir çözüme dönüştürmek için ince ayar adı verilen bir işlem gerekir. Damıtma adı verilen ikincil bir işlem, hassas ayarlanmış modelin daha küçük (daha az parametre) bir sürümünü oluşturur.

Hassas ayar

Araştırmalar, temel dil modellerinin kalıp tanıma yeteneklerinin o kadar güçlü olduğunu gösteriyor ki bazen belirli görevleri öğrenmek için nispeten az ek eğitime ihtiyaç duyuyorlar. Bu ek eğitim, modelin belirli bir görevle ilgili daha iyi tahminler yapmasına yardımcı olur. İnce ayar olarak adlandırılan bu ek eğitim, LLM'nin pratik yönünü ortaya çıkarır.

İnce ayar, uygulamanızın gerçekleştireceği göreve özel örneklerle eğitilir. Mühendisler bazen yalnızca birkaç yüz veya birkaç bin eğitim örneğiyle temel bir LLM'de ince ayar yapabilir.

Nispeten az sayıda eğitim örneğine rağmen standart hassas ayar genellikle hesaplama açısından pahalıdır. Bunun nedeni, standart hassas ayarlama işleminin her geri yayılma iterasyonunda her parametrenin ağırlığını ve önyargısını güncellemesidir. Neyse ki parametre verimliliği odaklı ayarlama adı verilen daha akıllı bir işlem, her geri yayılma iterasyonunda parametrelerin yalnızca bir alt kümesini ayarlayarak LLM'ye ince ayar yapabilir.

İnce ayarlanmış bir modelin tahminleri genellikle temel LLM'nin tahminlerinden daha iyidir. Ancak hassas ayarlanmış bir model, temel LLM ile aynı sayıda parametre içerir. Bu nedenle, bir temel LLM on milyar parametre içeriyorsa hassas ayarlanmış sürüm de on milyar parametre içerir.

Damıtma

İnce ayarlanmış büyük dil modellerinin çoğu çok sayıda parametre içerir. Sonuç olarak, temel LLM'ler tahmin oluşturmak için çok büyük miktarda hesaplama ve çevresel kaynak gerektirir. Bu parametrelerin büyük bölümünün genellikle belirli bir uygulama için alakasız olduğunu unutmayın.

Damıtma, LLM'nin daha küçük bir sürümünü oluşturur. Özetlenmiş LLM, tahminleri çok daha hızlı oluşturur ve tam LLM'ye kıyasla daha az hesaplama ve çevresel kaynak gerektirir. Ancak damıtılmış modelin tahminleri genellikle orijinal LLM'nin tahminleri kadar iyi değildir. Daha fazla parametreye sahip LLM'lerin neredeyse her zaman daha az parametreye sahip LLM'lerden daha iyi tahminler oluşturduğunu unutmayın.

Damıtma işleminin işleyiş şeklini öğrenmek için simgeyi tıklayın.

En yaygın damıtma biçimi, verileri etiketlemek için toplu çıkarım kullanır. Bu etiketli veriler daha sonra daha uygun maliyetli şekilde yayınlanabilecek yeni ve daha küçük bir model (öğrenci modeli olarak bilinir) eğitmek için kullanılır. Etiketli veriler, daha büyük modelin (öğretmen modeli olarak bilinir) bilgilerini daha küçük modele aktardığı bir kanal görevi görür.

Örneğin, yorumların otomatik olarak denetlenmesi için online bir toksisite puanlayıcıya ihtiyacınız olduğunu varsayalım. Bu durumda, eğitim verilerini etiketlemek için büyük bir çevrimdışı toksisite puanlayıcı kullanabilirsiniz. Ardından, bu eğitim verilerini kullanarak yayınlanacak ve canlı trafiği işleyebilecek kadar küçük bir toksisite puanlayıcı modeli oluşturabilirsiniz.

Öğretmen modelleri bazen eğitildiklerinden daha fazla etiketli veri sağlayabilir. Alternatif olarak, öğretmen modeli öğrenci modeline ikili etiket yerine sayısal bir puan da aktarabilir. Sayısal puan, ikili etiketten daha zengin bir eğitim sinyali sağlar. Bu sayede öğrenci modeli, yalnızca pozitif ve negatif sınıfları değil, sınırdaki sınıfları da tahmin edebilir.

İstem mühendisliği

İstem mühendisliği, LLM'nin son kullanıcılarının modelin çıktısını özelleştirmesini sağlar. Yani son kullanıcılar, LLM'nin istemlerine nasıl yanıt vermesi gerektiğini açıklığa kavuştururlar.

İnsanlar örneklerden iyi öğrenir. LLM'ler de bu durumdan etkilenir. LLM'ye tek bir örnek göstermeye tek görevli istem denir. Örneğin, bir modelin bir meyvenin ailesini döndürmek için aşağıdaki biçimi kullanmasını istediğinizi varsayalım:

Kullanıcı bir meyvenin adını girer: LLM, bu meyvenin sınıfını döndürür.

Tek seferlik istem, LLM'ye önceki biçimin tek bir örneğini gösterir ve ardından LLM'den bu örneğe dayalı bir sorguyu tamamlamasını ister. Örneğin:

peach: drupe
apple: ______

Bazen tek bir örnek yeterlidir. Bu durumda LLM yararlı bir tahmin verir. Örneğin:

apple: pome

Diğer durumlarda tek bir örnek yeterli değildir. Yani kullanıcı, LLM birden fazla örneği göstermelidir. Örneğin, aşağıdaki istem iki örnek içerir:

plum: drupe
pear: pome
lemon: ____

Birden fazla örnek sağlama işlemine çok görevli istem denir. Önceki istemin ilk iki satırını eğitim örnekleri olarak düşünebilirsiniz.

Bir LLM, örnek olmadan yararlı tahminler sağlayabilir mi (sıfır görevli istem)? Bazen, ancak LLM'ler bağlamı sever. Bağlam olmadan, aşağıdaki sıfır atış istemi meyve yerine teknoloji şirketiyle ilgili bilgi döndürebilir:

apple: _______

Çevrimdışı çıkarım

Bir LLM'deki parametre sayısı bazen o kadar büyüktür ki online çıkarım, regresyon veya sınıflandırma gibi gerçek dünyadaki görevler için pratik olmaktan çıkar. Sonuç olarak, birçok mühendislik ekibi bunun yerine çevrimdışı çıkarım'ı (toplu çıkarım veya statik çıkarım olarak da bilinir) kullanır. Diğer bir deyişle, eğitilmiş model, sorguları yayınlama zamanında yanıtlamak yerine önceden tahminler yapar ve ardından bu tahminleri önbelleğe alır.

LLM'nin görevini yalnızca haftada bir veya ayda bir gerçekleştirmesi gerekiyorsa görevin tamamlanmasının uzun sürmesi önemli değildir.

Örneğin, Google Arama 50'den fazla dilde Covid aşıları için 800'den fazla eş anlamlı kelimenin listesini önbelleğe almak amacıyla çevrimdışı çıkarım yapmak için LLM kullandı. Ardından Google Arama, canlı trafikte aşılarla ilgili sorguları belirlemek için önbelleğe alınmış listeyi kullandı.

LLM'leri sorumlu bir şekilde kullanma

Herhangi bir makine öğrenimi biçiminde olduğu gibi, büyük dil modelleri de genellikle aşağıdakilerin önyargılarını paylaşır:

Eğitildikleri veriler.
Bu modellerin eğitildiği veriler.

Veri modüllerinde ve Adil Oluş modülünde sunulan yönergeleri izleyerek LLM'leri adil ve sorumlu bir şekilde kullanın.

Alıştırma: Anladığınızdan emin olun

LLM'ler hakkında aşağıdaki ifadelerden hangisi doğrudur?

Özetlenmiş LLM, temel aldığı temel dil modelinden daha az parametre içerir.

Evet, damıtma parametre sayısını azaltır.

İnce ayarlanmış bir LLM, eğitildiği temel dil modelinden daha az parametre içerir.

İnce ayarlanmış bir model, orijinal temel dil modeliyle aynı sayıda parametre içerir.

Kullanıcılar daha fazla istem mühendisliği yaptığında LLM'deki parametre sayısı artar.

İstem mühendisliği, LLM parametreleri eklemez (veya kaldırmaz ya da değiştirmez).

Büyük Dil Modeli Nedir? (15 dk.)

Bilginizi test edin (10 dk.)