Önceki birimde, genel amaçlı LLM'ler açıklanmıştı. Bu modeller şu adlarla da bilinir:
- temel LLM'ler
- temel büyük dil modelleri
- önceden eğitilmiş büyük dil modelleri
Temel LLM, dil bilgisi, kelimeler ve deyimler hakkında önemli miktarda bilgi edinecek kadar doğal dil eğitimi alır. Temel dil modelleri, eğitildikleri konularla ilgili faydalı cümleler oluşturabilir. Ayrıca, temel LLM'ler şiir yazma gibi geleneksel olarak "yaratıcı" olarak adlandırılan belirli görevleri de gerçekleştirebilir. Ancak temel LLM'nin üretken metin çıkışı, regresyon veya sınıflandırma gibi diğer yaygın makine öğrenimi sorunları için bir çözüm değildir. Bu kullanım alanlarında, temel LLM bir çözümden ziyade platform olarak kullanılabilir.
Temel LLM'yi, bir uygulamanın ihtiyaçlarını karşılayan bir çözüme dönüştürmek için ince ayar adı verilen bir işlem gerekir. Damıtma adı verilen ikincil bir işlem, hassas ayarlanmış modelin daha küçük (daha az parametre) bir sürümünü oluşturur.
Hassas ayar
Araştırmalar, temel dil modellerinin kalıp tanıma yeteneklerinin o kadar güçlü olduğunu gösteriyor ki bazen belirli görevleri öğrenmek için nispeten az ek eğitime ihtiyaç duyuyorlar. Bu ek eğitim, modelin belirli bir görevle ilgili daha iyi tahminler yapmasına yardımcı olur. İnce ayar olarak adlandırılan bu ek eğitim, LLM'nin pratik yönünü ortaya çıkarır.
İnce ayar, uygulamanızın gerçekleştireceği göreve özel örneklerle eğitilir. Mühendisler bazen yalnızca birkaç yüz veya birkaç bin eğitim örneğiyle temel bir LLM'de ince ayar yapabilir.
Nispeten az sayıda eğitim örneğine rağmen standart hassas ayar genellikle hesaplama açısından pahalıdır. Bunun nedeni, standart hassas ayarlama işleminin her geri yayılma iterasyonunda her parametrenin ağırlığını ve önyargısını güncellemesidir. Neyse ki parametre verimliliği odaklı ayarlama adı verilen daha akıllı bir işlem, her geri yayılma iterasyonunda parametrelerin yalnızca bir alt kümesini ayarlayarak LLM'ye ince ayar yapabilir.
İnce ayarlanmış bir modelin tahminleri genellikle temel LLM'nin tahminlerinden daha iyidir. Ancak hassas ayarlanmış bir model, temel LLM ile aynı sayıda parametre içerir. Bu nedenle, bir temel LLM on milyar parametre içeriyorsa hassas ayarlanmış sürüm de on milyar parametre içerir.
Damıtma
İnce ayarlanmış büyük dil modellerinin çoğu çok sayıda parametre içerir. Sonuç olarak, temel LLM'ler tahmin oluşturmak için çok büyük miktarda hesaplama ve çevresel kaynak gerektirir. Bu parametrelerin büyük bölümünün genellikle belirli bir uygulama için alakasız olduğunu unutmayın.
Damıtma, LLM'nin daha küçük bir sürümünü oluşturur. Özetlenmiş LLM, tahminleri çok daha hızlı oluşturur ve tam LLM'ye kıyasla daha az hesaplama ve çevresel kaynak gerektirir. Ancak damıtılmış modelin tahminleri genellikle orijinal LLM'nin tahminleri kadar iyi değildir. Daha fazla parametreye sahip LLM'lerin neredeyse her zaman daha az parametreye sahip LLM'lerden daha iyi tahminler oluşturduğunu unutmayın.
İstem mühendisliği
İstem mühendisliği, LLM'nin son kullanıcılarının modelin çıktısını özelleştirmesini sağlar. Yani son kullanıcılar, LLM'nin istemlerine nasıl yanıt vermesi gerektiğini açıklığa kavuştururlar.
İnsanlar örneklerden iyi öğrenir. LLM'ler de bu durumdan etkilenir. LLM'ye tek bir örnek göstermeye tek görevli istem denir. Örneğin, bir modelin bir meyvenin ailesini döndürmek için aşağıdaki biçimi kullanmasını istediğinizi varsayalım:
Kullanıcı bir meyvenin adını girer: LLM, bu meyvenin sınıfını döndürür.
Tek seferlik istem, LLM'ye önceki biçimin tek bir örneğini gösterir ve ardından LLM'den bu örneğe dayalı bir sorguyu tamamlamasını ister. Örneğin:
peach: drupe apple: ______
Bazen tek bir örnek yeterlidir. Bu durumda LLM yararlı bir tahmin verir. Örneğin:
apple: pome
Diğer durumlarda tek bir örnek yeterli değildir. Yani kullanıcı, LLM birden fazla örneği göstermelidir. Örneğin, aşağıdaki istem iki örnek içerir:
plum: drupe pear: pome lemon: ____
Birden fazla örnek sağlama işlemine çok görevli istem denir. Önceki istemin ilk iki satırını eğitim örnekleri olarak düşünebilirsiniz.
Bir LLM, örnek olmadan yararlı tahminler sağlayabilir mi (sıfır görevli istem)? Bazen, ancak LLM'ler bağlamı sever. Bağlam olmadan, aşağıdaki sıfır atış istemi meyve yerine teknoloji şirketiyle ilgili bilgi döndürebilir:
apple: _______
Çevrimdışı çıkarım
Bir LLM'deki parametre sayısı bazen o kadar büyüktür ki online çıkarım, regresyon veya sınıflandırma gibi gerçek dünyadaki görevler için pratik olmaktan çıkar. Sonuç olarak, birçok mühendislik ekibi bunun yerine çevrimdışı çıkarım'ı (toplu çıkarım veya statik çıkarım olarak da bilinir) kullanır. Diğer bir deyişle, eğitilmiş model, sorguları yayınlama zamanında yanıtlamak yerine önceden tahminler yapar ve ardından bu tahminleri önbelleğe alır.
LLM'nin görevini yalnızca haftada bir veya ayda bir gerçekleştirmesi gerekiyorsa görevin tamamlanmasının uzun sürmesi önemli değildir.
Örneğin, Google Arama 50'den fazla dilde Covid aşıları için 800'den fazla eş anlamlı kelimenin listesini önbelleğe almak amacıyla çevrimdışı çıkarım yapmak için LLM kullandı. Ardından Google Arama, canlı trafikte aşılarla ilgili sorguları belirlemek için önbelleğe alınmış listeyi kullandı.
LLM'leri sorumlu bir şekilde kullanma
Herhangi bir makine öğrenimi biçiminde olduğu gibi, büyük dil modelleri de genellikle aşağıdakilerin önyargılarını paylaşır:
- Eğitildikleri veriler.
- Bu modellerin eğitildiği veriler.
Veri modüllerinde ve Adil Oluş modülünde sunulan yönergeleri izleyerek LLM'leri adil ve sorumlu bir şekilde kullanın.