Önceki birimde, şu şekilde bilinen genel amaçlı LLM'ler açıklanıyordu:
- temel LLM'ler
- temel büyük dil modelleri
- önceden eğitilmiş büyük dil modelleri
Temel LLM, dil bilgisi, kelimeler ve deyimler hakkında önemli miktarda bilgi edinecek kadar doğal dil eğitimi alır. Temel dil modelleri, eğitildikleri konularla ilgili faydalı cümleler oluşturabilir. Ayrıca, temel LLM'ler şiir yazma gibi geleneksel olarak "yaratıcı" olarak adlandırılan belirli görevleri de gerçekleştirebilir. Ancak temel LLM'nin üretken metin çıkışı, regresyon veya sınıflandırma gibi diğer yaygın makine öğrenimi sorunları için bir çözüm değildir. Bu kullanım alanlarında, temel LLM bir çözümden ziyade platform olarak kullanılabilir.
Temel LLM'yi, bir uygulamanın ihtiyaçlarını karşılayan bir çözüme dönüştürmek için ince ayar adı verilen bir işlem gerekir. Damıtma adı verilen ikincil bir işlem, ince ayar yapılmış modelin daha küçük (daha az parametre) bir sürümünü oluşturur.
İnce ayar
Araştırmalar, temel dil modellerinin kalıp tanıma yeteneklerinin o kadar güçlü olduğunu gösteriyor ki bazen belirli görevleri öğrenmek için nispeten az ek eğitime ihtiyaç duyuyorlar. Bu ek eğitim, modelin belirli bir görevle ilgili daha iyi tahminler yapmasına yardımcı olur. İnce ayar olarak adlandırılan bu ek eğitim, LLM'nin pratik yönünü ortaya çıkarır.
İnce ayarlar, uygulamanızın gerçekleştireceği göreve özel örnekler üzerinde eğitilir. Mühendisler bazen sadece birkaç yüz ya da birkaç bin eğitim örneğine dayanarak bir temel LLM'de ince ayar yapabilirler.
Nispeten az sayıda eğitim örneğine rağmen standart hassas ayar genellikle hesaplama açısından pahalıdır. Bunun nedeni, standart hassas ayarlama işleminin her backpropagation iterasyonunda her parametrenin ağırlığını ve önyargısını güncellemesidir. Neyse ki parametre verimliliği odaklı ayarlama adlı daha akıllı bir işlem, her geri yayılma iterasyonunda parametrelerin yalnızca bir alt kümesini ayarlayarak LLM'ye ince ayar yapabilir.
İnce ayarlanmış bir modelin tahminleri genellikle temel LLM'nin tahminlerinden daha iyidir. Ancak hassas ayarlanmış bir model, temel LLM ile aynı sayıda parametre içerir. Dolayısıyla, bir temel LLM on milyar parametre içeriyorsa hassas ayarlanmış sürüm de on milyar parametre içerir.
Damıtma
İnce ayarlanmış büyük dil modellerinin çoğu çok sayıda parametre içerir. Sonuç olarak temel LLM'ler, tahmin oluşturmak için devasa bilgi işlem ve çevre kaynaklarına ihtiyaç duyar. Bu parametrelerin büyük bölümünün genellikle belirli bir uygulama için alakasız olduğunu unutmayın.
Damıtma, LLM'nin daha küçük bir sürümünü oluşturur. Arıtılmış LLM, tahminleri çok daha hızlı oluşturur ve tam LLM'ye göre daha az işlemsel ve çevresel kaynak gerektirir. Ancak damıtılmış modelin tahminleri genellikle orijinal LLM'nin tahminleri kadar iyi değildir. Daha fazla parametreye sahip LLM'lerin neredeyse her zaman daha az parametreye sahip LLM'lerden daha iyi tahminler oluşturduğunu unutmayın.
İstem mühendisliği
İstem mühendisliği, LLM'nin son kullanıcılarının modelin çıktısını özelleştirmesini sağlar. Yani son kullanıcılar, LLM'nin istemlerine nasıl yanıt vermesi gerektiğini netleştirir.
İnsanlar örneklerden iyi öğrenir. LLM'ler de öyle. LLM'ye bir örnek göstermek, tek çekimlik istem olarak adlandırılır. Örneğin, bir modelin bir meyvenin ailesini döndürmek için aşağıdaki biçimi kullanmasını istediğinizi varsayalım:
Kullanıcı bir meyvenin adını girer: LLM, bu meyvenin sınıfını döndürür.
Tek seferlik istem, LLM'ye önceki biçimin tek bir örneğini gösterir ve ardından LLM'den bu örneğe dayalı bir sorguyu tamamlamasını ister. Örneğin:
peach: drupe apple: ______
Bazen tek bir örnek yeterlidir. Bu durumda LLM yararlı bir tahmin verir. Örneğin:
apple: pome
Diğer durumlarda tek bir örnek yeterli değildir. Yani kullanıcı, LLM birden fazla örneği göstermelidir. Örneğin, aşağıdaki istem iki örnek içerir:
plum: drupe pear: pome lemon: ____
Birden fazla örnek sağlama işlemine çok görevli istem denir. Önceki istemin ilk iki satırını eğitim örnekleri olarak düşünebilirsiniz.
LLM'ler örnek olmadan yararlı tahminler sağlayabilir mi (sıfır görevli istem)? Bazen, ancak LLM'ler bağlamı sever. Bağlam olmadan, aşağıdaki sıfır atış istemi meyve yerine teknoloji şirketiyle ilgili bilgi döndürebilir:
apple: _______
Çevrimdışı çıkarım
Bir LLM'deki parametre sayısı bazen o kadar büyüktür ki online çıkarım, regresyon veya sınıflandırma gibi gerçek dünyadaki görevler için pratik olmaktan çıkar. Sonuç olarak, birçok mühendislik ekibi bunun yerine çevrimdışı çıkarım'ı (toplu çıkarım veya statik çıkarım olarak da bilinir) kullanır. Diğer bir deyişle, eğitilmiş model, sorguları yayınlama zamanında yanıtlamak yerine önceden tahminler yapar ve ardından bu tahminleri önbelleğe alır.
LLM'nin görevini yalnızca haftada bir veya ayda bir gerçekleştirmesi gerekiyorsa görevin tamamlanmasının uzun sürmesi önemli değildir.
Örneğin, Google Arama 50'den fazla dilde Covid aşıları için 800'den fazla eş anlamlı kelimenin listesini önbelleğe almak amacıyla çevrimdışı çıkarım yapmak için LLM kullandı. Ardından Google Arama, canlı trafikte aşılarla ilgili sorguları belirlemek için önbelleğe alınmış listeyi kullandı.
LLM'leri sorumlu bir şekilde kullanma
Tüm makine öğrenimi biçimleri gibi LLM'ler de genellikle şu ön yargıları paylaşır:
- Eğitildikleri veriler.
- Ayrıştırıldıkları veriler.
Bu kursta daha önce sunulan derslere uygun olarak LLM'leri adil ve sorumlu bir şekilde kullanın.