Yeni bir teknoloji, büyük dil modelleri (LLM'ler) bir jetonu veya simge dizisini, bazen de birkaç paragraf uzunluğunda tahmin edilen belirteçler için geçerlidir. Jetonların bir kelime veya alt kelime olabileceğini unutmayın. bir kelime, hatta tek bir karakter bile olabilir. LLM'ler çok daha iyi tahminlerde bulunur. veya tekrarlanan nöral ağlara kıyasla şu nedenlerden kaynaklanır:
- LLM'ler çok daha fazla parametre içerir %100'lük bir artış sağlar.
- LLM'ler çok daha fazla bağlam toplar.
Bu bölümde, en başarılı ve en çok kullanılan mimari tanıtılmaktadır. LLM'lerin (Dönüştürücü) derlemesini ele alacağız.
Transformatör nedir?
Transformatörler, çok çeşitli alanlar için son teknoloji çeviri gibi dil modeli uygulamaları
Tam dönüştürücüler bir kodlayıcı ve bir kod çözücüden oluşur:
- Kodlayıcı, dönüşüm işlemini ara gösterime girmektir. Kodlayıcı, muazzam bir yazılım ve sinirsel ağ.
- Kod çözücü, yararlı bir metne dönüştürün. Kod çözücü aynı zamanda bir nöral ağ var.
Örneğin, bir çevirmende:
- Kodlayıcı, giriş metnini (örneğin, İngilizce bir cümle) orta düzey temsil vardır.
- Kod çözücü bu ara gösterimi çıkış metnine dönüştürür ( Fransızca cümle gibi) kullanılır.
Kendine dikkat etme nedir?
Dönüştürücüler, bağlamı zenginleştirmek için kendi kendine dikkat Verimli bir şekilde, her bir girdi göstergesi adına öz dikkatli olma şu soru var:
“Birbirlerinin girdileri bu durumun yorumlanmasını belirtmelisiniz?
"Ben" "kendi kendine dikkat" giriş sırasını ifade eder. Biraz dikkat mekanizmalar, aşağıdaki gibi bir çıkış sırasında giriş jetonlarının ilişkilerini jetonlara ağırlıklandırır: başka bir dizideki belirteçlere bağlı olarak kalabilir. Ancak yalnızca kendine dikkat etme giriş sırasındaki jetonlar arasındaki ilişkilerin önemini ağırlıklandırır.
Konuları basitleştirmek için her jetonun bir kelime olduğunu ve yalnızca tek bir cümleden oluşur. Şu cümleyi ele alalım:
The animal didn't cross the street because it was too tired.
Önceki cümle on bir kelime içeriyor. On bir kelimenin her biri diğer on kelimeye dikkat ederek, bu on kelimenin her birinin kendisi için önem taşır. Örneğin, cümlenin zamiri içerdiğine dikkat edin bırakın. Hitap tercihi genellikle belirsizdir. Bin zamiri genellikle bir son isim veya isim kelime öbeği, ancak örnek cümle içinde son isim kelimesi hayvanı mı yoksa sokağı mı ifade ediyor?
Kendi kendine dikkat mekanizması, yakındaki her kelimenin zamiri it. Şekil 3'te sonuçlar gösterilmiştir. Çizgi ne kadar mavi olursa kelimenin zamir açısından önem taşıdığını gösterir. Yani animal, zamirle sokak arasından daha önemlidir.
Bunun tersine, cümledeki son kelimenin şu şekilde değiştiğini varsayalım:
The animal didn't cross the street because it was too wide.
Bu düzeltilmiş cümlede öz dikkat, sokak konusunu it zamiriyle hayvandan daha alakalıdır.
Bazı kendi kendine dikkat mekanizmaları iki yönlüdür, yani Söz konusu kelimenin öncesi ve sonraki jetonlar için alaka düzeyi puanlarını hesaplar önemli bir rol oynamıştır. Örneğin, Şekil 3'te, bu ifadenin her iki tarafındaki kelimelerin bunlar incelenir. Böylece çift yönlü bir öz dikkat mekanizması, kelimeden bağlam bilgisi edinmek için kullanılır. Buna karşılık, Tek yönlü dikkat mekanizması, yalnızca kelimelerin bulunduğu kelimelerden bir tarafında olması gerekir. İki yönlü kendi kendine dikkat, özellikle, bütün dizilerin temsillerini oluşturmak için yararlıdır. jeton bazında sıralar oluşturan uygulamalar için tek yönlü dikkat etmelisiniz. Bu nedenle, kodlayıcılar iki yönlü dikkat çekmeyi kullanır. kod çözücüler ise tek yönlüdür.
Birden fazla kafayla kendi kendine dikkat çekme nedir?
Her bir kendi kendine dikkat katmanı, genellikle kendi kendine dikkat. Katmanın çıktısı matematiksel bir işlemdir (örneğin, ağırlıklı ortalama veya nokta çarpımı) kafa yormuşsunuzdur.
Her bir kendi kendine dikkat katmanı rastgele değerlere ayarlandığından, ziyaret edilen her kelime ile o kelime arasındaki ilişkinin farklı yakındaki kelimeler. Örneğin, bir önceki bölümde açıklanan kişisel dikkat katmanı bölümü, zamirin anlaştığı adın belirlenmesine odaklanıyor. Bununla birlikte, diğer öz dikkat katmanları ekibinizin dil bilgisi bakımından veya diğer etkileşimleri öğrenir.
Transformatörler neden bu kadar büyük?
Transformatörlerde yüzlerce milyar, hatta trilyonlarca parametrelerini kullanın. Bu kursta genellikle daha küçük boyutlu bina modelleri önerir. parametre sayısına kıyasla daha yüksek olabilir. Sonuçta, daha az sayıda parametreye sahip bir model daha az kaynak kullanır. daha fazla parametreye sahip bir modelden tahminde bulunmasını sağlar. Ancak araştırmalar, daha fazla parametreye sahip Transformers'ın .
Peki bir LLM nasıl metin oluşturur?
Araştırmacıların eksik bir kelimeyi tahmin etmek için LLM'leri nasıl eğittiğini hiç etkilenmemiş olabilir. Sonuçta, bir veya iki kelimeyi tahmin etmek, işin otomatik tamamlama özelliği ile ilgili, çeşitli metin, e-posta ve yazma yazılımlarında yerleşik olarak bulunuyor. LLM'lerin nasıl cümle veya paragraf oluşturabildiğini haikus'lar hakkında konuştuk.
Aslında LLM'ler, temelde tüm zaman aralıklarında otomatik olarak Binlerce jetonu tahmin etmek (tamamlamak). Örneğin, bir cümleyi ardından maskelenmiş bir cümle ekliyor:
My dog, Max, knows how to perform many traditional dog tricks. ___ (masked sentence)
LLM, maskelenmiş cümle için olasılık oluşturabilir. Örneğin:
Probability | Kelime |
---|---|
%3,1 | Örneğin, oturup bekleyebilir ve CANNOT TRANSLATE |
%2,9 | Örneğin, tablette oturup, oturup CANNOT TRANSLATE |
Yeterli büyüklükte bir LLM, paragraflar ve tamamı için olasılık oluşturabilir makaleler Bir kullanıcının LLM'ye yönelttiği soruları "verilen" cümle hayali bir maske geliyor. Örneğin:
User's question: What is the easiest trick to teach a dog? LLM's response: ___
LLM, çeşitli olası yanıtlar için olasılıklar oluşturur.
Başka bir örnek olarak, bir LLM (büyük dil modeli) büyük miktarda matematiksel "kelime "sorunlar" ileri düzey matematiksel akıl yürütme gibi görünebilir. Ancak bu LLM'ler temelde kelimelerle ilgili bir problemi otomatik olarak tamamlıyor.
LLM'lerin avantajları
LLM'ler, geniş bir kullanıcı kitlesine yönelik net ve anlaşılması kolay metinler çeşitli hedef kitlelerdir. LLM'ler, oldukları görevler hakkında tahminlerde bulunabilirler. özel olarak eğitilmesi gerekir. Bazı araştırmacılar LLM'lerin (büyük dil modellerinin) de açıkça eğitilmedikleri ancak diğer bu iddiayı çürütmüştür.
LLM'lerle ilgili sorunlar
Bir LLM'nin eğitimi, aşağıdakiler dahil birçok problemi içerir:
- Devasa bir antrenman seti bir araya geliyor.
- Birkaç ay ve muazzam bilgi işlem kaynakları kullanmak, elektrik.
- Paralellikle ilgili zorlukların üstesinden gelme. .
Tahminleri çıkarmak için LLM'lerin kullanılması şu sorunlara neden olur:
- LLM'ler halüsinasyon, yani tahminlerinde hatalar bulunur.
- LLM'ler çok fazla işlem kaynağı ve elektrik tüketir. LLM'leri daha büyük veri kümeleri üzerinde eğitmek genellikle çıkarım için gereken kaynak miktarına daha fazla eğitim kaynağı gerektirir.
- Tüm makine öğrenimi modelleri gibi LLM'ler de her türlü önyargı sergileyebilir.