Büyük dil modelleri

'nı inceleyin.

Dil modeli nedir?

Dil modeli bir jetonun olasılığını tahmin eder veya daha uzun bir simge dizisinde gerçekleşen jeton dizisidir. Jeton bir kelime, bir alt kelime (bir kelimenin alt kümesi) veya tek bir karakterden oluşabilir.

Aşağıdaki cümleyi ve bu cümleyi tamamlayabilecek jetonları düşünün:

When I hear rain on my roof, I _______ in my kitchen.

Bir dil modeli, farklı jetonların veya belirli bir jeton dizilerini gösterir. Örneğin, olasılık tablosu, bazı olası belirteçleri ve olasılıklarını tanımlar:

Probability Jetonlar
%9,4 çorba pişir
%5,2 su ısıtıcıyı ısıtma
%3,6 tente
%2,5 şekerleme yapmak
%2,2 rahatlama

Bazı durumlarda, jeton dizisi bir cümlenin tamamı olabilir. bir cümleyi, hatta bir yazının tamamını bile kullanabilirsiniz.

Bir uygulama, tahminde bulunmak için olasılık tablosunu kullanabilir. Tahmin en yüksek olasılık olabilir (örneğin, "çorba"). veya belirli bir olasılıktan daha yüksek olasılığa sahip jetonlardan rastgele bir seçim eşikler.

Bir metin dizisinde boşluğu neyin dolduracağını tahmin etmek, aşağıdakiler de dahil olmak üzere daha karmaşık görevlere genişletilebilir:

  • Metin oluşturuluyor.
  • Metinleri bir dilden başka bir dile çevirme.
  • Dokümanlar özetleniyor.

Jetonların istatistiksel modellerini modelleyerek modern dil modelleri, dilin son derece güçlü dahili temsilleridir ve daha kolay olur.

N-gram dil modelleri

N-gramlar sıralı kelime dizileridir dil modelleri oluşturmak için kullanılır. Burada N, dizideki kelimelerin sayısıdır. Örneğin, N 2 olduğunda N-grama 2 gram (veya bigram); N, 5 olduğunda N-gram 5 gram alır. Bir eğitim dokümanında aşağıdaki ifade göz önünde bulundurulduğunda:

you are very nice

Elde edilen 2 gram aşağıdaki gibi olur:

  • sen
  • çok
  • çok hoş

N, 3 olduğunda N-grama 3 gram (veya trigram) içerir. Aynı ifade göz önüne alındığında elde edilen 3 gram:

  • cidden çok şeysin
  • çok kibarlar

Girdi olarak iki kelime kullanıldığında 3 gramlık bir dil modeli, olasılığına dikkat edin. Örneğin, aşağıdaki iki kelime göz önünde bulundurulduğunda:

orange is

Bir dil modeli, eğitimden elde edilen farklı 3 gramın tümünü inceler. orange is ile başlayan kitaplıklar. Yüzlerce 3 gram orange is iki kelimeyle başlayabilir yalnızca aşağıdaki iki olasılığa odaklanın:

orange is ripe
orange is cheerful

İlk olasılık (orange is ripe) meyvenin portakalı hakkında, ikinci olasılık (orange is cheerful) ise renkle ilgili portakal.

Bağlam

İnsanlar görece uzun bağlamları saklayabilir. Bir oyunun 3. bölümünü izlerken 1. Yasa'da tanıtılan karakterlerle ilgili bilgileri elde edebilir. Aynı şekilde, uzun bir esprinin manşeti, bağlamı hatırlayabileceğiniz için sizi güldürüyor her şeyi kapsıyor.

Dil modellerinde bağlam, hedef jetonu. Bağlam, dil modelinin "turuncu" olup olmadığını belirlemesine yardımcı olabilir. bir narenciye meyvesini veya rengini belirtir.

Bağlam, dil modelinin daha iyi tahminlerde bulunmasına yardımcı olabilir ancak bağlam, 3 gramlık videolar yeterli bağlam bilgisi sağlıyor mu? Maalesef tek bağlam 3 gramlık ilk iki kelimedir. Örneğin, orange is iki kelimesi dil modelinin üçüncü kelimeyi tahmin etmesi için yeterli bağlam sağlar. Bağlam eksikliği nedeniyle 3 grama dayalı dil modelleri birçok hata yapabilir.

Uzun N-gram'lar, kısa N-gram'lardan kesinlikle daha fazla bağlam sağlar. Bununla birlikte, N büyüdükçe her bir örneğin göreli sayısı azalır. N çok büyük hale geldiğinde, dil modelinde genellikle yalnızca tek bir tekrarlandığından emin olun. Bu örnek, hedef jetonu tahmin etmektir.

Yinelenen nöral ağlar

Yinelenen nöral ağlar daha fazla bağlam sağlar. Yinelenen sinir ağı, bir tür sinirsel ağ bir jeton dizisidir. Örneğin, yinelenen bir nöral ağ, seçilen bağlamı her kelimeden kademeli olarak öğrenebilir (ve göz ardı etmeyi öğrenebilir) dinleyiciler gibi bir cümle bile oluşturabilirsiniz. Tekrarlayan büyük bir nöral ağ, birkaç nöral ağ geçidinden bağlam elde edebilir cümledir.

Yinelenen nöral ağlar N-gramlardan daha fazla bağlam bilgisi edinse de yinelenen nöral ağların en az bir örneğidir. sınırlı. Yinelenen nöral ağlar, bilgileri "jetona göre" değerlendirir. Bunun aksine, büyük dil modelleri. bölümü—tüm bağlamı bir defada değerlendirebilir.

Uzun bağlamlar için yinelenen nöral ağ eğitmenin, kayan gradyan sorun oluşturun.

Alıştırma: Öğrendiklerinizi sınayın

Hangi dil modeli İngilizce metinler için daha iyi tahminlerde bulunur?
  • 6 grama dayalı dil modeli
  • 5 grama dayalı dil modeli
Bu sorunun cevabı eğitimin boyutuna ve çeşitliliğine göre değişir ayarlandı.
Eğitim seti milyonlarca farklı belgeyi içeriyorsa 6 gramlık modelin performansı muhtemelen modelden daha iyi olacaktır 5 gram kadar.
6 grama dayalı dil modeli.
Bu dil modelinin daha fazla bağlamı vardır ancak çok sayıda doküman üzerine eğitim aldıysa 6 gramın çoğu olur.
5 grama dayalı dil modeli.
Bu dil modeli daha az bağlam bilgisine sahip olduğundan 6 gramlık temelde dil modelinden daha iyi performans gösterir.