Büyük Dil Modellerine Giriş

Dil modellerinde veya büyük dil modellerinde yeni misiniz? Aşağıdaki kaynaklara göz atın.

Dil modeli nedir?

Dil modeli, anlamlı bir dil tahmini oluşturmayı ve oluşturmayı amaçlayan bir makine öğrenimi modelidir. Örneğin, otomatik tamamlama bir dil modelidir.

Bu modeller, daha uzun bir jeton sırası içinde bir jeton veya jeton sırası olasılığı tahmin edilerek çalışır. Aşağıdaki cümleyi göz önünde bulundurun:

When I hear rain on my roof, I _______ in my kitchen.

Bir jetonun kelime olduğunu varsayarsanız dil modeli, bu alt çizginin yerini alacak farklı kelimeler veya kelime dizilerinin olasılığını belirler. Örneğin, bir dil modeli aşağıdaki olasılıkları belirleyebilir:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

"Jeton dizisi" bir cümlenin tamamı veya bir dizi cümle olabilir. Yani bir dil modeli, farklı cümlelerin veya metin bloklarının olasılığını hesaplayabilir.

Bir dizide bir sonraki sonucun ne olabileceğini tahmin etmek, metin oluşturma, dilleri çevirme ve soruları yanıtlama gibi herkesin işine yarar.

Büyük dil modeli nedir?

İnsan dilini geniş ölçekte modelleme, son derece karmaşık ve yoğun kaynak kullanan bir çalışmadır. Dil modellerinin ve büyük dil modellerinin mevcut özelliklerine ulaşma yolu onlarca yıldır.

Modeller her geçen gün büyüdükçe daha karmaşık hale geliyor ve daha etkili oluyorlar. İlk dil modelleri tek bir kelimenin olasılığını tahmin edebilirken modern büyük dil modelleri cümlelerin, paragrafların ve hatta dokümanların tamamının olasılığını tahmin edebilir.

Son birkaç yılda bilgisayar modelleri, veri kümesi boyutu, işleme gücü arttıkça ve daha uzun metin sıralarını modellemeye yönelik daha etkili teknikler geliştirildiğinde dil modellerinin boyutu ve işlevi hızla arttı.

Büyüklük ne kadar?

Tanım belirsizdir, ancak BERT'i (110 milyon parametre) ve PaLM 2'yi (340B'ye kadar parametreler) açıklamak için "büyük" etiketi kullanılmıştır.

Parametreler, modelin eğitim sırasında öğrendiği ağırlıklardır ve dizideki bir sonraki jetonu tahmin etmek için kullanılır. "Büyük", modeldeki parametrelerin sayısını veya bazen veri kümesindeki kelimelerin sayısını ifade edebilir.

Transformatörler

Dil modelleme alanındaki önemli gelişmelerden biri, 2017'de dikkat kavramı etrafında tasarlanmış bir mimari olan Transformers'ın kullanıma sunulmasıydı. Bu, önceki modellerde karşılaşılan bellek sorunlarını gidererek girişin en önemli bölümüne odaklanarak daha uzun sıraları işlemeyi mümkün kıldı.

Transformatörler, çok çeşitli dil modeli uygulamaları (ör. çevirmenler) için son teknoloji mimaridir.

Giriş "İyi bir köpekim." ise Transformatör tabanlı bir çevirmen bu girişi, aynı cümlenin Fransızcaya çevrilmiş hali olan "Je suis un bon chien." çıkışına dönüştürür.

Tam Transformatörler, bir kodlayıcıdan ve kod çözücüden oluşur. Kodlayıcı, giriş metnini ara bir temsile ve kod çözücü bu ara temsili faydalı bir metne dönüştürür.

Kendine dikkat etme

Transformatörler, kendi kendilerine dikkat etme kavramının ağırlığıdır. Kendine dikkat etme kısmı, bir topluluktaki her jetonun "öz odaklama" odağını ifade eder. Etkili bir şekilde dikkat çekmek, her giriş jetonu adına "Diğer her giriş jetonunun benim için ne kadar önemli?" diye sorar. İşleri basitleştirmek için her bir jetonun bir kelime olduğunu ve bağlamın tamamının tek bir cümle olduğunu varsayalım. Aşağıdaki cümleyi göz önünde bulundurun:

Hayvan çok yorgun olduğu için sokaktan geçemedi.

Önceki cümlede 11 kelime olduğundan, bu 11 kelimenin her biri diğer 10 kelimeye dikkat ediyor ve bu on kelimenin her biri için ne kadar önemli olduğunu merak ediyor. Örneğin, cümlenin it zamirini içerdiğine dikkat edin. Hitap şekli genellikle belirsizdir. Hitap şekli it her zaman yeni bir ismi ifade eder ancak örnek cümlede yakın adı hangi hayvan veya sokak anlamına gelir?

Kendine dikkat etme mekanizması, yakındaki her kelimenin zamiriyle alaka düzeyini belirler.

LLM'lerin kullanım alanları nelerdir?

LLM'ler, oluşturuldukları görevde son derece etkilidir. Bu da bir girişe yanıt olarak en uygun metni oluşturur. Özetleme, soru yanıtlama ve metin sınıflandırma gibi diğer görevlerde de güçlü performans göstermeye başlıyorlar. Bunlara yeni özellikler denir. LLM'ler bazı matematik problemlerini çözebilir ve kod yazabilir (ancak çalışmalarını kontrol etmeleri önerilir).

LLM'ler insan konuşma kalıplarını taklit etmek için mükemmeldir. Diğer özelliklerin yanı sıra bilgileri farklı stiller ve üsluplarla birleştirmek için mükemmeldir.

Ancak LLM'ler, sadece metin oluşturmaktan daha fazlasını yapan modellerin bileşenleri olabilir. Son LLM'ler, yaklaşım algılayıcıları ve kötü niyetli sınıflandırıcılar oluşturmak ve resim altyazıları oluşturmak için kullanılır.

LLM ile İlgili Dikkat Edilmesi Gereken Noktalar

Bu kadar büyük modellerin dezavantajları yoktur.

En büyük LLM'ler pahalıdır. Bu eğitimin tamamlanması aylar sürebilir ve bu nedenle çok sayıda kaynak tüketirler.

Ayrıca genellikle değerli bir gümüş kaplama olan diğer görevler için de kullanılabilirler.

Bir trilyon parametre içeren eğitim modelleri, mühendislik soruları oluşturur. İş akışını çiplere ve tekrar koordine etmek için özel altyapı ve programlama teknikleri gerekir.

Bu büyük modellerin maliyetlerini azaltmanın yolları vardır. Çevrimdışı çıkarım ve ayrıntı iki yaklaşımdan oluşur.

Ön yargı, çok büyük modellerde sorun olabilir ve eğitim ve dağıtım sırasında dikkate alınmalıdır.

Bu modeller insan diliyle eğitildiğinden, dilin kötüye kullanımı ve ırk, cinsiyet, din vb. ön yargılar dahil olmak üzere pek çok olası etik sorun ortaya çıkabilir.

Bu modellerin daha büyük ve daha iyi performans göstermeye devam ettikçe, dezavantajlarını anlama ve azaltma konusunda gerekli çalışmaları yapmaya devam etmesi gerektiğini net bir şekilde belirtmeliyiz. Google'ın sorumlu AI yaklaşımı hakkında daha fazla bilgi edinin.