Büyük Dil Modellerine Giriş

Dil modelleri veya büyük dil modelleri hakkında bilginiz yok mu? Aşağıdaki kaynaklara göz atın.

Dil modeli nedir?

Dil modeli, makul bir dil tahmin edip oluşturmayı amaçlayan bir makine öğrenimi modelidir. Otomatik tamamlama, göz atabilirsiniz.

Bu modeller, belirli bir sorunun olasılık jeton veya ve daha uzun bir token dizisinde gerçekleşen token dizisi. Aşağıdaki cümleyi düşünün:

When I hear rain on my roof, I _______ in my kitchen.

Jetonun bir kelime olduğunu varsayarsanız, dil modeli bunların yerini alacak farklı kelimelerin veya kelime dizilerinin olasılıkları alt çizgi. Örneğin bir dil modeli, olasılıklar:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

"İşaretçi dizisi", bir cümlenin tamamı veya bir dizi cümle olabilir. Yani bir dil modeli, farklı bütünlüğün olasılığını hesaplayabilir bloklardan oluşur.

Bir sıradaki sonraki öğenin olasılığını tahmin etmek her türlü şey için yararlıdır. Örneğin, metin oluşturma, dil çevirme ve soru yanıtlama gibi.

Büyük dil modeli nedir?

İnsan dilini geniş ölçekte modellemek son derece karmaşık ve yoğun kaynak gerektiren bir işlemdir. gayret gösterin. Dil modellerinin ve büyük dil modellerinin mevcut kapasitelerine ulaşmak için geçen süre birkaç on yıl oldu.

Modeller büyüdükçe ve büyüdükçe karmaşıklık ve etkililikleri de artar. İlk dil modelleri tek bir kelimenin olasılığını tahmin edebilirken modern büyük dil modelleri cümlelerin, paragrafların veya hatta dokümanların olasılığını tahmin edebilir.

Bilgisayar belleği, veri kümesi boyutu ve işlem gücü arttıkça ve daha uzun metin dizilerini modellemek için daha etkili teknikler geliştirildikçe dil modellerinin boyutu ve kapasitesi son birkaç yılda büyük oranda arttı.

Büyük ne kadar büyük?

Tanım belirsizdir ancak "büyük", BERT (110 milyon parametre) ve PaLM 2'yi (340 milyara kadar parametre) tanımlamak için kullanılmıştır.

Parametreler, modelin eğitim sırasında öğrendiği ve dizindeki sonraki jetonu tahmin etmek için kullanılan ağırlıklardır. "Büyük" modeldeki parametre sayısına veya bazen veri kümesindeki kelime sayısını da etkileyebilir.

Transformatörler

Dil modellemede önemli bir gelişme, 2017'de dikkat fikri etrafında tasarlanmış bir mimari olan Dönüştürücüler'in kullanıma sunulmasıdır. Bu sayede, girişin en önemli kısmına odaklanarak daha uzun dizileri işlemek mümkün oldu ve önceki modellerde karşılaşılan bellek sorunları çözüldü.

Transformatörler, çok çeşitli alanlar için son teknoloji ürünü çevirmenler gibi dil modeli uygulamaları için de geçerlidir.

Giriş "I am a good dog." ise Transformer tabanlı bir çevirmen bu girişi "Je suis un bon chien." sonucuna dönüştürür. Bu sonuç, aynı cümlenin Fransızcaya çevrilmiş halidir.

Tam dönüştürücüler bir kodlayıcı ve kod çözücü'den oluşur. Kodlayıcı, giriş metnini ara bir temsile dönüştürür ve kod çözücü bu ara temsili yararlı metne dönüştürür.

Kendine dikkat etme

Transformatörler, büyük ölçüde "kendi kendine ilgi" adlı bir kavrama dayanır. Öz dikkatin kendi kendine odaklanma kısmı, bir veri kümesindeki her jetonun "ego merkezli" odağını ifade eder. Öz dikkat, her giriş jetonu adına "Benim için diğer giriş jetonlarının ne kadar önemi var?" sorusunu sorar. Konuyu basitleştirmek için her jetonun bir kelime ve bağlamın tamamının tek bir cümle olduğunu varsayalım. Şu cümleyi ele alalım:

Hayvan çok yorgun olduğu için caddeyi geçmedi.

Önceki cümlede 11 kelime olduğu için bu 11 kelimenin her biri için anlam ifade ediyor diğer on kelimeye ne kadar önem verdiğini düşünerek kabul eder. Örneğin, cümlenin it zamirini içerdiğine dikkat edin. Hitaplar genellikle belirsizdir. O adıl her zaman en son ismi ifade eder. Ancak örnek cümlede o hangi ismi ifade eder: hayvanı mı yoksa sokağı mı?

Kendi kendine dikkat mekanizması, yakın olan her kelimenin it zamirini kullanın.

LLM'lerin kullanım alanları nelerdir?

LLM'ler, geliştirildikleri görevde (bir girişe yanıt olarak en inandırıcı metni oluşturma) son derece etkilidir. Günümüzde daha birçok diğer görevlerde güçlü performans; özetleme, soru sorma gibi ve metin sınıflandırma gibi özelliklerdir. Bunlara ortaya çıkan yetenekler LLM'ler, problemleri çözebilir ve kod yazabilirsiniz (yine de bu iki faktörü kontrol etmenizi iş) ekleyebilirsiniz.

LLM'ler, insan konuşma kalıplarını taklit etmede mükemmeldir. Diğer şeylerin yanı sıra, bilgileri farklı tarz ve üsluplarla birleştirme konusunda başarılıdır.

Ancak LLM'ler modelin bileşenleri olabilir ve metin oluşturabilirsiniz. Yakın zamanda kullanılan LLM'ler, yaklaşım algılayıcıları, toksik özellik sınıflandırıcıları kullanmak ve resim başlıkları oluşturmak.

LLM ile ilgili dikkat edilmesi gereken noktalar

Bu kadar büyük modellerin dezavantajları da vardır.

En büyük LLM'ler pahalıdır. Eğitimleri aylar sürebilir. Sonuç olarak, fazla kaynak tüketir.

Bunlar genellikle başka görevlere dönüştürülebilir ve iyi bir umut ışığı olabilir.

Trilyondan fazla parametre içeren modelleri eğitmek mühendislik açısından zorluklar oluşturur. Özel altyapı ve programlama çiplere akışı ve tekrar geri gitmeyi koordine etmek için teknikler gerekir.

Bu büyük modellerin maliyetlerini azaltmanın yolları vardır. Çevrimdışı çıkarım ve damıtma iki yaklaşımdır.

Yanlılık, çok büyük modellerde sorun oluşturabilir ve eğitim ile dağıtım sırasında dikkate alınmalıdır.

Bu modeller insan dilinde eğitildiğinden, dil kullanımının kötüye kullanılması ve ırk, cinsiyet, din vb. konulardaki önyargılar da dahil olmak üzere birçok etik sorun ortaya çıkabilir.

Bu modellerin büyümeye ve performansa odaklanmaya devam ettikçe anlayıp anlama konusunda titiz davranmaya dezavantajlarını azaltıyor. Google'ın şunlarla ilgili yaklaşımı hakkında daha fazla bilgi edinin: sorumlu AI'dan bahsetmek istiyorum.

LLM'ler hakkında daha fazla bilgi

Büyük dil modellerine daha ayrıntılı bir giriş yapmak mı istiyorsunuz? Makine Öğrenimi Hızlandırılmış Kursu'ndaki yeni Büyük dil modelleri modülüne göz atın.