Makine Öğrenimi Sözlüğü: Dil Değerlendirmesi

Bu sayfa Dil Değerlendirme sözlük terimleri içeriyor. Tüm sözlük terimleri için burayı tıklayın.

CEVAP

dikkat

#language

Nöral ağda kullanılan ve belirli bir kelimenin veya bir kelimenin bir kısmının önemini gösteren mekanizma. Dikkat, bir modelin bir sonraki jetonu/kelimeyi tahmin etmek için ihtiyaç duyduğu bilgi miktarını sıkıştırır. Tipik bir dikkat mekanizması, bir dizi giriş üzerinde ağırlıklı toplamdan oluşur. Bu yöntemde her bir girişin ağırlığı, nöral ağın başka bir bölümü tarafından hesaplanır.

Transformer'ın yapı taşları olan kendi kendine dikkat ve çok başlı kendine dikkat özelliklerini de inceleyin.

otomatik kodlayıcı

#language
#image

Girişten en önemli bilgileri çıkarmayı öğrenen bir sistem. Otomatik kodlayıcılar, kodlayıcı ve kod çözücü kombinasyonundan oluşur. Otomatik kodlayıcılar aşağıdaki iki adımlı süreci kullanır:

  1. Kodlayıcı, girişi (tipik olarak) kayıplı düşük boyutlu (orta) bir biçime eşler.
  2. Kod çözücü, düşük boyutlu biçimi orijinal daha yüksek boyutlu giriş biçimiyle eşleyerek orijinal girişin kayıplı bir sürümünü oluşturur.

Otomatik kodlayıcılar, kod çözücünün orijinal girişi kodlayıcının ara biçiminden mümkün olduğunca yakından yeniden oluşturmaya çalışmasıyla uçtan uca eğitilir. Ara biçim, orijinal biçimden daha küçük (düşük boyutlu) olduğundan, otomatik kodlayıcı girişteki hangi bilgilerin gerekli olduğunu öğrenmeye zorlanır ve çıktı, girişle tamamen aynı olmaz.

Örneğin:

  • Girdi verileri grafikse tam olmayan kopya, orijinal grafiğe benzese de biraz değiştirilmiş olur. Tam olmayan kopya, orijinal grafikteki gürültüyü giderebilir veya bazı eksik pikselleri doldurabilir.
  • Giriş verileri metinse otomatik kodlayıcı, orijinal metni taklit eden (ancak onunla aynı olmayan) yeni metin oluşturur.

Ayrıca çeşitli otomatik kodlayıcılar bölümünü inceleyin.

otomatik regresif model

#language
#image
#üretken yapay zeka

Bir tahminde kendi önceki tahminlerine göre sonuç veren bir model. Örneğin, otomatik regresif dil modelleri, önceden tahmin edilen jetonlara dayanarak bir sonraki jetonu tahmin eder. Transformer tabanlı tüm büyük dil modelleri otomatik regresiftir.

Buna karşılık, GAN tabanlı görüntü modelleri ise görüntüyü adımlar halinde yinelemeli olarak değil, tek bir ileri geçişte oluşturdukları için genellikle otomatik regresif değildir. Ancak belirli görüntü oluşturma modelleri, birkaç adımda bir görüntü oluşturdukları için otomatik regresif olur.

B

kelime paketi

#language

Sıradan bağımsız olarak, kelime öbeği veya pasajdaki kelimelerin temsili. Örneğin, kelime çantası aşağıdaki üç ifadeyi aynı şekilde temsil eder:

  • köpek zıplıyor
  • köpeği zıplatıyor
  • zıplayan köpek

Her kelime, seyrek vektör içindeki bir dizine eşlenir. Bu vektörde, sözlükteki her kelime için bir dizin bulunur. Örneğin, köpek atlar ifadesi, bir, köpek ve atlama kelimelerine karşılık gelen üç dizinde sıfır olmayan değerlere sahip bir özellik vektörüne eşlenir. Sıfır olmayan değer aşağıdakilerden herhangi biri olabilir:

  • Bir kelimenin varlığını belirtmek için 1.
  • Bir kelimenin çantada kaç kez geçtiğinin sayısı. Örneğin, bordo köpek bordo tüylü bir köpektir ifadesi kullanıldığında, hem bordo hem de köpek 2 olarak, diğer kelimeler ise 1 olarak gösterilir.
  • Bir kelimenin pakette kaç kez göründüğünün logaritması gibi başka bir değer.

BERT (Dönüştürücülerden Çift Yönlü Kodlayıcı Gösterimleri)

#language

Metin temizleme için model mimari. Eğitilmiş bir BERT modeli, metin sınıflandırma veya diğer makine öğrenimi görevleri için daha büyük bir modelin parçası olarak çalışabilir.

BERT aşağıdaki özelliklere sahiptir:

BERT'in varyantları:

BERT'e genel bakış için Open Sourcing BERT: Doğal Dil İşleme için Son Teknoloji Ürünü Ön Eğitimi sayfasını inceleyin.

iki yönlü

#language

Metnin hem önünden geçen hem de takip eden metni değerlendiren bir sistemi tanımlamak için kullanılan terim. Öte yandan, tek yönlü bir sistem, yalnızca metnin hedef bölümünden öne gelen metni değerlendirir.

Örneğin, aşağıdaki sorudaki alt çizgiyi temsil eden kelime veya kelimelerin olasılıklarını belirlemesi gereken bir maskelenmiş dil modelini ele alalım:

_____ nedir?

Tek yönlü bir dil modelinin olasılıklarını yalnızca "Ne", "eşittir" ve "bir" kelimelerinin sağladığı bağlama dayandırması gerekir. Buna karşılık, çift yönlü dil modeli "birlikte" ve "siz" ifadelerinden bağlam da elde edebilir ve bu da modelin daha iyi tahminler oluşturmasına yardımcı olabilir.

iki yönlü dil modeli

#language

Belirli bir jetonun, önceki ve sonraki metne dayanarak metin alıntısında belirli bir konumda bulunma olasılığını belirleyen dil modeli.

Bigram

#seq
#language

N=2 olan bir N-gram.

BLEU (İki Dilli Değerlendirme Alt Çalışması)

#language

İki insan dili arasındaki çevirinin kalitesini (örneğin, İngilizce ve Rusça arasında) belirten 0, 0 ile 1, 0 (dahil) arasındaki bir puan. 1,0 olan BLEU puanı mükemmel çeviriyi, 0,0 olan BLEU puanı ise çok kötü bir çeviriyi belirtir.

C

nedensel dil modeli

#language

Tek yönlü dil modeli ile eş anlamlı.

Dil modellemedeki farklı yönlü yaklaşımları ayırt etmek için iki yönlü dil modeli konusuna bakın.

düşünme zinciri

#language
#üretken yapay zeka

Büyük dil modelini (LLM) gerekçesini adım adım açıklamaya teşvik eden bir istem mühendisliği tekniğidir. Örneğin, ikinci cümleye özellikle dikkat ederek aşağıdaki istemi inceleyin:

7 saniyede saatte 0'dan 96 km hıza giden bir arabada bir sürücü kaç g'lik kuvvetle karşılaşır? Yanıtta alakalı tüm hesaplamaları gösterin.

LLM'nin yanıtı muhtemelen:

  • Uygun yerlere 0, 60 ve 7 değerlerini ekleyerek bir fizik formülleri dizisi gösterin.
  • Formülleri neden seçtiğini ve çeşitli değişkenlerin ne anlama geldiğini açıklayın.

Düşünce zincirinde yönlendirme, LLM'yi tüm hesaplamaları yapmaya zorlar. Bu da daha doğru bir yanıt sağlayabilir. Buna ek olarak, düşünce zinciriyle yönlendirme, kullanıcının LLM'nin adımlarını inceleyerek yanıtın mantıklı olup olmadığını belirlemesini sağlar.

sohbet

#language
#üretken yapay zeka

Genellikle büyük bir dil modeli olan bir ML sistemiyle karşılıklı diyalogların içeriği. Bir sohbetteki önceki etkileşim (yazdığınız şey ve büyük dil modelinin yanıtı), sohbetin sonraki bölümlerinin bağlamı olur.

Chatbot, büyük dil modelinin bir uygulamasıdır.

konfeksiyon

#language

halüsinasyon ile eş anlamlı.

Zihin bulanıklığı muhtemelen halüsinasyondan daha doğru teknik bir terimdir. Ancak halüsinasyon ilk başta popüler oldu.

seçim bölgesi ayrıştırma

#language

Bir cümleyi daha küçük gramer yapılarına ("bileşenler") bölme. ML sisteminin doğal dil anlama modeli gibi ileri bir sürümü, bileşenleri orijinal cümleden daha kolay bir şekilde ayrıştırabilir. Örneğin, aşağıdaki cümleyi ele alalım:

Arkadaşım iki kedi sahiplendi.

Bir seçim bölgesi ayrıştırıcı, bu cümleyi aşağıdaki iki bileşene ayırabilir:

  • Arkadaşım bir ad öbeğidir.
  • bir kedi sahiplenmek fiili bir ifadedir.

Bu bileşenler, daha küçük bileşenlere ayrılabilir. Örneğin, fiil ifadesi

iki kedi sahiplendi

daha fazla alt bölüme ayrılabilir:

  • adopted bir fiildir.
  • iki kedi başka bir isim öbeğidir.

bağlama dayalı dil yerleştirme

#language
#üretken yapay zeka

Kelimeleri ve kelime öbeklerini ana dili olarak konuşan kişilerin anlayabileceği şekilde "anlamaya" yakın bir yerleştirme. Bağlamsallaştırılmış dil yerleştirmeleri karmaşık söz dizimini, anlamları ve bağlamı anlayabilir.

Örneğin, İngilizce cow kelimesinin yerleştirilmiş öğeleri ele alalım. word2vec gibi daha eski yerleştirme öğeleri, İngilizce kelimeleri temsil edebilir. Bu durumda, yerleştirme alanındaki inek ile boğa arasındaki mesafe, ewe (dişi koyun) ile ram (erkek koyun) veya kadın ile erkek arasındaki mesafeye benzerdir. Bağlamsallaştırılmış dil yerleştirmeleri, İngilizce konuşanların bazen inek kelimesini bazen inek veya boğa anlamına gelecek şekilde kullandığını fark ederek bir adım ileri gidebilir.

bağlam penceresi

#language
#üretken yapay zeka

Bir modelin belirli bir istemde işleyebileceği jeton sayısı. Bağlam penceresi ne kadar büyük olursa model, isteme tutarlı ve tutarlı yanıtlar vermek için o kadar fazla bilgi kullanabilir.

kaza çiçeği

#language

Anlamı belirsiz bir cümle veya ifade. Çökme çiçekleri doğal dil anlama açısından önemli bir sorun teşkil eder. Örneğin, Kırmızı Bant Dikey Tutur başlığı, NLU modeli başlığı olduğu gibi veya mecazi olarak yorumlayabileceği için çarpışma çiçekleri anlamına gelir.

D

kod çözücü

#language

Genel olarak, işlenmiş, yoğun veya dahili bir gösterimden daha ham, seyrek veya harici bir gösterime dönüşen tüm ML sistemleri.

Kod çözücüler, genellikle kodlayıcı ile eşlenen daha büyük bir modelin bileşenidir.

Adım sırası görevlerinde kod çözücü, bir sonraki adım sırasını tahmin etmek için kodlayıcı tarafından oluşturulan dahili durumla başlar.

Dönüştürücü mimarisi içindeki bir kod çözücü tanımı için Dönüştürücü'ye bakın.

gürültü giderme

#language

Kendi kendine gözetimli öğrenmeye yönelik yaygın bir yaklaşımdır.

  1. Gürültü, veri kümesine yapay olarak eklenir.
  2. model gürültüyü kaldırmaya çalışır.

Parazit giderme, etiketlenmemiş örneklerden öğrenmeyi sağlar. Orijinal veri kümesi, hedef veya etiket olarak, gürültülü veri de giriş olarak kullanılır.

Bazı maskelenmiş dil modelleri gürültü gidermeyi aşağıdaki gibi kullanır:

  1. Bazı jetonları maskeleyerek etiketlenmemiş cümleye yapay olarak gürültü eklenir.
  2. Model, orijinal jetonları tahmin etmeye çalışır.

doğrudan isteme

#language
#üretken yapay zeka

Sıfır çekimli istem ile eş anlamlı.

E

mesafeyi düzenle

#language

İki metin dizesinin birbirine ne kadar benzer olduğunun ölçümü. Makine öğreniminde, düzenleme mesafesi yararlıdır. Bunun nedeni, hesaplamanın basit olması ve benzer olduğu bilinen iki dizeyi karşılaştırmanın veya belirli bir dizeye benzer dizeleri bulmanın etkili bir yoludur.

Düzenleme mesafesinin, her biri farklı dize işlemleri kullanan birkaç tanımı vardır. Örneğin, Levenshtein mesafesi en az sayıda silme, ekleme ve değiştirme işlemlerini dikkate alır.

Örneğin, Levenshtein'da "kalp" ve "dart" kelimeleri arasındaki mesafe 3'tür, çünkü aşağıdaki 3 düzenleme bir kelimeyi diğerine dönüştüren en az değişikliktir:

  1. kalp → deart ("h" yerine "d")
  2. deart → dart (sil "e")
  3. dart → dart ("s" ekleyin)

yerleştirme katmanı

#language
#fundamentals

Daha düşük boyutlu bir yerleştirme vektörünü kademeli olarak öğrenmek için yüksek boyutlu kategorik özellik üzerinde çalışan özel gizli katman. Yerleştirme katmanı, bir nöral ağın sadece yüksek boyutlu kategorik özellik üzerinde eğitimden çok daha verimli bir şekilde eğitilmesini sağlar.

Örneğin, Earth şu anda yaklaşık 73.000 ağaç türünü desteklemektedir. Ağaç türünün modelinizdeki bir özellik olduğunu ve modelinizin giriş katmanında 73.000 öğe uzunluğunda bir tek sıcak vektör bulunduğunu varsayalım. Örneğin, baobab aşağıdaki gibi temsil edilebilir:

73.000 öğeden oluşan dizi. İlk 6.232 öğe 0 değerini barındırır. Bir sonraki öğe 1 değerini tutar. Son 66.767 öğe sıfır değerini tutar.

73.000 öğeli bir dizi çok uzun. Modele bir yerleştirme katmanı eklemezseniz 72.999 sıfırın çarpımı nedeniyle eğitim çok zaman alır. Belki de yerleştirme katmanını 12 boyuttan oluşacak şekilde seçersiniz. Bunun sonucunda, yerleştirme katmanı kademeli olarak her bir ağaç türü için yeni bir gömme vektörü öğrenecektir.

Belirli durumlarda, yerleştirme katmanına makul bir alternatif olarak karma oluşturma kullanılabilir.

yerleştirme alanı

#language

Daha yüksek boyutlu bir vektör uzayından özellikler içeren d boyutlu vektör uzayı eşlenir. İdeal olarak yerleştirme alanı, anlamlı matematiksel sonuçlar veren bir yapı içerir. Örneğin, ideal bir yerleştirme alanında, yerleştirilmiş öğeler eklemek ve çıkarmak kelime analojisi görevlerini çözebilir.

İki yerleştirmenin nokta çarpımı, benzerliklerinin bir ölçüsüdür.

gömme vektörü

#language

Genel anlamda, herhangi bir gizli katmandan alınan ve söz konusu gizli katmandaki girişleri açıklayan bir dizi kayan nokta sayısıdır. Genellikle yerleştirme vektörü, bir yerleştirme katmanında eğitilen kayan nokta sayıları dizisidir. Örneğin, yerleştirilmiş bir katmanın Dünya'daki 73.000 ağaç türünün her biri için bir gömme vektörü öğrenmesi gerektiğini varsayalım. Aşağıdaki dizi, bir baobab ağacının gömme vektörü olabilir:

Her biri 0,0 ile 1,0 arasında bir kayan nokta sayısına sahip 12 öğeden oluşan dizi.

Gömme vektörü, bir dizi rastgele sayı değildir. Bu değerler, eğitim sırasında bir nöral ağın diğer ağırlıkları öğrenmesine benzer şekilde, eğitim aracılığıyla da yerleştirilmiş olur. Dizinin her öğesi, bir ağaç türünün bazı özelliklerine göre verilen bir derecelendirmedir. Hangi öğe hangi ağaç türünün özelliğini temsil eder? İnsanların bunu belirlemesi çok zordur.

Gömme vektörünün matematiksel olarak en önemli yanı, benzer öğelerin benzer kayan nokta sayılarına sahip olmasıdır. Örneğin, benzer ağaç türleri, farklı ağaç türlerine kıyasla daha benzer kayan nokta sayıları kümesine sahiptir. Kızılağaçlar ve sekoyalar birbiriyle alakalı ağaç türleridir, bu nedenle sekoya ve hindistan cevizi palmiyelerine kıyasla daha benzer kayan nokta sayılarına sahiptir. Aynı girdiyle modeli yeniden eğitseniz bile, yerleştirme vektöründeki sayılar modeli her yeniden eğittiğinizde değişir.

kodlayıcı

#language

Genel olarak, ham, seyrek veya harici bir gösterimden daha işlenmiş, yoğun veya daha çok dahili bir temsile dönüşen tüm ML sistemleri.

Kodlayıcılar, genellikle kod çözücü ile eşlenen daha büyük bir modelin bileşenidir. Bazı Dönüştürücüler, kodlayıcıları kod çözücülerle eşler. Diğer Dönüştürücüler ise yalnızca kodlayıcıyı veya yalnızca kod çözücüyü kullanır.

Bazı sistemler, sınıflandırma veya regresyon ağına giriş olarak kodlayıcının çıkışını kullanır.

Diziden sıraya ekleme görevlerinde kodlayıcı, bir giriş dizisi alıp bir dahili durum (vektör) döndürür. Ardından kod çözücü, bu dahili durumu kullanarak bir sonraki diziyi tahmin eder.

Dönüştürücü mimarisindeki bir kodlayıcının tanımı için Dönüştürücü bölümüne bakın.

F

birkaç çekimlik istem

#language
#üretken yapay zeka

Büyük dil modelinin nasıl yanıt vermesi gerektiğini gösteren birden fazla ("birkaç") örnek içeren bir istem. Örneğin, aşağıdaki uzun istemde bir sorgunun nasıl yanıtlanacağı büyük bir dil modelinin nasıl yanıtlanacağını gösteren iki örnek bulunmaktadır.

Tek bir istemin bölümleri Notlar
Belirtilen ülkenin resmi para birimi nedir? LLM'nin cevaplamasını istediğiniz soru.
Fransa: avro Bir örnek.
Birleşik Krallık: GBP Başka bir örnek.
Hindistan: Gerçek sorgu.

Az sayıda çekim istemi, genellikle sıfır çekim isteme ve tek seferlik istem işlemlerinden daha istenen sonuçlar verir. Ancak birkaç çekim için istemde daha uzun bir istem gerekir.

Az çekimli istem, isteme dayalı öğrenim için uygulanan bir birkaç aşamadan öğrenme biçimidir.

Keman

#language

İstilacı kod veya altyapı olmadan işlevlerin ve sınıfların değerlerini ayarlayan Python öncelikli bir yapılandırma kitaplığı. Pax ve diğer makine öğrenimi kod tabanları söz konusu olduğunda bu işlevler ve sınıflar, modelleri ve eğitim hiperparametrelerini temsil eder.

Fiddle, makine öğrenimi kod tabanlarının genellikle şu bölümlere ayrıldığını varsayar:

  • Katmanları ve optimize edicileri tanımlayan kitaplık kodu.
  • Kitaplıkları çağıran ve kabloları birbirine bağlayan veri kümesi "yapışkan" kodu.

Fiddle, yapıştırıcı kodunun çağrı yapısını değerlendirilmemiş ve değişken bir biçimde yakalar.

ince ayar

#language
#image
#üretken yapay zeka

Önceden eğitilmiş bir model üzerinde gerçekleştirilen göreve özel ikinci bir eğitim kartı, modelin parametrelerini belirli bir kullanım alanına göre hassaslaştırır. Örneğin, bazı büyük dil modelleri için tam eğitim sırası aşağıdaki gibidir:

  1. Ön eğitim: İngilizce dilindeki tüm Wikipedia sayfaları gibi büyük bir genel veri kümesinde büyük bir dil modelini eğitin.
  2. Hassas ayar: Önceden eğitilmiş modeli tıbbi sorgulara yanıt verme gibi belirli bir görevi gerçekleştirecek şekilde eğitin. İnce ayarlar genellikle belirli bir göreve odaklanan yüz veya binlerce örnek içerir.

Başka bir örnek olarak, büyük resim modeli için tam eğitim sırası aşağıdaki gibidir:

  1. Ön eğitim: Wikimedia Commons'daki tüm resimler gibi büyük bir genel görüntü veri kümesinde büyük bir görüntü modelini eğitin.
  2. Hassas ayarlama: Önceden eğitilmiş modeli, orkaların görüntülerini oluşturma gibi belirli bir görevi gerçekleştirecek şekilde eğitin.

Hassas ayarlamalar için aşağıdaki stratejilerin herhangi bir kombinasyonu gerekebilir:

  • Önceden eğitilmiş modelin mevcut parametrelerinin tümünü değiştirme. Bu bazen tam ince ayar olarak da adlandırılır.
  • Önceden eğitilmiş modelin mevcut parametrelerinden sadece bazılarını değiştirirken (genellikle çıkış katmanına en yakın katmanlarda değişiklik yaparken) diğer mevcut parametreleri değiştirmeyin (tipik olarak, katmanlar giriş katmanına en yakın olanı yapın). Parametre açısından verimli ayarlama bölümünü inceleyin.
  • Genellikle çıkış katmanına en yakın mevcut katmanların üzerine daha fazla katman ekleme.

Hassas ayarlama, bir öğrenme aktarma biçimidir. Bu nedenle ince ayarda, önceden eğitilmiş modeli eğitmek için kullanılanlardan farklı bir kayıp işlevi veya farklı bir model türü kullanılabilir. Örneğin, bir giriş görüntüsündeki kuş sayısını döndüren bir regresyon modeli oluşturmak için, önceden eğitilmiş büyük bir görüntü modelinde ince ayar yapabilirsiniz.

İnce ayarları aşağıdaki terimlerle karşılaştırın:

Keten

#language

JAX üzerine inşa edilmiş, derin öğrenme için yüksek performanslı, açık kaynaklı bir kitaplık. Flax, performanslarını değerlendirme yöntemlerinin yanı sıra eğitim nöral ağları için işlevler sunar.

Keten Şekillendirici

#language

Flax üzerinde oluşturulmuş, açık kaynaklı bir Transformer kitaplığı, özellikle doğal dil işleme ve çok modlu araştırma için tasarlanmıştır.

G

üretken yapay zeka

#language
#image
#üretken yapay zeka

Resmi tanımı olmayan, dönüştürücü bir alan. Bununla birlikte, çoğu uzman, üretken yapay zeka modellerinin aşağıdakilerin tümünü barındıran içerikler oluşturabileceği konusunda hemfikirdir:

  • karmaşık
  • tutarlı
  • orijinal

Örneğin, üretken yapay zeka modeli karmaşık makaleler veya görseller oluşturabilir.

LSTM ve RNN'ler gibi önceki bazı teknolojiler orijinal ve tutarlı içerik oluşturabilir. Bazı uzmanlar bu eski teknolojileri üretken yapay zeka olarak görürken diğerleri gerçek üretken yapay zekanın önceki teknolojilerin üretebileceğinden daha karmaşık çıktılar gerektirdiğini düşünüyor.

Tahmine dayalı makine öğrenimi ile kontrast oluşturun.

GPT (Üretken Önceden Eğitilmiş Dönüştürücü)

#language

OpenAI tarafından geliştirilen, Transformer tabanlı bir büyük dil modelleri ailesi.

GPT varyantları, aşağıdakiler de dahil olmak üzere birden fazla ürüne uygulanabilir:

  • resim oluşturma (örneğin, ImageGPT)
  • metinden görsele dönüştürme (örneğin, DALL-E).

VR

halüsinasyon

#language

Gerçek dünya hakkında iddiada bulunuyormuş gibi görünen bir üretken yapay zeka modeli tarafından akla yatkın görünen ama gerçeklere uygun olmayan bir sonuç üretilmesi. Örneğin, Barack Obama'nın 1865'te öldüğünü iddia eden üretken yapay zeka modeli halüsinasyon sürecindedir.

İ

bağlam içi öğrenme

#language
#üretken yapay zeka

Birkaç çekim istem ile eş anlamlı.

L

LaMDA (Diyalog Uygulamaları İçin Dil Modeli)

#language

Google tarafından geliştirilen ve gerçekçi diyaloglar oluşturabilen büyük bir diyalog veri kümesi kullanılarak eğitilmiş Transformer tabanlı bir büyük dil modeli.

LaMDA: Çığır açan konuşma teknolojimiz bu konuda genel bir bakış sunuyor.

dil modeli

#language

Bir jetonun veya jeton dizisinin daha uzun bir jeton dizisinde gerçekleşme olasılığını tahmin eden bir model.

büyük dil modeli

#language

Genellikle çok sayıda parametre içeren bir dil modelini ifade eden, kesin bir tanımı olmayan gayriresmi bir terim. Bazı büyük dil modelleri 100 milyardan fazla parametre içerir.

gizli uzay

#language

Yerleştirme alanı ile eş anlamlı.

Geniş kapsamlı dil modeli

#language

large dil modeli için kısaltma.

LoRA

#language
#üretken yapay zeka

Low-Rank Adaptability (Düşük Sırayla Uyarlanabilirlik) için kısaltma.

Düşük Sıralama Uyumluluğu (LoRA)

#language
#üretken yapay zeka

Büyük bir dil modelinin parametrelerinin yalnızca bir alt kümesinde ince ince ayarlar yapan, parametre açısından verimli ayarlama yapmak için kullanılan bir algoritmadır. LoRA'nın sunduğu avantajlar şunlardır:

  • Bir modelin tüm parametrelerinde ince ayar yapılmasını gerektiren tekniklere kıyasla daha hızlı ince ayarlar.
  • Hassas şekilde ayarlanmış modelde çıkarım işlemlerinin işlem maliyetini azaltır.

LoRA ile ayarlanan bir model, tahminlerinin kalitesini korur veya iyileştirir.

LoRA, bir modelin birden çok özel sürümünü etkinleştirir.

M

maskelenmiş dil modeli

#language

Aday jetonlarının bir dizideki boşlukları doldurma olasılığını tahmin eden dil modeli. Örneğin, maskeli dil modeli, aday kelimelerin aşağıdaki cümledeki alt çizgi yerine geçme olasılıklarını hesaplayabilir:

Şapkadaki ____ geri geldi.

Literatürde genellikle alt çizgi yerine "MASK" dizesi kullanılır. Örneğin:

Şapkadaki "MASK" geri geldi.

Modern maskelenmiş dil modellerinin çoğu iki yönlüdür.

meta öğrenme

#language

Bir öğrenme algoritmasını keşfeden veya geliştiren makine öğrenimi alt kümesi. Bir meta öğrenme sistemi, bir modeli az miktarda veriden ya da önceki görevlerde edinilen deneyimlerden hızlı bir şekilde öğrenecek şekilde eğitmeyi de hedefleyebilir. Meta öğrenme algoritmaları genellikle aşağıdakileri başarmaya çalışır:

  • Elle tasarlanan özellikleri (Başlatıcı veya optimize edici gibi) iyileştirin veya öğrenin.
  • Daha verimli ve işlem daha verimli olun.
  • Genellemeyi geliştirin.

Meta öğrenme, birkaç aşamadan öğrenme ile ilgilidir.

yöntem

#language

Üst düzey bir veri kategorisi. Örneğin sayılar, metin, resim, video ve ses beş farklı moda şeklidir.

paralellik modeli

#language

Bir model farklı parçalarını farklı model yerleştiren eğitim veya çıkarımları ölçeklendirme yöntemidir. Model paralelliği, tek bir cihaza sığmayacak kadar büyük modellerin kullanılmasına olanak tanır.

Model paralelliğini uygulamak için bir sistem genellikle aşağıdakileri yapar:

  1. Modeli daha küçük parçalara ayırır (bölür).
  2. Bu küçük parçaların eğitimini birden fazla işlemciye dağıtır. Her işlemci, modelin kendi bölümünü eğitir.
  3. Sonuçları birleştirerek tek bir model oluşturur.

Modeldeki paralellik, eğitimi yavaşlatır.

Ayrıca bkz. Veri paralelliği.

kendi kendine dikkat etme

#language

Giriş sırasındaki her pozisyon için kendi kendine dikkat mekanizmasını birden fazla kez uygulayan bir kendine dikkat etme uzantısı.

Transformers, birden fazla noktaya dikkat etme kavramını ortaya koydu.

çok modlu model

#language

Giriş ve/veya çıkışları birden fazla modalite içeren bir model. Örneğin, özellik olarak hem bir resmi hem de metin başlığını (iki yöntem) alan ve metin başlığının resim için ne kadar uygun olduğunu belirten bir puan veren bir modeli ele alalım. Dolayısıyla, bu modelin girişleri çok modlu, çıktı ise tek modludur.

N

doğal dil anlama

#language

Yazdıklarına veya söylediklerine göre bir kullanıcının niyetini belirleme. Örneğin bir arama motoru, kullanıcının yazdığına veya söylediğine göre ne aradığını belirlemek için doğal dil anlama özelliğini kullanır.

N-gram

#seq
#language

N kelimeden oluşan sıralı bir dizi. Örneğin, truly madly 2 gramdır. Düzen alakalı olduğundan, gerçekten, gerçekten deli gibi farklı bir 2 gramdır.

N Bu N-gram türünün adları Örnekler
2 bigram veya 2 gram gidiş, gitme, öğle yemeği, akşam yemeği yemek
3 trigram veya 3 gram çok yemişti, üç adet kör fare ve zil sesi
4 4 gram parkta yürüme, rüzgardaki toz, çocuk mercimek yedi

Birçok doğal dil anlama modeli, kullanıcının yazacağı veya söyleyeceği bir sonraki kelimeyi tahmin etmek için N-gramlardan yararlanır. Örneğin, bir kullanıcının üç kör yazdığını varsayalım. Trigrama dayalı bir NLU modeli muhtemelen kullanıcının bir sonraki mikrofon türünü tahmin edeceğini tahmin eder.

N gramlarını, sıralanmamış kelime kümeleri olan kelime torbası ile karşılaştırın.

NLU

#language

Doğal dil anlama ifadesinin kısaltmasıdır.

O

tek seferlik istem

#language
#üretken yapay zeka

Büyük dil modelinin nasıl yanıt vermesi gerektiğini gösteren bir örnek içeren istem. Örneğin, aşağıdaki istemde büyük bir dil modelinin bir sorguyu nasıl yanıtlaması gerektiğini gösteren bir örnek bulunmaktadır.

Tek bir istemin bölümleri Notlar
Belirtilen ülkenin resmi para birimi nedir? LLM'nin cevaplamasını istediğiniz soru.
Fransa: avro Bir örnek.
Hindistan: Gerçek sorgu.

Tek seferlik istemleri aşağıdaki terimlerle karşılaştırın:

P

parametre açısından verimli ayarlama

#language
#üretken yapay zeka

Büyük bir önceden eğitilmiş dil modeline (PLM) tam ince ayardan daha verimli bir şekilde ince ayar yapmak için bir dizi teknik. Parametreyle verimli ayarlama, genellikle tam ince ayarlara kıyasla çok daha az parametrede ince ayar yapar. Ancak genellikle, tamamen hassas ayarlardan oluşmuş büyük bir dil modeliyle aynı düzeyde (veya neredeyse aynı düzeyde) performans gösteren büyük dil modeli üretir.

Parametre açısından verimli ayarları aşağıdakilerle karşılaştırın:

Parametre açısından verimli ayarlama, parametre açısından verimli ince ayar olarak da bilinir.

ardışık düzen

#language

Bir modelin işlemesinin ardışık aşamalara ayrıldığı ve her aşamanın farklı bir cihazda yürütüldüğü bir model paralelliği biçimi. Bir aşama bir grubu işlerken, önceki aşama sonraki toplu işlem üzerinde çalışabilir.

Aşamalı eğitimi de inceleyin.

PLM

#language
#üretken yapay zeka

Önceden eğitilmiş dil modeli'nin kısaltmasıdır.

konumsal kodlama

#language

Bir jetonun yerleştirmesine bir dizideki jetonun konumu hakkında bilgi eklemek için kullanılan bir teknik. Dönüştürücü modelleri, dizideki farklı bölümler arasındaki ilişkiyi daha iyi anlamak için konum kodlamasını kullanır.

Konumsal kodlamanın yaygın bir uygulaması sinüsoid fonksiyon kullanır. (Özellikle sinüsoidal fonksiyonun frekansı ve genliği, dizideki jetonun konumuna göre belirlenir.) Bu teknik, Dönüştürücü modelinin konumlarına bağlı olarak dizideki farklı bölümlere bakmayı öğrenmesini sağlar.

önceden eğitilmiş model

#language
#image
#üretken yapay zeka

Eğitilmiş modeller veya model bileşenleri (yerleştirme vektörü gibi). Bazen bir nöral ağa, önceden eğitilmiş yerleştirilmiş vektörleri beslersiniz. Diğer durumlarda modeliniz, önceden eğitilmiş yerleştirmelere dayanmak yerine, yerleştirme vektörlerini kendileri eğitir.

Önceden eğitilmiş dil modeli terimi, ön eğitim almış büyük bir dil modelini ifade eder.

ön eğitim

#language
#image
#üretken yapay zeka

Büyük bir veri kümesi üzerinde bir modelin ilk eğitimi. Önceden eğitilmiş bazı modeller sakar devlerdir ve genellikle ek eğitimle iyileştirilmesi gerekir. Örneğin, makine öğrenimi uzmanları Vikipedi'deki tüm İngilizce sayfalar gibi çok geniş bir metin veri kümesinde büyük bir dil modelini önceden eğitebilir. Ön eğitimin ardından ortaya çıkan model, aşağıdaki tekniklerden herhangi biri kullanılarak daha da hassaslaştırılabilir:

istem

#language
#üretken yapay zeka

Modelin belirli bir şekilde davranmasını sağlamak için büyük dil modeline giriş olarak girilen metinler. İstemler bir kelime öbeği kadar kısa veya rastgele uzun olabilir (örneğin, bir roman metninin tamamı). İstemler, aşağıdaki tabloda gösterilenler de dahil olmak üzere birden fazla kategoriye ayrılır:

İstem kategorisi Örnek Notlar
Soru Güvercin ne kadar hızlı uçabilir?
Talimat Arbitraj hakkında komik bir şiir yazın. Büyük dil modelinden bir şey yapmasını isteyen bir istem.
Örnek Markdown kodunu HTML'ye çevirin. Örneğin:
Markdown: * liste öğesi
HTML: <ul> <li>liste öğesi</li> </ul>
Bu örnek istemin ilk cümlesi bir talimattır. İstemin geri kalanı örnektir.
Rol Fizik alanında doktora yapmak için makine öğrenimi eğitiminde gradyan inişin neden kullanıldığını açıklayın. Cümlenin ilk bölümü bir talimat, "Fizik alanında doktora yapanlara" ifadesi ise rol kısmıdır.
Modelin tamamlanması için kısmi giriş Birleşik Krallık Başbakanı'nın yaşadığı yer Kısmi giriş istemi aniden (bu örnekte olduğu gibi) sona erebilir veya bir alt çizgiyle bitebilir.

Üretken yapay zeka modelleri, istemlere metin, kod, resim, yerleştirme veya video gibi neredeyse her şeyle yanıt verebilir.

istem temelli öğrenim

#language
#üretken yapay zeka

Belirli modellerin rastgele metin girişlerine (istemler) yanıt olarak davranışlarını uyarlamalarını sağlayan özellik. Tipik bir istem tabanlı öğrenme paradigmasında büyük dil modeli, isteklere metin oluşturarak yanıt verir. Örneğin, bir kullanıcının şu istemi girdiğini varsayalım:

Newton'un üçüncü hareket yasasını özetleme.

İsteme dayalı öğrenme yapabilen bir model, önceki istemi yanıtlamak için özel olarak eğitilmemiştir. Bu model daha çok fizik, genel dil kuralları ve genel anlamda faydalı yanıtları oluşturanlar hakkında birçok olguyu "bilir". Bu bilgi (umarım) faydalı bir yanıt vermek için yeterlidir. İnsanlardan gelen ek geri bildirimler ("Bu cevap çok karmaşıktı" veya "Tepki nedir?"), bazı istem tabanlı öğrenim sistemlerinin yanıtlarının yararlılığını kademeli olarak iyileştirmesine olanak tanır.

istem tasarımı

#language
#üretken yapay zeka

İstem mühendisliği ile eş anlamlı.

istem mühendisliği

#language
#üretken yapay zeka

Büyük bir dil modelinden istenen yanıtları alan istemler oluşturma sanatı. İnsanlar hızlı mühendislik gerçekleştirir. İyi yapılandırılmış istemler yazmak, büyük bir dil modelinden faydalı yanıtlar almanın önemli bir parçasıdır. Hızlı mühendislik, aşağıdakiler dahil birçok faktöre bağlıdır:

Faydalı istemler yazma hakkında daha fazla ayrıntı için İstem tasarımına giriş bölümüne bakın.

İstem tasarımı istem mühendisliği ile eş anlamlıdır.

istem ayarlama

#language
#üretken yapay zeka

Sistemin gerçek isteme eklediği bir "ön eki" öğrenen parametre açısından verimli ayarlama mekanizması.

Bazen ön ek ayarlama olarak da adlandırılan istem ayarının bir varyasyonu, ön eki her katmanda başa eklemektir. Bunun aksine, çoğu istem ayarı yalnızca giriş katmanına bir ön ek ekler.

R

rol isteme

#language
#üretken yapay zeka

Üretken yapay zeka modelinin yanıtı için hedef kitleyi tanımlayan istemin isteğe bağlı bölümüdür. Büyük bir dil modeli, rol istemi olmadan soruları soran kişi için yararlı olabilecek veya olmayabilecek bir yanıt sağlar. Büyük bir dil modeli, rol istemi ile belirli bir hedef kitle için daha uygun ve faydalı şekilde yanıt verebilir. Örneğin, aşağıdaki istemlerin rol istemi bölümü kalın karakterlerle yazılmıştır:

  • Ekonomi alanında doktora yapan bu makaleyi özetleyin.
  • On yaşındaki bir çocukta gelgitlerin nasıl gerçekleştiğini açıklayabilme.
  • 2008 ekonomik krizini açıklama. Küçük bir çocuğa veya bir Golden Retriever'a gibi konuşun.

S

dikkat katmanı olarak da adlandırılır.

#language

Bir yerleştirme dizisini (ör. jeton yerleştirmeleri) başka bir yerleştirme dizisine dönüştüren bir nöral ağ katmanı. Çıkış dizisindeki her yerleştirme, bir dikkat mekanizması aracılığıyla giriş dizisi öğelerinden alınan bilgilerin entegre edilmesiyle oluşturulur.

Kendine dikkat çekmenin kendisi kısmı, başka bir bağlamdan ziyade kendine katılan sırayı ifade eder. Kendine dikkat etme, Transformers'in ana yapı taşlarından biridir ve "sorgu", "anahtar" ve "değer" gibi sözlük arama terminolojisini kullanır.

Kendi kendine dikkat katmanı, her kelime için bir giriş temsilleri dizisiyle başlar. Bir kelimenin giriş gösterimi basit bir yerleştirme olabilir. Ağ, girdi dizisindeki her kelime için kelimenin tüm kelime dizisindeki her öğeyle alaka düzeyini puanlar. Alaka düzeyi puanları bir kelimenin nihai temsilinin diğer kelimelerin temsillerini ne kadar içerdiğini belirler.

Örneğin, aşağıdaki cümleyi ele alalım:

Hayvan çok yorgun olduğu için sokağın karşısına geçmedi.

Aşağıdaki çizimde (Transformer: A Novel Neural Network Architecture for Language Anlama bölümünde) it zamiri için kendine dikkat katmanındaki dikkat kalıbı gösterilmektedir. Her satırın koyuluğu, her bir kelimenin gösterime ne kadar katkıda bulunduğunu belirtir:

Şu cümle iki kez görünüyor: Hayvan çok yorgun olduğu için sokağı geçmedi. Çizgiler, bir cümledeki zamiri, diğer cümledeki beş simgeye (, hayvan, sokak, o ve nokta) bağlar.  &quot;On&quot;un zamiri ile hayvan sözcüğü arasındaki çizgi en güçlüsüdür.

Kendi kendine dikkat katmanı, "kendisiyle" alakalı kelimeleri vurgular. Bu örnekte dikkat katmanı, kendi hitap edebileceği kelimeleri vurgulayarak en yüksek ağırlığı hayvan öğesine atamıştır.

Bir n jeton dizisi için kendine dikkat etme, dizideki her bir konumda bir kez olmak üzere bir dizi yerleştirmeyi n ayrı kez dönüştürür.

Dikkat ve birden fazla kafayı kendi kendine dikkat etme kavramlarını da inceleyin.

yaklaşım analizi

#language

Grubun bir hizmete, ürüne, kuruma veya konuya karşı genel yaklaşımını (olumlu ya da olumsuz) belirlemek için istatistiksel veya makine öğrenimi algoritmalarını kullanma. Örneğin, doğal dil anlamayı kullanan bir algoritma, öğrencilerin kursu genel olarak ne kadar beğendiğini veya beğenmediğini belirlemek için üniversite dersinden alınan metinsel geri bildirimlerle duygu analizi gerçekleştirebilir.

sıralı görevi

#language

Jeton giriş dizisini jetonlardan oluşan çıkış sırasına dönüştüren bir görev. Örneğin, iki popüler sıralı görev türü şunlardır:

  • Çevirmenler:
    • Örnek giriş dizisi: "Seni seviyorum."
    • Örnek çıkış sırası: "Je t'aime."
  • Soru yanıtlama:
    • Örnek giriş dizisi: "New York'ta arabama ihtiyacım var mı?"
    • Örnek çıkış sırası: "Hayır. Lütfen arabanızı evde tutun."

Jump-gram

#language

Orijinal bağlamdan kelimeleri çıkarabilen (veya "atlayan") bir n-gram. Diğer bir deyişle, N kelime orijinal olarak bitişik olmayabilir. Daha net bir ifadeyle "k-atla-n-gram", bin kadar kelimenin atlanmış olabileceği bir n-gramdır.

Örneğin, "çabuk kuş" aşağıdaki 2 gram içerebilir:

  • "hızlı"
  • "hızlı kahverengi"
  • "bozuk tilki"

"1-atla-2-gram", aralarında en fazla 1 kelime bulunan bir kelime çiftidir. Dolayısıyla, "hızlı kahverengi tilki" için 1 atlama 2 gramdır:

  • "kahverengi"
  • "hızlı tilki"

Buna ek olarak, tüm 2 gramlar ayrıca 1-atlama-2 gramdır, çünkü birden az kelime atlanabilir.

Jump-gram'lar, bir kelimenin çevresindeki bağlamı daha iyi anlamak için yararlıdır. Bu örnekte "tilki", 1-atla-2 gram grubunda doğrudan "hızlı" ile ilişkilendirilmiştir. Ancak 2 gramlık kümede bu şekilde ilişkilendirilmemiştir.

Jump-gram'lar, kelime yerleştirme modellerinin eğitilmesine yardımcı olur.

yumuşak istem ayarı

#language
#üretken yapay zeka

Yoğun kaynak kullanmadan ince ayar yapmadan büyük bir dil modelini belirli bir görev için ayarlama tekniğidir. Modeldeki tüm ağırlıkları yeniden eğitmek yerine, yumuşak istem ayarı aynı hedefe ulaşmak için otomatik olarak bir istemi ayarlar.

Metin şeklindeki istem kullanıldığında yumuşak istem ayarı genellikle isteme ek jeton yerleştirmeleri ekler ve girişi optimize etmek için geri yayılım özelliğini kullanır.

"Sabit" istem, jeton yerleştirmeleri yerine gerçek jetonları içerir.

seyrek özellik

#language
#fundamentals

Değerleri çoğunlukla sıfır veya boş olan bir özellik. Örneğin, tek bir 1 değeri ve bir milyon 0 değeri içeren bir özellik seyrek olarak kabul edilir. Buna karşılık, yoğun bir özellik çoğunlukla sıfır olmayan veya boş olmayan değerlere sahiptir.

Makine öğreniminde, az sayıda özellik seyrek bulunan özelliklerdir. Kategorik özellikler genellikle seyrek özelliklerdir. Örneğin, bir ormandaki 300 olası ağaç türü arasından tek bir örnekte yalnızca bir akçaağaç tanımlanabilir. Ya da bir video kitaplığındaki milyonlarca olası videodan tek bir örnek sadece "Kazablanka"yı tanımlayabilir.

Bir modelde genellikle tek sıcak kodlama ile seyrek özellikleri temsil edersiniz. Tek sıcak kodlama büyükse verimliliği artırmak için tek sıcak kodlamanın üstüne bir yerleştirme katmanı yerleştirebilirsiniz.

seyrek temsil

#language
#fundamentals

Seyrek bir özellikte yalnızca sıfır olmayan öğelerin konumlarını depolama.

Örneğin, species adlı kategorik bir özelliğin belirli bir ormandaki 36 ağaç türünü tanımladığını varsayalım. Buna ek olarak, her örneğin yalnızca tek bir türü tanımladığını varsayalım.

Her örnekte ağaç türlerini temsil etmek için tek sıcak vektör kullanabilirsiniz. Tek sıcak vektör, tek bir 1 (bu örnekteki belirli ağaç türünü temsil etmek için) ve 35 0 (bu örnekte değil) 35 ağaç türünü temsil eder. Dolayısıyla, maple teriminin tek anlık görüntüsü şun gibi görünebilir:

0-23 arasındaki konumlarda 0, 24. pozisyonda 1 ve 25-35 arasındaki konumlarda 0 değeri bulunan bir vektörtür.

Alternatif olarak, seyrek temsil, belirli bir türün konumunu tanımlar. maple 24. konumdaysa maple ifadesinin seyrek temsili şöyle olur:

24

Seyrek temsilin, tek ateşli temsile göre çok daha kompakt olduğuna dikkat edin.

aşamalı eğitim

#language

Bir modeli çeşitli aşamalar halinde eğitme taktiği. Amaç, eğitim sürecini hızlandırmak veya model kalitesini iyileştirmek olabilir.

Aşağıda progresif yığma yaklaşımını gösteren bir resim yer almaktadır:

  • 1. Aşama 3 gizli katman, 2. aşama 6 gizli katman ve 3. aşama 12 gizli katman içerir.
  • 2. Aşama eğitim 1. aşamanın 3 gizli katmanında öğrenilen ağırlıklarla başlar. 3. Aşama eğitim 2. Aşama'nın 6 gizli katmanında öğrenilen ağırlıklarla başlar.

1. Aşama, 2. Aşama ve 3. Aşama olarak etiketlenmiş üç aşama.
          Her aşama farklı sayıda katman içerir: Aşama 1 3 katman, Aşama 2 6 katman ve 3. Aşama 12 katman içerir.
          1. Aşama&#39;daki 3 katman, 2. Aşama&#39;nın ilk 3 katmanı olur.
          Benzer şekilde, 2. Aşama&#39;daki 6 katman, 3. Aşama&#39;nın ilk 6 katmanı olur.

Ayrıca ardışık düzen bölümünü de inceleyin.

alt kelime jetonu

#language

Dil modellerinde, bir kelimenin alt dizesi olan jeton (tüm kelimeyi içerebilir).

Örneğin, "itemize" gibi bir kelime, her biri kendi jetonuyla temsil edilen "item" (kök kelime) ve "ize" (bir sonek) parçalarına ayrılabilir. Yaygın olmayan kelimeleri alt kelime adı verilen parçalara bölmek, dil modellerinin ön ek ve son ek gibi daha yaygın kullanılan bileşenler üzerinde çalışabilmesini sağlar.

Buna karşılık, "gitmek" gibi yaygın kelimeler bölünemeyebilir ve tek bir jetonla temsil edilebilir.

T

T5

#language

Google AI 2020'de kullanıma sunulan metin-metin öğrenim aktarma modeli modeli. Transformer mimarisine dayanan T5, son derece büyük bir veri kümesi üzerinde eğitilmiş bir kodlayıcı-kod çözücü modelidir. Metin oluşturma, dilleri çevirme ve soruları konuşma tarzında yanıtlama gibi çeşitli doğal dil işleme görevlerinde etkilidir.

T5, adını "Metin-Metin Aktarım Dönüştürücüsü "ndeki beş T'den alır.

T5X

#language

Büyük ölçekli doğal dil işleme (NLP) modelleri oluşturmak ve eğitmek için tasarlanmış açık kaynaklı bir makine öğrenimi çerçevesi. T5, T5X kod tabanında uygulanır (JAX ve Flax üzerinde oluşturulur).

sıcaklık

#language
#image
#üretken yapay zeka

Bir model çıkışının rastgelelik derecesini kontrol eden hiperparametre. Yüksek sıcaklıklar daha fazla rastgele çıkışla, düşük sıcaklıklar ise daha az rastgele çıkışla sonuçlanır.

En iyi sıcaklığın seçilmesi uygulamaya ve model çıktısının tercih edilen özelliklerine bağlıdır. Örneğin, reklam öğesi çıktısı üreten bir uygulama oluştururken muhtemelen sıcaklığı yükseltirsiniz. Buna karşılık, modelin doğruluğunu ve tutarlılığını iyileştirmek için resimleri veya metni sınıflandıran bir model oluştururken muhtemelen sıcaklığı düşürürsünüz.

Sıcaklık genellikle softmax ile kullanılır.

metin aralığı

#language

Bir metin dizesinin belirli bir alt bölümü ile ilişkilendirilen dizi dizini aralığı. Örneğin, s="Be good now" Python dizesindeki good kelimesi 3'ten 6'ya kadar olan metin aralığını kaplar.

token

#language

Bir dil modelinde, modelin üzerinde çalıştığı ve tahminde bulunduğu atom birimi. Jeton genellikle şunlardan biridir:

  • Örneğin, "kedi gibi köpekler" ifadesi üç kelimeden oluşur: "köpekler", "beğen" ve "kediler".
  • bir karakter; örneğin, "bisiklet balığı" ifadesi dokuz karakterli simgeden oluşur. (Boş alan, jetonlardan biri olarak kabul edilir.)
  • alt kelimeler (tek bir kelime tek bir simge veya birden fazla simge olabilir). Alt kelime bir kök kelime, ön ek veya son ekten oluşur. Örneğin, jeton olarak alt kelimeler kullanan bir dil modeli, "köpekler" kelimesini iki simge (kök kelimesi "köpek" ve çoğul son ek "s") olarak görüntüleyebilir. Aynı dil modelinde, "daha uzun" tek kelimesi iki alt kelime (kök kelimesi "uzun" ve "er" son eki) olarak görülebilir.

Dil modellerinin dışındaki alanlarda, jetonlar diğer atom birimi türlerini temsil edebilir. Örneğin, bilgisayar görüşünde jeton, bir görüntünün alt kümesi olabilir.

Transformatör

#language

Google'da geliştirilen nöral ağ mimarisi, kendi kendine dikkat mekanizmalarını temel alır. Bir dönüştürücü, kendi kendini dikkat eden katmanlardan oluşan bir yığın olarak görülebilir.

Bir Dönüştürücü, aşağıdakilerden herhangi birini içerebilir:

Kodlayıcı, bir yerleştirme dizisini aynı uzunluktaki yeni bir diziye dönüştürür. Kodlayıcıda, her biri iki alt katman içeren N tane özdeş katman bulunur. Bu iki alt katman, giriş yerleştirme dizisinin her bir konumuna uygulanır ve dizinin her bir öğesini yeni bir yerleştirme işlemine dönüştürür. İlk kodlayıcı alt katmanı, giriş dizisi boyunca elde edilen bilgileri toplar. İkinci kodlayıcı alt katmanı, toplanan bilgileri bir çıkış yerleştirmeye dönüştürür.

Kod çözücü, bir giriş yerleştirmesi dizisini muhtemelen farklı uzunluğa sahip bir çıkış yerleştirme dizisi sırasına dönüştürür. Kod çözücü ayrıca, ikisi kodlayıcı alt katmanlarına benzeyen üç alt katmana sahip N özdeş katman içerir. Üçüncü kod çözücü alt katmanı, kodlayıcının çıktısını alır ve buradan bilgi toplamak için kendi kendine dikkat mekanizmasını uygular.

Transformer: Bir Dil Anlamaya Yönelik Yeni Bir Nöral Ağ Mimarisi başlıklı blog yayınında Transformers'a iyi bir giriş sunulmaktadır.

trigram

#seq
#language

N=3'ün içinde olduğu bir N-gram.

U

tek yönlü

#language

Yalnızca metnin hedef bölümünün önünden önce gelen metni değerlendiren bir sistem. Öte yandan, çift yönlü bir sistem, metnin hedef bölümünün önünde olan ve takip eden metni değerlendirir. Daha fazla ayrıntı için iki yönlü belgeye bakın.

tek yönlü dil modeli

#language

Olasılıklarını yalnızca hedef jetonlardan sonra değil, öncesinde görünen jetonlara dayandıran bir dil modeli. İki yönlü dil modeliyle kontrast.

V

varyasyon otomatik kodlayıcı (VAE)

#language

Girişlerin değiştirilmiş sürümlerini oluşturmak için girişler ve çıkışlar arasındaki tutarsızlığı kullanan bir otomatik kodlayıcı türü. Varyant otomatik kodlayıcılar, üretken yapay zeka için kullanışlıdır.

VAE'ler, bir olasılık modelinin parametrelerini tahmin etmek için kullanılan bir teknik olan değişken çıkarıma dayanır.

W

kelime yerleştirme

#language

Gömme vektörü içinde yer alan bir kelimedeki her kelimeyi temsil etme. Diğer bir deyişle, her kelimeyi 0,0 ile 1,0 arasındaki kayan nokta değerlerinin vektörü olarak temsil eder. Benzer anlamlara sahip kelimelerin, farklı anlamlara sahip kelimelere göre daha benzer temsilleri vardır. Örneğin, havuç, kereviz ve salatalık nispeten benzer temsillere sahiptir ve bunlar, uçak, güneş gözlüğü ve diş macunu temsillerinden çok farklıdır.

Z

sıfır çekim istem

#language
#üretken yapay zeka

Büyük dil modelinin nasıl yanıt vermesini istediğinize dair örnek sağlamayan bir istem. Örneğin:

Tek bir istemin bölümleri Notlar
Belirtilen ülkenin resmi para birimi nedir? LLM'nin cevaplamasını istediğiniz soru.
Hindistan: Gerçek sorgu.

Büyük dil modeli, aşağıdakilerden herhangi biriyle yanıt verebilir:

  • Rupi
  • INR
  • Hint rupisi
  • Rupi
  • Hindistan rupisi

Tüm yanıtlar doğru olsa da belirli bir biçimi tercih edebilirsiniz.

Sıfır çekimli istem özelliğini aşağıdaki terimlerle karşılaştırın: