Bu sayfa, Cloud Translation API ile çevrilmiştir.

Makine Öğrenimi Sözlüğü: Dil Değerlendirmesi

Bu sayfada Dil Değerlendirmesi sözlük terimleri yer almaktadır. Tüm terimler için burayı tıklayın.

A

dikkat

#language

Nöral ağda kullanılan ve belirli bir kelimenin veya kelimenin bir kısmının önemini belirten bir mekanizma. Dikkat, bir modelin sonraki jetonu/kelimeyi tahmin etmek için ihtiyaç duyduğu bilgi miktarını sıkıştırır. Tipik bir dikkat mekanizması, bir giriş grubu üzerinde ağırlıklı toplam içerebilir. Bu toplamda her girişin ağırlığı, nöral ağın başka bir bölümü tarafından hesaplanır.

Dönüştürücüler'in yapı taşları olan öz dikkat ve çok başlı öz dikkat hakkında da bilgi edinin.

Kendine dikkat hakkında daha fazla bilgi için Makine Öğrenimi Acele Kursu'ndaki LLM'ler: Büyük dil modeli nedir? başlıklı makaleyi inceleyin.

otomatik kodlayıcı

#language

#image

Girişten en önemli bilgileri çıkarmayı öğrenen bir sistem. Otomatik kodlayıcılar, kodlayıcı ve kod çözücü kombinasyonudur. Otomatik kodlayıcılar aşağıdaki iki adımlı süreci kullanır:

Kodlayıcı, girişi (genellikle) kayıplı, daha düşük boyutlu (ara) bir biçimle eşler.
Kod çözücü, düşük boyutlu biçimi orijinal yüksek boyutlu giriş biçimiyle eşleyerek orijinal girişin kayıplı bir sürümünü oluşturur.

Otomatik kodlayıcılar, kod çözücünün kodlayıcının ara biçimindeki orijinal girişi mümkün olduğunca yakın bir şekilde yeniden oluşturmaya çalışmasıyla uçtan uca eğitilir. Ara biçimi orijinal biçime kıyasla daha küçük (düşük boyutlu) olduğundan, otomatik kodlayıcı, girişteki hangi bilgilerin önemli olduğunu öğrenmek zorunda kalır ve çıkış, girişle tamamen aynı olmaz.

Örneğin:

Giriş verileri bir grafikse tam olmayan kopya, orijinal grafiğe benzer ancak biraz değiştirilmiş olur. Tam olarak aynı olmayan kopya, orijinal grafikteki gürültüyü kaldırıyor veya eksik pikselleri dolduruyor olabilir.
Giriş verileri metinse bir otomatik kodlayıcı, orijinal metni taklit eden (ancak aynı olmayan) yeni bir metin oluşturur.

Varyasyonel otomatik kodlayıcılar hakkında da bilgi edinin.

otomatik değerlendirme

#language

#generativeAI

Bir modelin çıktısının kalitesini değerlendirmek için yazılım kullanma

Model çıkışı nispeten basit olduğunda bir komut dosyası veya program, modelin çıkışını ideal yanıt ile karşılaştırabilir. Bu tür otomatik değerlendirmelere bazen programlı değerlendirme denir. ROUGE veya BLEU gibi metrikler genellikle programatik değerlendirme için yararlıdır.

Model çıktısı karmaşıksa veya tek bir doğru yanıt yoksa otomatik değerlendirmeyi bazen otomatik değerlendirici adlı ayrı bir yapay zeka programı gerçekleştirir.

Gerçek kişi tarafından yapılan değerlendirme ile karşılaştırın.

otomatik yorum değerlendirmesi

#language

#generativeAI

Üretken yapay zeka modelinin çıktısının kalitesini değerlendirmek için insan değerlendirmesini otomatik değerlendirmeyle birleştiren karma bir mekanizma. Otomatik metin yazarı, gerçek kişiler tarafından yapılan değerlendirme ile oluşturulan verilerle eğitilmiş bir makine öğrenimi modelidir. İdeal olarak, otomatik derecelendirme sistemi gerçek bir değerlendiriciyi taklit etmeyi öğrenir.

Hazır otomatik yazıcılar mevcuttur ancak en iyi otomatik yazıcılar, özellikle değerlendirdiğiniz göreve göre hassas ayarlanır.

otoregresif model

#language

#image

#generativeAI

Kendi önceki tahminlerine dayanarak tahminde bulunan bir model. Örneğin, otomatik geriye dönük dil modelleri, daha önce tahmin edilen jetonlara göre bir sonraki jetonu tahmin eder. Transformer tabanlı tüm büyük dil modelleri otomatik geriye dönüktür.

Buna karşılık, GAN tabanlı görüntü modelleri, bir görüntüyü adım adım iteratif olarak değil, tek bir ileri geçişte oluşturdukları için genellikle otoregresif değildir. Ancak belirli resim oluşturma modelleri, resimleri adım adım oluşturdukları için otoregresif olurlar.

k değerinde ortalama hassasiyet

#language

Bir modelin, sıralanmış sonuçlar (ör. kitap önerilerinin numaralandırılmış listesi) oluşturan tek bir istemdeki performansını özetleyen metrik. k değerinde ortalama hassasiyet, her ilgili sonuç için k değerinde hassasiyet değerlerinin ortalamasıdır. Bu nedenle, k için ortalama hassasiyet formülü şu şekildedir:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

Bu örnekte:

$n$ , listedeki alakalı öğelerin sayısıdır.

k'de hatırla ile karşılaştırın.

Örnek için simgeyi tıklayın

Bir büyük dil modeline aşağıdaki sorgunun verildiğini varsayalım:

List the 6 funniest movies of all time in order.

Büyük dil modeli ise aşağıdaki listeyi döndürür:

The General
Kötü
Platoon
Nedime
Citizen Kane
This is Spinal Tap

Döndürülen listedeki dört film çok komik (yani alakalı) ancak iki film dram (alakalı değil). Aşağıdaki tabloda sonuçlar ayrıntılı olarak açıklanmıştır:

Konum	Film	Alakalı mı?	k değerinde hassasiyet
1	The General	Evet	1,0
2	Kötü	Evet	1,0
3	Platoon	Hayır	alakalı değil
4	Nedime	Evet	0,75
5	Citizen Kane	Hayır	alakalı değil
6	This is Spinal Tap	Evet	0,67

Alakalı sonuç sayısı 4'tür. Bu nedenle, 6'da ortalama hassasiyeti aşağıdaki gibi hesaplayabilirsiniz:

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

B

kelime çantası

#language

Sıradan bağımsız olarak bir kelime öbeğindeki veya pasajdaki kelimelerin temsili. Örneğin, kelime öbeği aşağıdaki üç ifadeyi aynı şekilde temsil eder:

köpek zıplıyor
köpeği atlar
köpek atlar

Her kelime, seyrek bir vektördeki bir dizinle eşlenir. Bu vektörde, kelime hazinesindeki her kelime için bir dizin bulunur. Örneğin, köpek zıplıyor ifadesi, köpek, zıplıyor ve köpek kelimelerine karşılık gelen üç dizinin sıfır olmayan değerlerine sahip bir özellik vektörüne eşlenir. Sıfır olmayan değer aşağıdakilerden herhangi biri olabilir:

Bir kelimenin varlığını belirtmek için 1.
Bir kelimenin torbada kaç kez göründüğünün sayısı. Örneğin, ifade Kahverengi köpek, kahverengi tüyleri olan bir köpektir şeklindeyse hem kahverengi hem de köpek 2 olarak, diğer kelimeler ise 1 olarak temsil edilir.
Bir kelimenin torbada kaç kez göründüğünün sayısına ait logaritma gibi başka bir değer.

BERT (Dönüştürücülerden Çift Yönlü Kodlayıcı Temsilleri)

#language

Metin temsilciliği için bir model mimarisi. Eğitilmiş bir BERT modeli, metin sınıflandırma veya diğer makine öğrenimi görevleri için daha büyük bir modelin parçası olarak kullanılabilir.

BERT'in özellikleri şunlardır:

Transformer mimarisini kullanır ve bu nedenle öz dikkate dayanır.
Dönüştürücünün kodlayıcı bölümünü kullanır. Kodlayıcının görevi, sınıflandırma gibi belirli bir görevi yerine getirmek yerine iyi metin temsilleri üretmektir.
İki yönlü olmalıdır.
Gözetimsiz eğitim için maskelemeyi kullanır.

BERT'in varyantları şunlardır:

ALBERT: A Light BERT kısaltmasıdır.
LaBSE.

BERT'e genel bakış için Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing başlıklı makaleyi inceleyin.

iki yönlü

#language

Hedef metin bölümünün hem öncesinde hem de ardından gelen metni değerlendiren bir sistemi tanımlamak için kullanılan terim. Buna karşılık, tek yönlü bir sistem yalnızca hedef metin bölümünün öncesinde gelen metni değerlendirir.

Örneğin, aşağıdaki soruda altı çizili kelimeyi veya kelimeleri temsil eden kelimelerin olasılıklarını belirlemesi gereken bir maskeli dil modelini ele alalım:

What is the _____ with you?

Tek yönlü bir dil modelinin olasılıklarını yalnızca "Ne", "nedir" ve "o" kelimelerinin sağladığı bağlama göre belirlemesi gerekir. Buna karşılık, iki yönlü bir dil modeli "ile" ve "siz" kelimelerinden de bağlam bilgisi edinebilir. Bu da modelin daha iyi tahminler yapmasına yardımcı olabilir.

çift yönlü dil modeli

#language

Belirli bir jetonun, metin alıntısındaki belirli bir konumda bulunma olasılığını önceki ve sonraki metne göre belirleyen bir dil modeli.

büyük harf

#seq

#language

N=2 olan bir N-gram.

BLEU (İki Dilli Değerlendirme Asistanı)

#language

İspanyolca'dan Japonca'ya gibi makine çevirilerini değerlendirmek için kullanılan 0, 0 ile 1, 0 arasında bir metriktir.

BLEU, puan hesaplamak için genellikle bir makine öğrenimi modelinin çevirisini (oluşturulan metin) bir uzmanın çevirisiyle (referans metin) karşılaştırır. Oluşturulan metindeki ve referans metindeki N-gram eşleşmesinin derecesi BLEU puanını belirler.

Bu metrik hakkındaki orijinal makale BLEU: a Method for Automatic Evaluation of Machine Translation (BLEU: Makine Çevirisinin Otomatik Değerlendirilmesi İçin Bir Yöntem) başlıklı makaledir.

BLEURT işlevine de göz atın.

BLEURT (Bilingual Evaluation Understudy from Transformers)

#language

Bir dilden diğerine, özellikle de İngilizceden ve İngilizceye yapılan makine çevirilerini değerlendirmek için kullanılan bir metriktir.

İngilizceden ve İngilizceye yapılan çevirilerde BLEURT, BLEU'ya kıyasla gerçek kişiler tarafından verilen puanlara daha yakındır. BLEU'den farklı olarak BLEURT, anlamsal benzerlikleri vurgular ve başka bir dilde yorumlamayı kabul edebilir.

BLEURT, önceden eğitilmiş büyük bir dil modelini (tam olarak BERT) kullanır. Bu model daha sonra gerçek çevirmenler tarafından yazılmış metinlerle ince ayarlanır.

Bu metrik hakkındaki orijinal makale BLEURT: Learning Robust Metrics for Text Generation (BLEURT: Metin Oluşturma İçin Güçlü Metrikler Öğrenme) başlıklı makaledir.

C

nedensel dil modeli

#language

Tek yönlü dil modeli ile eş anlamlıdır.

Dil modellemede farklı yönsel yaklaşımları karşılaştırmak için iki yönlü dil modeli konusuna bakın.

düşünce zinciri istemi

#language

#generativeAI

Büyük dil modelini (LLM) mantığını adım adım açıklamaya teşvik eden bir istem mühendisliği tekniği. Örneğin, ikinci cümleye özellikle dikkat ederek aşağıdaki istemi inceleyin:

7 saniyede 0'dan 100 kilometre hıza çıkan bir araçta sürücü kaç g kuvveti yaşar? Yanıtta, ilgili tüm hesaplamaları gösterin.

LLM'nin yanıtı büyük olasılıkla:

Uygun yerlere 0, 60 ve 7 değerlerini ekleyerek bir dizi fizik formülü gösterin.
Bu formülleri neden seçtiğini ve çeşitli değişkenlerin ne anlama geldiğini açıklayın.

Düşünce zinciri istemi, LLM'yi tüm hesaplamaları yapmaya zorlar. Bu da daha doğru bir yanıta yol açabilir. Ayrıca düşünce zinciri istemi, kullanıcının cevabın mantıklı olup olmadığını belirlemek için LLM'nin adımlarını incelemesini sağlar.

sohbet

#language

#generativeAI

Genellikle büyük dil modeli olan bir yapay zeka sistemiyle yapılan karşılıklı konuşmanın içeriği. Sohbetteki önceki etkileşim (ne yazdığınız ve büyük dil modelinin nasıl yanıt verdiği), sohbetin sonraki bölümlerinin bağlamı olur.

Chat bot, büyük dil modelinin bir uygulamasıdır.

yalan söyleme

#language

Halüsinasyon ile eş anlamlıdır.

Sanrı, teknik açıdan halüsinasyondan daha doğru bir terimdir. Ancak halüsinasyon ilk olarak popüler oldu.

seçim bölgesi ayrıştırma

#language

Cümleyi daha küçük dil bilgisi yapılarına ("bileşenler") bölmek. ML sisteminin sonraki bir kısmı (ör. doğal dil anlama modeli) bileşenleri orijinal cümleden daha kolay ayrıştırabilir. Örneğin, aşağıdaki cümleyi ele alalım:

Arkadaşım iki kedi sahiplendi.

Seçim bölgesi ayrıştırıcısı bu cümleyi aşağıdaki iki bileşene ayırabilir:

Arkadaşım bir isim tamlamasıdır.
İki kedi sahiplendi bir fiil öbeğidir.

Bu bileşenler daha küçük bileşenlere ayrılabilir. Örneğin,

iki kedi sahiplendi

aşağıdaki alt kategorilere ayrılabilir:

adopted bir fiildir.
İki kedi de bir isim öbeğidir.

bağlama dayalı dil yerleştirme

#language

#generativeAI

Kelimeleri ve ifadeleri ana dili konuşan insanların anlayabileceği şekilde "anlamaya" yakın bir yerleşim. Bağlamsallaştırılmış dil embeddings'leri karmaşık söz dizimi, anlambilim ve bağlamı anlayabilir.

Örneğin, İngilizce cow kelimesinin yerleştirilmelerini ele alalım. word2vec gibi eski yerleştirmeler, İngilizce kelimeleri yerleşim alanında inek ile boğa arasındaki mesafenin koyun (dişi koyun) ile koç (erkek koyun) arasındaki mesafeye veya dişi ile erkek arasındaki mesafeye benzer olacak şekilde temsil edebilir. Bağlamsallaştırılmış dil embeddings'leri, İngilizce konuşan kişilerin bazen inek veya boğa anlamına gelen cow kelimesini gelişigüzel kullandığını fark ederek bir adım daha ileri gidebilir.

bağlam penceresi

#language

#generativeAI

Bir modelin belirli bir istemde işleyebileceği jeton sayısı. Bağlam penceresi ne kadar büyük olursa model, istem için tutarlı ve tutarlı yanıtlar sağlamak üzere o kadar fazla bilgi kullanabilir.

kilitlenme çiçeği

#language

Anlamı belirsiz bir cümle veya kelime öbeği. Kilitlenme çiçekleri, doğal dil anlama konusunda önemli bir sorun teşkil eder. Örneğin, Kırmızı Kurdele Gökdeleni Engelliyor başlığı, bir NLU modelinin başlığı kelimenin tam anlamıyla veya mecazi olarak yorumlayabileceği için kilitlenme çiçeğidir.

Ek notlar için simgeyi tıklayın.

Bu gizemli başlığı açıklığa kavuşturalım:

Kurumsal İşlemler aşağıdakilerden birini ifade edebilir:
- Yapışkan
- Aşırı bürokrasi
Dayanıklı, aşağıdakilerden birini ifade edebilir:
- Yapısal destek
- Gecikmeler

D

kod çözücü

#language

Genel olarak, işlenmiş, yoğun veya dahili bir temsilden daha ham, seyrek veya harici bir temsile dönüştüren herhangi bir yapay zeka sistemidir.

Kod çözücüler genellikle daha büyük bir modelin bileşenidir ve sıklıkla bir kodlayıcı ile birlikte kullanılır.

Diziden diziye görevlerde kod çözücü, sonraki diziyi tahmin etmek için kodlayıcı tarafından oluşturulan dahili durumla başlar.

Dönüştürücü mimarisindeki kod çözücünün tanımı için Transformer başlıklı makaleyi inceleyin.

Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Büyük dil modelleri bölümüne bakın.

gürültü giderme

#language

Aşağıdakileri içeren kendi kendini denetleyen öğrenme için yaygın bir yaklaşım:

Veri kümesine yapay olarak gürültü eklenir.
Model gürültüyü kaldırmaya çalışır.

Gürültü giderme, etiketlenmemiş örneklerden öğrenmeyi sağlar. Orijinal veri kümesi hedef veya etiket, gürültülü veriler ise giriş olarak kullanılır.

Bazı maskeli dil modelleri, gürültü giderme işlemini aşağıdaki gibi kullanır:

İşaretlenmemiş bir cümleye, jetonların bazıları maskelenerek yapay olarak gürültü eklenir.
Model, orijinal jetonları tahmin etmeye çalışır.

doğrudan istem

#language

#generativeAI

Sıfır görevli istem ile eş anlamlıdır.

E

mesafeyi düzenleme

#language

İki metin dizesinin birbirine ne kadar benzediğinin ölçümü. Makine öğrenimindeki düzenleme mesafesi şu nedenlerle yararlıdır:

Düzenleme mesafesinin hesaplanması kolaydır.
Düzenleme mesafesi, birbirine benzer olduğu bilinen iki dizeyi karşılaştırabilir.
Düzenleme mesafesi, farklı dizelerin belirli bir dizeye ne kadar benzediğini belirleyebilir.

Düzenleme mesafesinin her biri farklı dize işlemleri kullanan birkaç tanımı vardır. Örnek için Levenshtein mesafesi başlıklı makaleyi inceleyin.

yerleştirme katmanı

#language

#fundamentals

Kademeli olarak daha düşük boyutlu bir yerleştirme vektörü öğrenmek için yüksek boyutlu bir kategorik özellikte eğitilen özel bir gizli katman. Yerleşim katmanı, bir nöral ağın yalnızca yüksek boyutlu kategorik özellikte eğitilmesine kıyasla çok daha verimli bir şekilde eğitilmesini sağlar.

Örneğin, Earth şu anda yaklaşık 73.000 ağaç türünü desteklemektedir. Ağaç türünün modelinizde bir özellik olduğunu varsayalım. Bu durumda, modelinizin giriş katmanı 73.000 öğe uzunluğunda bir tek sıcaklık vektörü içerir. Örneğin, baobab şu şekilde gösterilebilir:

73.000 öğe içeren bir dizi. İlk 6.232 öğe 0 değerini içerir. Sonraki öğe 1 değerini içerir. Son 66.767 öğe sıfır değerini içerir.

73.000 öğe içeren bir dizi çok uzundur. Modele bir yerleştirme katmanı eklemezseniz 72.999 sıfırın çarpılması nedeniyle eğitim çok zaman alır. Yerleştirme katmanını 12 boyuttan oluşacak şekilde seçebilirsiniz. Sonuç olarak, yerleştirme katmanı her ağaç türü için kademeli olarak yeni bir yerleştirme vektörü öğrenir.

Belirli durumlarda, karma oluşturma, yerleştirme katmanına makul bir alternatiftir.

Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Embedding'ler bölümüne bakın.

yerleştirme alanı

#language

Daha yüksek boyutlu bir vektör alanından gelen özelliklerin eşlendiği d boyutlu vektör alanı. İdeal olarak, yerleştirme alanı anlamlı matematiksel sonuçlar veren bir yapı içerir. Örneğin, ideal bir yerleştirme alanında, yerleştirmelerin eklenmesi ve çıkarılması kelime analojisi görevlerini çözebilir.

İki yerleştirmenin nokta çarpımı, benzerliklerinin bir ölçüsüdür.

yerleştirme vektörü

#language

Genel olarak, herhangi bir gizli katmandan alınan ve bu gizli katmanın girişlerini tanımlayan bir kayan noktalı sayı dizisidir. Yerleştirme vektörü genellikle bir yerleştirme katmanında eğitilen kayan noktalı sayı dizisidir. Örneğin, bir yerleştirme katmanının Dünya'daki 73.000 ağaç türünün her biri için bir yerleştirme vektörü öğrenmesi gerektiğini varsayalım. Aşağıdaki dizi, bir baobab ağacının yerleştirme vektörü olabilir:

Her biri 0,0 ile 1,0 arasında bir kayan nokta sayısı içeren 12 öğeden oluşan bir dizi.

Yerleştirme vektörü, rastgele sayılardan oluşan bir grup değildir. Bir yerleştirme katmanı, eğitim sırasında sinir ağının diğer ağırlıkları öğrenme şekline benzer şekilde bu değerleri eğitim yoluyla belirler. Dizenin her bir öğesi, bir ağaç türünün bazı özelliklerine göre bir derecelendirmedir. Hangi öğe hangi ağaç türünün özelliğini temsil eder? Bu, insanların belirlemesi çok zordur.

Bir yerleştirme vektörünün matematiksel açıdan dikkate değer kısmı, benzer öğelerin benzer kayan noktalı sayı kümelerine sahip olmasıdır. Örneğin, benzer ağaç türleri, benzer olmayan ağaç türlerine kıyasla daha benzer bir kayan noktalı sayı grubuna sahiptir. Sekoya ve sekoya ağacı, birbirine yakın ağaç türleridir. Bu nedenle, sekoya ve hindistancevizi ağacına kıyasla daha benzer bir kayan noktalı sayı grubuna sahiptirler. Modeli aynı girişle yeniden eğitseniz bile, yerleştirme vektöründeki sayılar modeli her yeniden eğittiğinizde değişir.

kodlayıcı

#language

Genel olarak, ham, seyrek veya harici bir temsili daha işlenmiş, daha yoğun veya daha dahili bir temsile dönüştüren herhangi bir yapay zeka sistemidir.

Kodlayıcılar genellikle daha büyük bir modelin bileşenidir ve sıklıkla bir kod çözücü ile birlikte kullanılır. Bazı Transformer'lar kodlayıcıları kod çözücülerle eşlerken diğerleri yalnızca kodlayıcıyı veya yalnızca kod çözücüyü kullanır.

Bazı sistemler, kodlayıcının çıkışını sınıflandırma veya regresyon ağının girişi olarak kullanır.

Diziden diziye görevlerde kodlayıcı, giriş dizisini alır ve dahili bir durum (vektör) döndürür. Ardından kod çözücü, sonraki sırayı tahmin etmek için bu dahili durumu kullanır.

Dönüştürücü mimarisinde kodlayıcının tanımı için Transformer başlıklı makaleyi inceleyin.

Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki LLM'ler: Büyük dil modeli nedir? başlıklı makaleyi inceleyin.

evals

#language

#generativeAI

Öncelikle LLM değerlendirmeleri için kısaltma olarak kullanılır. Daha geniş bir açıdan bakıldığında evals, değerlendirme biçimlerinin kısaltmasıdır.

değerlendirme

#language

#generativeAI

Bir modelin kalitesini ölçme veya farklı modelleri birbiriyle karşılaştırma işlemi.

Bir gözetimli makine öğrenimi modelini değerlendirmek için genellikle doğrulama kümesi ve test kümesi ile karşılaştırırsınız. LLM'yi değerlendirme genellikle daha kapsamlı kalite ve güvenlik değerlendirmelerini içerir.

C

çok görevli istem

#language

#generativeAI

Büyük dil modelinin nasıl yanıt vermesi gerektiğini gösteren birden fazla ("birkaç") örnek içeren bir istem. Örneğin, aşağıdaki uzun istemde büyük bir dil modelinin bir sorguyu nasıl yanıtlayacağını gösteren iki örnek yer almaktadır.

Bir istemin bölümleri	Notlar
`Belirtilen ülkenin resmi para birimi nedir?`	LLM'nin yanıtlamasını istediğiniz soru.
`Fransa: avro`	Bir örnek vereyim.
`Birleşik Krallık: GBP`	Başka bir örnek.
`Hindistan:`	Gerçek sorgu.

Çok görevli istem, genellikle sıfır görevli istem ve tek görevli istem'den daha iyi sonuçlar verir. Ancak çok görevli istem, daha uzun bir istem gerektirir.

Çok görevli istem, isteme dayalı öğrenmeye uygulanan bir az sayıda örnekle öğrenme biçimidir.

Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki İstem mühendisliği bölümüne bakın.

Keman

#language

İşlevlerin ve sınıfların değerlerini müdahaleci kod veya altyapı olmadan ayarlayan, Python'a öncelik veren bir yapılandırma kitaplığı. Pax ve diğer makine öğrenimi kod tabanlarında bu işlevler ve sınıflar modelleri ve eğitim hiper parametrelerini temsil eder.

Fiddle, makine öğrenimi kod tabanlarının genellikle aşağıdakilere ayrıldığını varsayar:

Katmanları ve optimizatörleri tanımlayan kitaplık kodu.
Kitaplıkları çağıran ve her şeyi birbirine bağlayan veri kümesi "yapıştırıcı" kodu.

Fiddle, yapıştırma kodunun çağrı yapısını değerlendirilmemiş ve değiştirilebilir bir biçimde yakalar.

ince ayar

#language

#image

#generativeAI

Önceden eğitilmiş bir modelde, belirli bir kullanım alanı için parametrelerini hassaslaştırmak amacıyla göreve özel ikinci bir eğitim geçişi. Örneğin, bazı büyük dil modelleri için tam eğitim sırası aşağıdaki gibidir:

Ön eğitim: Büyük bir dil modelini, tüm İngilizce Wikipedia sayfaları gibi geniş bir genel veri kümesiyle eğitin.
İnce ayarlama: Önceden eğitilmiş modeli, tıbbi sorgulara yanıt vermek gibi belirli bir görevi gerçekleştirecek şekilde eğitin. İnce ayar genellikle belirli göreve odaklanan yüzlerce veya binlerce örnek içerir.

Başka bir örnek olarak, büyük bir resim modelinin tam eğitim sırası aşağıda verilmiştir:

Ön eğitim: Wikimedia Commons'taki tüm resimler gibi geniş bir genel resim veri kümesinde büyük bir resim modeli eğitin.
İnce ayarlama: Önceden eğitilmiş modeli, orka resimleri oluşturma gibi belirli bir görevi gerçekleştirecek şekilde eğitin.

İnce ayar, aşağıdaki stratejilerin herhangi bir kombinasyonunu içerebilir:

Önceden eğitilmiş modelin mevcut parametrelerinin tümünü değiştirme Buna bazen tam hassas ayar da denir.
Önceden eğitilmiş modelin mevcut parametrelerinin yalnızca bir kısmını (genellikle çıktı katmanına en yakın katmanlar) değiştirirken diğer mevcut parametreleri (genellikle giriş katmanına en yakın katmanlar) değiştirmeden bırakma Parametreleri verimli şekilde kullanma başlıklı makaleyi inceleyin.
Genellikle çıkış katmanına en yakın mevcut katmanların üzerine daha fazla katman ekleme.

İnce ayar, transfer öğrenimi biçimlerinden biridir. Bu nedenle, hassas ayarlama işleminde, önceden eğitilmiş modeli eğitmek için kullanılanlardan farklı bir kayıp işlevi veya farklı bir model türü kullanılabilir. Örneğin, önceden eğitilmiş büyük bir resim modelinde ince ayar yaparak giriş resmindeki kuş sayısını döndüren bir regresyon modeli oluşturabilirsiniz.

İnce ayarlama ile aşağıdaki terimleri karşılaştırın:

damıtma
İsteme dayalı öğrenme

Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki İnce ayarlama bölümüne bakın.

Keten

#language

JAX'in üzerine inşa edilmiş, derin öğrenme için yüksek performanslı açık kaynak kitaplık. Flax, sinir ağlarını eğitmek için işlevler ve performanslarını değerlendirme yöntemleri sağlar.

Flaxformer

#language

Transformer üzerine inşa edilmiş, açık kaynak bir Transformer kitaplığı. Öncelikle doğal dil işleme ve çoklu modaliteli araştırmalar için tasarlanmıştır.

G

Gemini

#language

#image

#generativeAI

Google'ın en gelişmiş yapay zekasını içeren ekosistem. Bu ekosistemin öğeleri şunlardır:

Çeşitli Gemini modelleri.
Gemini modelinin etkileşimli sohbet arayüzü. Kullanıcılar istemler yazar ve Gemini bu istemlere yanıt verir.
Çeşitli Gemini API'leri.
Gemini modellerine dayalı çeşitli işletme ürünleri (ör. Google Cloud için Gemini).

Gemini modelleri

#language

#image

#generativeAI

Google'ın son teknoloji Transformer tabanlı çoklu modal modelleri. Gemini modelleri, özellikle müşteri temsilcileriyle entegre edilmek üzere tasarlanmıştır.

Kullanıcılar, etkileşimli bir iletişim arayüzü ve SDK'lar dahil olmak üzere çeşitli yollarla Gemini modelleriyle etkileşim kurabilir.

oluşturulan metin

#language

#generativeAI

Genel olarak, bir makine öğrenimi modelinin oluşturduğu metindir. Büyük dil modelleri değerlendirilirken bazı metrikler, oluşturulan metni referans metinle karşılaştırır. Örneğin, bir ML modelinin Fransızcadan Hollandacaya ne kadar etkili bir şekilde çeviri yaptığını belirlemeye çalıştığınızı varsayalım. Bu durumda:

Oluşturulan metin, makine öğrenimi modelinin oluşturduğu Hollandaca çeviridir.
Referans metin, gerçek bir çevirmen (veya yazılım) tarafından oluşturulan Hollandaca çeviridir.

Bazı değerlendirme stratejilerinin referans metni içermediğini unutmayın.

üretken yapay zeka

#language

#image

#generativeAI

Resmi bir tanımı olmayan, yeni ve dönüştürücü bir alan. Bununla birlikte, çoğu uzman üretken yapay zeka modellerinin aşağıdakilerin tümünü içeren içerikler oluşturabileceği ("üretebildiği") konusunda hemfikirdir:

karmaşık
tutarlı
orijinal

Örneğin, üretken yapay zeka modelleri karmaşık makaleler veya resimler oluşturabilir.

LSTM'ler ve RNN'ler de dahil olmak üzere bazı eski teknolojiler özgün ve tutarlı içerikler oluşturabilir. Bazı uzmanlar bu eski teknolojileri üretken yapay zeka olarak görürken diğerleri, gerçek üretken yapay zekanın bu eski teknolojilerin üretebileceğinden daha karmaşık bir çıktı gerektirdiğini düşünüyor.

Tahmine dayalı makine öğrenimi ile karşılaştırın.

altın yanıt

#language

#generativeAI

İyi olduğu bilinen bir yanıt. Örneğin, aşağıdaki istem için:

2 + 2

En iyi yanıt şudur:

4

Altın yanıt ve referans metinle ilgili notlar için burayı tıklayın.

ROUGE gibi bazı değerlendirme metrikleri, referans metni ile modelin oluşturulan metnini karşılaştırır. Bir istem için tek bir doğru yanıt varsa altın yanıt genellikle referans metni olarak kullanılır.

Bazı istemlerin tek bir doğru cevabı yoktur. Örneğin, Bu dokümanı özetleyin istemi muhtemelen birçok doğru yanıta sahiptir. Bir model çok çeşitli olası özetler oluşturabileceğinden, bu tür istemler için referans metin genellikle kullanışlı değildir. Ancak bu durumda mükemmel bir yanıt vermeniz yararlı olabilir. Örneğin, iyi bir doküman özeti içeren mükemmel bir yanıt, otomatik notlandırıcıyı iyi doküman özeti kalıplarını keşfetmesi için eğitmeye yardımcı olabilir.

GPT (Üretken Önceden Eğitilmiş Dönüştürücü)

#language

OpenAI tarafından geliştirilen Transformer tabanlı büyük dil modelleri ailesi.

GPT varyantları aşağıdakiler gibi birden fazla mod için geçerli olabilir:

görüntü üretme (ör. ImageGPT)
metinden görüntü oluşturma (ör. DALL-E).

H

halüsinasyon

#language

Gerçek dünya hakkında bir iddiada bulunduğunu iddia eden bir üretken yapay zeka modeli tarafından makul görünen ancak gerçekte yanlış olan çıkışların üretilmesi. Örneğin, Barack Obama'nın 1865'te öldüğünü iddia eden bir üretken yapay zeka modeli halüsinasyon görüyordur.

gerçek kişi tarafından yapılan değerlendirme

#language

#generativeAI

Kullanıcıların bir makine öğrenimi modelinin çıktısının kalitesini değerlendirdiği bir süreçtir. Örneğin, iki dili bilen kullanıcıların bir makine öğrenimi çeviri modelinin kalitesini değerlendirmesi. Gerçek kişiler tarafından yapılan değerlendirmeler, özellikle tek bir doğru yanıtı olmayan modelleri değerlendirmek için kullanışlıdır.

Otomatik değerlendirme ve otomatik değerlendirme ile karşılaştırın.

I

bağlam içinde öğrenme

#language

#generativeAI

Çok görevli istem ile eş anlamlıdır.

L

LaMDA (Sohbet Uygulamaları İçin Dil Modeli)

#language

Google tarafından geliştirilen, gerçekçi konuşma yanıtları oluşturabilen büyük bir diyalog veri kümesinde eğitilmiş Transformer tabanlı büyük dil modeli.

LaMDA: çığır açan konuşma teknolojimiz başlıklı makalede bu konuya genel bir bakış sunulmaktadır.

dil modeli

#language

Daha uzun bir jeton dizisinde jeton veya jeton dizisinin gerçekleşme olasılığını tahmin eden bir model.

Ek notlar için simgeyi tıklayın.

Mantığa aykırı olsa da metni değerlendiren birçok model dil modeli değildir. Örneğin, metin sınıflandırma modelleri ve duygu analizi modelleri dil modelleri değildir.

büyük dil modeli

#language

En azından çok sayıda parametre içeren bir dil modeli. Daha basit bir ifadeyle, Gemini veya GPT gibi Transformer tabanlı dil modelleri.

gizli alan

#language

Yerleştirme alanı ile eş anlamlıdır.

Levenshtein Uzaklığı

#language

#metric

Bir kelimeyi başka bir kelimeyle değiştirmek için gereken en az silme, ekleme ve değiştirme işlemlerini hesaplayan bir düzenleme mesafesi metriği. Örneğin, "kalp" ve "ok" kelimeleri arasındaki Levenshtein uzaklığı üçtür. Çünkü aşağıdaki üç düzenleme, bir kelimeyi diğerine dönüştürmek için gereken en az değişikliktir:

kalp → deart ("h" yerine "d" yazın)
deart → dart ("e" silinir)
dart → darts ("s" ekleyin)

Üç düzenlemenin tek yolunun yukarıdaki sıra olmadığını unutmayın.

LLM

#language

#generativeAI

Büyük dil modeli kısaltması.

LLM değerlendirmeleri (evals)

#language

#generativeAI

Büyük dil modellerinin (LLM'ler) performansını değerlendirmeye yönelik bir dizi metrik ve karşılaştırma. Genel olarak LLM değerlendirmeleri:

Araştırmacıların, LLM'lerin iyileştirilmesi gereken alanlarını belirlemesine yardımcı olun.
Farklı LLM'leri karşılaştırmak ve belirli bir görev için en iyi LLM'yi belirlemek için yararlıdır.
LLM'lerin güvenli ve etik bir şekilde kullanılmasına yardımcı olma

LoRA

#language

#generativeAI

Düşük Sıralı Uyumluluk kısaltması.

Düşük Sıralı Uyumluluk (LoRA)

#language

#generativeAI

Modelin önceden eğitilmiş ağırlıklarını "dondurup" (artık değiştirilemeyecek şekilde) ve ardından modele küçük bir eğitilebilir ağırlık grubu ekleyen ince ayar için parametre açısından verimli bir teknik. Bu eğitilebilir ağırlıklar grubu ("güncelleme matrisleri" olarak da bilinir), temel modelden önemli ölçüde daha küçüktür ve bu nedenle eğitilmesi çok daha hızlıdır.

LoRA aşağıdaki avantajları sağlar:

İnce ayarlama işleminin uygulandığı alan için modelin tahminlerinin kalitesini artırır.
Bir modelin tüm parametrelerinin ince ayarlanmasını gerektiren tekniklere kıyasla daha hızlı ince ayar yapar.
Aynı temel modeli paylaşan birden fazla özel modelin eşzamanlı olarak sunulmasını sağlayarak tahmin işleminin hesaplama maliyetini azaltır.

LoRA'daki güncelleme matrisleri hakkında daha fazla bilgi edinmek için simgeyi tıklayın.

LoRA'da kullanılan güncelleme matrisleri, gürültüyü filtrelemeye ve eğitimi modelin en önemli özelliklerine odaklamaya yardımcı olmak için temel modelden türetilen sıralama ayrıştırma matrislerinden oluşur.

M

maskelenmiş dil modeli

#language

Bir sıradaki boşlukları doldurmak için aday jetonların olasılığını tahmin eden dil modeli. Örneğin, maskelenmiş bir dil modeli, aşağıdaki cümledeki altı çizili kısmı değiştirmek için olası kelimeleri hesaplayabilir:

Şapkadaki ____ geri geldi.

Literatürde genellikle alt çizgi yerine "MASK" dizesi kullanılır. Örneğin:

Şapkadaki "MASK" geri geldi.

Modern maskelenmiş dil modellerinin çoğu iki yönlüdür.

k değerinde ortalama hassasiyet (mAP@k)

#language

#generativeAI

Doğrulama veri kümesinde tüm k için ortalama hassasiyet puanlarının istatistiksel ortalaması. k değerinde ortalama hassasiyetin bir kullanım alanı, öneri sistemi tarafından oluşturulan önerilerin kalitesini değerlendirmektir.

"Ortalama ortalama" ifadesi gereksiz görünse de metriğin adı uygundur. Sonuçta bu metrik, birden fazla k değerinde ortalama kesinlik değerinin ortalamasını bulur.

Örnek görmek için simgeyi tıklayın.

Her kullanıcı için önerilen romanların kişiselleştirilmiş bir listesini oluşturan bir öneri sistemi oluşturduğunuzu varsayalım. Seçilen kullanıcılardan gelen geri bildirimlere göre, k puanında aşağıdaki beş ortalama hassasiyeti hesaplarsınız (kullanıcı başına bir puan):

0,73
0,77
0,67
0,82
0,76

Bu nedenle, K için ortalama ortalama hassasiyet şu şekildedir:

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

meta öğrenme

#language

Bir öğrenme algoritmasını keşfeden veya iyileştiren makine öğreniminin alt kümesi. Meta öğrenme sistemi, bir modeli küçük miktarda veri veya önceki görevlerde edinilen deneyimlerden yeni bir görevi hızlı bir şekilde öğrenecek şekilde eğitmeyi de amaçlayabilir. Meta öğrenme algoritmaları genellikle aşağıdakileri gerçekleştirmeye çalışır:

El ile tasarlanmış özellikleri (ör. başlatıcı veya optimizatör) iyileştirme veya öğrenme
Daha fazla veri ve hesaplama verimliliği elde edin.
Genelleştirmeyi iyileştirin.

Meta öğrenme, az sayıda örnekle öğrenme ile ilgilidir.

uzmanların karışımı

#language

#generativeAI

Belirli bir giriş jetonunu veya öreğini işlemek için yalnızca parametrelerinin bir alt kümesini (uzman olarak bilinir) kullanarak sinir ağının verimliliğini artırmaya yönelik bir şema. Giriş ağı, her giriş jetonunu veya örneği uygun uzmanlara yönlendirir.

Ayrıntılı bilgi için aşağıdaki makalelerden birini inceleyin:

MMIT

#language

#image

#generativeAI

Çok modlu talimat ayarlı kısaltması.

yöntem

#language

Üst düzey bir veri kategorisi. Örneğin, sayılar, metin, resimler, video ve ses beş farklı modalitedir.

model paralelliği

#language

Bir modelin farklı bölümlerini farklı cihazlara yerleştiren bir eğitim veya çıkarım ölçeklendirme yöntemi. Model paralelliği, tek bir cihaza sığmayacak kadar büyük modelleri etkinleştirir.

Bir sistem, model paralelliğini uygulamak için genellikle aşağıdakileri yapar:

Modeli daha küçük parçalara böler.
Bu küçük parçaların eğitimini birden fazla işlemciye dağıtır. Her işlemci, modelin kendi bölümünü eğitir.
Sonuçları birleştirerek tek bir model oluşturur.

Model paralelliği eğitimi yavaşlatır.

Ayrıca veri paralelliği konusuna da bakın.

MOE

#language

#image

#generativeAI

Uzmanlardan oluşan bir grup kısaltması.

çok başlı kendi kendine dikkat

#language

Giriş dizisindeki her konum için kendi kendine dikkat mekanizmasını birden çok kez uygulayan kendi kendine dikkat özelliğinin bir uzantısıdır.

Transformers, çok başlı öz dikkat özelliğini kullanıma sundu.

çok modlu talimat ayarlı

#language

Metnin yanı sıra görüntü, video ve ses gibi girişleri işleyebilecek talimatlara göre ayarlanmış bir modeldir.

çok modlu model

#language

Girişleri ve/veya çıkışları birden fazla modalite içeren bir model. Örneğin, hem resim hem de metin başlığını (iki mod) özellik olarak alan ve metin başlığının resme ne kadar uygun olduğunu belirten bir puan veren bir model düşünün. Bu modelin girişleri çoklu modlu, çıkışı ise tek modlu.

H

doğal dil işleme

#language

Bilgisayarlara, kullanıcının söylediği veya yazdığı ifadeleri dil kurallarını kullanarak işlemeyi öğreten alan. Modern doğal dil işleme yöntemlerinin neredeyse tamamı makine öğreniminden yararlanır.

doğal dil anlama

#language

Söylenen veya yazılan bir şeyin niyetlerini belirleyen doğal dil işleme alt kümesi. Doğal dil anlama, doğal dil işlemenin ötesine geçerek bağlam, alay ve yaklaşım gibi dilin karmaşık yönlerini dikkate alabilir.

N-gram

#seq

#language

N kelimelik sıralı bir dizi. Örneğin, truly madly 2 gramdır. Sıranın önemli olması nedeniyle madly truly, truly madly ile aynı 2 gram değildir.

H	Bu tür bir N-gram için adlar	Örnekler
2	iki heceli veya 2 heceli	gitmek, gitmek için, öğle yemeği yemek, akşam yemeği yemek
3	üçlü veya 3'lü	ate too much, three blind mice, the bell tolls
4	4 gram	walk in the park, dust in the wind, the boy ate lentils

Birçok doğal dil anlama modeli, kullanıcının yazacağı veya söyleyeceği bir sonraki kelimeyi tahmin etmek için N-gramlara dayanır. Örneğin, bir kullanıcının üç kör yazdığını varsayalım. Üçlülere dayalı bir NLU modeli, kullanıcının bir sonraki kelime olarak fare yazacağını tahmin eder.

N-gramları, sırasız kelime grupları olan kelime torbası ile karşılaştırın.

NLP

#language

Doğal dil işleme kısaltması.

NLU

#language

Doğal dil anlama kısaltması.

Tek doğru yanıt yok (NORA)

#language

#generativeAI

Birden fazla uygun yanıtı olan bir istem. Örneğin, aşağıdaki istemde tek bir doğru yanıt yoktur:

Bana fillerle ilgili bir fıkra anlat.

Doğru yanıtı olmayan istemleri değerlendirmek zor olabilir.

NORA

#language

#generativeAI

Tek doğru cevap yok ifadesinin kısaltması.

O

tek görevli istem

#language

#generativeAI

Büyük dil modelinin nasıl yanıt vermesi gerektiğini gösteren bir örnek içeren istem. Örneğin, aşağıdaki istemde büyük bir dil modelinin bir sorguyu nasıl yanıtlaması gerektiğini gösteren bir örnek yer almaktadır.

Bir istemin bölümleri	Notlar
`Belirtilen ülkenin resmi para birimi nedir?`	LLM'nin yanıtlamasını istediğiniz soru.
`Fransa: avro`	Bir örnek vereyim.
`Hindistan:`	Gerçek sorgu.

Tek seferlik istem ile aşağıdaki terimleri karşılaştırın:

sıfır görevli istem
çok görevli istem

P

parametreleri verimli şekilde kullanma

#language

#generativeAI

Büyük bir önceden eğitilmiş dil modelini (PLM) tam ince ayarlama işleminden daha verimli bir şekilde ince ayarlama yapmak için kullanılan bir teknik grubu. Parametre verimliliği odaklı ayarlama, genellikle tam ince ayarlamaya kıyasla çok daha az sayıda parametrede ince ayar yapar ancak genellikle tam ince ayarlamayla oluşturulan büyük bir dil modeliyle aynı performansı (veya neredeyse aynı performansı) gösteren bir büyük dil modeli oluşturur.

Parametre verimliliği ayarlamayı aşağıdakilerle karşılaştırın:

Parametrelerin verimli şekilde kullanıldığı ayarlama, parametreleri verimli şekilde kullanma olarak da bilinir.

ardışık düzen

#language

Bir modelin işlemeninin art arda aşamalara bölündüğü ve her aşamanın farklı bir cihazda yürütüldüğü bir model paralelliği biçimi. Bir aşama bir grubu işlerken önceki aşama bir sonraki grup üzerinde çalışabilir.

Ayrıca aşamalı eğitim konusuna da bakın.

PLM

#language

#generativeAI

Önceden eğitilmiş dil modeli kısaltması.

konumsal kodlama

#language

Bir jetonun bir dizilimdeki konumu hakkındaki bilgileri jetonun yerleştirilmesine ekleme tekniği. Transformer modelleri, dizinin farklı parçaları arasındaki ilişkiyi daha iyi anlamak için konumsal kodlama kullanır.

Pozisyonsal kodlamanın yaygın bir uygulamasında sinüs fonksiyonu kullanılır. (Özellikle, sinüsoidal işlevin frekansı ve genliği, jetonun dizindeki konumuna göre belirlenir.) Bu teknik, bir Transformer modelinin, konumlarına göre sıranın farklı bölümlerine dikkat etmeyi öğrenmesini sağlar.

eğitilmiş model

#language

#image

#generativeAI

Genellikle aşağıdakilerden biri veya daha fazlası gibi bazı son işlemlerden geçmiş önceden eğitilmiş bir modeli ifade eden, gevşek tanımlanmış bir terimdir:

k değerinde hassasiyet (precision@k)

#language

Sıralı (sıralı) bir öğe listesini değerlendirmek için kullanılan bir metrik. k değerinde hassasiyet, söz konusu listedeki ilk k öğenin "alakalı" olan kısmını tanımlar. Yani:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

k değerinin, döndürülen listenin uzunluğundan az veya buna eşit olması gerekir. Döndürülen listenin uzunluğunun hesaplamaya dahil edilmediğini unutmayın.

Alaka düzeyi genellikle özneldir. Uzman değerlendiriciler bile hangi öğelerin alakalı olduğu konusunda genellikle aynı fikirde değildir.

Şununla karşılaştır:

k değerinde ortalama hassasiyet
k için ortalama hassasiyet

Örnek görmek için simgeyi tıklayın.

Bir büyük dil modeline aşağıdaki sorgunun verildiğini varsayalım:

List the 6 funniest movies of all time in order.

Büyük dil modeli ise aşağıdaki tablonun ilk iki sütununda gösterilen listeyi döndürür:

Konum	Film	Alakalı mı?
1	The General	Evet
2	Kötü	Evet
3	Platoon	Hayır
4	Nedime	Evet
5	Citizen Kane	Hayır
6	This is Spinal Tap	Evet

İlk üç filmden ikisi alakalı olduğundan 3'te hassasiyet şu şekildedir:

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

İlk beş filmden dördü çok komiktir. Bu nedenle, 5'te hassasiyet şu şekildedir:

$$\text{precision at 5} = \frac{\text{4}} {\text{5}} = 0.8$$

önceden eğitilmiş model

#language

#image

#generativeAI

Genellikle, eğitilmiş bir modeldir. Bu terim, daha önce eğitilmiş bir gömülü vektör anlamına da gelebilir.

Önceden eğitilmiş dil modeli terimi genellikle önceden eğitilmiş bir büyük dil modelini ifade eder.

ön eğitim

#language

#image

#generativeAI

Bir modelin büyük bir veri kümesinde ilk eğitimi. Bazı önceden eğitilmiş modeller hantal devler gibidir ve genellikle ek eğitimle hassaslaştırılması gerekir. Örneğin, makine öğrenimi uzmanları, Wikipedia'daki tüm İngilizce sayfalar gibi geniş bir metin veri kümesinde büyük dil modelini önceden eğitebilir. Ön eğitimden sonra elde edilen model, aşağıdaki tekniklerden herhangi biri kullanılarak daha da hassaslaştırılabilir:

damıtma
ince ayar
instruction tuning
Parametreleri verimli şekilde kullanma
prompt-tuning

istem

#language

#generativeAI

Modeli belirli bir şekilde davranmaya koşullandırmak için büyük dil modeline giriş olarak girilen tüm metinler. İstemler bir kelime öbeği kadar kısa veya istediğiniz kadar uzun olabilir (örneğin, bir romanın tamamı). İstemler, aşağıdaki tabloda gösterilenler de dahil olmak üzere birden fazla kategoriye ayrılır:

İstem kategorisi	Örnek	Notlar
Soru	`Güvercin ne kadar hızlı uçabilir?`
Talimat	`Arbitraj hakkında komik bir şiir yazın.`	Büyük dil modelinden bir şey yapmasını isteyen istem.
Örnek	`Markdown kodunu HTML'ye çevirin. Örneğin: Markdown: * liste öğesi HTML: <ul> <li>liste öğesi</li> </ul>`	Bu örnek istemdeki ilk cümle bir talimattır. İstemin geri kalanı örnektir.
Rol	`Fizik alanında doktora yapmak için makine öğrenimi eğitiminde gradyan azalma yönteminin neden kullanıldığını açıklayın.`	Cümlenin ilk kısmı bir talimattır; "Fizik alanında doktora" ifadesi ise rol bölümüdür.
Modelin tamamlaması için kısmi giriş	`Birleşik Krallık Başbakanı şu adreste yaşıyor:`	Tamamlama girişi istemi, aniden (bu örnekte olduğu gibi) veya alt çizgiyle bitebilir.

Üretken yapay zeka modelleri, istemlere metin, kod, resim, yerleşim, video gibi neredeyse her şeyle yanıt verebilir.

istem temelli öğrenme

#language

#generativeAI

Belirli modellerin, davranışlarını rastgele metin girişlerine (istemler) göre uyarlamalarına olanak tanıyan bir özelliktir. İstem tabanlı öğrenme paradigmasında büyük dil modeli, istemlere metin üreterek yanıt verir. Örneğin, bir kullanıcının aşağıdaki istemi girdiğini varsayalım:

Newton'un üçüncü hareket yasasını özetleyin.

İsteme dayalı öğrenme yapabilen bir model, önceki istemi yanıtlamak için özel olarak eğitilmez. Model, fizik, genel dil kuralları ve genel olarak yararlı yanıtları oluşturan konular hakkında çok fazla bilgi "biliyor". Bu bilgiler, faydalı bir yanıt (umarım) sağlamak için yeterlidir. Ek insan geri bildirimleri ("Bu yanıt çok karmaşıktı." veya "Yanıtın ne olduğunu anlamadım.") bazı istem tabanlı öğrenme sistemlerinin yanıtlarının faydasını kademeli olarak artırmasını sağlar.

istem tasarımı

#language

#generativeAI

İstem mühendisliği ile eş anlamlıdır.

istem mühendisliği

#language

#generativeAI

Büyük dil modelinden istenen yanıtları alan istemler oluşturma sanatı. İstem mühendisliği, insanlar tarafından gerçekleştirilir. İyi yapılandırılmış istemler yazmak, büyük dil modelinden yararlı yanıtlar almanın önemli bir parçasıdır. İstem mühendisliği aşağıdakiler gibi birçok faktöre bağlıdır:

Büyük dil modelini ön eğitmek ve muhtemelen ince ayarlamak için kullanılan veri kümesi.
Modelin yanıt oluşturmak için kullandığı sıcaklık ve diğer kod çözme parametreleri.

Faydalı istemler yazma hakkında daha fazla bilgi için İstem tasarımına giriş başlıklı makaleyi inceleyin.

İstem tasarımı, istem mühendisliğinin eş anlamlısıdır.

istem ayarı

#language

#generativeAI

Sistemin gerçek istemin başına eklediği bir "ön ek" öğrenen parametrelerin verimli kullanıldığı ayarlama mekanizması.

İstem ayarının bir varyantı (bazen önek ayarlama olarak adlandırılır) ön eki her katmana eklemektir. Buna karşılık, çoğu istem ayarı yalnızca giriş katmanına bir ön ek ekler.

Ön ekler hakkında daha fazla bilgi edinmek için simgeyi tıklayın.

İstem ayarı için "önek" ("yumuşak istem" olarak da bilinir), gerçek istemdeki metin jetonu yer paylaşımlarına eklenen, öğrenilen ve göreve özel bir avuç vektördür. Sistem, diğer tüm model parametrelerini dondurup belirli bir görevde ince ayar yaparak yumuşak istemi öğrenir.

K

k değerinde geri çağırma (recall@k)

#language

Sıralı (sıralı) bir öğe listesi yayınlayan sistemleri değerlendirmek için kullanılan bir metrik. k'ta geri çağırma, listelenen ilk k öğedeki alakalı öğelerin, döndürülen alakalı öğelerin toplam sayısına oranını tanımlar.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

k değerinde hassasiyet ile kontrast.

Örnek görmek için simgeyi tıklayın.

Bir büyük dil modeline aşağıdaki sorgunun verildiğini varsayalım:

List the 10 funniest movies of all time in order.

Büyük dil modeli ise ilk iki sütunda gösterilen listeyi döndürür:

Konum	Film	Alakalı mı?
1	The General	Evet
2	Kötü	Evet
3	Platoon	Hayır
4	Nedime	Evet
5	This is Spinal Tap	Evet
6	Uçak!	Evet
7	Groundhog Day	Evet
8	Monty Python and the Holy Grail	Evet
9	Oppenheimer	Hayır
10	Clueless	Evet

Yukarıdaki listedeki sekiz film çok komik olduğu için "listedeki alakalı öğeler" olarak kabul edilir. Bu nedenle, k değerinde tüm hatırlama hesaplamalarında payda 8 olacaktır. Payda ne olacak? İlk 4 öğeden 3'ü alakalı olduğundan 4'te geri çağırma şu şekildedir:

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

İlk 8 filmden 7'si çok komik. Bu nedenle, 8. sıradaki hatırlama oranı şöyledir:

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

referans metni

#language

#generativeAI

Uzmanın bir isteme verdiği yanıt. Örneğin, aşağıdaki istemde:

"Adınız ne?" sorusunu İngilizceden Fransızcaya çevirin.

Bir uzmanın yanıtı şöyle olabilir:

Comment vous appelez-vous?

Çeşitli metrikler (ör. ROUGE), referans metninin bir yapay zeka modelinin oluşturduğu metinle eşleşme derecesini ölçer.

rol istemi

#language

#generativeAI

Üretken yapay zeka modelinin yanıtı için hedef kitleyi tanımlayan istemin isteğe bağlı bir parçasıdır. Büyük dil modelleri, rol istemi olmadan soruları soran kullanıcı için yararlı olabilecek veya olamayacak bir yanıt sağlar. Büyük dil modelleri, rol istemi ile belirli bir hedef kitle için daha uygun ve daha yararlı bir şekilde yanıt verebilir. Örneğin, aşağıdaki istemlerin rol istemi kısmı kalın olarak gösterilir:

Ekonomi alanında doktora yapanlar için bu makaleyi özetleyin.
On yaşındaki bir çocuğa gelgitlerin nasıl çalıştığını açıklayın.
2008 mali krizini açıklayın. Küçük bir çocukla veya golden retriever ile konuşuyormuş gibi konuşun.

ROUGE (Tahmin Değerlendirmesi İçin Hatırlama Odaklı Yardımcı Oyuncu)

#language

Otomatik özetleme ve makine çevirisi modellerini değerlendiren bir metrik ailesi. ROUGE metrikleri, bir referans metninin bir yapay zeka modelinin oluşturulan metniyle örtüşme derecesini belirler. ROUGE ailesinin her üyesi, çakışma ölçümlerini farklı bir şekilde gerçekleştirir. Daha yüksek ROUGE puanları, referans metin ile oluşturulan metin arasında daha düşük ROUGE puanlarına kıyasla daha fazla benzerlik olduğunu gösterir.

Her ROUGE aile üyesi genellikle aşağıdaki metrikleri oluşturur:

Hassasiyet
Geri çağırma
F₁

Ayrıntılar ve örnekler için:

ROUGE-L
ROUGE-N
ROUGE-S

ROUGE-L

#language

Referans metin ve oluşturulan metin içindeki en uzun ortak alt dizinin uzunluğuna odaklanan ROUGE ailesinin bir üyesidir. Aşağıdaki formüller, ROUGE-L için geri çağırma ve kesinliği hesaplar:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Ardından, ROUGE-L geri çağırma ve ROUGE-L doğruluğunu tek bir metriğe toplamak için F₁ kullanabilirsiniz:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ROUGE-L ile ilgili örnek bir hesaplama için simgeyi tıklayın.

Aşağıdaki referans metnini ve oluşturulan metni inceleyin.

Kategori	Yapımcı kim?	Metin
Referans metni	Gerçek kişiler tarafından yapılan çeviri	Çok çeşitli konuları anlamak istiyorum.
Oluşturulan metin	ML modeli	Çok şey öğrenmek istiyorum.

Bu nedenle:

En uzun ortak alt dize 5'tir (I want to of things)
Referans metindeki kelime sayısı 9'dur.
Oluşturulan metindeki kelime sayısı 7'dir.

Sonuç olarak:

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

ROUGE-L, referans metin ve oluşturulan metindeki tüm yeni satırları yoksayar. Bu nedenle, en uzun ortak alt dize birden fazla cümleyi kapsayabilir. Referans metin ve oluşturulan metin birden fazla cümle içeriyorsa genellikle ROUGE-L'nin ROUGE-Lsum adlı bir varyasyonu daha iyi bir metriktir. ROUGE-Lsum, bir pasajdaki her cümle için en uzun ortak alt dizeyi belirler ve ardından bu en uzun ortak alt dizilerin ortalamasını hesaplar.

ROUGE-Lsum için örnek bir hesaplama görmek üzere simgeyi tıklayın.

Aşağıdaki referans metnini ve oluşturulan metni inceleyin.

Kategori	Yapımcı kim?	Metin
Referans metni	Gerçek kişiler tarafından yapılan çeviri	Mars'ın yüzeyi kurudur. Suyun neredeyse tamamı yeraltındadır.
Oluşturulan metin	ML modeli	Mars'ın yüzeyi kurudur. Ancak suyun büyük bir kısmı yer altındadır.

Bu nedenle:

	İlk cümle	İkinci cümle
En uzun ortak dizi	2 (Mars kuru)	3 (su yer altındadır)
Referans metninin cümle uzunluğu	6	7
Oluşturulan metnin cümle uzunluğu	5	8

Sonuç olarak:

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#language

ROUGE ailesindeki bir metrik grubu. Referans metin ile oluşturulan metin arasındaki belirli boyuttaki ortak N-gramları karşılaştırır. Örneğin:

ROUGE-1, referans metin ile oluşturulan metinde paylaşılan jetonların sayısını ölçer.
ROUGE-2, referans metin ile oluşturulan metinde paylaşılan bigramların (2 gram) sayısını ölçer.
ROUGE-3, referans metin ile oluşturulan metinde ortak üçlü grupların (üçlü gruplar) sayısını ölçer.

ROUGE-N ailesinin herhangi bir üyesi için ROUGE-N geri çağırma ve ROUGE-N hassasiyetini hesaplamak üzere aşağıdaki formülleri kullanabilirsiniz:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Ardından, ROUGE-N geri çağırma ve ROUGE-N doğruluğunu tek bir metriğe toplamak için F₁ kullanabilirsiniz:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

Örnek için simgeyi tıklayın.

Bir makine öğrenimi modelinin çevirisinin, gerçek bir çevirmen tarafından yapılan çeviriye kıyasla ne kadar etkili olduğunu ölçmek için ROUGE-2'yi kullanmaya karar verdiğinizi varsayalım.

Kategori	Yapımcı kim?	Metin	İkili gramlar
Referans metni	Gerçek kişiler tarafından yapılan çeviri	Çok çeşitli konuları anlamak istiyorum.	I want, want to, to understand, understand a, a wide, wide variety, variety of, of things
Oluşturulan metin	ML modeli	Çok şey öğrenmek istiyorum.	I want, want to, to learn, learn plenty, plenty of, of things

Bu nedenle:

Eşleşen 2 gram sayısı 3'tür (I want, want to ve of things).
Referans metindeki 2 gram sayısı 8'dir.
Oluşturulan metindeki 2 gram sayısı 6'dır.

Sonuç olarak:

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROGUE-S

#language

Skip-gram eşlemesini etkinleştiren, ROUGE-N'in daha esnek bir biçimidir. Yani ROUGE-N yalnızca tam olarak eşleşen N-gramları sayarken ROUGE-S bir veya daha fazla kelimeyle ayrılmış N-gramları da sayar. Örneğin aşağıdakileri göz önünde bulundurabilirsiniz:

reference text: Beyaz bulutlar
Oluşturulan metin: Beyaz bulutlar

ROUGE-N hesaplanırken 2 gramlık Beyaz bulutlar, Beyaz bulutlar ile eşleşmez. Ancak ROUGE-S hesaplanırken Beyaz bulutlar, Beyaz bulutlar ile eşleşir.

S

öz dikkat (öz dikkat katmanı olarak da bilinir)

#language

Bir dizi yerleştirmeyi (ör. jeton yerleştirmeleri) başka bir yerleştirme dizisine dönüştüren nöral ağ katmanı. Çıkış dizisindeki her yerleştirme, bir dikkat mekanizması aracılığıyla giriş dizisinin öğelerinden alınan bilgiler birleştirilerek oluşturulur.

Öz dikkat ifadesindeki öz, başka bir bağlam yerine kendisine dikkat eden sırayı ifade eder. Öz dikkat, dönüştürücüler için temel yapı taşlarından biridir ve "sorgu", "anahtar" ve "değer" gibi sözlük arama terminolojisini kullanır.

Öz dikkat katmanı, her kelime için bir tane olmak üzere bir giriş temsili dizisiyle başlar. Bir kelimenin giriş temsili basit bir yerleştirme olabilir. Ağ, giriş dizisindeki her kelime için kelimenin kelime dizisinin tamamındaki her öğeyle alaka düzeyini puanlar. Alaka düzeyi puanları, kelimenin nihai temsilinin diğer kelimelerin temsillerini ne kadar içerdiğini belirler.

Örneğin, aşağıdaki cümleyi ele alalım:

Hayvan çok yorgun olduğu için caddeyi geçmedi.

Aşağıdaki görselde (Transformer: A Novel Neural Network Architecture for Language Understanding adlı makaleden alınmıştır), bir kendi kendine dikkat katmanının it (o) şahıs zamiri için dikkat kalıbı gösterilmektedir. Her satırın koyuluğu, her bir kelimenin temsile ne kadar katkıda bulunduğunu gösterir:

Aşağıdaki cümle iki kez görünüyor: Hayvan çok yorgun olduğu için caddeyi geçmedi. Çizgiler, bir cümledeki "o" zamirinin diğer cümledeki beş jetonla (The, animal, street, it ve nokta) bağlantısını sağlar. "O" zamiri ile "hayvan" kelimesi arasındaki çizgi en güçlüdür.

Öz dikkat katmanı, "o" ile alakalı kelimeleri vurgular. Bu örnekte dikkat katmanı, kendisinin atıfta bulunabileceği kelimeleri vurgulamayı öğrenmiştir ve en yüksek ağırlığı hayvan'a atamıştır.

n işaret dizisi için kendi kendine dikkat, dizideki her konumda bir kez olmak üzere n ayrı kez bir dizi yerleştirmeyi dönüştürür.

Dikkat ve çoklu başlık kendi kendine dikkat hakkında da bilgi edinin.

yaklaşım analizi

#language

Bir grubun bir hizmete, ürüne, kuruluşa veya konuya karşı genel tutumunu (pozitif veya negatif) belirlemek için istatistiksel veya makine öğrenimi algoritmalarının kullanılması. Örneğin, doğal dil anlama özelliğini kullanan bir algoritma, öğrencilerin bir üniversite kursundan ne kadar memnun kaldığını belirlemek için kursla ilgili metin geri bildirimlerinde duygu analizi yapabilir.

sırayla sıraya görev

#language

Bir giriş jeton dizisini çıkış jeton dizisine dönüştüren bir görev. Örneğin, sırayla sıraya göre görevler için iki popüler tür vardır:

Çevirmenler:
- Örnek giriş dizisi: "Seni seviyorum."
- Örnek çıkış sırası: "Je t'aime."
Soru yanıtlama:
- Örnek giriş sırası: "New York'ta arabama ihtiyacım var mı?"
- Örnek çıkış sırası: "Hayır. Lütfen arabanızı evde bırakın."

atlama gramı

#language

Orijinal bağlamdaki kelimeleri atlayabilen (veya "atlayabilen") bir n-gram. Yani N kelimenin başlangıçta bitişik olmayabilir. Daha açık belirtmek gerekirse, "k atlama n-gramı", k'ya kadar kelimenin atlanmış olabileceği bir n-gramdır.

Örneğin, "the quick brown fox" (cesur kahverengi tilki) ifadesi aşağıdaki olası 2 gramları içerir:

"the quick"
"quick brown"
"kahverengi tilki"

"1 atlama 2 gram", aralarında en fazla 1 kelime olan bir kelime çiftidir. Bu nedenle, "the quick brown fox" ifadesi aşağıdaki 1 sıçrama 2 gramı içerir:

"the brown"
"quick fox"

Ayrıca, birden fazla kelime atlanabilir olduğundan tüm 2 gramlar aynı zamanda 1 atlamalı 2 gramdır.

Atlama gramları, bir kelimenin etrafındaki bağlamı daha iyi anlamak için yararlıdır. Örnekte, "fox" 1-skip-2-gram grubunda doğrudan "quick" ile ilişkilendirilmiştir ancak 2-gram grubunda ilişkilendirilmemiştir.

Atlama gramları, kelime yerleştirme modellerini eğitmeye yardımcı olur.

yumuşak istem ayarı

#language

#generativeAI

Kaynak yoğun ince ayar yapmadan belirli bir görev için büyük dil modelini ayarlama tekniği. Yumuşak istem ayarı, modeldeki tüm ağırlıkları yeniden eğitmek yerine, aynı hedefe ulaşmak için istemi otomatik olarak ayarlar.

Metin istemi verildiğinde yumuşak istem ayarı genellikle isme ek jeton ekleme işlemi yapar ve girişi optimize etmek için geri yayılımı kullanır.

"Sabit" istem, jeton yerleştirmeleri yerine gerçek jetonlar içerir.

seyrek özellik

#language

#fundamentals

Değerleri çoğunlukla sıfır veya boş olan bir özellik. Örneğin, tek bir 1 değeri ve bir milyon 0 değeri içeren bir özellik seyrektir. Buna karşılık, yoğun bir özellik, çoğunlukla sıfır veya boş olmayan değerlere sahiptir.

Makine öğrenimindeki şaşırtıcı sayıda özellik seyrek özelliktir. Kategorik özellikler genellikle seyrek özelliklerdir. Örneğin, bir ormandaki 300 olası ağaç türünden tek bir örnekte yalnızca akçaağaç bulunabilir. Video kitaplığındaki milyonlarca videodan tek bir örnekte yalnızca "Casablanca" bulunabilir.

Bir modelde, seyrek özellikleri genellikle tek sıcak kodlama ile temsil edersiniz. Tek sıcak kodlama büyükse daha fazla verimlilik için tek sıcak kodlamanın üzerine bir gömülü katman yerleştirebilirsiniz.

seyrek gösterim

#language

#fundamentals

Seyrek bir özellikte yalnızca sıfır olmayan öğelerin konumlarını depolama.

Örneğin, species adlı kategorik bir özelliğin belirli bir ormandaki 36 ağaç türünü tanımladığını varsayalım. Ayrıca, her örnek'in yalnızca tek bir türü tanımladığını varsayalım.

Her örnekteki ağaç türlerini temsil etmek için tek sıcaklık değerine sahip bir vektör kullanabilirsiniz. Tek sıcak vektör, tek bir 1 (bu örnekteki belirli ağaç türünü temsil etmek için) ve 35 0 (bu örnekte bulunmayan 35 ağaç türünü temsil etmek için) içerir. Dolayısıyla maple için tek sıcak temsil aşağıdaki gibi görünebilir:

0 ile 23 arasındaki konumların 0 değerini, 24. konumun 1 değerini ve 25 ile 35 arasındaki konumların 0 değerini tuttuğu bir vektör.

Alternatif olarak, seyrek temsil, belirli türün konumunu tanımlar. maple 24. sıradaysa maple için seyrek gösterim şu şekilde olur:

Seyrek temsilin tek sıcak temsile kıyasla çok daha kompakt olduğuna dikkat edin.

Biraz daha karmaşık bir örnek için simgeyi tıklayın.

Modelinizdeki her bir örneğin, İngilizce bir cümledeki kelimeleri (ancak kelimelerin sırasını değil) temsil etmesi gerektiğini varsayalım. İngilizce yaklaşık 170.000 kelimeden oluştuğu için yaklaşık 170.000 öğe içeren kategorik bir özelliktir. İngilizce cümlelerin çoğu bu 170.000 kelimenin çok küçük bir kısmını kullandığından, tek bir örnekteki kelime grubu neredeyse kesin olarak seyrek veri olacaktır.

Aşağıdaki cümleyi ele alalım:

My dog is a great dog

Bu cümledeki kelimeleri temsil etmek için tek sıcak vektörün bir varyantını kullanabilirsiniz. Bu varyantta, vektördeki birden fazla hücre sıfır olmayan bir değer içerebilir. Ayrıca bu varyantta bir hücre, bir dışında bir tam sayı içerebilir. "Köpeğim", "harika", "bir" ve "köpek" kelimeleri cümlede yalnızca bir kez görünse de "köpek" kelimesi iki kez görünür. Bu cümledeki kelimeleri temsil etmek için tek sıcak vektörlerin bu varyantını kullandığımızda aşağıdaki 170.000 öğeli vektör elde edilir:

Aynı cümlenin seyrek temsili şu şekilde olur:

Kafanız karışırsa simgeyi tıklayın.

Seyrek temsilin kendisi seyrek bir vektör olmadığından "seyrek temsil" terimi birçok kişiyi şaşırtmaktadır. Seyrek temsil aslında seyrek bir vektörün yoğun temsilidir. Dizin gösterimi eş anlamlısı, "seyrek gösterim"den biraz daha nettir.

aşamalı eğitim

#language

Bir modeli ayrı aşamalar halinde eğitme taktiği. Amaç, eğitim sürecini hızlandırmak veya daha iyi model kalitesi elde etmek olabilir.

Aşağıda, kademeli yığın yaklaşımını gösteren bir görsel verilmiştir:

1. aşama 3 gizli katman, 2. aşama 6 gizli katman ve 3. aşama 12 gizli katman içerir.
2. Aşama, 1. Aşama'nın 3 gizli katmanında öğrenilen ağırlıklarla eğitime başlar. 3. Aşama, 2. Aşama'nın 6 gizli katmanında öğrenilen ağırlıklarla eğitime başlar.

1. Aşama, 2. Aşama ve 3. Aşama olarak etiketlenen üç aşama.
Her aşama farklı sayıda katman içerir: 1. aşama 3 katman, 2. aşama 6 katman ve 3. aşama 12 katman içerir.
1. Aşama'daki 3 katman, 2. Aşama'nın ilk 3 katmanı olur.
Benzer şekilde, 2. Aşama'daki 6 katman 3. Aşama'nın ilk 6 katmanı olur.

Ayrıca ardışık düzen konusuna da bakın.

alt kelime belirteci

#language

Dil modellerinde, bir kelimenin alt dizesi olan ve kelimenin tamamı da olabilecek işaret.

Örneğin, "itemize" gibi bir kelime "item" (kök kelime) ve "ize" (son ek) parçalarına ayrılabilir. Bu parçaların her biri kendi jetonuyla temsil edilir. Sık kullanılmayan kelimelerin alt kelimeler adı verilen parçalara bölünmesi, dil modellerinin kelimenin önek ve son ek gibi daha yaygın bileşenleri üzerinde çalışmasını sağlar.

Buna karşılık, "going" gibi yaygın kelimeler bölünmeyebilir ve tek bir jetonla temsil edilebilir.

T

T5

#language

Google Yapay Zeka tarafından 2020'de kullanıma sunulan metinden metne transfer öğrenme modeli. T5, Transformer mimarisine dayalı, son derece büyük bir veri kümesinde eğitilmiş bir kodlayıcı-kod çözücü modelidir. Metin oluşturma, dil çevirme ve soruları konuşma dilinde yanıtlama gibi çeşitli doğal dil işleme görevlerinde etkilidir.

T5, adını "Text-to-Text Transfer Transformer " (Metinden Metne Aktarım Dönüştürücü) ifadesindeki beş T'den alır.

T5X

#language

Büyük ölçekli doğal dil işleme (NLP) modelleri oluşturmak ve eğitmek için tasarlanmış açık kaynak bir makine öğrenimi çerçevesi. T5, T5X kod tabanında (JAX ve Flax üzerine kuruludur) uygulanır.

sıcaklık

#language

#image

#generativeAI

Bir modelin çıkışının rastgelelik derecesini kontrol eden hiper parametre. Yüksek sıcaklıklar daha rastgele sonuçlara, düşük sıcaklıklar ise daha az rastgele sonuçlara yol açar.

En iyi sıcaklığı seçmek, belirli uygulamaya ve modelin çıktısının tercih edilen özelliklerine bağlıdır. Örneğin, reklam öğesi çıkışı oluşturan bir uygulama oluştururken sıcaklığı artırmanız gerekir. Buna karşılık, modelin doğruluğunu ve tutarlılığını artırmak için resimleri veya metni sınıflandıran bir model oluştururken sıcaklığı düşürmeniz muhtemeldir.

Sıcaklık genellikle softmax ile birlikte kullanılır.

metin aralığı

#language

Bir metin dizesinin belirli bir alt bölümüyle ilişkili dizi dizini aralığı. Örneğin, s="Be good now" Python dizesi içindeki good kelimesi 3 ile 6 arasındaki metin aralığını kaplar.

token

#language

Dil modelinde, modelin eğitildiği ve tahminlerde bulunduğu atomik birimdir. Jetonlar genellikle aşağıdakilerden biridir:

bir kelimedir. Örneğin, "köpekler kedileri sever" ifadesi üç kelime jetonundan oluşur: "köpekler", "sever" ve "kedileri".
karakterden oluşur. Örneğin, "bisiklet balık" ifadesi dokuz karakter jetonundan oluşur. (Boşluğun jetonlardan biri olarak sayıldığını unutmayın.)
alt kelimeler (tek bir kelime tek bir jeton veya birden fazla jeton olabilir). Alt kelime, bir kök kelime, ön ek veya sonekten oluşur. Örneğin, alt kelimeleri jeton olarak kullanan bir dil modeli, "köpekler" kelimesini iki jeton olarak (kök kelime "köpek" ve çoğul son eki "ler") görebilir. Aynı dil modeli, "uzun" kelimesini iki alt kelime olarak (kök kelime "uzun" ve son ek "er") görebilir.

Dil modellerinin dışındaki alanlarda jetonlar, diğer türde atomik birimleri temsil edebilir. Örneğin, bilgisayar görüşünde jeton bir resmin alt kümesi olabilir.

en iyi k doğruluğu

#language

Oluşturulan listelerin ilk k konumunda bir "hedef etiketinin" görünme yüzdesi. Listeler, kişiselleştirilmiş öneriler veya softmax'e göre sıralanmış öğelerin listesi olabilir.

En yüksek k doğruluğu, k doğruluğu olarak da bilinir.

Örnek için simgeyi tıklayın.

Ağaç yapraklarının resmine göre ağaç olasılıklarını belirlemek için yumuşak maksimum kullanan bir makine öğrenimi sistemi düşünün. Aşağıdaki tabloda, beş giriş ağaç resminden oluşturulan çıkış listeleri gösterilmektedir. Her satırda bir hedef etiketi ve en olası beş ağaç bulunur. Örneğin, hedef etiket akçaağaç olduğunda makine öğrenimi modeli, en olası ağaç olarak kayın, ikinci en olası ağaç olarak meşe vb. belirledi.

Hedef etiket	1	2	3	4	5
Maple	karaağaç	meşe	maple	kayın	Poplar
kızılcık	meşe	dogwood	Poplar	Hickory	Maple
meşe	oak	ıhlamur	çekirge	kızılağaç	Linden
Linden	Maple	paw-paw	meşe	ıhlamur	Poplar
meşe	çekirge	Linden	oak	Maple	paw-paw

Hedef etiketi ilk konumda yalnızca bir kez göründüğünden ilk sıradaki doğruluk değeri şöyledir:

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

Hedef etiket, ilk üç konumdan birinde dört kez göründüğünden ilk 3 doğruluk değeri şöyledir:

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

toksik

#language

İçeriğin kötüye kullanım amaçlı, tehdit edici veya rahatsız edici olma derecesi. Birçok makine öğrenimi modeli, toksisiteyi tespit edip ölçebilir. Bu modellerin çoğu, toksikliği kötüye kullanım amaçlı dil ve tehdit edici dil düzeyi gibi birden fazla parametreyle tanımlar.

Transformatör

#language

Google'da geliştirilen ve dönüşüm veya yinelenen sinir ağlarına ihtiyaç duymadan bir giriş dizilimini çıkış dizilimine dönüştürmek için kendi kendine dikkat mekanizmalarına dayanan bir nöral ağ mimarisi. Transformer, öz dikkat katmanlarının yığını olarak görülebilir.

Dönüştürücüler aşağıdakilerden herhangi birini içerebilir:

Kodlayıcı
Kod çözücü
hem kodlayıcı hem de kod çözücü

Kodlayıcı, bir dizi yerleştirmeyi aynı uzunlukta yeni bir diziye dönüştürür. Bir kodlayıcı, her biri iki alt katman içeren N adet aynı katman içerir. Bu iki alt katman, giriş yerleştirme dizisinin her konumuna uygulanarak dizinin her öğesini yeni bir yerleştirmeye dönüştürür. İlk kodlayıcı alt katmanı, giriş dizisindeki bilgileri toplar. İkinci kodlayıcı alt katmanı, birleştirilen bilgileri çıkış yerleştirmesine dönüştürür.

Kod çözücü, bir giriş yerleştirilmiş öğesi dizisini, muhtemelen farklı uzunlukta bir çıkış yerleştirilmiş öğesi dizisine dönüştürür. Kod çözücü, üç alt katmana sahip N tane aynı katman da içerir. Bu katmanlardan ikisi kodlayıcı alt katmanlarına benzer. Üçüncü kod çözücü alt katmanı, kodlayıcının çıkışını alır ve buradan bilgi toplamak için öz dikkat mekanizmasını uygular.

Transformer: A Novel Neural Network Architecture for Language Understanding (Dönüştürücü: Dil Anlama İçin Yeni Bir Nöral Ağ Mimarisi) adlı blog yayını, dönüştürücülere dair iyi bir giriş niteliğindedir.

üçlü

#seq

#language

N=3 olan bir N-gram.

U

tek yönlü

#language

Yalnızca hedef metin bölümünün öncesinde gelen metni değerlendiren bir sistemdir. Buna karşılık, iki yönlü bir sistem hem hedef metin bölümünün öncesinde hem de ardından gelen metni değerlendirir. Daha fazla bilgi için iki yönlü bağlantıya bakın.

tek yönlü dil modeli

#language

Olasılıklarını yalnızca hedef jetonlardan sonra değil, önce gelen jetonlara dayandıran bir dil modeli. İki yönlü dil modeliyle karşılaştırın.

V

varyasyonel otomatik kodlayıcı (VAE)

#language

Girişlerin değiştirilmiş sürümlerini oluşturmak için girişler ile çıkışlar arasındaki tutarsızlıktan yararlanan bir tür otomatik kodlayıcı. Varyasyonel otomatik kodlayıcılar, üretken yapay zeka için yararlıdır.

VAE'ler, varyasyonal çıkarıma dayanır. Varyasyonal çıkarım, olasılık modelinin parametrelerini tahmin etmeye yönelik bir tekniktir.

W

kelime yerleştirme

#language

Bir kelime grubundaki her kelimeyi yerleştirme vektörü içinde temsil etme; yani her kelimeyi 0,0 ile 1,0 arasında kayan nokta değerlerinin bir vektörü olarak temsil etme. Benzer anlamlara sahip kelimeler, farklı anlamlara sahip kelimelere kıyasla daha benzer temsillere sahiptir. Örneğin, havuç, kereviz ve salatalık gibi ürünlerin temsilleri birbirine oldukça benzerken uçak, güneş gözlüğü ve diş macunu gibi ürünlerin temsilleri birbirinden çok farklıdır.

Z

sıfır görevli istem

#language

#generativeAI

Büyük dil modelinin nasıl yanıt vermesini istediğinize dair bir örnek vermeyen istem. Örneğin:

Bir istemin bölümleri	Notlar
`Belirtilen ülkenin resmi para birimi nedir?`	LLM'nin yanıtlamasını istediğiniz soru.
`Hindistan:`	Gerçek sorgu.

Büyük dil modeli aşağıdakilerden herhangi biriyle yanıt verebilir:

Rupi
INR
₹
Hint rupisi
Rupi
Hint rupisi

Tüm yanıtlar doğrudur ancak belirli bir biçimi tercih edebilirsiniz.

Sıfır atışlı istem ile aşağıdaki terimleri karşılaştırın:

Tek görevli istem
çok görevli istem