Gözetimli Öğrenme

Gözetimli öğrenmenin görevleri iyi tanımlanmıştır ve spam tespiti ya da yağış tahmini gibi birçok senaryoya uygulanabilir.

Temel gözetimli öğrenim kavramları

Gözetimli makine öğrenimi aşağıdaki temel kavramlara dayanır:

  • Veriler
  • Model
  • Eğitim
  • Değerlendiriliyor
  • Çıkarım

Veriler

Veriler, makine öğreniminin itici gücüdür. Veriler, tablolarda depolanan kelimeler ve sayılar veya resimlerde ve ses dosyalarında yakalanan piksel ve dalga biçimi değerleri şeklinde sunulur. İlgili verileri veri kümelerinde depolarız. Örneğin, aşağıdaki gibi bir veri kümesimiz olabilir:

  • kedi görselleri
  • Konut fiyatları
  • Hava durumu

Veri kümeleri, özellikler ve bir etiket içeren bağımsız örneklerden oluşur. Bir örneği, elektronik tablodaki tek bir satıra benzer şekilde düşünebilirsiniz. Özellikler, gözetimli bir modelin etiketi tahmin etmek için kullandığı değerlerdir. Etiket, "yanıt", yani modelin tahmin etmesini istediğimiz değerdir. Yağış tahminini tahmin eden bir hava durumu modelinde özellikler enlem, boylam, sıcaklık, nem, bulut kapsamı, rüzgar yönü ve atmosfer basıncı olabilir. Bu etiket, yağış miktarı olur.

Hem özellikleri hem de bir etiketi içeren örneklere etiketli örnekler denir.

İki etiketli örnek

Yer tutucu resmi.

Buna karşılık, etiketlenmemiş örnekler özellikler içerir ancak etiket içermez. Bir model oluşturduktan sonra, model, özellikleri kullanarak etiketi tahmin eder.

İki etiketlenmemiş örnek

Yer tutucu resmi.

Veri kümesi özellikleri

Veri kümesi, boyutu ve çeşitliliği ile tanımlanır. Boyut, örneklerin sayısını ifade eder. Çeşitlilik, bu örneklerin kapsadığı aralığı gösterir. İyi veri kümeleri hem büyük hem de son derece çeşitlidir.

Bazı veri kümeleri hem büyük hem de çeşitlidir. Bununla birlikte, bazı veri kümeleri büyük olsa da çeşitliliği düşük, bazıları ise küçük ancak son derece çeşitlidir. Başka bir deyişle, büyük bir veri kümesi yeterli çeşitliliği garanti etmez. Çok çeşitliliğe sahip bir veri kümesi ise yeterli örnek verildiğini garanti etmez.

Örneğin, bir veri kümesi yalnızca Temmuz ayına ait, 100 yıllık veriler içerebilir. Ocak ayındaki yağış miktarını tahmin etmek için bu veri kümesinin kullanılması zayıf tahminlere neden olur. Buna karşılık, veri kümesi yalnızca birkaç yılı kapsayabilir ancak her ayı içerebilir. Bu veri kümesi değişkenliği hesaba katacak kadar yıl içermediğinden kötü tahminler üretebilir.

Öğrendiklerinizi sınayın

Veri kümesinin hangi özellikleri makine öğrenimi için ideal olur?
Büyük boyut / Yüksek çeşitlilik
Bir makine öğrenimi sisteminin verilerdeki temel kalıpları anlaması için çeşitli kullanım alanlarını kapsayan çok sayıda örnek olması gerekir. Bu tür veri kümeleri üzerinde eğitilen bir modelin yeni veriler hakkında iyi tahminlerde bulunma olasılığı daha yüksektir.
Büyük boyut / Düşük çeşitlilik
Makine öğrenimi modelleri, yalnızca bunları eğitmek için kullanılan örnekler kadar iyidir. Modeller, hiç eğitilmediği yeni verilerle ilgili daha kötü tahminler üretir.
Küçük boyut / Yüksek çeşitlilik
Çoğu model, küçük bir veri kümesinde güvenilir kalıplar bulamaz. Tahminler, daha büyük bir veri kümesinin sağladığı güveni içermeyecektir.
Küçük boyut / Düşük çeşitlilik
Veri kümeniz küçükse ve çok fazla varyasyon yoksa makine öğreniminden yararlanamayabilirsiniz.

Bir veri kümesi, özelliklerinin sayısı ile de belirlenebilir. Örneğin, bazı hava durumu veri kümeleri, uydu görüntülerinden bulut kapsama değerlerine kadar yüzlerce özellik içerebilir. Diğer veri kümeleri ise nem, atmosfer basıncı ve sıcaklık gibi yalnızca üç ya da dört özellik içerebilir. Daha fazla özelliğe sahip veri kümeleri, bir modelin ek kalıpları keşfetmesine ve daha iyi tahminlerde bulunmasına yardımcı olabilir. Bununla birlikte, daha fazla özelliğe sahip veri kümeleri, her zaman daha iyi tahminlerde bulunan modeller üretmez çünkü bazı özelliklerin etiketle herhangi bir nedensel ilişkisi olmayabilir.

Model

Gözetimli öğrenmede model, belirli giriş özelliği kalıplarından belirli çıkış etiketi değerlerine kadar matematiksel ilişkiyi tanımlayan karmaşık sayı koleksiyonudur. Model, bu kalıpları eğitim aracılığıyla keşfeder.

Eğitim

Denetlenen bir modelin tahminde bulunabilmesi için öncelikle eğitilmesi gerekir. Bir modeli eğitmek için modele etiketli örnekler içeren bir veri kümesi veririz. Modelin amacı, özelliklerden gelen etiketleri tahmin etmek için en iyi çözümü bulmaktır. Model, tahmin edilen değerini etiketin gerçek değeriyle karşılaştırarak en iyi çözümü bulur. Model, tahmin edilen ve gerçek değerler (kayıp olarak tanımlanır) arasındaki farka göre, çözümünü kademeli olarak günceller. Diğer bir deyişle, model, özellikler ile etiket arasındaki matematiksel ilişkiyi öğrenerek görülmeyen verilerle ilgili en iyi tahminleri yapabilir.

Örneğin, model 1.15 inches yağmur tahmininde bulunursa ancak gerçek değer .75 inches ise model, çözümünü .75 inches değerine yakın olacak şekilde değiştirir. Model, veri kümesindeki her örneği (bazı durumlarda birden çok kez) inceledikten sonra, örneklerin her biri için ortalama olarak en iyi tahminleri yapan bir çözüme ulaşır.

Aşağıda bir modelin eğitilmesi gösterilmektedir:

  1. Bu model tek bir etiketli örneği alır ve bir tahmin sağlar.

    Tahminde bulunan bir modelin görüntüsü.

    Şekil 1. Etiketli bir örnekten tahminde bulunan ML modeli.

     

  2. Model, tahmin edilen değerini gerçek değerle karşılaştırır ve çözümünü günceller.

    Tahminini gerçek değerle karşılaştıran bir model görüntüsü.

    2. Şekil. Tahmin edilen değerini güncelleyen bir ML modeli.

     

  3. Model, veri kümesindeki her bir etiketli örnek için bu işlemi tekrarlar.

    Gerçek değer yerine tahmin sürecini tekrarlayan bir model görüntüsü.

    3. Şekil. Eğitim veri kümesindeki her etiketli örnek için tahminlerini güncelleyen bir ML modeli.

     

Bu şekilde model, özellikler ile etiket arasındaki doğru ilişkiyi kademeli olarak öğrenir. Bu kademeli anlayış, büyük ve çeşitli veri kümelerinin daha iyi bir model üretmesinin de nedenidir. Model, daha geniş bir değer aralığında daha fazla veri görmüş ve özellikler ile etiket arasındaki ilişki konusundaki anlayışını hassaslaştırmıştır.

Makine öğrenimi uzmanları eğitim sırasında modelin tahminde bulunmak için kullandığı yapılandırmalarda ve özelliklerde ince ayarlamalar yapabilir. Örneğin, bazı özellikler diğerlerine kıyasla daha fazla tahmin gücüne sahiptir. Bu nedenle, makine öğrenimi uzmanları modelin eğitim sırasında hangi özellikleri kullanacağını seçebilir. Örneğin, bir hava durumu veri kümesinin özellik olarak time_of_day içerdiğini varsayalım. Bu durumda, bir makine öğrenimi uygulayıcısı, modelin bu model olmadan mı yoksa daha iyi tahminler yapıp yapmadığını öğrenmek için eğitim sırasında time_of_day'i ekleyebilir veya kaldırabilir.

Değerlendiriliyor

Eğitilmiş bir modeli ne kadar iyi öğrendiğini belirlemek için değerlendiririz. Bir modeli değerlendirirken etiketli bir veri kümesi kullanırız, ancak modele yalnızca veri kümesinin özelliklerini veririz. Daha sonra modelin tahminlerini etiketin doğru değerleriyle karşılaştırırız.

Gerçek değerlerle karşılaştırılan tahminlerinin olduğu eğitilmiş bir modeli gösteren resim.

4. Şekil. Tahminlerini gerçek değerlerle karşılaştırarak bir ML modelini değerlendirme.

 

Modelin tahminlerine bağlı olarak, modeli gerçek dünyadaki bir uygulamaya dağıtmadan önce daha fazla eğitim ve değerlendirme yapabiliriz.

Öğrendiklerinizi sınayın

Bir modelin tahminde bulunabilmesi için neden eğitilmesi gerekir?
Özellikler ile veri kümesindeki etiket arasındaki matematiksel ilişkiyi öğrenmek için bir modelin eğitilmesi gerekir.
Modelin eğitilmesi gerekmez. Modeller çoğu bilgisayarda mevcuttur.
Tahminde bulunmak için veri gerektirmemesi için modelin eğitilmesi gerekir.

Çıkarım

Modeli değerlendirmenin sonuçlarından memnun kaldığımızda, modeli etiketlenmemiş örnekler üzerinde çıkarımlar adı verilen tahminlerde bulunmak için kullanabiliriz. Hava durumu uygulaması örneğinde, modele mevcut hava koşullarını (ör. sıcaklık, atmosfer basıncı ve bağıl nem) sağlayıp yağış miktarını tahmin ederdik.