Gözetimli öğrenmenin görevleri iyi tanımlanmıştır ve spam tespiti ya da yağış tahmini gibi birçok senaryoya uygulanabilir.
Temel gözetimli öğrenim kavramları
Gözetimli makine öğrenimi aşağıdaki temel kavramlara dayanır:
- Veriler
- Model
- Eğitim
- Değerlendiriliyor
- Çıkarım
Veriler
Veriler, makine öğreniminin itici gücüdür. Veriler, tablolarda depolanan kelimeler ve sayılar veya resimlerde ve ses dosyalarında yakalanan piksel ve dalga biçimi değerleri şeklinde sunulur. İlgili verileri veri kümelerinde depolarız. Örneğin, aşağıdaki gibi bir veri kümesimiz olabilir:
- kedi görselleri
- Konut fiyatları
- Hava durumu
Veri kümeleri, özellikler ve bir etiket içeren bağımsız örneklerden oluşur. Bir örneği, elektronik tablodaki tek bir satıra benzer şekilde düşünebilirsiniz. Özellikler, gözetimli bir modelin etiketi tahmin etmek için kullandığı değerlerdir. Etiket, "yanıt", yani modelin tahmin etmesini istediğimiz değerdir. Yağış tahminini tahmin eden bir hava durumu modelinde özellikler enlem, boylam, sıcaklık, nem, bulut kapsamı, rüzgar yönü ve atmosfer basıncı olabilir. Bu etiket, yağış miktarı olur.
Hem özellikleri hem de bir etiketi içeren örneklere etiketli örnekler denir.
İki etiketli örnek
Buna karşılık, etiketlenmemiş örnekler özellikler içerir ancak etiket içermez. Bir model oluşturduktan sonra, model, özellikleri kullanarak etiketi tahmin eder.
İki etiketlenmemiş örnek
Veri kümesi özellikleri
Veri kümesi, boyutu ve çeşitliliği ile tanımlanır. Boyut, örneklerin sayısını ifade eder. Çeşitlilik, bu örneklerin kapsadığı aralığı gösterir. İyi veri kümeleri hem büyük hem de son derece çeşitlidir.
Bazı veri kümeleri hem büyük hem de çeşitlidir. Bununla birlikte, bazı veri kümeleri büyük olsa da çeşitliliği düşük, bazıları ise küçük ancak son derece çeşitlidir. Başka bir deyişle, büyük bir veri kümesi yeterli çeşitliliği garanti etmez. Çok çeşitliliğe sahip bir veri kümesi ise yeterli örnek verildiğini garanti etmez.
Örneğin, bir veri kümesi yalnızca Temmuz ayına ait, 100 yıllık veriler içerebilir. Ocak ayındaki yağış miktarını tahmin etmek için bu veri kümesinin kullanılması zayıf tahminlere neden olur. Buna karşılık, veri kümesi yalnızca birkaç yılı kapsayabilir ancak her ayı içerebilir. Bu veri kümesi değişkenliği hesaba katacak kadar yıl içermediğinden kötü tahminler üretebilir.
Öğrendiklerinizi sınayın
Bir veri kümesi, özelliklerinin sayısı ile de belirlenebilir. Örneğin, bazı hava durumu veri kümeleri, uydu görüntülerinden bulut kapsama değerlerine kadar yüzlerce özellik içerebilir. Diğer veri kümeleri ise nem, atmosfer basıncı ve sıcaklık gibi yalnızca üç ya da dört özellik içerebilir. Daha fazla özelliğe sahip veri kümeleri, bir modelin ek kalıpları keşfetmesine ve daha iyi tahminlerde bulunmasına yardımcı olabilir. Bununla birlikte, daha fazla özelliğe sahip veri kümeleri, her zaman daha iyi tahminlerde bulunan modeller üretmez çünkü bazı özelliklerin etiketle herhangi bir nedensel ilişkisi olmayabilir.
Model
Gözetimli öğrenmede model, belirli giriş özelliği kalıplarından belirli çıkış etiketi değerlerine kadar matematiksel ilişkiyi tanımlayan karmaşık sayı koleksiyonudur. Model, bu kalıpları eğitim aracılığıyla keşfeder.
Eğitim
Denetlenen bir modelin tahminde bulunabilmesi için öncelikle eğitilmesi gerekir. Bir modeli eğitmek için modele etiketli örnekler içeren bir veri kümesi veririz. Modelin amacı, özelliklerden gelen etiketleri tahmin etmek için en iyi çözümü bulmaktır. Model, tahmin edilen değerini etiketin gerçek değeriyle karşılaştırarak en iyi çözümü bulur. Model, tahmin edilen ve gerçek değerler (kayıp olarak tanımlanır) arasındaki farka göre, çözümünü kademeli olarak günceller. Diğer bir deyişle, model, özellikler ile etiket arasındaki matematiksel ilişkiyi öğrenerek görülmeyen verilerle ilgili en iyi tahminleri yapabilir.
Örneğin, model 1.15 inches
yağmur tahmininde bulunursa ancak gerçek değer .75 inches
ise model, çözümünü .75 inches
değerine yakın olacak şekilde değiştirir. Model, veri kümesindeki her örneği (bazı durumlarda birden çok kez) inceledikten sonra, örneklerin her biri için ortalama olarak en iyi tahminleri yapan bir çözüme ulaşır.
Aşağıda bir modelin eğitilmesi gösterilmektedir:
Bu model tek bir etiketli örneği alır ve bir tahmin sağlar.
Şekil 1. Etiketli bir örnekten tahminde bulunan ML modeli.
Model, tahmin edilen değerini gerçek değerle karşılaştırır ve çözümünü günceller.
2. Şekil. Tahmin edilen değerini güncelleyen bir ML modeli.
Model, veri kümesindeki her bir etiketli örnek için bu işlemi tekrarlar.
3. Şekil. Eğitim veri kümesindeki her etiketli örnek için tahminlerini güncelleyen bir ML modeli.
Bu şekilde model, özellikler ile etiket arasındaki doğru ilişkiyi kademeli olarak öğrenir. Bu kademeli anlayış, büyük ve çeşitli veri kümelerinin daha iyi bir model üretmesinin de nedenidir. Model, daha geniş bir değer aralığında daha fazla veri görmüş ve özellikler ile etiket arasındaki ilişki konusundaki anlayışını hassaslaştırmıştır.
Makine öğrenimi uzmanları eğitim sırasında modelin tahminde bulunmak için kullandığı yapılandırmalarda ve özelliklerde ince ayarlamalar yapabilir. Örneğin, bazı özellikler diğerlerine kıyasla daha fazla tahmin gücüne sahiptir. Bu nedenle, makine öğrenimi uzmanları modelin eğitim sırasında hangi özellikleri kullanacağını seçebilir. Örneğin, bir hava durumu veri kümesinin özellik olarak time_of_day
içerdiğini varsayalım. Bu durumda, bir makine öğrenimi uygulayıcısı, modelin bu model olmadan mı yoksa daha iyi tahminler yapıp yapmadığını öğrenmek için eğitim sırasında time_of_day
'i ekleyebilir veya kaldırabilir.
Değerlendiriliyor
Eğitilmiş bir modeli ne kadar iyi öğrendiğini belirlemek için değerlendiririz. Bir modeli değerlendirirken etiketli bir veri kümesi kullanırız, ancak modele yalnızca veri kümesinin özelliklerini veririz. Daha sonra modelin tahminlerini etiketin doğru değerleriyle karşılaştırırız.
4. Şekil. Tahminlerini gerçek değerlerle karşılaştırarak bir ML modelini değerlendirme.
Modelin tahminlerine bağlı olarak, modeli gerçek dünyadaki bir uygulamaya dağıtmadan önce daha fazla eğitim ve değerlendirme yapabiliriz.
Öğrendiklerinizi sınayın
Çıkarım
Modeli değerlendirmenin sonuçlarından memnun kaldığımızda, modeli etiketlenmemiş örnekler üzerinde çıkarımlar adı verilen tahminlerde bulunmak için kullanabiliriz. Hava durumu uygulaması örneğinde, modele mevcut hava koşullarını (ör. sıcaklık, atmosfer basıncı ve bağıl nem) sağlayıp yağış miktarını tahmin ederdik.