Veri kümeleri: Veri özellikleri

Veri kümesi, örnekler.

Birçok veri kümesi, verileri tablolarda (ızgaralar) depolar. Örneğin, virgülle ayrılmış değerler (CSV) veya doğrudan e-tablolardan ya da oluşturmaktır. Tablolar, makine kullanımı için sezgisel bir giriş biçimidir modelleri öğretilir. Tablonun her satırını bir örnek ve her sütunu potansiyel bir özellik veya etiket olarak işaretleyebilirsiniz. Bununla birlikte veri kümeleri, aşağıdakiler gibi başka biçimlerden de elde edilebilir: günlük dosyaları ve protokol arabellekleri bulunur.

Biçimden bağımsız olarak, makine öğrenimi modeliniz bu verileri kullanabilirsiniz. Bu bölümde temel veri özellikleri incelenmektedir.

Veri türleri

Bir veri kümesi, şunlar da dahil olmak üzere pek çok türde veri türü içerebilir: bunlarla sınırlı değildir:

Önceki veri türleri daha fazla alt bölüme ayrılabilir. Bu kursun sonraki modülleri; örneğin, Kategorik Veri modülü - ayrıntı alt kategorilere ayırmanızı sağlar.

Veri miktarı

Genel bir kural olarak, modeliniz en azından bir dizi kurala göre eğitilmelidir. eğitilebilir parametrelerden büyüklük (veya iki) daha fazla örnek verilebilir. Ancak, modeller genellikle bundan önemli ölçüde daha fazla örnekle eğitilir.

Modeller, az sayıda örnek içeren büyük veri kümeleriyle özellikleri küçük veri kümelerinde eğitilen modellerden daha iyi performans gösterir. birçok özellik bulunuyor. Google, Google Ads'de basit modelleri eğiterek veri kümeleri oluşturabilirsiniz.

Farklı makine öğrenimi programları için farklı veri kümeleri için örnek olarak kullanabilirsiniz. Bazı nispeten birkaç düzine örnek yeterli olabilir. Diğer sorunlar için bir trilyon örnek yeterli olmayabilir.

Uyarlama yapıyorsanız küçük bir veri kümesinden iyi sonuçlar elde edebilirsiniz Eğitilmiş mevcut bir model, API'den alınan yüksek miktarda veriyle görebilirsiniz.

Verilerin kalitesi ve güvenilirliği

Herkes yüksek kaliteyi düşük kaliteye tercih eder ama kalite çok belirsiz pek çok farklı şekilde tanımlanabileceğini fark etti. Bu kursta proje yönetimi kaliteyi pratik bir şekilde ele alacağız:

Yüksek kaliteli bir veri kümesi, modelinizin hedefine ulaşmasına yardımcı olur. Düşük kaliteli veri kümesi, modelinizin hedefine ulaşmasını engeller.

Yüksek kaliteli bir veri kümesi de genellikle güvenilirdir. Güvenilirlik, verilerinize ne ölçüde güvenebileceğini ifade eder. Güvenilir bir veri kümesi üzerinde eğitilen bir modelin yararlı sağlama olasılığı daha yüksektir güvenilir olmayan verilerle eğitilmiş bir modele göre daha fazla tahminde bulunur.

Güvenilirliği ölçerken şunları belirlemeniz gerekir:

  • Etiket hataları ne kadar yaygındır? Örneğin, verileriniz gerçek kişiler tarafından etiketlenen gerçek kişi olan değerlendirmecileriniz ne sıklıkla hata yaptı?
  • Özellikleriniz gürültülü mü? Yani özelliklerinizdeki değerleri hata içeriyor mu? Gerçekçi olun: Veri kümenizi tamamen silemezsiniz en iyisidir. Gürültü olması normaldir. örneğin GPS ölçümlerine göre konum her zaman küçük farklılıklar gösterebilir.
  • Veriler, sorununuz için düzgün şekilde filtrelendi mi? Örneğin, Veri kümeniz botlardan gelen arama sorgularını içermeli mi? Eğer bir spam algılama sistemi geliştiriyorsanız, büyük olasılıkla yanıt evet olacaktır. Ancak, insanlar için arama sonuçlarını iyileştirmeye çalışıyorsanız bunu yapamazsınız.

Veri kümelerindeki verilerin güvenilir olmamasının yaygın nedenleri şunlardır:

  • Dahil edilmeyen değerler. Örneğin, bir kullanıcı Evin yaşı.
  • Yinelenen örnekler. Örneğin, bir sunucu yanlışlıkla aynı iki kez günlük kaydı oluşturur.
  • Özellik değerleri hatalı. Örneğin, kullanıcı fazladan bir rakam yazdıysa veya termometre güneşte görünmüyordu.
  • Etiketler hatalı. Örneğin, bir kişi yanlışlıkla bir ürünün resmini meşe ağacı olarak görür.
  • Verilerin hatalı bölümleri. Örneğin, belirli bir özellik çok güvenilir, Ancak ağın sürekli çöktüğü bir gün hariç.

Güvenilir olmayan verileri işaretlemek için otomasyon kullanmanızı öneririz. Örneğin, harici bir resmi veri şemasını tanımlayan veya ona dayanan birim testleri belirli bir aralığın dışında kalan işaret değerleri olabilir.

Tam ve eksik örnekler

Kusursuz bir dünyada her örnek eksiktir; Yani her örnek, bir değer girmeniz gerekiyor.

Şekil 1. Bu beş değerin de değerlerini içeren bir örnek
       özellikleri.
Şekil 1. Tam bir örnek.

 

Maalesef gerçek hayattan örnekler genellikle eksiktir. Yani, en az bir özellik değeri eksik.

Şekil 2. Beşten dördünün değerlerini içeren bir örnek
            özellikleri. Bir özellik eksik olarak işaretlenmiş.
Şekil 2. Eksik bir örnek.

 

Bir modeli eksik örnekler üzerine eğitmeyin. Bunun yerine eksik örnekler için aşağıdakilerden birini yapabilirsiniz:

  • Eksik örnekleri silin.
  • Eksik değerleri Impute; yani eksik bir örneği eksiksiz bir örneğe dönüştürmek için mantıklı tahminlerde bulunmanıza yardımcı olabilir.
Şekil 3. İkisi birer örnek olmak üzere üç örnek içeren
            eksik örnekler. Biri bu iki kişiyi yaraladı.
            örnekler.
Şekil 3. Veri kümesinden eksik örnekleri silme.

 

Şekil 4. İkisi birer örnek olmak üzere üç örnek içeren
            eksik veriler içeren eksik örnekler. Herhangi bir varlık (insan
            veya tahmin yazılımı),
            eksik veriler.
Şekil 4. Eksik örnekler için eksik değerleri belirtme.

 

Veri kümesinde yararlı bir model eğitmek için yeterli sayıda eksiksiz örnek varsa eksik örnekleri silebilirsiniz. Benzer bir şekilde, yalnızca bir özelliğin önemli miktarda verisi eksikse ve özellik modele pek yardımcı olmuyorsa ve bu özelliğin model girişlerinden ne kadar kalite kaybı olduğunu kaldırma. Model, arka planda ya da onlar olmadan da hemen hemen düzgün çalışıyorsa harika bir şey. Öte yandan faydalı bir model eğitmek için yeterli sayıda eksiksiz örneğiniz yoksa eksik değerleri hesaplamayı düşünebilirsiniz.

Gereksiz veya gereksiz örnekleri silebilirsiniz ancak bunların silinmesinde sakınca yoktur örnekler vereceğim. Ne yazık ki bir ürünü veya hizmeti örnekler arasında gösterilebilir. Hangi seçeneğin sizin için uygun olduğuna iki veri kümesi oluşturabilirsiniz: biri silerek oluşturulan eksik örnekleri olarak hesaplayabilirsiniz. Ardından hangi veri kümesinin daha iyi modeli eğittiğini belirleyin.


Yaygın bir algoritma, tahmini değer olarak ortalama veya medyanı kullanmaktır. Sonuç olarak, Z puanları, ardından tahmini değer genellikle 0'dır (çünkü 0 genellikle ortalama Z puanını gösterir).

Alıştırma: Öğrendiklerinizi sınayın

Burada, bir veri kümesinin Timestamp sütununa göre sıralanmış iki sütunu verilmiştir.

Zaman damgası Sıcaklık
8 Haziran 2023 09:00 12
8 Haziran 2023 10:00 18
8 Haziran 2023 11:00 eksik
8 Haziran 2023 12:00 24
8 Haziran 2023 13:00 38

Aşağıdakilerden hangisi tahmin için makul bir değerdir Sıcaklık nedir?

23
Muhtemelen. 23, bitişik değerlerin ortalamasıdır (12, 18, 24 ve 38). Ancak veri kümesinin geri kalanını göremediğimiz için diğer günlerde 11:00 için aykırıdır.
31
Düşük ihtimal. Veri kümesinin görebildiğimiz sınırlı kısmı, 31, 11:00 Sıcaklık için çok yüksek bir değerdir. Ancak, bu hesaplamayı daha fazla sayıda veriye dayandırmadan örnekler.
51
Çok düşük bir ihtimal. 51, görüntülenen değerlerden çok daha yüksektir (ve bu nedenle ortalamadan çok daha yüksektir).
.