Verilerinizi Dönüştürme: Öğrendiklerinizi Kontrol Etme

Aşağıdaki sorular için yanıtınızı kontrol etmek üzere istediğiniz oku tıklayın:

Bir regresyon modeli için verileri önceden işliyorsunuz. Hangi dönüşümlerin yapılması zorunludur? Geçerli olan tüm seçenekleri işaretleyin.
Sayısal olmayan tüm özellikleri sayısal özelliklere dönüştürme.
Doğru. Bu zorunlu bir dönüşümdür. Bir dizede matris çarpımı yapamayacağınız için dizeleri bir sayısal gösterime dönüştürmeniz gerekir.
Sayısal verileri normalleştirin.
Sayısal verilerin normalleştirilmesi yardımcı olabilir ancak isteğe bağlı bir kalite dönüşümüdür.

 

Aşağıdaki grafiği inceleyin. Başlangıçta hangi veri dönüşüm tekniğini kullanmak isterdiniz? Hedefinizin oda başına kişi sayısı ile ev fiyatı arasında doğrusal bir ilişki bulmak olduğunu varsayalım.
Z-puanı
aykırı değerler aşırı değilse Z puanı iyi bir seçimdir. Ancak burada aykırı değerler aşırı büyük.
Kırpma
Veri kümesi aşırı aykırı değerler içerdiğinden klip oluşturmak iyi bir seçimdir. Diğer normalleştirmeleri uygulamadan önce aykırı değerleri düzeltmelisiniz.
Ahşap Ölçeklendirme
Verileriniz elektrik yasası dağıtımını onaylarsa günlük ölçeklendirme iyi bir seçimdir. Ancak bu veriler güç yasası dağıtımı yerine normal bir dağılıma uygundur.
Çeyrek sınırlarıyla paketleme (bining)
Kusurlu veri grubu, çarpık veriler için iyi bir yaklaşım olabilir ancak bu durumda sapma, birkaç aşırı aykırı değer nedeniyle gerçekleşir. Ayrıca, modelin doğrusal bir ilişki öğrenmesini istiyorsunuz. Bu nedenle, odalara göre dönüştürmek yerine odalar başına Kişi'yi sayısal tutmalısınız. Paketlemenin işlevi budur. Bunun yerine normalleştirme tekniğini deneyin.

Farklı Odalar başına kişi sayısının göreli sıklığını gösteren, oda başına kişi sayısının odadaki kişi sayısına bölünmesiyle elde edilen grafik.  Verilerin çoğu 0 ile 5 arasında dağıtılır. Bu değerler 5 ile 55 arasındadır.

 

Aşağıdaki grafiği inceleyin. Başlangıçta hangi veri dönüşüm tekniğini kullanmak isterdiniz?
Z-puanı
Aykırı değerler, kırpma özelliğine ihtiyaç duymayacak kadar aşırı değilse Z puanı iyi bir seçimdir. Burada böyle bir durum söz konusu değil. Verilerin eğilmesi açısından bir ipucu vermelisiniz.
Kırpma
Aşırı aykırı değerler olduğunda kırpma işlemi iyi bir seçimdir. Ancak bu grafikte bir güç yasası dağıtımı gösteriliyor ve bunu çözmek için daha iyi bir başka normalleştirme tekniği var.
Ahşap Ölçeklendirme
Veriler güç yasası dağıtımına uygun olduğu için günlük ölçeklendirmesi burada iyi bir tercihtir.
Çeyrek sınırlarıyla paketleme (bining)
Üçlü paketleme, çarpık veriler için iyi bir yaklaşım olabilir. Ancak, doğrusal bir ilişki hakkında bilgi edinmek için modeli arıyorsunuz. Bu nedenle, verilerinizi sayısal tutmalı ve paketlere koymaktan kaçınmalısınız. Bunun yerine normalleştirme tekniğini deneyin.

Alt kenarlarda yoğun şekilde yoğunlaşmış çubuk grafik. İlk çubuğun şiddeti 1.200, ikinci çubuğun ağırlığı 460, üçüncü çubuğun şiddeti 300'dür. 15. çubuktaki büyüklük yaklaşık 30'a düşmüştür. Çok uzun bir kuyruk, kuyruğun büyüklüğü hiçbir zaman 10'dan fazla yükselmeyeceği 90 çubuk için devam eder.

 

Aşağıdaki grafiği inceleyin. Doğrusal model, sıkıştırma oranı ve şehir-mpg arasındaki ilişki hakkında iyi bir tahminde bulunabilir mi? Değilse modeli daha iyi eğitmek için verileri nasıl dönüştürebilirsiniz?
Evet, model muhtemelen doğrusal bir ilişki bulur ve oldukça doğru tahminlerde bulunur.
Bu model doğrusal bir ilişki bulsa da çok doğru tahminlerde bulunmaz. Bunun nedenini daha iyi anlamak için Veri Modelleme alıştırmasında bu veri kümesini eğitmeyi deneyebilirsiniz.
Hayır. Model, muhtemelen ölçeklendikten sonra daha doğru olacaktır.
Doğrusal ölçeklendirme uygulayabilirsiniz, ancak sıkıştırma oranı ve şehir-mpg arasındaki ilişki eğimi aynı görünür. Size daha fazla yardımcı olabilecek iki ayrı eğim vardır. Bunlardan biri daha düşük sıkıştırma oranındaki bir nokta kümesi, diğeri ise daha yüksek olanı temsil eder.
Hayır. Bu iki farklı davranış olarak gerçekleşir. Ortada bir eşik belirlemek ve gruplanmış bir özellik kullanmak, bu iki alanda neler olduğunu daha iyi anlamanıza yardımcı olabilir.
Doğru. Sınırları neden ve nasıl ayarladığınız konusunda net olmanız önemlidir. Veri Modelleme alıştırmasında bu yaklaşımın daha iyi bir model oluşturmanıza tam olarak nasıl yardımcı olabileceği hakkında daha fazla bilgi edinebilirsiniz.

Sıkıştırma oranına karşı otoyol mpg'yi gösteren dağılım grafiği. Veriler, biri diğerinden çok daha büyük olan iki ayrı veri yığını, sıkıştırma oranı ekseninin karşı uçlarında görünür. Daha büyük küme, 7-12
sıkıştırma oranı aralığını kapsar, daha küçük küme
sıkışma oranı aralığını (21-23) kapsar. otoyol mpg'si genellikle büyük yığındaki küçük köprüden biraz daha aşağıda bulunur.

 

Bir benzerler ekibi, makine öğrenimi projelerinde kaydettiği ilerleme hakkında sizi bilgilendiriyor. Bir sözlük hesaplayıp bir modeli çevrimdışı eğittiler. Ancak eskimiş sorunlarla karşılaşmamak için şimdi farklı bir modeli online eğitmek üzereler. Bundan sonra ne olabilir?
Yeni veriler geldikçe model güncel kalır. Diğer ekibin giriş verilerini sürekli olarak izlemesi gerekir.
Dinamik eğitimin ana avantajı modelin eskimesinden kaçınmak olsa da, modelin çevrimdışı olarak eğitildiği bir sözlüğün kullanılması sorunlara yol açar.
Kullandıkları dizinlerin baş harfe karşılık gelmediğini görebilirler.
Doğru. İş arkadaşlarınızı eğitim/sunulan sapmanın riskleri konusunda uyarın ve ardından daha fazla bilgi edinmek için Google'ın makine öğrenimi için Veri Hazırlama ve Özellik Mühendisliği kursuna katılmalarını önerin.