Bu kursta, veri kümesi kalitesinden tutun da dahil olmak üzere birçok yaygın veri tuzağına değindik. görselleştirmeye ve istatistiksel analize kadar pek çok aşamadan oluşur.
Makine öğrenimi uygulayıcıları şunları sormalıdır:
- Veri kümelerimin özelliklerini ve verilerini hangi koşullar altında toplanıyordu?
- Verilerimde ne tür kalite veya önyargı sorunları var? Kafa karıştırıcı faktörler var mı?
- Bu özel bilgilerin kullanılması, olası satışa dönük nasıl kullanıyor?
- Tahmin veya sınıflandırma yapan bir modeli eğitirken: modelin eğitildiği veri kümesi ilgili tüm değişkenleri içeriyor mu?
Bulguları ne olursa olsun, makine öğrenimi uzmanları her zaman doğrulama yanlılığı için kendilerini kontrol edebilir, ardından bulgularını bilgi ve sağduyu ile veri çatışması olduğu yerleri araştırmak daha iyi olur.
Ek kaynaklar
Kahire, Alberto. Grafikler Nasıl Yalan: Görsel Bilgiler Hakkında Daha Akıllı Olma. New York: B.B. Norton, 2019.
Hımm, Darrell. İstatistikler nasıl yatar? NY: W.W. Norton, 1954.
Monmonier, Mark. How to Lie with Maps, 3. sürüm Chicago: U of Chicago P, 2018.
Cem, Cem. Veri Tuzaklarından Kaçınma. Hoboken, NJ: Wiley, 2020.
Tekin, Çağrı. Açık İstatistikler: Korkuyu Verilerden Çıkarın. New York: B.B. Norton, 2013