Bu kursta, veri kümesi kalitesinden düşünmeye, görselleştirmeye ve istatistiksel analize kadar birçok yaygın veri tuzağı ele alındı.
ML uzmanları şu soruları sormalıdır:
- Veri kümelerimin özelliklerini ve bu verilerin hangi koşullarda toplandığını ne kadar iyi anlıyorum?
- Verilerimde hangi kalite veya önyargı sorunları var? Kafası karıştıran faktörler var mı?
- Bu veri kümelerini kullanmaktan kaynaklanabilecek olası sonraki sorunlar nelerdir?
- Tahmin veya sınıflandırma yapan bir model eğitirken: Modelin eğitildiği veri kümesi, ilgili tüm değişkenleri içeriyor mu?
Makine öğrenimi uygulayıcıları, bulguları ne olursa olsun her zaman doğrulama önyargısı açısından kendilerini incelemeli, ardından bulgularını sezgileri ve sağduyularıyla karşılaştırıp verilerin bunlarla çeliştiği her noktayı araştırmalıdır.
Ek kaynaklar
Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. (Grafikler Nasıl Yalan Söyler: Görsel Bilgiler Hakkında Daha Bilinçli Olma) NY: W.W. Norton, 2019.
Huff, Darrell. İstatistiklerle Nasıl Yalan Söylenir? NY: W.W. Norton, 1954.
Monmonier, Mark. How to Lie with Maps, 3rd ed. Chicago: U of Chicago P, 2018.
Jones, Ben. Verilerle İlgili Tuzaklardan Kaçınma Hoboken, NJ: Wiley, 2020.
Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. (Çıplak İstatistikler: Verilerden Korkuyu Kaldırma) NY: W.W. Norton, 2013