Yazar: Patrick Riley
Özel teşekkürler: Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook ve Barry Rosenberg.
İzledikleriniz
- Son Önemli Güncelleme: Haziran 2019
- Bu materyalin bir kısmının daha önceki bir sürümü Resmi Olmayan Google Veri Bilimi Blogu'nda yayınlandı: Ekim 2016
Genel bakış
Bir veri yığınından doğru ve içgörü elde etmek, hem güçlü hem de hataya açık bir iştir. En iyi veri analistleri ve veri odaklı mühendisler, verilerden güvenilir iddialarda bulunmalarıyla ün kazanmaktadır. Peki, inandırıcılık kazandıran neleri var? Sık sık dikkatli ve metodolojik gibi sıfatlar duyuyorum ama en dikkatli ve metodik analistler aslında ne yapar?
Özellikle Google'da düzenli olarak topladığımız veri türü göz önüne alındığında, bu önemsiz bir soru değildir. Normalde çok büyük veri kümeleriyle çalışıyoruz ama bu veri kümeleri de son derece zengin. Yani, her veri satırında genellikle birçok özellik vardır. Bunu belirli bir kullanıcı için etkinliklerin geçici sıralarıyla birleştirdiğinizde, verilere bakmanın çok sayıda yolu vardır. Bunu, araştırmacının her bir veri noktasına bakmasının önemsiz olduğu sıradan bir akademik psikoloji deneyiyle karşılaştırın. Büyük, yüksek boyutlu veri kümelerimizin ortaya koyduğu sorunlar, bilimsel çalışma tarihinin büyük kısmında karşılaşılan sorunlardan çok farklıdır.
Bu belgede, dikkatli ve metodik analistlerin büyük ve yüksek boyutlu veri kümelerinde kullandığı fikir ve teknikler özetlenmektedir. Bu belge, günlüklerden ve deneysel analizden elde edilen verilere odaklansa da bu tekniklerin çoğu daha yaygın şekilde uygulanabilir.
Belgenin geri kalanında, veri analizinin farklı yönlerini ele alan üç bölüm bulunmaktadır:
- Teknik: Verilerinizi işleme ve incelemeyle ilgili fikirler ve teknikler.
- Süreç: Verilerinize yaklaşımınız, sorulacak sorular ve kontrol edilmesi gerekenler hakkında öneriler.
- Düşünce yapısı: Başkalarıyla birlikte çalışma ve analizleri paylaşma.
Teknik
Verilerinizi incelemek için kullanabileceğiniz bazı tekniklere göz atalım.
Dağılımlarınızı inceleyin
Çoğu uygulayıcı, dağılımlar hakkında bilgi vermek için özet metrikleri (ör. ortalama, medyan, standart sapma vb.) kullanır. Ancak, genellikle histogramlar, kümülatif dağılım fonksiyonları (CDF), Quantile-Quantile (Q-Q) grafikleri vb. oluşturarak çok daha zengin dağılım temsillerini incelemeniz gerekir. Bu daha zengin gösterimler, verilerin çok modlu davranış veya önemli bir aykırı değer sınıfı gibi önemli özelliklerini tespit etmenizi sağlar.
Dikkat çeken içerikleri düşünün
Aykırı değerleri dikkatli bir şekilde inceleyin çünkü kömür madenindeki kanaryalar olabilirler. Bu, analizinizde daha temel sorunlara işaret eder. Aykırı değerleri verilerinizden hariç tutabilir veya "olağan dışı" bir kategoride toplayabilirsiniz ancak verilerin neden bu kategoriye dahil edildiğini bildiğinizden emin olmanız gerekir.
Örneğin, en düşük tıklama sayısına sahip sorgulara bakmak, sayamadığınız öğelerin tıklamalarını ortaya çıkarabilir. En fazla tıklama sayısına sahip sorgulara bakmak, saymamanız gereken tıklamaları ortaya çıkarabilir. Diğer yandan, hiçbir zaman açıklayamayacağınız bazı aykırı değerler olabilir. Bu nedenle, bu göreve ne kadar zaman ayırdığınıza dikkat etmeniz gerekir.
Gürültüyü dikkate alma
Rastgelelik var ve bizi kandıracak. Kimileri "Google o kadar fazla veri içeriyor ki bu gürültü kesiliyor" der. Bu doğru değil. Ürettiğiniz her veri sayısı veya özeti, bu tahmine olan güveninizi yansıtmalıdır (güven aralıkları ve p-values gibi ölçümlerle).
Örneklere bakın
Her yeni analiz kodu oluşturduğunuzda, temel verilerden örneklere ve kodunuzun bu örnekleri nasıl yorumladığını incelemeniz gerekir. Herhangi bir karmaşıklıkta, çalışan bir kod üretmek bu adımı gerçekleştirmeden neredeyse imkansızdır. Analiziniz, faydalı özetler oluşturmak için temel verilerden birçok ayrıntıyı soyutlar. Ayrı ayrı örneklerin tüm karmaşıklığına bakarak, özetlemenizin makul olduğundan emin olabilirsiniz.
Bu örnekleri nasıl kullandığınız önemlidir:
- Temel verileri sınıflandırıyorsanız her sınıfa ait örneklere bakın.
- Daha büyük bir sınıfsa daha fazla örneğe göz atın.
- Bir sayı hesaplıyorsanız (örneğin, sayfa yüklenme süresi) ekstrem örneklere (belki en hızlı ve en yavaş% 5'lik olabilir; dağılımınızın nasıl olduğunu biliyorsunuz, değil mi?) ve ölçümler arasındaki noktalara baktığınızdan emin olun.
Verilerinizi ayırın
Dilimleme, verilerinizi alt gruplara ayırmak ve her bir alt grubun metrik değerlerine ayrı ayrı bakmak anlamına gelir. Genellikle tarayıcı, yerel ayar, alan, cihaz türü gibi boyutları dilimlere ayırırız. Temel olgunun alt gruplar arasında farklı şekilde çalışması muhtemelse durumun böyle olup olmadığını doğrulamak için verileri dilimlere ayırmanız gerekir. Dilimlemenin farklı sonuçlar üretmesini beklemeseniz bile, iç tutarlılık için birkaç dilime bakmak doğru şeyi ölçtüğünüz konusunda size daha fazla güven verir. Bazı durumlarda, belirli bir dilim hatalı veriler, bozuk bir kullanıcı etkileşimi içerebilir veya bir şekilde temelden farklı olabilir.
İki grubu karşılaştırmak için verileri her kesitinizde (örneğin, deneme ile kontrol grubu veya "A zamanı" ile "B zamanı" gibi) her zaman karma kaymaların farkında olmanız gerekir. Karma kayma, her bir grup için dilimlerdeki veri miktarının farklı olduğu zamandır. Simpson’ın paradoksu ve başka karışıklıklar ortaya çıkabilir. Genel olarak, bir dilimdeki verilerin göreli miktarı iki grubunuz arasında aynıysa güvenli bir şekilde karşılaştırma yapabilirsiniz.
Pratik önemi düşünün
Büyük hacimli veriler söz konusu olduğunda, yalnızca istatistiksel açıdan anlamlı veya her bir veri bitinin ayrıntılarına odaklanmak cazip gelebilir. Ancak kendinize şu soruyu sormanız gerekir: "X değerinin Y değerinden% 0,1 daha fazla olduğu doğru olsa bile, önemli mi?" Bu, özellikle verilerinizin bir kısmını anlayamıyorsanız/kategoriye ayıramıyorsanız önemli olabilir. Günlüklerinizde bazı kullanıcı aracısı dizelerini anlamlandıramıyorsanız, verilerin% 0,1'ini veya% 10'unu temsil ediyor olması, bu durumları ne kadar incelemeniz gerektiği konusunda büyük bir fark yaratır.
Alternatif olarak, bazen az miktarda veriniz olabilir. Birçok değişiklik istatistiksel olarak anlamlı görünmese de bu, bu değişikliklerin "nötr" olduğunu iddia etmekten farklıdır. Kendinize, "Pratik açıdan anlamlı bir değişiklik olma olasılığı ne kadardır?" diye sormalısınız.
Zaman içinde tutarlılığı kontrol etme
Verileri zaman birimlerine göre ayırmayı hemen hemen her zaman denemelisiniz. Sistemlerimiz zaman içinde geliştikçe, temel verilerde birçok sorun yaşanır. (Genellikle gün sayısını kullanırız ancak diğer zaman birimleri de yararlı olabilir.) Uzmanlar, bir özelliğin ya da yeni veri toplamanın ilk lansmanı sırasında her şeyin beklendiği gibi çalışıp çalışmadığını genellikle dikkatli bir şekilde kontrol eder. Ancak zaman içinde birçok kesinti veya beklenmedik davranışlar ortaya çıkabilir.
Belirli bir günün veya gün grubunun aykırı olması, ilgili verileri silmeniz gerektiği anlamına gelmez. Silmeden önce söz konusu günün veya günlerin niçin farklı olduğuna dair nedensel bir neden belirlemek için verileri kanca olarak kullanın.
Günlük verilere bakmak, verilerde nihayetinde güven aralıklarına veya istatistiksel önem arz eden iddialara yol açabilecek değişimler hakkında da fikir edinmenizi sağlar. Bu, genellikle katı güven-aralığı hesaplamasının yerine geçmez, ancak çoğu zaman, yalnızca günden güne grafiklere bakıldığında, büyük değişiklikler söz konusu olduğunda bu değişikliklerin istatistiksel olarak anlamlı olduğunu görebilirsiniz.
Filtrelerinizi onaylama ve sayma
Neredeyse her büyük veri analizi, verilerin çeşitli aşamalarda filtrelenmesiyle başlar. Yalnızca ABD'deki kullanıcıları, web aramalarını veya reklam içeren aramaları hesaba katmak isteyebilirsiniz. Durum ne olursa olsun:
- Hangi filtreleme yaptığınızı açıkça belirtin ve belirtin.
- Her adımda filtrelenen veri miktarını sayın.
Çoğunlukla ikincisini yapmanın en iyi yolu, hariç tuttuğunuz nüfus dahil olmak üzere tüm metriklerinizi hesaplamaktır. Ardından, bu verilere bakarak "Spam filtresi, sorguların hangi kısmını kaldırmıştır?" (Filtreleme yapma nedeninize bağlı olarak bu tür bir analiz her zaman mümkün olmayabilir.)
Oranların pay ve paydaları net olmalıdır
En ilginç metrikler, temel ölçümlerin oranlarıdır. İlgi çekici filtreleme veya diğer veri seçimleri çoğu zaman pay ve paydaların kesin tanımlarında gizlidir. Örneğin, "Sorgular / Kullanıcı" tam olarak hangisi anlamına gelir?
- Sorgular / Sorgu Oluşturan Kullanıcı Sayısı
- Sorgu sayısı / bugün Google'ı ziyaret eden kullanıcı sayısı
- Sorgular / Etkin bir hesabı olan kullanıcılar (evet, etkin seçeneğini belirtmem gerekir)
Burada gerçekten net olmak hem sizin hem de başkalarının karışıklığını önleyebilir.
Bir diğer özel durum ise verilerinizin yalnızca bir kısmı üzerinde hesaplanabilen metriklerdir. Örneğin "Tıklama Süresi" genellikle "Bir tıklama olduğu için Tıklama Süresi" anlamına gelir. Bunun gibi bir metriğe her baktığınızda, filtrelemeyi onaylamanız ve karşılaştırmakta olduğunuz gruplar arasında filtreleme değişikliği olup olmadığına bakmanız gerekir.
İşleme
Bu bölümde, verilerinize nasıl yaklaşacağınıza, verilerinizle ilgili sorulacak sorulara ve kontrol edileceklere dair öneriler yer alır.
Doğrulama, açıklama ve değerlendirme bölümlerini ayırın
Veri analizini birbiriyle bağlantılı üç aşama olarak düşünüyorum:
- Doğrulama1: Verilerin kendi içinde tutarlı olduğuna, doğru şekilde toplandığına ve düşündüğüm şeyi temsil ettiğine mi inanıyorum?
- Açıklama: Bu verilerin nesnel yorumlanması nedir? Örneğin, "Kullanıcılar X olarak sınıflandırılmış daha az sorgu yapar", "Deneme grubunda X ile Y arasındaki süre% 1 daha fazladır" ve "Daha az kullanıcı sonuç sayfasına gider".
- Değerlendirme: Açıklamaya göre veriler bize kullanıcı, Google veya dünya için iyi bir şey olduğunu gösteriyor mu?
Bu aşamaları birbirinden ayırarak diğer kullanıcılarla daha kolay bir şekilde anlaşmaya varabilirsiniz. Açıklama, veriler için herkesin hemfikir olabileceği bir bilgi olmalıdır. Değerlendirme, çok daha fazla tartışmaya yol açabilir. Açıklama ve Değerlendirmeyi ayırmazsanız yalnızca görmek umduğunuz verilerin yorumlanmasını görme olasılığınız çok daha yüksek olur. Ayrıca Değerlendirme, genellikle diğer özellik ve metriklerle titiz karşılaştırmalar gerçekleştirerek bir metriğin normatif değerini belirlemek için büyük yatırım gerektirir.
Bu aşamalar doğrusal olarak ilerlemez. Verileri keşfederken aşamalar arasında ileri geri hareket edebilirsiniz ancak istediğiniz zaman hangi aşamada olduğunuzu net bir şekilde bilmelisiniz.
Deneme ve veri toplama ayarlarını onaylayın
Herhangi bir veriye bakmadan önce, verilerin hangi bağlamda toplandığını anladığınızdan emin olun. Veriler bir denemeden geliyorsa denemenin yapılandırmasına bakın. Sorun yeni müşteri araçlarından geliyorsa verilerin nasıl toplandığını en azından kabaca anladığınızdan emin olun. Olağan dışı/kötü yapılandırmalar veya nüfus kısıtlamaları (yalnızca Chrome için geçerli veriler gibi) fark edebilirsiniz. Burada dikkate değer bir husus, teorileri daha sonra oluşturup doğrulamanıza yardımcı olabilir. Göz önünde bulundurulması gereken bazı noktalar:
- Deneme çalışıyorsa kendiniz deneyin. Bunu başaramazsanız en azından davranışların ekran görüntülerine/açıklamalarına bakın.
- Denemenin çalıştırıldığı zaman aralığında olağan dışı bir durum (tatiller, büyük lansmanlar vb.) olup olmadığını kontrol edin.
- Hangi kullanıcı popülasyonlarının denemeye tabi tutulduğunu belirlemek.
Nelerin değişmemesi gerektiğini kontrol edin
"Doğrulama" aşamasının bir parçası olarak, ilgilendiğiniz soruyu (örneğin, "Bir yüz resmi eklemek tıklamaları artırıyor mu yoksa azaltıyor mu?") gerçek anlamda yanıtlamadan önce verilerde denemeyi etkileyebilecek diğer değişkenliği göz ardı ediyor. Örneğin:
- Kullanıcı sayısı değişti mi?
- Tüm alt gruplarımda etkilenen sorgu sayısı doğru görünüyor mu?
- Hata oranları değişti mi?
Bu sorular hem deneme/kontrol karşılaştırmaları için hem de zaman içindeki eğilimleri incelerken mantıklıdır.
Önce standart, ikincisi özel
Yeni özellikleri ve verileri incelerken, özellikle bu yeni özellik için yeni veya özel metriklere girmek çok cazip gelebilir. Ancak değişmesini bekliyor olsanız bile her zaman önce standart metriklere bakmanız gerekir. Örneğin, sayfaya yeni bir evrensel blok eklerken, bu yeni sonuçla ilgili özel metrikleri incelemeden önce, bu işlemin "web sonuçlarındaki tıklamalar" gibi standart metrikler üzerindeki etkisini anladığınızdan emin olun.
Standart metrikler çok daha iyi doğrulanır ve özel metriklerden çok daha doğru olabilir. Özel metrikleriniz standart metriklerinizle bir anlam ifade etmiyorsa özel metrikleriniz büyük olasılıkla yanlıştır.
İki veya daha fazla ölçüm yapın
Özellikle yeni bir olguyu yakalamaya çalışıyorsanız aynı temel şeyi birden çok şekilde ölçmeye çalışın. Ardından, birden çok ölçümün tutarlı olup olmadığını belirleyin. Birden fazla ölçüm kullanarak ölçüm veya günlük kaydı kodundaki hataları, temel verilerin beklenmedik özelliklerini ya da önemli filtreleme adımlarını tespit edebilirsiniz. Ölçümler için farklı veri kaynakları kullanabiliyorsanız bu daha da iyi olacaktır.
Çoğaltılabilirliği kontrol etme
Hem dilimleme hem de zaman içinde tutarlılık, yeniden oluşturulabilirliği kontrol etmenin özel örnekleridir. Bir fenomen önemli ve anlamlıysa farklı kullanıcı popülasyonları ve zamanları arasında görmeniz gerekir. Ancak, yeniden oluşturulabilirliğin doğrulanması, bu iki kontrolün gerçekleştirilmesinden daha fazlası anlamına gelir. Verilerin modellerini oluşturuyorsanız bu modellerin, temel verilerdeki küçük bozulmalar karşısında kararlı olmasını istersiniz. Farklı zaman aralıkları veya verilerinizin rastgele alt örneklerini kullanmanız, bu modelin ne kadar güvenilir/yeniden oluşturulabilir olduğunu da gösterir.
Bir model tekrarlanabilir değilse muhtemelen verileri oluşturan temel işlemle ilgili temel bir bilgi yakalamıyorsunuzdur.
Geçmiş ölçümlerle tutarlılığı kontrol edin
Çoğu zaman, geçmişte sayılanlara benzer bir metrik hesaplarsınız. Bu ölçümler farklı kullanıcı popülasyonlarında olsa bile metriklerinizi geçmişte raporlanan metriklerle karşılaştırmanız gerekir.
Örneğin, özel bir popülasyondaki sorgu trafiğine bakıyorsanız ve ortalama sayfa yüklenme süresinin 5 saniye olduğunu ancak tüm kullanıcıların geçmiş analizlerinde ortalama 2 saniyelik sayfa yükleme süresi verildiğini ölçerseniz araştırma yapmanız gerekir. Rakamlar bu nüfus için doğru olabilir, ancak şimdi bunu doğrulamak için daha fazla çalışma yapmanız gerekiyor.
Net bir anlaşmaya varmanız gerekmez, ancak aynı sahada olmalısınız. Doğru değilse kendinizi tam olarak ikna edene kadar yanlı olduğunuzu varsayın. En şaşırtıcı veriler, kusursuz bir yeni bilgiler değil, bir hata olarak ortaya çıkacaktır.
Yeni metrikler öncelikle eski verilere/özelliklere uygulanmalıdır
Yeni metrikler oluşturur (muhtemelen yeni bir veri kaynağı toplayarak) ve yeni bir şeyler öğrenmeye çalışırsanız yeni metriğinizin doğru olup olmadığını bilemezsiniz. Yeni metriklerle birlikte, bunları önce bilinen bir özelliğe veya verilere uygulamanız gerekir. Örneğin, kullanıcı memnuniyetiyle ilgili yeni bir metriğiniz varsa kullanıcı memnuniyetine yardımcı olacak en iyi özelliklerinizden emin olmalısınız. Kullanıcıların dikkatlerini sayfaya yönlendirdikleri yerleri gösteren yeni bir metriğiniz varsa, bu metriğin, resimlerin sayfaya verilen ilgiyi nasıl etkilediğiyle ilgili göz izleme veya değerlendirici çalışmalarından edindiğimiz bilgilerle eşleştiğinden emin olun. Böylece, yeni bir şey öğrenmeye çalıştığınızda doğrulama yapabilirsiniz.
Hipotezler geliştirme ve kanıt arama
Genellikle karmaşık bir problem için veri analizi tekrarlı bir işlemdir.2 Verilerin anormalliklerini, eğilimlerini veya diğer özelliklerini keşfedersiniz. Doğal olarak bu verileri açıklayacak teoriler geliştireceksiniz. Bir teori geliştirip doğru olduğunu iddia etmekle yetinmeyin. Bu teoriyi doğrulamak/reddetmek için kanıtlar arayın (verilerin içinde veya dışında). Örneğin:
- Öğrenme trendi gibi görünen bir şey görürseniz bunun en sık görülen kullanıcılar arasında en güçlü şekilde kendini gösterip göstermediğine bakın.
- Bir anormalliğin, bazı özelliklerin kullanıma sunulmasından kaynaklandığını düşünüyorsanız özelliğin kullanıma sunulduğu popülasyonun anormallikten etkilenen tek kullanıcı olduğundan emin olun. Alternatif olarak, değişikliğin büyüklüğünün lansmanın beklentileriyle tutarlı olduğundan emin olun.
- Bir yerel ayarda kullanıcı artış oranlarının değiştiğini görürseniz bu kullanıcı nüfusu değişim oranını doğrulayan harici bir kaynak bulmaya çalışın.
İyi veri analizinin anlatacak bir hikayesi vardır. Hikayenin doğru olduğundan emin olmak için kendinize anlatmanız, ardından öykünün yanlış olduğuna dair kanıt aramanız gerekir. Bunu yapmanın bir yolu kendinize şu soruyu sormaktır: “Anlattığım hikayeyi doğrulayacak/geçersiz kılacak hangi deneyleri çalıştırırım?” Bu denemeleri yapmayacak/yapamayacak olsanız bile, size mevcut verileri kullanarak nasıl doğrulama yapacağınıza dair fikirler verebilir.
Neyse ki bu teoriler ve olası deneyler, belirli bir özellik veya veri hakkında bilgi edinmeye çalışmanın ötesine geçen yeni araştırma alanları yaratabilir. Daha sonra sadece bu verileri değil, gelecekteki her türlü analiz için yeni metrikler ve teknikler türetmenin yanı sıra anlama alanına da giriyorsunuz.
Keşfi analizin uçtan uca iterasyondan yararlanması
Keşif analizi yaparken mümkün olduğunca çok sayıda yineleme gerçekleştirin. Genellikle sinyal toplama, işleme, modelleme gibi birden fazla adımınız vardır. İlk sinyallerinizin ilk aşamasını mükemmel hale getirmek için çok uzun zaman harcarsanız aynı sürede daha fazla yineleme yapma fırsatını kaçırırsınız. Dahası, sonunda sonunda verilerinize baktığınızda yönünüzü değiştiren keşifler yapabilirsiniz. Bu nedenle, ilk odak noktanız mükemmellik değil, baştan sona makul bir şey elde etmek olmalıdır. Kendiniz için notlar bırakın ve filtreleme adımları ve ayrıştırılamayan ya da alışılmadık istekler gibi noktaları kabul edin. Ancak keşif analizinin başında bunların hepsini iptal etmeye çalışarak zaman kaybetmeyin.
Geri bildirimlere dikkat edin
Genellikle kullanıcı başarısıyla ilgili çeşitli metrikler tanımlarız. Örneğin, kullanıcılar bir sonucu tıkladı mı? Daha sonra bu verileri sisteme geri aktarırsanız (aslında birçok yerde yaptığımız) değerlendirmede kafa karışıklığı yaratabilecek pek çok fırsat yaratmış olursunuz.
Sisteminize geri gönderilen metriği, değişikliğinizi değerlendirmek için temel olarak kullanamazsınız. Daha fazla tıklama alan daha fazla reklam gösterirseniz, "daha fazla tıklama" genellikle "daha mutlu" anlamına gelse de, "daha fazla tıklama"yı kullanıcıların daha mutlu olduğuna karar vermek için temel olarak kullanamazsınız. Ayrıca, beslediğiniz ve manipüle ettiğiniz değişkenleri de bölmemelisiniz. Aksi takdirde, anlaşılması zor veya imkansız olacak karma kaymaları ortaya çıkar.
Düşünce yapısı
Bu bölümde, başkalarıyla nasıl çalışabileceğiniz ve analizleri nasıl paylaşabileceğiniz açıklanmaktadır.
Veri analizi veri veya teknikle değil, sorularla başlar
Verileri analiz etmek her zaman motivasyon sağlar. İhtiyaçlarınızı sorular ya da hipotez şeklinde formüle etmek, toplamanız gereken verileri topladığınızdan ve verilerdeki olası boşlukları düşündüğünüzden emin olmanıza yardımcı olur. Sorduğunuz sorular da verilere bakdıkça gelişmelidir. Ancak, soruları olmayan analizler sonuçsuz kalır.
Sık kullandığınız bir tekniği bulup sonra da sorunların sadece bu tekniğin işe yaradığı kısımlarını bulma tuzağına düşmeyin. Net sorular oluşturmak bu tuzaktan kaçınmanıza yardımcı olur.
Hem şüpheci hem de destekçi olun
Verilerle çalışırken hem elde ettiğiniz içgörülerin lideri hem de bu analizlere şüpheci olmanız gerekir. İncelediğiniz verilerde bazı ilginç olgular bulacağınızı umuyoruz. İlginç bir fenomen bulduğunuzda kendinize şu soruları sorun:
- Bunun ne kadar mükemmel olduğunu göstermek için başka hangi verileri toplayabilirim?
- Bunu geçersiz kılacak ne bulabilirim?"
Özellikle belirli bir yanıtı gerçekten isteyen biri için analiz yapıyorsanız (örneğin, "Benim özelliğim harika!" gibi), hata yapmamak için şüpheci olmanız gerekir.
Bağıntı != Neden
Verilerle ilgili teoriler üretirken genellikle "X'in Y'ye neden olduğu" iddiasında bulunmak isteriz. Örneğin, "sayfa yavaşladığında kullanıcıların daha az tıklamasına neden olur." xkcd bile korelasyon nedeniyle basitçe nedensellik belirleyemeyeceğinizi bilir. Bir nedensellik teorisini nasıl doğrulayacağınızı düşünerek genellikle bir nedensellik teorisinin ne kadar güvenilir olduğuna dair iyi bir fikir edinebilirsiniz.
Bazen insanlar, A ile B arasında nedensellik ilişkisi olmasa bile bu tesadüfün altında bir sinyalin diğeri için iyi bir gösterge veya proxy olması gerektiğini iddia ederek anlamlı bir bağıntıya bağlı kalmaya çalışırlar. Bu alan, birden fazla hipotez testi problemi için tehlikelidir; xkcd'nin de bildiği gibi, yeterli deneme ve yeterli boyut olması durumunda sinyallerden bazıları belirli bir deneme için uyumlu olacaktır. Bu, aynı sinyallerin gelecekte hizalanacağı anlamına gelmez. Bu nedenle, "hem A hem de B'ye neden olan gizli bir C etkisi var" gibi bir nedensel teoriyi göz önünde bulundurma yükümlülüğünüz vardır. Böylece, bunun ne kadar makul olduğunu doğrulamaya çalışabilirsiniz.
Veri analistleri genellikle verileri tüketmek isteyen kişiler için bu nedensel sorulara yanıt vermek zorundadır. Bu tüketiciler karşısında nedensellik hakkında neleri söyleyip söyleyemeyeceğinizi net bir şekilde ifade etmelisiniz.
Önce benzerlerle, ikinci olarak harici tüketicilerle paylaşım yapın
Önceki maddelerde, kendinizi doğru sağlamlık kontrolü ve doğrulama yapmak için bazı yöntemler önermişti. Ancak kendinizi bir arkadaşınızla paylaşmak, tüm bunları yapmaya zorlamanın en iyi yollarından biridir. Özellikle tüketicilerin genelde bir gündemi olduğundan, yetenekli bir iş arkadaşınız, verilerinizi kullananlara kıyasla niteliksel olarak farklı geri bildirimler sağlayabilir. Benzerler, analiz aracılığıyla birçok noktada faydalıdır. Meslektaşlarınızın bildiği başarılar, ölçülecek şeylerle ilgili öneriler ve bu alandaki geçmiş araştırmalar hakkında ilk bilgileri edinebilirsiniz. Sona doğru katılımcılar gariplikleri, tutarsızlıkları veya diğer karışıklıkları belirtme konusunda çok başarılıdır.
İdeal olarak, baktığınız veriler hakkında bilgisi olan bir iş arkadaşınızdan geri bildirim almanız gerekir. Ancak sadece genel veri analizi deneyimine sahip bir arkadaşınız bile son derece değerlidir.
Cehaleti ve hataları beklemek ve kabullenmek
Verilerden öğrenebileceğimiz pek çok şey vardır. Nate Silver, The Signal and the Noise (Sinyal ve Gürültü) adlı kitabında yalnızca kesinlik sınırlarımızı kabul ederek daha iyi tahminde ilerleyebileceğimizi vurguluyor. Cehaleti kabullenmek genellikle hemen ödüllendirilmeyen bir güçtür. Bazen sizi ve ekibinizi uzun vadede kötü hissettirir. Bir hata yapıp bunu daha sonra (hatta çok geç) keşfederseniz daha da kötü hissedersiniz, ancak hatalarınızı proaktif olarak kabullenmek, size saygı kazandırır. Bu saygı güvenilirlik ve etki anlamına gelir.
Bitirirken
İyi veri analizi yapmak için ne kadar çaba gerektiğinin çoğu, analiz kullanıcıları tarafından hemen fark edilmez. Popülasyon boyutlarını dikkatlice kontrol etmeniz ve etkinin tarayıcılar arasında tutarlı olduğunu doğrulamanız, muhtemelen bu verilerden kararlar almaya çalışan kişilerin farkında olmayacaktır. Bu aynı zamanda iyi veri analizinin neden çoğu insana göre olması gerektiğinden daha uzun sürdüğünü de açıklar (özellikle de son çıktıyı gördüklerinde). Analistler olarak işimizin bir parçası, tüketicileri bu adımların neler olduğu ve neden önemli olduklarıyla ilgili veri tabanlı analizler konusunda kademeli olarak eğitmektir.
Verilerinizde yapılan tüm bu değişiklik ve keşiflere olan ihtiyaç, iyi bir veri analizi dili ve ortamının gerekliliklerini de ortaya çıkarır. Verileri incelemek için kullanabileceğimiz birçok araç bulunmaktadır. Farklı araçlar ve diller, yukarıda açıklanan çeşitli teknikler için daha uygundur. Doğru aracı seçmek, analistler için önemli bir beceridir. Kendinizi en rahat kullandığınız aracın yetenekleriyle sınırlanmamalısınız. Göreviniz belirli bir aracı uygulamak değil, gerçek bilgiler sunmaktır.
-
Buna bazen "ilk veri analizi" de denir. Veri analiziyle ilgili Wikipedia makalesine bakın ↩
-
Teknik olarak, doğrulayıcı analiz değil, yalnızca keşif analizi yapıyorsanız yinelemeli olmalıdır. ↩