Analisis Data yang Baik

Penulis: Patrick Riley

Terima kasih banyak kepada: Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook, dan Barry Rosenberg.

Histori

Ringkasan

Mendapatkan kebenaran dan insight dari tumpukan data adalah pekerjaan yang efektif, tetapi rentan error. Analis data dan engineer terbaik yang berfokus pada data mengembangkan reputasi karena membuat pernyataan yang kredibel dari data. Tetapi apa yang mereka lakukan untuk memberi mereka kredibilitas? Saya sering mendengar kata sifat seperti hati-hati dan metodologi, tetapi apa sebenarnya yang dilakukan analis yang paling cermat dan metodis?

Pertanyaan ini tidak sepele, terutama mengingat jenis data yang secara rutin kami kumpulkan di Google. Biasanya kita tidak hanya bekerja dengan {i>dataset<i} yang sangat besar, tapi juga {i>dataset<i} tersebut sangat kaya. Artinya, setiap baris data biasanya memiliki banyak atribut. Saat Anda menggabungkannya dengan urutan peristiwa sementara untuk pengguna tertentu, ada banyak cara untuk melihat data. Berbeda dengan eksperimen psikologi akademik pada umumnya, di mana mudah bagi peneliti untuk melihat setiap titik data. Masalah yang ditimbulkan oleh set data kita yang besar dan berdimensi tinggi sangat berbeda dengan masalah yang dihadapi di sebagian besar sejarah karya ilmiah.

Dokumen ini merangkum berbagai ide dan teknik yang digunakan para analis metodis dan dengan cermat pada set data yang besar dan berdimensi tinggi. Meskipun dokumen ini berfokus pada data dari log dan analisis eksperimental, banyak dari teknik ini berlaku secara lebih luas.

Bagian selanjutnya dari dokumen ini terdiri dari tiga bagian yang membahas berbagai aspek analisis data:

  • Teknis: Ide dan teknik dalam memanipulasi dan memeriksa data Anda.
  • Proses: Rekomendasi terkait cara Anda menangani data, pertanyaan yang harus diajukan, dan hal yang harus diperiksa.
  • Pola pikir: Cara bekerja dengan orang lain dan menyampaikan wawasan.

Teknis

Mari kita lihat beberapa teknik untuk memeriksa data Anda.

Lihat distribusi Anda

Sebagian besar praktisi menggunakan metrik ringkasan (misalnya, rata-rata, median, deviasi standar, dan sebagainya) untuk mengomunikasikan distribusi. Namun, Anda biasanya harus memeriksa representasi distribusi yang lebih beragam dengan menghasilkan histogram, fungsi distribusi kumulatif (CDF), plot Quantile-Quantile (Q-Q), dan seterusnya. Representasi yang lebih beragam ini memungkinkan Anda mendeteksi fitur penting pada data, seperti perilaku multimodal atau class pencilan yang signifikan.

Mempertimbangkan pencilan (outliers)

Periksa pencilan dengan cermat karena dapat muncul sebagai burung kenari di tambang batu bara yang menunjukkan masalah yang lebih mendasar pada analisis Anda. Tidak masalah untuk mengecualikan pencilan dari data Anda atau menggabungkannya ke dalam kategori yang "tidak biasa", namun Anda harus memastikan bahwa data tersebut ada dalam kategori tersebut.

Misalnya, melihat kueri dengan jumlah klik terendah dapat mengungkapkan klik pada elemen yang gagal Anda hitung. Melihat kueri dengan jumlah klik tertinggi dapat mengungkapkan klik yang seharusnya tidak Anda hitung. Di sisi lain, mungkin ada beberapa pencilan yang tidak bisa Anda jelaskan, jadi Anda harus berhati-hati terhadap jumlah waktu yang dicurahkan untuk tugas ini.

Pertimbangkan derau

Keacakan ada dan akan menipu kita. Beberapa orang berpikir, "Google memiliki begitu banyak data; suara itu hilang." Ini tidak benar. Setiap angka atau ringkasan data yang Anda hasilkan harus disertai dengan gagasan keyakinan Anda dalam perkiraan ini (melalui ukuran seperti interval keyakinan dan p-values).

Lihat contohnya

Setiap kali membuat kode analisis baru, Anda perlu melihat contoh dari data pokok dan cara kode Anda menafsirkan contoh tersebut. Hampir tidak mungkin untuk menghasilkan kode yang berfungsi dari kerumitan apa pun tanpa melakukan langkah ini. Analisis Anda memisahkan banyak detail dari data pokok untuk menghasilkan ringkasan yang berguna. Dengan melihat keseluruhan kompleksitas dari setiap contoh, Anda dapat memperoleh keyakinan bahwa ringkasan Anda masuk akal.

Bagaimana Anda mengambil sampel dari contoh-contoh ini penting:

  • Jika Anda mengklasifikasikan data pokok, lihat contoh yang termasuk dalam setiap class.
  • Jika kelasnya lebih besar, lihat sampel lainnya.
  • Jika Anda menghitung angka (misalnya, waktu muat halaman), pastikan Anda melihat contoh yang ekstrem (mungkin 5% paling cepat dan paling lambat; Anda tahu seperti apa distribusi Anda, bukan?) serta titik di sepanjang ruang pengukuran.

Membagi data

Mengiris berarti memisahkan data Anda menjadi subgrup dan melihat nilai metrik untuk setiap subgrup secara terpisah. Kita biasanya menguraikan dimensi seperti {i>browser<i}, lokalitas, domain, jenis perangkat, dan sebagainya. Jika fenomena yang mendasari kemungkinan bekerja secara berbeda di seluruh subgrup, Anda harus membagi data untuk mengonfirmasi apakah hal tersebut benar-benar terjadi. Meskipun jika Anda tidak mengharapkan pemotongan tersebut memberikan hasil yang berbeda, melihat beberapa bagian untuk konsistensi internal akan memberi Anda keyakinan yang lebih besar bahwa Anda mengukur hal yang benar. Dalam beberapa kasus, bagian tertentu mungkin memiliki data yang buruk, interaksi pengguna yang rusak, atau dalam beberapa hal berbeda secara mendasar.

Setiap kali Anda membagi data untuk membandingkan dua grup (seperti eksperimen vs. kontrol, atau bahkan “waktu A” vs. “waktu B”, Anda harus mengetahui perubahan campuran. Pergeseran campuran adalah saat jumlah data dalam irisan untuk setiap grup berbeda. Paradoks Simpson dan kebingungan lainnya dapat timbul. Umumnya, jika jumlah relatif data dalam irisan sama di kedua grup, Anda dapat membuat perbandingan dengan aman.

Mempertimbangkan signifikansi praktis

Dengan volume data yang besar, Anda mungkin ingin berfokus hanya pada data statistik yang signifikan atau fokus pada detail setiap bit data. Tetapi Anda perlu bertanya pada diri sendiri, "Meskipun benar bahwa nilai X adalah 0,1% lebih banyak daripada nilai Y, apakah itu penting?" Ini menjadi sangat penting jika Anda tidak dapat memahami/mengkategorikan bagian dari data Anda. Jika Anda tidak dapat memahami beberapa string agen pengguna di log Anda, apakah string tersebut mewakili 0,1% atau 10% data akan membuat perbedaan besar terkait seberapa banyak Anda harus menyelidiki kasus tersebut.

Atau, terkadang Anda memiliki volume data yang kecil. Banyak perubahan tidak akan terlihat signifikan secara statistik, tetapi hal itu berbeda dengan mengklaim perubahan ini sebagai "netral". Anda harus bertanya pada diri sendiri, “Seberapa besar kemungkinan masih ada perubahan yang secara praktis signifikan?”

Memeriksa konsistensi dari waktu ke waktu

Hampir selalu, Anda harus mencoba membagi data menurut satuan waktu karena banyak gangguan pada data pokok terjadi seiring perkembangan sistem kami dari waktu ke waktu. (Kami sering menggunakan hari, tetapi satuan waktu lain juga mungkin berguna.) Selama peluncuran awal fitur atau pengumpulan data baru, praktisi sering kali memeriksa dengan cermat apakah semuanya berfungsi seperti yang diharapkan. Namun, banyak kerusakan atau perilaku tidak terduga dapat muncul seiring waktu.

Hanya karena hari atau kumpulan hari tertentu merupakan pencilan, bukan berarti Anda harus menghapus data yang sesuai. Gunakan data tersebut sebagai hook untuk menentukan alasan kausal yang menyebabkan hari atau hari tersebut berbeda sebelum Anda membuangnya.

Melihat data harian juga memberi Anda gambaran tentang variasi dalam data yang pada akhirnya akan mengarah pada interval keyakinan atau klaim data statistik yang signifikan. Hal ini umumnya tidak menggantikan penghitungan interval keyakinan-kepercayaan yang ketat, tetapi sering kali dengan perubahan besar, Anda dapat melihat bahwa penghitungan akan signifikan secara statistik hanya dari grafik harian.

Mengonfirmasi dan menghitung pemfilteran Anda

Hampir setiap analisis data besar dimulai dengan memfilter data dalam berbagai tahap. Mungkin Anda hanya ingin mempertimbangkan pengguna di AS, atau penelusuran web, atau penelusuran dengan iklan. Apa pun masalahnya, Anda harus:

  • Akui dan tentukan dengan jelas penyaringan apa yang sedang Anda lakukan.
  • Hitung jumlah data yang difilter pada setiap langkah.

Sering kali cara terbaik untuk melakukan opsi kedua adalah dengan menghitung semua metrik, bahkan untuk populasi yang Anda kecualikan. Anda dapat melihat data itu untuk menjawab pertanyaan seperti, "Berapa pecahan kueri yang dihapus dari filter spam?" (Bergantung pada alasan Anda memfilter, jenis analisis tersebut mungkin tidak selalu dapat dilakukan.)

Rasio harus memiliki pembilang dan penyebut yang jelas

Metrik yang paling menarik adalah rasio tindakan yang mendasarinya. Sering kali, pemfilteran yang menarik atau pilihan data lainnya disembunyikan dalam definisi pembilang dan penyebut yang tepat. Misalnya, manakah dari berikut ini yang sebenarnya dimaksud dengan "Kueri / Pengguna"?

  • Kueri / Pengguna dengan Kueri
  • Kueri / Pengguna yang mengunjungi Google hari ini
  • Kueri / Pengguna dengan akun aktif (ya, saya harus menentukan aktif)

Memberikan informasi yang benar-benar jelas di sini dapat menghindari kebingungan bagi diri sendiri dan orang lain.

Kasus khusus lainnya adalah metrik yang hanya dapat dikomputasi pada sebagian data Anda. Misalnya, "Waktu untuk Mengklik" biasanya berarti "Waktu untuk Mengklik mengingat adanya klik". Setiap kali melihat metrik seperti ini, Anda harus memahami bahwa memfilter dan mencari pergeseran pemfilteran di antara grup yang Anda bandingkan.

Proses

Bagian ini berisi rekomendasi tentang cara menggunakan data Anda, pertanyaan apa yang harus diajukan tentang data Anda, dan hal yang harus diperiksa.

Validasi, Deskripsi, dan Evaluasi Terpisah

Saya menganggap analisis data memiliki tiga tahap yang saling terkait:

  1. Validasi1: Apakah saya yakin bahwa data konsisten dengan sendirinya, dikumpulkan dengan benar, dan mewakili apa yang saya pikirkan seperti itu?
  2. Deskripsi: Apa interpretasi objektif dari data ini? Misalnya, "Pengguna membuat lebih sedikit kueri yang diklasifikasikan sebagai X", "Di grup eksperimen, waktu antara X dan Y 1% lebih besar", dan "Lebih sedikit pengguna membuka halaman hasil berikutnya".
  3. Evaluasi: Berdasarkan deskripsi, apakah data memberi tahu kita bahwa sesuatu yang baik terjadi bagi pengguna, Google, atau dunia?

Dengan memisahkan tahap-tahap ini, Anda dapat lebih mudah mencapai kesepakatan dengan pihak lain. Deskripsi harus berupa hal-hal yang dapat disetujui oleh semua orang untuk data. Evaluasi kemungkinan akan menghasilkan lebih banyak perdebatan. Jika tidak memisahkan Deskripsi dan Evaluasi, kecil kemungkinan Anda hanya melihat penafsiran data yang ingin Anda lihat. Selain itu, Evaluasi cenderung jauh lebih sulit karena menetapkan nilai normatif suatu metrik, biasanya melalui perbandingan yang ketat dengan fitur dan metrik lain, memerlukan investasi yang signifikan.

Tahapan ini tidak berjalan secara linear. Saat mengeksplorasi data, Anda dapat melompat-lompat di antara tahapan, tetapi Anda harus mengetahui saat ini di tahap mana Anda berada.

Konfirmasi penyiapan eksperimen dan pengumpulan data

Sebelum melihat data apa pun, pastikan Anda memahami konteks pengumpulan data tersebut. Jika data berasal dari eksperimen, lihat konfigurasi eksperimen tersebut. Jika berasal dari instrumentasi klien baru, pastikan Anda memiliki pemahaman kasar tentang cara pengumpulan data. Anda mungkin menemukan konfigurasi yang tidak biasa/buruk atau pembatasan populasi (seperti data yang valid hanya untuk Chrome). Apa pun yang penting di sini dapat membantu Anda membangun dan memverifikasi teori nantinya. Beberapa hal yang perlu dipertimbangkan:

  • Jika eksperimen berjalan, cobalah sendiri. Jika tidak bisa, setidaknya lihat screenshot/deskripsi perilaku.
  • Periksa apakah ada sesuatu yang tidak wajar pada rentang waktu eksperimen yang dijalankan (hari libur, peluncuran besar, dll.).
  • Tentukan populasi pengguna mana yang menjadi subjek eksperimen.

Memeriksa hal yang seharusnya tidak berubah

Sebagai bagian dari tahap "Validasi", sebelum benar-benar menjawab pertanyaan yang Anda minati (misalnya, "Apakah menambahkan gambar wajah dapat meningkatkan atau menurunkan klik?"), kesampingkan variabilitas lainnya dalam data yang dapat memengaruhi eksperimen. Contoh:

  • Apakah jumlah pengguna berubah?
  • Apakah jumlah tepat kueri yang terpengaruh muncul di semua subgrup saya?
  • Apakah tingkat kesalahan berubah?

Pertanyaan-pertanyaan ini masuk akal baik untuk perbandingan eksperimen/kontrol dan untuk memeriksa tren dari waktu ke waktu.

Standar pertama, kedua kustom

Saat melihat fitur dan data baru, Anda mungkin tergoda untuk langsung memasukkan metrik yang baru atau khusus untuk fitur baru ini. Namun, Anda harus selalu melihat metrik standar terlebih dahulu, meskipun Anda memperkirakan metrik tersebut akan berubah. Misalnya, saat menambahkan blok universal baru ke halaman, pastikan Anda memahami dampaknya pada metrik standar seperti "klik pada hasil web" sebelum mempelajari metrik kustom tentang hasil baru ini.

Metrik standar tervalidasi jauh lebih baik dan lebih mungkin benar daripada metrik kustom. Jika metrik kustom tidak relevan dengan metrik standar, metrik kustom Anda mungkin salah.

Ukur dua kali atau lebih

Terutama jika Anda mencoba menangkap fenomena baru, cobalah mengukur hal mendasar yang sama dengan beberapa cara. Kemudian, tentukan apakah beberapa pengukuran ini konsisten. Melalui beberapa pengukuran, Anda dapat mengidentifikasi bug dalam kode pengukuran atau logging, fitur data pokok yang tidak terduga, atau langkah-langkah pemfilteran yang penting. Akan jauh lebih baik jika Anda dapat menggunakan sumber data yang berbeda untuk pengukuran.

Memeriksa reproduksiitas

Pemotongan dan konsistensi dari waktu ke waktu adalah contoh khusus pemeriksaan reproduksibilitas. Jika suatu fenomena penting dan bermakna, Anda harus melihatnya di berbagai populasi dan waktu pengguna yang berbeda. Namun, memverifikasi reproduksiitas lebih dari sekadar melakukan dua pemeriksaan ini. Jika mem-build model data, Anda ingin model tersebut stabil meskipun ada sedikit gangguan pada data pokok. Menggunakan rentang waktu yang berbeda atau sub-sampel acak data juga akan memberi tahu Anda seberapa andal/dapat direproduksi model ini.

Jika model tidak dapat direproduksi, Anda mungkin tidak menangkap sesuatu yang mendasar tentang proses dasar yang menghasilkan data.

Periksa konsistensi dengan pengukuran sebelumnya

Sering kali Anda akan menghitung metrik yang mirip dengan hal-hal yang telah dihitung di masa lalu. Anda harus membandingkan metrik dengan metrik yang dilaporkan sebelumnya, meskipun pengukuran ini dilakukan pada populasi pengguna yang berbeda.

Misalnya, jika Anda melihat traffic kueri pada populasi khusus dan mengukur bahwa rata-rata waktu muat halaman adalah 5 detik, tetapi analisis sebelumnya pada semua pengguna memberikan waktu muat halaman rata-rata 2 detik, maka Anda perlu melakukan investigasi. Angka Anda mungkin tepat untuk populasi ini, tetapi sekarang Anda harus melakukan lebih banyak pekerjaan untuk memvalidasinya.

Anda tidak perlu mendapatkan persetujuan yang tepat, tetapi Anda harus memiliki perkiraan yang sama. Jika tidak, anggaplah Anda salah sampai Anda dapat meyakinkan diri sendiri sepenuhnya. Data yang mengejutkan akan berubah menjadi kesalahan, bukan wawasan baru yang luar biasa.

Metrik baru harus diterapkan ke data/fitur lama terlebih dahulu

Jika Anda membuat metrik baru (mungkin dengan mengumpulkan sumber data baru) dan mencoba mempelajari sesuatu yang baru, Anda tidak akan tahu apakah metrik baru tersebut sudah benar. Dengan metrik baru, Anda harus menerapkannya terlebih dahulu pada fitur atau data yang diketahui. Misalnya, jika Anda memiliki metrik baru untuk kepuasan pengguna, Anda harus memastikan metrik tersebut menjelaskan fitur terbaik untuk membantu kepuasan pengguna. Jika Anda memiliki metrik baru tentang pengguna yang mengarahkan perhatian ke halaman, pastikan metrik tersebut sesuai dengan metrik yang kami ketahui dari pengamatan pelacakan mata atau studi penilai tentang pengaruh gambar terhadap perhatian halaman. Dengan melakukan hal ini, Anda akan melakukan validasi ketika kemudian Anda mempelajari sesuatu yang baru.

Membuat hipotesis dan mencari bukti

Biasanya, analisis data untuk masalah yang kompleks bersifat iteratif.2 Anda akan menemukan anomali, tren, atau fitur data lainnya. Tentu saja, Anda akan mengembangkan teori untuk menjelaskan data ini. Jangan hanya mengembangkan teori dan mengklaimnya sebagai fakta. Cari bukti (di dalam atau di luar data) untuk mengkonfirmasi/menolak teori ini. Contoh:

  • Jika Anda melihat sesuatu yang tampak seperti tren belajar, lihat apakah tren tersebut termanifestasi paling kuat dengan pengguna frekuensi tinggi.
  • Jika Anda yakin anomali disebabkan oleh peluncuran beberapa fitur, pastikan bahwa populasi yang diluncurkan fitur tersebut adalah satu-satunya yang terpengaruh oleh anomali tersebut. Atau, pastikan besaran perubahan tersebut konsisten dengan ekspektasi peluncuran.
  • Jika Anda melihat tingkat pertumbuhan pengguna berubah di suatu lokalitas, coba temukan sumber eksternal yang memvalidasi tingkat perubahan populasi pengguna tersebut.

Analisis data yang baik akan memiliki sebuah kisah. Untuk memastikan bahwa ini adalah cerita yang benar, Anda perlu menceritakan kisah itu pada diri sendiri, lalu mencari bukti bahwa itu salah. Salah satu cara untuk melakukannya adalah dengan bertanya pada diri sendiri, "Eksperimen apa yang akan saya jalankan yang akan memvalidasi/membatalkan cerita yang saya sampaikan?" Meskipun Anda tidak/tidak dapat melakukan eksperimen ini, eksperimen ini mungkin akan memberi Anda ide tentang cara memvalidasi dengan data yang Anda miliki.

Kabar baiknya adalah bahwa teori dan kemungkinan eksperimen ini dapat mengarah pada garis penelitian baru yang melampaui upaya untuk mempelajari fitur atau data tertentu. Selanjutnya, Anda memasuki ranah pemahaman tidak hanya data ini, tetapi juga mendapatkan metrik dan teknik baru untuk semua jenis analisis mendatang.

Analisis eksploratif mendapat manfaat dari iterasi end-to-end

Saat melakukan analisis eksploratif, lakukan iterasi sebanyak mungkin dari seluruh analisis. Biasanya Anda akan memiliki beberapa langkah untuk mengumpulkan, memproses, pemodelan, dll. Jika Anda menghabiskan waktu terlalu lama untuk mendapatkan tahap pertama yang sempurna dari sinyal awal, Anda akan kehilangan peluang untuk melakukan lebih banyak iterasi dalam waktu yang sama. Selanjutnya, ketika akhirnya melihat data di akhir, Anda mungkin membuat penemuan yang mengubah arah Anda. Oleh karena itu, fokus awal Anda bukan pada kesempurnaan, tetapi pada upaya untuk mendapatkan sesuatu yang masuk akal dari awal. Tinggalkan catatan untuk Anda sendiri dan konfirmasi hal-hal seperti langkah pemfilteran dan permintaan yang tidak dapat diurai atau tidak biasa, tetapi jangan buang waktu untuk mencoba menghapus semuanya di awal analisis eksplorasi.

Perhatikan masukan

Kami biasanya menentukan berbagai metrik seputar keberhasilan pengguna. Misalnya, apakah pengguna mengklik suatu hasil? Jika Anda kemudian memasukkan data tersebut kembali ke sistem (yang sebenarnya kami lakukan di sejumlah tempat), Anda menciptakan banyak peluang untuk kebingungan saat mengevaluasi.

Anda tidak dapat menggunakan metrik yang dimasukkan kembali ke sistem sebagai dasar untuk mengevaluasi perubahan. Jika Anda menampilkan lebih banyak iklan yang mendapatkan lebih banyak klik, Anda tidak dapat menggunakan "lebih banyak klik" sebagai dasar untuk memutuskan bahwa pengguna lebih bahagia, meskipun "lebih banyak klik" sering kali berarti "lebih bahagia". Lebih lanjut, Anda bahkan tidak boleh memotong variabel yang Anda masukkan kembali dan dimanipulasi, karena hal itu akan mengakibatkan pergeseran campuran yang akan sulit atau tidak mungkin dipahami.

Pola pikir

Bagian ini menjelaskan cara bekerja dengan orang lain dan menyampaikan wawasan.

Analisis data dimulai dengan pertanyaan, bukan data atau teknik

Selalu ada motivasi untuk menganalisis data. Merumuskan kebutuhan sebagai pertanyaan atau hipotesis membantu memastikan bahwa Anda mengumpulkan data yang harus dikumpulkan dan memikirkan kemungkinan celah dalam data tersebut. Tentu saja, pertanyaan yang Anda ajukan harus berkembang seiring Anda melihat data. Namun, analisis tanpa sebuah pertanyaan akan berakhir tanpa hasil.

Hindari perangkap menemukan beberapa teknik favorit sehingga hanya menemukan bagian masalah yang dikerjakan teknik ini. Sekali lagi, membuat pertanyaan yang jelas akan membantu Anda menghindari jebakan ini.

Bersikaplah skeptis dan juara

Saat bekerja dengan data, Anda harus menjadi juara wawasan yang Anda peroleh dan juga skeptis terhadap wawasan tersebut. Semoga Anda akan menemukan beberapa fenomena menarik dalam data yang Anda lihat. Saat Anda mendeteksi fenomena menarik, tanyakan pada diri Anda sendiri pertanyaan-pertanyaan berikut:

  • Data apa lagi yang dapat saya kumpulkan untuk menunjukkan betapa hebatnya hal ini?
  • Apa yang bisa saya temukan bahwa hal itu akan membuat hal ini menjadi tidak valid?”

Terutama dalam kasus saat Anda melakukan analisis untuk seseorang yang benar-benar menginginkan jawaban tertentu (misalnya, "Fitur saya hebat!"), Anda harus bersikap skeptis untuk menghindari kesalahan.

Korelasi != Kausasi

Saat membuat teori tentang data, kita sering ingin menyatakan bahwa "X menyebabkan Y"—misalnya, "halaman menjadi lebih lambat menyebabkan pengguna mengklik lebih sedikit klik". Bahkan xkcd tahu bahwa Anda tidak dapat hanya menetapkan kausalitas karena korelasi. Dengan mempertimbangkan bagaimana Anda memvalidasi teori kausalitas, biasanya Anda bisa mengembangkan pemahaman yang baik tentang betapa kredibelnya suatu teori kausal.

Terkadang, orang mencoba mempertahankan korelasi yang bermakna dengan menegaskan bahwa meskipun tidak ada hubungan kausalitas antara A dan B, harus ada sesuatu yang mendasari kebetulan tersebut, sehingga satu sinyal dapat menjadi indikator atau proxy yang baik bagi yang lainnya. Area ini berbahaya untuk beberapa masalah pengujian hipotesis; seperti yang diketahui xkcd, dengan cukup eksperimen dan dimensi yang cukup, beberapa sinyal akan selaras untuk eksperimen tertentu. Ini tidak berarti bahwa sinyal yang sama akan selaras di masa mendatang. Jadi, Anda memiliki kewajiban yang sama untuk mempertimbangkan teori kausal seperti "ada efek tersembunyi C yang menyebabkan A dan B" sehingga Anda dapat mencoba memvalidasi bahwa hal ini masuk akal.

Seorang analis data harus sering mengajukan pertanyaan kausal ini untuk orang-orang yang ingin memakai data. Anda harus menjelaskan kepada konsumen tersebut apa yang bisa dan tidak boleh Anda katakan tentang kausalitas.

Bagikan dengan rekan sejawat terlebih dahulu, konsumen eksternal kedua

Poin sebelumnya menyarankan beberapa cara agar Anda dapat melakukan jenis pemeriksaan dan validasi kesehatan dengan benar. Tetapi berbagi dengan rekan adalah salah satu cara terbaik untuk memaksa diri Anda melakukan semua hal ini. Rekan yang terampil dapat memberikan masukan yang berbeda secara kualitatif dari konsumen data Anda, terutama karena konsumen umumnya memiliki agenda. Rekan-rekan akan berguna di banyak titik melalui analisis. Awalnya Anda bisa mencari tahu tentang ha-hal yang diketahui rekan Anda, saran untuk hal-hal yang dapat diukur, dan penelitian sebelumnya di bidang ini. Menjelang akhir, rekan-rekan sangat pandai dalam menunjukkan keanehan, inkonsistensi, atau kebingungan lainnya.

Idealnya, Anda harus mendapatkan umpan balik dari rekan yang mengetahui sesuatu tentang data yang Anda lihat, tetapi bahkan rekan yang hanya memiliki pengalaman analisis data umum sangatlah berharga.

Mengharapkan dan menerima ketidakpedulian dan kesalahan

Ada banyak batasan apa yang dapat kita pelajari dari data. Nate Silver memberikan alasan kuat dalam Sinyal dan Kebisingan bahwa hanya dengan mengakui batasan kepastian, kita dapat membuat kemajuan dalam prediksi yang lebih baik. Mengakui ketidaktahuan adalah kekuatan yang biasanya tidak segera dihargai. Saat itu terasa tidak nyaman, tetapi hal ini menguntungkan Anda dan tim Anda dalam jangka panjang. Rasanya lebih buruk ketika Anda membuat kesalahan dan menemukannya nanti (atau bahkan terlambat!), tetapi secara proaktif mengakui kesalahan Anda membuat Anda dihormati. Hal tersebut tercermin dalam kredibilitas dan dampak.

Poin penutup

Sebagian besar pekerjaan untuk melakukan analisis data yang baik tidak langsung terlihat oleh konsumen analisis Anda. Fakta bahwa Anda memeriksa ukuran populasi dengan cermat dan memvalidasi bahwa efeknya konsisten di seluruh browser mungkin tidak akan menjangkau kesadaran pengguna yang mencoba membuat keputusan dari data ini. Hal ini juga menjelaskan mengapa analisis data yang baik membutuhkan waktu lebih lama daripada yang seharusnya bagi kebanyakan orang (terutama jika mereka hanya melihat output akhir). Bagian dari tugas kami sebagai analis adalah secara bertahap mendidik konsumen insight berbasis data tentang tahapan dan alasan pentingnya.

Kebutuhan untuk semua manipulasi dan eksplorasi data ini juga menjabarkan persyaratan untuk bahasa dan lingkungan analisis data yang baik. Kita memiliki banyak alat yang tersedia untuk memeriksa data. Alat dan bahasa yang berbeda lebih cocok untuk berbagai teknik yang dibahas di atas; memilih alat yang tepat adalah keterampilan penting bagi seorang analis. Anda tidak boleh dibatasi oleh kemampuan alat yang paling nyaman bagi Anda; tugas Anda adalah memberikan insight yang sebenarnya, bukan menerapkan alat tertentu.

 


  1. Ini terkadang disebut “analisis data awal”. Lihat artikel wikipedia tentang analisis data 

  2. Secara teknis, proses ini hanya boleh iteratif jika Anda melakukan analisis eksploratif, bukan analisis konfirmasi.