Penulis: Patrick Riley
Terima kasih khusus kepada: Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook, dan Barry Rosenberg.
Histori
- Update Besar Terakhir: Juni 2019
- Versi sebelumnya dari beberapa materi ini muncul di UnOfficial Google Data Science Blog: Oktober 2016
Ringkasan
Mendapatkan kebenaran dan insight dari tumpukan data adalah pekerjaan yang efektif, tetapi rentan error. Analis data dan insinyur data yang terbaik mengembangkan reputasi untuk membuat pernyataan yang kredibel dari data. Tapi apa yang mereka lakukan untuk memberi mereka kredibilitas? Saya sering mendengar kata sifat seperti hati-hati dan metodologis, tetapi apa yang sebenarnya dilakukan oleh analis yang paling cermat dan metodis?
Ini bukan pertanyaan yang sepele, terutama mengingat jenis data yang biasanya kami kumpulkan di Google. Biasanya kita tidak hanya bekerja dengan {i>dataset<i} yang sangat besar, tetapi juga {i>dataset<i} yang sangat kaya. Artinya, setiap baris data biasanya memiliki banyak atribut. Jika Anda menggabungkannya dengan urutan peristiwa sementara untuk pengguna tertentu, ada banyak cara untuk melihat data. Berbeda dengan eksperimen psikologi akademik pada umumnya, di mana peneliti adalah hal yang mudah bagi peneliti untuk melihat setiap titik data. Masalah yang ditimbulkan oleh set data kami yang besar dan berdimensi tinggi sangat berbeda dengan masalah yang dihadapi di sebagian besar sejarah karya ilmiah.
Dokumen ini merangkum ide dan teknik yang digunakan analis dengan cermat dan metodis pada set data yang besar dan berdimensi tinggi. Meskipun dokumen ini berfokus pada data dari log dan analisis eksperimental, banyak dari teknik ini yang dapat diterapkan secara lebih luas.
Bagian selanjutnya dari dokumen ini terdiri dari tiga bagian yang membahas berbagai aspek analisis data:
- Teknis: Ide dan teknik untuk memanipulasi dan memeriksa data Anda.
- Proses: Rekomendasi tentang cara Anda menangani data, pertanyaan yang harus diajukan, dan hal-hal yang harus diperiksa.
- Pola pikir: Cara bekerja dengan orang lain dan menyampaikan insight.
Teknis
Mari kita lihat beberapa teknik untuk memeriksa data Anda.
Lihat distribusi Anda
Sebagian besar praktisi menggunakan metrik ringkasan (misalnya, rata-rata, median, simpangan baku, dan sebagainya) untuk berkomunikasi tentang distribusi. Namun, biasanya Anda perlu memeriksa representasi distribusi yang jauh lebih kaya dengan menghasilkan histogram, fungsi distribusi kumulatif (CDF), plot Quantil-Kuantil (Q-Q), dan seterusnya. Representasi yang lebih beragam ini memungkinkan Anda mendeteksi fitur data yang penting, seperti perilaku multimodal atau class pencilan yang signifikan.
Pertimbangkan {i>outliers<i}
Periksa pencilan dengan hati-hati karena bisa jadi pencilan di tambang batu bara yang menunjukkan masalah yang lebih mendasar pada analisis Anda. Anda dapat mengecualikan pencilan dari data atau menggabungkannya ke dalam kategori "tidak biasa", tetapi pastikan Anda mengetahui alasan data berada di kategori tersebut.
Misalnya, melihat kueri dengan jumlah klik terendah dapat menunjukkan klik pada elemen yang tidak Anda hitung. Melihat kueri dengan jumlah klik tertinggi dapat mengungkapkan klik yang seharusnya tidak Anda hitung. Di sisi lain, mungkin ada beberapa pencilan yang tidak bisa Anda jelaskan, jadi Anda harus berhati-hati terkait banyaknya waktu yang Anda curahkan untuk tugas ini.
Mempertimbangkan derau
Keacakan ada dan akan menipu kita. Beberapa orang berpikir, "Google punya begitu banyak data; deraunya hilang." Ini tidak benar. Setiap angka atau ringkasan data yang Anda hasilkan harus disertai dengan gagasan keyakinan Anda dalam estimasi ini (melalui ukuran seperti interval keyakinan dan p-values).
Melihat contoh
Setiap kali menghasilkan kode analisis baru, Anda perlu melihat contoh dari data pokok dan cara kode Anda menafsirkan contoh tersebut. Hampir tidak mungkin untuk menghasilkan kode yang berfungsi dengan kompleksitas apa pun tanpa melakukan langkah ini. Analisis Anda memisahkan banyak detail dari data pokok untuk menghasilkan ringkasan yang berguna. Dengan melihat kompleksitas penuh dari setiap contoh, Anda dapat memperoleh keyakinan bahwa ringkasan Anda wajar.
Cara Anda mengambil sampel dari contoh-contoh ini penting:
- Jika Anda mengklasifikasikan data pokok, lihat contoh yang termasuk dalam setiap class.
- Jika kelasnya lebih besar, lihat contoh lainnya.
- Jika Anda menghitung angka (misalnya, waktu muat halaman), pastikan Anda melihat contoh yang ekstrem (mungkin 5% paling cepat dan paling lambat; Anda tahu seperti apa distribusi Anda, kan?) serta poin di seluruh ruang pengukuran.
Mengurai data
Mengiris berarti memisahkan data menjadi subgrup dan melihat nilai metrik untuk setiap subgrup secara terpisah. Kami biasanya membagi dimensi seperti browser, lokalitas, domain, jenis perangkat, dan sebagainya. Jika fenomena yang mendasari kemungkinan berfungsi secara berbeda di seluruh subgrup, Anda harus mengiris data untuk mengonfirmasi apakah hal tersebut memang terjadi. Meskipun Anda tidak mengharapkan slicing untuk memberikan hasil yang berbeda, melihat beberapa bagian untuk konsistensi internal akan memberi Anda keyakinan yang lebih besar bahwa Anda mengukur hal yang benar. Dalam beberapa kasus, potongan tertentu mungkin memiliki data yang buruk, interaksi pengguna yang rusak, atau dalam beberapa hal berbeda secara mendasar.
Kapan pun Anda membagi data untuk membandingkan dua grup (seperti eksperimen vs. kontrol, atau bahkan “waktu A” vs. “waktu B”), Anda harus memahami pergeseran campuran. Pergeseran campuran adalah ketika jumlah data dalam irisan untuk setiap grup berbeda. Paradoks Simpson dan kebingungan lainnya dapat terjadi. Umumnya, jika jumlah relatif data dalam satu slice sama di kedua grup, Anda dapat membuat perbandingan dengan aman.
Mempertimbangkan signifikansi praktis
Dengan volume data yang besar, Anda mungkin ingin berfokus hanya pada data statistik yang signifikan atau berfokus pada detail setiap bit. Namun, Anda perlu bertanya pada diri sendiri, "Meskipun benar bahwa nilai X 0,1% lebih banyak daripada nilai Y, apakah itu penting?" Hal ini dapat menjadi sangat penting jika Anda tidak dapat memahami/mengkategorikan sebagian dari data Anda. Jika Anda tidak dapat memahami beberapa string agen pengguna di log Anda, entah string tersebut mewakili 0,1% atau 10% data, membuat perbedaan besar dalam seberapa banyak Anda harus menyelidiki kasus tersebut.
Atau, terkadang Anda memiliki volume data yang kecil. Banyak perubahan tidak akan terlihat signifikan secara statistik, tetapi itu berbeda dengan mengklaim perubahan ini sebagai “netral”. Anda harus bertanya pada diri sendiri, “Seberapa besar kemungkinan masih ada perubahan yang secara praktis signifikan?”
Memeriksa konsistensi dari waktu ke waktu
Anda harus selalu mencoba membagi data berdasarkan unit waktu karena banyak gangguan pada data pokok terjadi saat sistem kami berkembang dari waktu ke waktu. (Kami sering menggunakan hari, tetapi satuan waktu lain juga mungkin berguna.) Selama peluncuran awal fitur atau pengumpulan data baru, praktisi sering kali memeriksa dengan cermat apakah semuanya berfungsi seperti yang diharapkan. Namun, banyak kerusakan atau perilaku tidak terduga dapat muncul seiring waktu.
Hanya karena hari atau kumpulan hari tertentu merupakan pencilan, bukan berarti Anda harus menghapus data yang sesuai. Gunakan data sebagai hook untuk menentukan alasan kausal yang menyebabkan hari atau hari tersebut berbeda sebelum Anda membuangnya.
Melihat data dari hari ke hari juga dapat memberi Anda gambaran tentang variasi data yang pada akhirnya akan mengarah pada interval keyakinan atau klaim data statistik yang signifikan. Umumnya, ini tidak akan menggantikan penghitungan interval keyakinan yang ketat, tetapi sering kali dengan perubahan besar, Anda dapat melihat bahwa penghitungan tersebut akan signifikan secara statistik hanya dari grafik harian.
Mengonfirmasi dan menghitung pemfilteran Anda
Hampir setiap analisis data besar dimulai dengan menyaring data dalam berbagai tahapan. Mungkin Anda hanya ingin mempertimbangkan pengguna di AS, atau penelusuran web, atau penelusuran dengan iklan. Apa pun situasinya, Anda harus:
- Akui dan tentukan dengan jelas penyaringan yang Anda lakukan.
- Hitung jumlah data yang difilter pada setiap langkah.
Sering kali cara terbaik untuk melakukan yang terakhir adalah dengan menghitung semua metrik, bahkan untuk populasi yang Anda kecualikan. Lalu, Anda dapat melihat data tersebut untuk menjawab pertanyaan seperti, "Berapa bagian kueri yang dihapus dari filter spam?" (Bergantung pada alasan Anda memfilter, jenis analisis tersebut mungkin tidak selalu memungkinkan.)
Rasio harus memiliki pembilang dan penyebut yang jelas
Metrik yang paling menarik adalah rasio ukuran-ukuran yang mendasari. Sering kali, pemfilteran yang menarik atau pilihan data lainnya tersembunyi dalam definisi pembilang dan penyebut yang tepat. Misalnya, manakah dari berikut ini yang sebenarnya dimaksud dengan "Kueri / Pengguna"?
- Kueri / Pengguna dengan Kueri
- Kueri / Pengguna yang mengunjungi Google hari ini
- Kueri / Pengguna dengan akun aktif (ya, saya harus menentukan aktif)
Pernyataan yang benar-benar jelas di sini dapat menghindari kebingungan bagi diri sendiri dan orang lain.
Kasus khusus lainnya adalah metrik yang hanya dapat dihitung hanya pada beberapa data Anda. Misalnya, "Waktu untuk Mengklik" biasanya berarti "Waktu untuk Mengklik karena ada klik". Setiap kali melihat metrik seperti ini, Anda harus memahami pemfilteran tersebut dan mencari perubahan pemfilteran di antara grup yang Anda bandingkan.
Proses
Bagian ini berisi rekomendasi tentang cara menangani data, pertanyaan yang perlu diajukan tentang data, dan hal yang harus diperiksa.
Validasi, Deskripsi, dan Evaluasi Terpisah
Saya menganggap analisis data memiliki tiga tahap yang saling terkait:
- Validasi1: Apakah saya yakin bahwa data konsisten, bahwa data dikumpulkan dengan benar, dan mewakili apa yang saya rasakan?
- Deskripsi: Apa interpretasi objektif dari data ini? Misalnya, "Pengguna membuat lebih sedikit kueri yang diklasifikasikan sebagai X", "Di grup eksperimen, waktu antara X dan Y 1% lebih besar", dan "Lebih sedikit pengguna yang membuka halaman hasil berikutnya".
- Evaluasi: Berdasarkan deskripsinya, apakah data memberi tahu kita bahwa sesuatu yang baik terjadi untuk pengguna, untuk Google, atau untuk dunia?
Dengan memisahkan tahapan ini, Anda dapat lebih mudah mencapai kesepakatan dengan orang lain. Deskripsi harus berupa hal-hal yang dapat disetujui semua orang untuk data. Evaluasi akan menciptakan lebih banyak perdebatan. Jika Anda tidak memisahkan Deskripsi dan Evaluasi, kemungkinan besar Anda hanya melihat interpretasi data yang ingin Anda lihat. Selain itu, Evaluasi cenderung jauh lebih sulit karena menetapkan nilai normatif suatu metrik, biasanya melalui perbandingan yang ketat dengan fitur dan metrik lain, membutuhkan investasi yang signifikan.
Tahapan ini tidak berjalan secara linear. Saat mengeksplorasi data, Anda dapat berpindah-pindah antartahapan, tetapi Anda harus memahami dengan jelas di tahap mana Anda berada kapan saja.
Konfirmasi penyiapan eksperimen dan pengumpulan data
Sebelum melihat data apa pun, pastikan Anda memahami konteks di mana data dikumpulkan. Jika data berasal dari eksperimen, lihat konfigurasi eksperimen. Jika berasal dari instrumentasi klien baru, pastikan Anda memiliki setidaknya pemahaman kasar tentang cara pengumpulan data. Anda mungkin menemukan konfigurasi yang tidak biasa/buruk atau batasan populasi (seperti data yang valid hanya untuk Chrome). Apa pun yang penting di sini dapat membantu Anda membangun dan memverifikasi teori nanti. Beberapa hal yang perlu dipertimbangkan:
- Jika eksperimen sedang berjalan, cobalah sendiri. Jika tidak bisa, setidaknya lihat screenshot/deskripsi perilaku.
- Periksa apakah ada sesuatu yang tidak wajar terkait rentang waktu eksperimen tersebut (hari libur, peluncuran besar, dll.).
- Menentukan populasi pengguna mana yang menjadi sasaran eksperimen.
Memeriksa hal yang tidak boleh diubah
Sebagai bagian dari tahap "Validasi", sebelum benar-benar menjawab pertanyaan yang Anda minati (misalnya, "Apakah menambahkan gambar wajah meningkat atau menurunkan klik?"), abaikan variabilitas lainnya dalam data yang mungkin memengaruhi eksperimen. Contoh:
- Apakah jumlah pengguna berubah?
- Apakah jumlah kueri yang terpengaruh sudah muncul di semua subgrup saya?
- Apakah tingkat kesalahan berubah?
Pertanyaan-pertanyaan ini masuk akal baik untuk perbandingan eksperimen/kontrol dan saat memeriksa tren dari waktu ke waktu.
Standar pertama, kustom kedua
Saat melihat fitur baru dan data baru, Anda sangat tergoda untuk langsung beralih ke metrik yang baru atau khusus untuk fitur baru ini. Namun, Anda harus selalu melihat metrik standar terlebih dahulu, meskipun Anda berharap metrik tersebut akan berubah. Misalnya, saat menambahkan blok universal baru ke halaman, pastikan Anda memahami dampaknya pada metrik standar seperti "klik pada hasil web" sebelum mempelajari metrik kustom tentang hasil baru ini.
Metrik standar divalidasi dengan lebih baik dan lebih mungkin untuk benar dibandingkan dengan metrik kustom. Jika metrik kustom tidak sesuai dengan metrik standar, metrik kustom Anda mungkin salah.
Ukur dua kali, atau lebih
Khususnya jika Anda mencoba menangkap fenomena baru, cobalah untuk mengukur hal dasar yang sama dengan beberapa cara. Kemudian, tentukan apakah beberapa pengukuran ini konsisten. Dengan menggunakan beberapa pengukuran, Anda dapat mengidentifikasi bug dalam kode pengukuran atau logging, fitur yang tidak terduga dari data yang mendasari, atau langkah-langkah pemfilteran yang penting. Akan lebih baik jika Anda dapat menggunakan sumber data yang berbeda untuk pengukuran.
Memeriksa reproduksibilitas
Pemotongan dan konsistensi dari waktu ke waktu adalah contoh khusus pemeriksaan reproduksibilitas. Jika suatu fenomena penting dan bermakna, Anda akan melihatnya di seluruh populasi dan waktu pengguna yang berbeda. Namun, memverifikasi reproduksibilitas lebih dari sekadar melakukan dua pemeriksaan ini. Jika Anda mem-build model data, Anda ingin model tersebut stabil di seluruh gangguan kecil pada data yang mendasarinya. Penggunaan rentang waktu yang berbeda atau sub-sampel acak data juga akan memberi tahu Anda seberapa andal/dapat direproduksi model ini.
Jika model tidak dapat direproduksi, Anda mungkin tidak merekam sesuatu yang dasar tentang proses dasar yang menghasilkan data.
Periksa konsistensi dengan pengukuran sebelumnya
Sering kali Anda akan menghitung metrik yang mirip dengan hal-hal yang telah dihitung di masa lalu. Anda harus membandingkan metrik dengan metrik yang dilaporkan sebelumnya, meskipun pengukuran ini dilakukan pada populasi pengguna yang berbeda.
Misalnya, jika Anda melihat traffic kueri pada populasi khusus dan Anda mengukur bahwa waktu muat halaman rata-rata adalah 5 detik, tetapi analisis sebelumnya tentang semua pengguna memberikan waktu muat halaman rata-rata 2 detik, maka Anda perlu menyelidikinya. Jumlah Anda mungkin tepat untuk populasi ini, tetapi sekarang Anda harus melakukan lebih banyak pekerjaan untuk memvalidasinya.
Anda tidak perlu mendapatkan persetujuan yang tepat, tetapi Anda harus memiliki pemahaman yang sama. Jika tidak, anggaplah Anda salah sampai Anda dapat meyakinkan diri sendiri sepenuhnya. Sebagian besar data yang mengejutkan ternyata adalah kesalahan, bukan wawasan baru yang luar biasa.
Metrik baru harus diterapkan terlebih dahulu ke data/fitur lama
Jika Anda membuat metrik baru (mungkin dengan mengumpulkan sumber data baru) dan mencoba mempelajari sesuatu yang baru, Anda tidak akan tahu apakah metrik baru tersebut benar. Dengan metrik baru, Anda harus menerapkannya terlebih dahulu ke fitur atau data yang diketahui. Misalnya, jika Anda memiliki metrik baru untuk kepuasan pengguna, Anda harus memastikan metrik tersebut menginformasikan fitur terbaik Anda demi kepuasan pengguna. Jika Anda memiliki metrik baru di mana pengguna mengarahkan perhatian mereka ke halaman, pastikan metrik tersebut cocok dengan informasi yang kami ketahui dari pengamatan terhadap pelacakan mata atau studi penilai tentang pengaruh gambar terhadap perhatian halaman. Langkah ini akan memberikan validasi ketika Anda kemudian mempelajari sesuatu yang baru.
Membuat hipotesis dan mencari bukti
Biasanya, analisis data untuk masalah yang kompleks bersifat berulang.2 Anda akan menemukan anomali, tren, atau fitur data lainnya. Tentu saja, Anda akan mengembangkan teori untuk menjelaskan data ini. Jangan hanya mengembangkan teori dan mengklaimnya sebagai kebenaran. Cari bukti (di dalam atau di luar data) untuk mengkonfirmasi/menolak teori ini. Contoh:
- Jika Anda melihat sesuatu yang terlihat seperti tren pembelajaran, lihat apakah itu terwujud paling kuat pada pengguna frekuensi tinggi.
- Jika Anda yakin anomali disebabkan oleh peluncuran beberapa fitur, pastikan populasi yang menjadi tujuan peluncuran fitur tersebut adalah satu-satunya yang terpengaruh oleh anomali tersebut. Atau, pastikan besarnya perubahan konsisten dengan ekspektasi peluncuran.
- Jika Anda melihat tingkat pertumbuhan pengguna berubah di suatu lokalitas, coba temukan sumber eksternal yang memvalidasi tingkat perubahan populasi pengguna tersebut.
Analisis data yang baik akan memiliki cerita untuk diceritakan. Untuk memastikan bahwa ceritanya benar, Anda perlu menceritakan kisah pada diri sendiri, lalu cari bukti bahwa itu salah. Salah satu cara melakukannya adalah dengan bertanya pada diri sendiri, "Eksperimen apa yang akan saya jalankan yang akan memvalidasi/membatalkan validasi cerita yang saya ceritakan?" Meskipun Anda tidak/tidak dapat melakukan eksperimen ini, eksperimen ini dapat memberi Anda ide tentang cara memvalidasi dengan data yang Anda miliki.
Kabar baiknya adalah bahwa teori dan kemungkinan eksperimen ini dapat memunculkan pertanyaan baru yang melampaui upaya untuk mempelajari fitur atau data tertentu. Kemudian, Anda memasuki ranah pemahaman tidak hanya data ini, tetapi juga memperoleh metrik dan teknik baru untuk semua jenis analisis di masa mendatang.
Analisis eksploratif mendapat manfaat dari iterasi end-to-end
Saat melakukan analisis eksploratif, lakukan iterasi sebanyak mungkin dari keseluruhan analisis. Biasanya, Anda akan memiliki beberapa langkah untuk mengumpulkan, memproses, pemodelan sinyal, dll. Jika menghabiskan terlalu banyak waktu untuk sempurna dalam tahap pertama sinyal awal, Anda akan kehilangan peluang untuk melakukan lebih banyak iterasi dalam waktu yang sama. Selanjutnya, ketika Anda akhirnya melihat data pada akhirnya, Anda mungkin membuat penemuan yang mengubah arah Anda. Oleh karena itu, fokus awal Anda seharusnya bukan pada kesempurnaan, tetapi untuk mendapatkan sesuatu yang masuk akal dari awal hingga akhir. Tinggalkan catatan untuk Anda sendiri dan konfirmasi hal-hal seperti langkah-langkah pemfilteran dan permintaan yang tidak dapat diurai atau tidak biasa, tetapi jangan buang waktu mencoba untuk menghilangkan semuanya di awal analisis eksploratif.
Perhatikan masukan
Kami biasanya menetapkan berbagai metrik seputar keberhasilan pengguna. Misalnya, apakah pengguna mengklik hasil? Jika Anda kemudian memasukkan data itu kembali ke sistem (yang sebenarnya kita lakukan di beberapa tempat), Anda menciptakan banyak peluang untuk kebingungan dalam evaluasi.
Anda tidak dapat menggunakan metrik yang dimasukkan kembali ke sistem sebagai dasar untuk mengevaluasi perubahan. Jika menampilkan lebih banyak iklan yang mendapatkan lebih banyak klik, Anda tidak dapat menggunakan "lebih banyak klik" sebagai dasar untuk memutuskan bahwa pengguna lebih bahagia, meskipun "lebih banyak klik" sering kali berarti "lebih bahagia". Selain itu, Anda bahkan tidak boleh memotong variabel yang Anda masukkan kembali dan manipulasi, karena akan menghasilkan pergeseran campuran yang akan sulit atau tidak mungkin dipahami.
Pola pikir
Bagian ini menjelaskan cara bekerja dengan orang lain dan menyampaikan insight.
Analisis data dimulai dengan pertanyaan, bukan data atau teknik
Selalu ada motivasi untuk menganalisis data. Merumuskan kebutuhan Anda sebagai pertanyaan atau hipotesis membantu memastikan bahwa Anda mengumpulkan data yang harus Anda kumpulkan dan bahwa Anda memikirkan kemungkinan celah dalam data. Tentu saja, pertanyaan yang Anda ajukan harus berkembang saat Anda melihat data. Namun, analisis tanpa pertanyaan akan berakhir tanpa tujuan.
Hindari perangkap untuk menemukan beberapa teknik favorit, lalu hanya temukan bagian-bagian masalah yang dikerjakan dengan teknik ini. Sekali lagi, membuat pertanyaan yang jelas akan membantu Anda menghindari jebakan ini.
Bersikaplah skeptis dan juara
Saat bekerja dengan data, Anda harus menjadi juara insight yang Anda peroleh dan juga skeptis terhadap insight tersebut. Mudah-mudahan Anda akan menemukan beberapa fenomena menarik dalam data yang Anda lihat. Saat mendeteksi fenomena menarik, tanyakan pada diri Anda sendiri pertanyaan-pertanyaan berikut:
- Data lain apa yang dapat saya kumpulkan untuk menunjukkan betapa hebatnya data ini?
- Apa yang dapat saya temukan yang dapat membatalkan ini?”
Khususnya jika Anda melakukan analisis untuk seseorang yang benar-benar menginginkan jawaban tertentu (misalnya, "Fitur saya luar biasa!"), Anda harus bersikap skeptis untuk menghindari kesalahan.
Korelasi != Kausalitas
Saat membuat teori tentang data, kita sering kali ingin menegaskan bahwa "X menyebabkan Y"—misalnya, "halaman yang semakin lambat menyebabkan pengguna mengklik lebih sedikit." Bahkan xkcd tahu bahwa Anda tidak dapat begitu saja menetapkan kausalitas karena korelasi. Dengan mempertimbangkan cara memvalidasi teori kausal, biasanya Anda dapat mengembangkan pemahaman yang baik tentang seberapa kredibel teori kausal tersebut.
Terkadang, orang mencoba mempertahankan korelasi sebagai sesuatu yang bermakna dengan menegaskan bahwa sekalipun tidak ada hubungan kausalitas antara A dan B, pasti ada sesuatu yang mendasari kebetulan tersebut sehingga satu sinyal dapat menjadi indikator atau proxy yang baik untuk sinyal lainnya. Area ini berbahaya bagi beberapa masalah pengujian hipotesis; seperti yang xkcd juga diketahui, dengan eksperimen yang memadai dan dimensi yang cukup, beberapa sinyal akan selaras untuk eksperimen tertentu. Hal ini tidak berarti bahwa sinyal yang sama akan selaras di masa mendatang, jadi Anda memiliki kewajiban yang sama untuk mempertimbangkan teori kausal seperti "ada efek tersembunyi C yang menyebabkan A dan B" sehingga Anda dapat mencoba memvalidasi seberapa masuk akal hal ini.
Seorang analis data harus sering mengajukan pertanyaan kausal ini untuk orang-orang yang ingin menggunakan data. Anda harus menjelaskan kepada para konsumen apa yang dapat dan tidak dapat Anda katakan tentang kausalitas.
Bagikan dengan rekan sejawat terlebih dahulu, kemudian konsumen eksternal
Poin sebelumnya menyarankan beberapa cara agar Anda melakukan pemeriksaan dan validasi kesehatan dengan benar. Tetapi berbagi dengan rekan adalah salah satu cara terbaik untuk memaksa diri Anda melakukan semua hal ini. Rekan terampil dapat memberikan masukan yang berbeda secara kualitatif dengan konsumen data Anda, terutama karena konsumen pada umumnya memiliki agenda. {i>Peer<i} berguna di berbagai titik melalui analisis. Awalnya, Anda dapat mencari tahu tentang {i>getcha<i} yang diketahui sejawat, saran untuk hal-hal yang perlu diukur, dan penelitian sebelumnya di bidang ini. Menjelang akhir, rekan-rekan sangat ahli dalam menunjukkan keanehan, inkonsistensi, atau kebingungan lainnya.
Idealnya, Anda harus mendapatkan masukan dari rekan yang tahu sesuatu tentang data yang Anda lihat. Tetapi, bahkan rekan yang memiliki pengalaman analisis data umum sangatlah berharga.
Antisipasi dan terima ketidaktahuan dan kesalahan
Ada banyak batasan untuk apa yang bisa kita pelajari dari data. Nate Silver memberikan pertimbangan yang kuat dalam Sinyal dan Kebisingan bahwa hanya dengan mengakui batas-batas kepastian, kita dapat membuat kemajuan dalam prediksi yang lebih baik. Mengakui ketidaktahuan adalah kekuatan yang biasanya tidak langsung dihargai. Memang rasanya tidak nyaman, tetapi hal itu bermanfaat bagi Anda dan tim dalam jangka panjang. Rasanya lebih buruk ketika Anda melakukan kesalahan dan menemukannya kemudian (atau bahkan terlambat!), tetapi secara proaktif bertanggung jawab terhadap kesalahan Anda membuat Anda dihormati. Rasa hormat itu diterjemahkan menjadi kredibilitas dan dampak.
Pikiran penutup
Sebagian besar pekerjaan untuk melakukan analisis data yang baik tidak langsung terlihat oleh konsumen analisis Anda. Fakta bahwa Anda telah memeriksa ukuran populasi dengan cermat dan memvalidasi bahwa efeknya konsisten di seluruh browser mungkin tidak akan menjangkau kesadaran orang yang mencoba membuat keputusan dari data ini. Ini juga menjelaskan mengapa analisis data yang baik membutuhkan waktu lebih lama daripada yang seharusnya bagi kebanyakan orang (terutama ketika mereka hanya melihat output akhir). Bagian dari tugas kita sebagai analis adalah secara bertahap mengedukasi konsumen wawasan berbasis data tentang apa langkah-langkah ini dan mengapa hal itu penting.
Kebutuhan untuk semua manipulasi dan eksplorasi data ini juga menjabarkan persyaratan untuk bahasa dan lingkungan analisis data yang baik. Kita memiliki banyak alat yang tersedia untuk memeriksa data. Alat dan bahasa yang berbeda lebih cocok untuk berbagai teknik yang dibahas di atas; memilih alat yang tepat adalah keterampilan penting bagi seorang analis. Anda tidak boleh dibatasi oleh kemampuan alat yang paling nyaman bagi Anda; tugas Anda adalah memberikan insight yang sebenarnya, bukan menerapkan alat tertentu.
-
Hal ini terkadang disebut “analisis data awal”. Baca artikel wikipedia tentang analisis data ↩
-
Secara teknis, pengujian ini hanya boleh dilakukan secara iteratif jika Anda melakukan analisis eksploratif, bukan analisis konfirmasi. ↩