نویسنده: پاتریک رایلی
تشکر ویژه از: دایان تانگ، ریحان خان، الیزابت تاکر، امیر نجمی، هیلاری هاچینسون، جوئل دارنائر، دیل نیل، آنر بن آرتزی، سندرز کلاینفلد، دیوید وستبروک و بری روزنبرگ.
تاریخ
- آخرین به روز رسانی اصلی: ژوئن 2019
- نسخه قبلی برخی از این مطالب در وبلاگ غیر رسمی Google Data Science ظاهر شد: اکتبر 2016
بررسی اجمالی
استخراج حقیقت و بینش از انبوهی از داده ها یک کار قدرتمند اما مستعد خطا است. بهترین تحلیلگران داده و مهندسان داده اندیش به دلیل اظهارات معتبر از داده ها شهرت پیدا می کنند. اما آنها چه کاری انجام می دهند که به آنها اعتبار می دهد؟ من اغلب صفاتی مانند دقیق و روشمند را می شنوم، اما دقیق ترین و روشمندترین تحلیلگران واقعاً چه می کنند؟
این یک سوال پیش پا افتاده نیست، به خصوص با توجه به نوع داده هایی که به طور مرتب در گوگل جمع آوری می کنیم. نه تنها ما معمولاً با مجموعه داده های بسیار بزرگ کار می کنیم، بلکه این مجموعه داده ها بسیار غنی هستند. یعنی هر ردیف از دادهها معمولاً دارای ویژگیهای بسیار زیادی هستند. هنگامی که شما این را با توالی زمانی رویدادها برای یک کاربر معین ترکیب می کنید، تعداد زیادی راه برای مشاهده داده ها وجود دارد. این را با یک آزمایش روانشناسی آکادمیک معمولی مقایسه کنید که در آن نگاه کردن به تک تک نقاط داده برای محقق امری بی اهمیت است. مشکلات ناشی از مجموعه دادههای بزرگ و با ابعاد بالا بسیار متفاوت از مشکلاتی است که در بیشتر تاریخ کار علمی با آن مواجه هستیم.
این سند ایده ها و تکنیک هایی را که تحلیلگران دقیق و روشمند در مجموعه داده های بزرگ و با ابعاد بالا استفاده می کنند، خلاصه می کند. اگرچه این سند بر روی دادههای گزارشها و تجزیه و تحلیل تجربی تمرکز دارد، بسیاری از این تکنیکها به طور گستردهتری قابل استفاده هستند.
بقیه سند شامل سه بخش است که جنبه های مختلف تجزیه و تحلیل داده ها را پوشش می دهد:
- فنی : ایده ها و تکنیک هایی برای دستکاری و بررسی داده های شما.
- فرآیند : توصیه هایی در مورد نحوه برخورد با داده های خود، سؤالاتی که باید بپرسید و مواردی که باید بررسی شوند.
- طرز فکر : نحوه کار با دیگران و ارتباط بینش
فنی
بیایید به چند تکنیک برای بررسی داده های شما نگاه کنیم.
به توزیع های خود نگاه کنید
اکثر پزشکان از معیارهای خلاصه (مثلاً میانگین، میانه، انحراف معیار و غیره) برای برقراری ارتباط در مورد توزیع ها استفاده می کنند. با این حال، معمولاً باید نمایش های توزیع غنی تر را با تولید هیستوگرام، توابع توزیع تجمعی (CDF)، نمودارهای Quantile-Quantile (QQ) و غیره بررسی کنید. این نمایشهای غنیتر به شما امکان میدهند ویژگیهای مهم دادهها، مانند رفتار چندوجهی یا دسته قابل توجهی از نقاط پرت را شناسایی کنید.
موارد پرت را در نظر بگیرید
موارد پرت را به دقت بررسی کنید زیرا آنها می توانند قناری هایی در معدن زغال سنگ باشند که نشان دهنده مشکلات اساسی تری در تجزیه و تحلیل شما هستند. خوب است که موارد پرت را از داده های خود حذف کنید یا آنها را با هم در یک دسته "غیر معمول" قرار دهید، اما باید مطمئن شوید که چرا داده ها در آن دسته قرار گرفتند.
به عنوان مثال، نگاه کردن به جستجوهایی که کمترین تعداد کلیک را دارند، ممکن است کلیکهایی را بر روی عناصری که شما در شمارش آنها ناتوان هستید نشان دهد. نگاه کردن به جستجوهایی با بیشترین تعداد کلیک ممکن است کلیک هایی را نشان دهد که نباید آنها را بشمارید. از سوی دیگر، ممکن است برخی موارد دور از ذهن وجود داشته باشد که هرگز نتوانید توضیح دهید، بنابراین باید مراقب باشید که چقدر زمان برای این کار اختصاص می دهید.
سر و صدا را در نظر بگیرید
تصادفی وجود دارد و ما را فریب خواهد داد. برخی از مردم فکر می کنند، "گوگل داده های زیادی دارد. سر و صدا از بین می رود.» این به سادگی درست نیست. هر تعداد یا خلاصهای از دادههایی که تولید میکنید باید مفهومی از اعتماد شما به این تخمین داشته باشد (از طریق معیارهایی مانند فواصل اطمینان و مقادیر p ).
به نمونه ها نگاه کنید
هر زمان که کد تجزیه و تحلیل جدیدی تولید می کنید، باید به نمونه هایی از داده های زیربنایی و نحوه تفسیر کد شما این نمونه ها نگاه کنید. تولید کد کاری با هر پیچیدگی بدون انجام این مرحله تقریبا غیرممکن است. تجزیه و تحلیل شما بسیاری از جزئیات را از داده های اساسی برای تولید خلاصه های مفید حذف می کند. با نگاه کردن به پیچیدگی کامل مثالها، میتوانید اطمینان حاصل کنید که خلاصهسازی شما معقول است.
نحوه نمونه برداری از این نمونه ها مهم است:
- اگر دادههای اساسی را طبقهبندی میکنید، به نمونههای متعلق به هر کلاس نگاه کنید.
- اگر کلاس بزرگتر است، به نمونه های بیشتری نگاه کنید.
- اگر عددی را محاسبه میکنید (مثلاً زمان بارگذاری صفحه)، مطمئن شوید که به مثالهای شدید (سریعترین و کندترین 5٪ شاید؛ میدانید توزیع شما چگونه به نظر میرسد، درست است؟) و همچنین نقاط در سراسر فضا را بررسی کنید. از اندازه گیری ها
داده های خود را برش دهید
برش به این معنی است که داده های خود را به زیر گروه ها جدا کنید و به مقادیر متریک برای هر زیرگروه به طور جداگانه نگاه کنید. ما معمولاً ابعادی مانند مرورگر، محلی، دامنه، نوع دستگاه و غیره را برش میدهیم. اگر احتمالاً پدیده اساسی در بین زیرگروهها متفاوت عمل میکند، باید دادهها را برش دهید تا تأیید کنید که آیا واقعاً چنین است یا خیر. حتی اگر انتظار ندارید که برش نتایج متفاوتی را به همراه داشته باشد، نگاه کردن به چند برش برای سازگاری درونی به شما اطمینان بیشتری می دهد که کار درست را اندازه گیری می کنید. در برخی موارد، یک بخش خاص ممکن است داده های بدی داشته باشد، تعامل کاربر خراب باشد یا به نوعی تفاوت اساسی داشته باشد.
هر زمان که دادهها را برای مقایسه دو گروه برش میدهید (مانند آزمایش در مقابل کنترل، یا حتی «زمان A» در مقابل «زمان B»)، باید از تغییرات ترکیبی آگاه باشید. تغییر ترکیب زمانی است که مقدار داده در برش ها برای هر گروه متفاوت است. پارادوکس سیمپسون و سردرگمی های دیگر می تواند منجر شود. به طور کلی، اگر مقدار نسبی داده در یک برش در دو گروه شما یکسان باشد، میتوانید با خیال راحت مقایسه کنید.
اهمیت عملی را در نظر بگیرید
با حجم زیاد داده، تمرکز صرفاً بر اهمیت آماری یا دقت در جزئیات هر بیت داده می تواند وسوسه انگیز باشد. اما باید از خود بپرسید، "حتی اگر درست باشد که مقدار X 0.1٪ بیشتر از مقدار Y است، آیا این مهم است؟" اگر قادر به درک/ طبقه بندی بخشی از داده های خود نباشید، این می تواند به ویژه مهم باشد. اگر قادر به درک برخی رشتههای عامل کاربر در گزارشهای خود نیستید، اینکه آیا 0.1% یا 10% از دادهها را نشان میدهد، تفاوت زیادی در میزان بررسی آن موارد ایجاد میکند.
از طرف دیگر، گاهی اوقات حجم کمی از داده ها دارید. بسیاری از تغییرات از نظر آماری معنی دار به نظر نمی رسند، اما این با ادعای "خنثی" بودن این تغییرات متفاوت است. باید از خود بپرسید: "چقدر احتمال دارد که هنوز یک تغییر عملا قابل توجه وجود داشته باشد؟"
سازگاری را در طول زمان بررسی کنید
تقریباً همیشه باید داده ها را بر اساس واحدهای زمان برش دهید زیرا با تکامل سیستم های ما در طول زمان، اختلالات زیادی در داده های اساسی رخ می دهد. (ما اغلب از روزها استفاده می کنیم، اما واحدهای دیگر زمان نیز ممکن است مفید باشند.) در طول راه اندازی اولیه یک ویژگی یا جمع آوری داده های جدید، پزشکان اغلب به دقت بررسی می کنند که همه چیز طبق انتظار کار می کند. با این حال، بسیاری از شکستگی ها یا رفتارهای غیرمنتظره می توانند در طول زمان ایجاد شوند.
فقط به این دلیل که یک روز خاص یا مجموعه ای از روزها دور از ذهن است، به این معنی نیست که باید داده های مربوطه را کنار بگذارید. قبل از اینکه داده ها را دور بیندازید، از داده ها به عنوان یک قلاب برای تعیین دلیل علّی متفاوت بودن آن روز یا روزها استفاده کنید.
نگاه کردن به دادههای روز به روز همچنین به شما احساس تنوع در دادهها میدهد که در نهایت منجر به فواصل اطمینان یا ادعاهایی با اهمیت آماری میشود. این به طور کلی نباید جایگزین محاسبه دقیق فاصله اطمینان شود، اما اغلب با تغییرات بزرگ می توانید ببینید که آنها از نظر آماری فقط از نمودارهای روز به روز قابل توجه هستند.
تصدیق و شمارش فیلتر خود را
تقریباً هر تجزیه و تحلیل داده های بزرگ با فیلتر کردن داده ها در مراحل مختلف شروع می شود. شاید بخواهید فقط کاربران ایالات متحده، یا جستجوهای وب، یا جستجوهایی با تبلیغات را در نظر بگیرید. در هر صورت، شما باید:
- تصدیق کنید و به وضوح مشخص کنید که چه فیلتری انجام می دهید.
- تعداد داده های فیلتر شده را در هر مرحله بشمارید.
اغلب بهترین راه برای انجام دومی این است که تمام معیارهای خود را محاسبه کنید، حتی برای جمعیتی که از آن حذف می کنید. سپس میتوانید به آن دادهها نگاه کنید تا به سؤالاتی پاسخ دهید، "فیلتر هرزنامه چه بخشی از جستارها را حذف کرد؟" (بسته به دلیل فیلتر کردن، آن نوع تحلیل ممکن است همیشه امکان پذیر نباشد.)
نسبت ها باید دارای صورت و مخرج واضح باشند
جالبترین معیارها، نسبتهای معیارهای اساسی هستند. اغلب اوقات، فیلترهای جالب یا دیگر انتخاب های داده در تعاریف دقیق صورت و مخرج پنهان می شوند. به عنوان مثال، «پرسشها / کاربر» واقعاً به معنای کدام یک از موارد زیر است؟
- پرس و جوها / کاربران با یک پرس و جو
- پرسشها / کاربرانی که امروز از Google بازدید کردند
- پرس و جوها / کاربران با یک حساب فعال (بله، من باید فعال را تعریف کنم)
واضح بودن در اینجا می تواند از سردرگمی برای خود و دیگران جلوگیری کند.
مورد خاص دیگر معیارهایی است که فقط بر روی برخی از داده های شما قابل محاسبه است. به عنوان مثال "زمان برای کلیک کردن" به طور معمول به معنای "زمان کلیک کردن با توجه به اینکه یک کلیک وجود دارد." هر زمان که به معیاری مانند این نگاه می کنید، باید آن فیلتر را تصدیق کنید و به دنبال تغییر در فیلتر کردن بین گروه هایی باشید که در حال مقایسه هستید.
روند
این بخش حاوی توصیههایی در مورد نحوه نزدیک شدن به دادههای خود، سؤالاتی درباره دادههای خود و مواردی است که باید بررسی کنید.
اعتبارسنجی، توصیف و ارزیابی را جدا کنید
به نظر من تجزیه و تحلیل داده ها دارای سه مرحله مرتبط با یکدیگر است:
- اعتبار سنجی 1 : آیا معتقدم که داده ها خودسازگار هستند، به درستی جمع آوری شده اند، و نشان دهنده کاری است که فکر می کنم انجام می دهد؟
- توضیحات: تفسیر عینی این داده ها چیست؟ به عنوان مثال، "کاربران پرس و جوهای کمتری را به عنوان X طبقه بندی می کنند"، "در گروه آزمایش، زمان بین X و Y 1٪ بزرگتر است" و "کاربران کمتری به صفحه بعدی نتایج می روند."
- ارزیابی: با توجه به توضیحات، آیا داده ها به ما می گویند که اتفاق خوبی برای کاربر، برای گوگل یا برای جهان در حال رخ دادن است؟
با تفکیک این مراحل می توانید راحتتر با دیگران به توافق برسید. توضیحات باید مواردی باشد که همه بتوانند در مورد داده ها توافق کنند. ارزیابی احتمالاً بحث های بسیار بیشتری را برانگیزد. اگر توضیحات و ارزیابی را از هم جدا نکنید، احتمالاً فقط تفسیر دادههایی را خواهید دید که امیدوارید ببینید. علاوه بر این، ارزیابی بسیار سختتر است، زیرا تعیین ارزش هنجاری یک معیار، معمولاً از طریق مقایسههای دقیق با سایر ویژگیها و معیارها، سرمایهگذاری قابل توجهی را میطلبد.
این مراحل به صورت خطی پیشرفت نمی کنند. همانطور که داده ها را بررسی می کنید، ممکن است بین مراحل به جلو و عقب بپرید، اما در هر زمان باید مشخص کنید که در چه مرحله ای هستید.
آزمایش و تنظیم مجموعه داده را تأیید کنید
قبل از مشاهده هر داده، مطمئن شوید که زمینه جمع آوری داده ها را درک کرده اید. اگر داده ها از یک آزمایش می آیند، به پیکربندی آزمایش نگاه کنید. اگر از ابزار دقیق مشتری جدید است، مطمئن شوید که حداقل درک تقریبی از نحوه جمعآوری دادهها دارید. ممکن است پیکربندیهای غیرعادی/بد یا محدودیتهای جمعیت (مانند دادههای معتبر فقط برای Chrome) را مشاهده کنید. هر چیزی که در اینجا قابل توجه است ممکن است به شما در ساختن و تأیید نظریهها بعداً کمک کند. برخی موارد را باید در نظر گرفت:
- اگر آزمایش در حال اجرا است، خودتان آن را امتحان کنید. اگر نمی توانید، حداقل به تصاویر/توضیحات رفتار نگاه کنید.
- بررسی کنید که آیا در محدوده زمانی آزمایش (تعطیلات، پرتابهای بزرگ و غیره) چیز غیرعادی وجود دارد یا خیر.
- تعیین کنید که کدام جمعیت کاربران تحت آزمایش قرار گرفتند.
آنچه را که نباید تغییر کند بررسی کنید
بهعنوان بخشی از مرحله «اعتبارسنجی»، قبل از پاسخ دادن به سؤالی که به آن علاقه دارید (به عنوان مثال، «آیا افزودن تصویری از چهره، کلیکها را افزایش یا کاهش داد؟»)، هر گونه تغییر در دادهها را که ممکن است بر آزمایش مثلا:
- آیا تعداد کاربران تغییر کرده است؟
- آیا تعداد مناسب پرس و جوهای تحت تأثیر در همه زیرگروه های من نشان داده شد؟
- آیا نرخ خطا تغییر کرد؟
این سوالات هم برای مقایسه آزمایش/کنترل و هم هنگام بررسی روندها در طول زمان معقول هستند.
اول استاندارد، دوم سفارشی
وقتی به ویژگیهای جدید و دادههای جدید نگاه میکنید، بهویژه وسوسهانگیز است که مستقیماً به معیارهایی که جدید یا ویژه این ویژگی جدید هستند، بروید. با این حال، شما همیشه باید ابتدا به معیارهای استاندارد نگاه کنید، حتی اگر انتظار دارید تغییر کنند. به عنوان مثال، هنگام افزودن یک بلوک جهانی جدید به صفحه، مطمئن شوید که تأثیر آن بر معیارهای استاندارد مانند «کلیکها بر روی نتایج وب» را قبل از بررسی معیارهای سفارشی در مورد این نتیجه جدید درک کردهاید.
معیارهای استاندارد بسیار بهتر از معیارهای سفارشی معتبر هستند و احتمال درستی آنها بیشتر است. اگر معیارهای سفارشی شما با معیارهای استاندارد شما منطقی نیست، احتمالاً معیارهای سفارشی شما اشتباه است.
دو بار یا بیشتر اندازه گیری کنید
به خصوص اگر در تلاش برای ثبت یک پدیده جدید هستید، سعی کنید همان چیز زیربنایی را به روش های مختلف اندازه گیری کنید. سپس، تعیین کنید که آیا این اندازه گیری های چندگانه سازگار هستند یا خیر. با استفاده از اندازهگیریهای متعدد، میتوانید اشکالات در اندازهگیری یا کد ثبتنام، ویژگیهای غیرمنتظره دادههای زیربنایی، یا فیلتر کردن مراحل مهم را شناسایی کنید. حتی بهتر است اگر بتوانید از منابع داده های مختلف برای اندازه گیری ها استفاده کنید.
تکرارپذیری را بررسی کنید
هم برش و هم ثبات در طول زمان نمونه های خاصی از بررسی تکرارپذیری هستند. اگر یک پدیده مهم و معنادار است، باید آن را در جمعیتها و زمانهای مختلف کاربران مشاهده کنید. اما تأیید تکرارپذیری بیش از انجام این دو بررسی است. اگر در حال ساخت مدلهایی از دادهها هستید، میخواهید آن مدلها در میان آشفتگیهای کوچک در دادههای زیربنایی پایدار باشند. استفاده از بازههای زمانی مختلف یا نمونههای فرعی تصادفی از دادههای شما نیز به شما نشان میدهد که این مدل چقدر قابل اعتماد/تکرارپذیر است.
اگر یک مدل قابل تکرار نباشد، احتمالاً چیزی اساسی در مورد فرآیند زیربنایی که داده ها را تولید کرده است، دریافت نمی کنید.
سازگاری با اندازه گیری های گذشته را بررسی کنید
اغلب شما معیاری را محاسبه می کنید که مشابه مواردی است که در گذشته شمارش شده است. شما باید معیارهای خود را با معیارهای گزارش شده در گذشته مقایسه کنید، حتی اگر این اندازهگیریها بر روی جمعیتهای مختلف کاربران باشد.
به عنوان مثال، اگر به ترافیک پرس و جو در یک جمعیت خاص نگاه می کنید و اندازه می گیرید که میانگین زمان بارگذاری صفحه 5 ثانیه است، اما تجزیه و تحلیل های گذشته روی همه کاربران میانگین زمان بارگذاری صفحه را 2 ثانیه نشان می دهد، پس باید بررسی کنید. ممکن است شماره شما برای این جمعیت مناسب باشد، اما اکنون باید کار بیشتری برای تأیید این موضوع انجام دهید.
شما نیازی به توافق دقیق ندارید، اما باید در همان محوطه باشید. اگر اینطور نیستید، تا زمانی که بتوانید کاملاً خود را متقاعد کنید، فرض کنید که اشتباه می کنید. بیشتر دادههای شگفتانگیز یک خطا خواهند بود، نه یک بینش جدید افسانهای.
معیارهای جدید باید ابتدا روی داده ها/ویژگی های قدیمی اعمال شوند
اگر معیارهای جدیدی ایجاد کنید (احتمالاً با جمعآوری یک منبع داده جدید) و سعی کنید چیز جدیدی یاد بگیرید، نمیدانید که معیار جدید شما درست است یا خیر. با معیارهای جدید، ابتدا باید آنها را روی یک ویژگی یا داده شناخته شده اعمال کنید. به عنوان مثال، اگر معیار جدیدی برای رضایت کاربر دارید، باید مطمئن شوید که بهترین ویژگیهای شما را به رضایت شما میگوید. اگر معیار جدیدی برای مکانهایی که کاربران توجه خود را به صفحه معطوف میکنند دارید، مطمئن شوید که با آنچه ما از بررسیهای ردیابی چشم یا ارزیابیکنندهها در مورد چگونگی تأثیر تصاویر بر توجه صفحه میدانیم مطابقت دارد. انجام این کار زمانی که برای یادگیری چیزی جدید می روید، اعتبار سنجی را فراهم می کند.
فرضیه بسازید و به دنبال شواهد باشید
به طور معمول، تجزیه و تحلیل داده ها برای یک مسئله پیچیده تکراری است. 2 ناهنجاری ها، روندها یا سایر ویژگی های داده ها را کشف خواهید کرد. به طور طبیعی، شما نظریه هایی را برای توضیح این داده ها ایجاد خواهید کرد. فقط یک نظریه ایجاد نکنید و آن را درست اعلام نکنید. به دنبال شواهد (داخل یا خارج از داده ها) برای تایید/رد این نظریه باشید. مثلا:
- اگر چیزی را می بینید که شبیه یک روند یادگیری است، ببینید آیا آن را به شدت در کاربران فرکانس بالا نشان می دهد یا خیر.
- اگر فکر میکنید ناهنجاری به دلیل راهاندازی برخی از ویژگیها است، مطمئن شوید که جمعیتی که ویژگی برای آن راهاندازی شده است، تنها جمعیتی است که تحت تأثیر این ناهنجاری قرار گرفته است. از طرف دیگر، مطمئن شوید که بزرگی تغییر با انتظارات پرتاب مطابقت دارد.
- اگر میبینید که نرخ رشد کاربران در یک منطقه تغییر میکند، سعی کنید یک منبع خارجی پیدا کنید که آن نرخ تغییر جمعیت کاربر را تأیید کند.
تجزیه و تحلیل خوب داده ها داستانی برای گفتن دارد. برای اینکه مطمئن شوید داستان درست است، باید داستان را برای خودتان بگویید، سپس به دنبال شواهدی مبنی بر اشتباه بودن آن باشید. یکی از راههای انجام این کار این است که از خود بپرسید، "چه آزمایشهایی را اجرا میکنم که داستانی را که میگویم اعتبار/بی اعتبار کند؟" حتی اگر این آزمایشها را انجام ندهید/نمیتوانید، ممکن است ایدههایی در مورد نحوه اعتبارسنجی با دادههایی که دارید به شما بدهد.
خبر خوب این است که این نظریهها و آزمایشهای احتمالی ممکن است به خطوط جدیدی از تحقیق منجر شود که فراتر از تلاش برای یادگیری در مورد هر ویژگی یا دادهای خاص است. سپس وارد قلمرو درک نه تنها این داده ها، بلکه استخراج معیارها و تکنیک های جدید برای انواع تحلیل های آینده می شوید.
تحلیل اکتشافی از تکرار انتها به انتها سود می برد
هنگام انجام تجزیه و تحلیل اکتشافی، تا آنجا که ممکن است تکرارهای کل آنالیز را انجام دهید. معمولاً شما چندین مرحله از جمعآوری سیگنال، پردازش، مدلسازی و غیره خواهید داشت. اگر برای تکمیل اولین مرحله سیگنالهای اولیه خود زمان زیادی صرف کنید، فرصتهایی را برای انجام تکرارهای بیشتر در همان زمان از دست خواهید داد. علاوه بر این، هنگامی که در پایان به داده های خود نگاه می کنید، ممکن است اکتشافاتی داشته باشید که مسیر شما را تغییر دهد. بنابراین، تمرکز اولیه شما نباید روی کمال باشد، بلکه باید روی دستیابی به چیزی معقول باشد. برای خود یادداشت بگذارید و مواردی مانند فیلتر کردن مراحل و درخواستهای غیرقابل تجزیه یا غیرعادی را تأیید کنید، اما زمان را برای خلاص شدن از شر همه آنها در ابتدای تجزیه و تحلیل اکتشافی تلف نکنید.
مراقب بازخورد باشید
ما معمولاً معیارهای مختلفی را در مورد موفقیت کاربر تعریف می کنیم. به عنوان مثال، آیا کاربران روی یک نتیجه کلیک کردند؟ اگر سپس آن داده ها را به سیستم برگردانید (که در واقع در تعدادی از مکان ها انجام می دهیم)، فرصت های زیادی برای سردرگمی ارزیابی ایجاد می کنید.
شما نمی توانید از معیاری که به سیستم شما بازگردانده می شود به عنوان مبنایی برای ارزیابی تغییرات خود استفاده کنید. اگر آگهیهای بیشتری را نشان دهید که کلیکهای بیشتری دریافت میکنند، نمیتوانید از «کلیکهای بیشتر» به عنوان مبنایی برای تصمیمگیری درباره شادتر بودن کاربران استفاده کنید، حتی اگر «کلیکهای بیشتر» اغلب به معنای «شادتر» است. بعلاوه، شما حتی نباید بر روی متغیرهایی که بازخورد داده و دستکاری کرده اید، برش دهید، زیرا باعث تغییر ترکیبی می شود که درک آن دشوار یا غیرممکن خواهد بود.
طرز فکر
این بخش نحوه کار با دیگران و ارتباط بینش را شرح می دهد.
تجزیه و تحلیل داده ها با سؤالات شروع می شود، نه داده ها یا تکنیک
همیشه انگیزه ای برای تجزیه و تحلیل داده ها وجود دارد. فرمولبندی نیازهای خود بهعنوان سؤال یا فرضیه کمک میکند تا اطمینان حاصل شود که در حال جمعآوری دادههایی هستید که باید جمعآوری کنید و به شکافهای احتمالی در دادهها فکر میکنید. البته، سوالاتی که میپرسید باید با نگاه کردن به دادهها تکامل پیدا کنند. با این حال، تجزیه و تحلیل بدون سوال در نهایت بی هدف خواهد بود.
از تله یافتن تکنیک مورد علاقه و سپس یافتن بخش هایی از مشکلات که این تکنیک روی آنها کار می کند اجتناب کنید. باز هم، ایجاد سؤالات روشن به شما کمک می کند تا از این دام جلوگیری کنید.
هم شکاک باشید و هم قهرمان
همانطور که با داده ها کار می کنید، باید هم قهرمان بینش هایی شوید که به دست می آورید و هم نسبت به آنها بدبین باشید. امیدواریم در داده هایی که به آنها نگاه می کنید، پدیده های جالبی پیدا کنید. هنگامی که یک پدیده جالب را تشخیص دادید، سوالات زیر را از خود بپرسید:
- چه داده های دیگری را می توانم جمع آوری کنم تا نشان دهم این چقدر عالی است؟
- چه چیزی می توانستم پیدا کنم که این را باطل کند؟»
مخصوصاً در مواردی که در حال تجزیه و تحلیل برای کسی هستید که واقعاً یک پاسخ خاص میخواهد (مثلاً «ویژگی من عالی است!»)، برای جلوگیری از خطا، باید شکاک را بازی کنید.
همبستگی != علیت
هنگام ایجاد تئوری در مورد دادهها، اغلب میخواهیم ادعا کنیم که «X باعث Y میشود» – برای مثال، «آهستهتر شدن صفحه باعث میشود کاربران کمتر کلیک کنند». حتی xkcd می داند که به دلیل همبستگی نمی توان به سادگی علیت را ایجاد کرد. با در نظر گرفتن اینکه چگونه یک نظریه علیت را تأیید می کنید، معمولاً می توانید درک خوبی از اعتبار یک نظریه علی ایجاد کنید.
گاهی اوقات، افراد سعی میکنند با این ادعا که حتی اگر هیچ رابطه علّی بین A و B وجود نداشته باشد، یک همبستگی معنادار را حفظ کنند، باید چیزی زیربنای تصادف وجود داشته باشد تا یک سیگنال بتواند نشانگر یا نماینده خوبی برای سیگنال دیگر باشد. این ناحیه برای مشکلات متعدد آزمون فرضیه خطرناک است. همانطور که xkcd نیز میداند ، با توجه به آزمایشهای کافی و ابعاد کافی، برخی از سیگنالها برای یک آزمایش خاص تراز خواهند شد. این بدان معنا نیست که سیگنالهای یکسانی در آینده همسو خواهند شد، بنابراین شما باید یکسان را در نظر بگیرید که یک نظریه علی مانند "یک اثر پنهان C وجود دارد که باعث A و B می شود" را در نظر بگیرید تا بتوانید اعتبار سنجی کنید که چقدر قابل قبول است. این هست.
یک تحلیلگر داده اغلب باید این سؤالات علّی را برای افرادی که می خواهند از داده ها استفاده کنند، بررسی کند. شما باید با آن مصرف کنندگان روشن باشید که در مورد علیت چه می توانید بگویید و چه نمی توانید بگویید.
اول با همتایان، در مرحله بعد با مصرف کنندگان خارجی به اشتراک بگذارید
نکات قبلی راههایی را پیشنهاد میکنند که میتوانید انواع درستی از بررسی و اعتبارسنجی درستی را انجام دهید. اما اشتراک گذاری با همسالان یکی از بهترین راه ها برای وادار کردن خودتان به انجام همه این کارها است. یک همتای ماهر میتواند بازخورد کیفی متفاوتی نسبت به مصرفکنندگان دادههای شما ارائه دهد، بهویژه که مصرفکنندگان معمولاً دستور کار دارند. همتایان در چندین نقطه از طریق تجزیه و تحلیل مفید هستند. در همان ابتدا میتوانید درباره مشکلاتی که همتایانتان درباره آنها میدانند، پیشنهادهایی برای اندازهگیری و تحقیقات گذشته در این زمینه اطلاعات کسب کنید. نزدیک به پایان، همسالان در اشاره به موارد عجیب و غریب، ناسازگاری یا سایر سردرگمی ها بسیار خوب هستند.
در حالت ایدهآل، باید از یک همتا بازخورد دریافت کنید که چیزی در مورد دادههایی که شما به آن نگاه میکنید میداند، اما حتی یک همتا با تجربهی کلی در تجزیه و تحلیل دادهها بسیار ارزشمند است.
جهل و اشتباه را انتظار داشته باشید و بپذیرید
محدودیت های زیادی برای آنچه می توانیم از داده ها یاد بگیریم وجود دارد. نیت سیلور در The Signal and the Noise یک مورد قوی ارائه میکند که تنها با پذیرش محدودیتهای اطمینان خود میتوانیم در پیشبینی بهتر پیشرفت کنیم. اعتراف به نادانی یک قدرت است که معمولاً فوراً پاداش نمیگیرد. در آن زمان احساس بدی دارد، اما در درازمدت برای شما و تیمتان یک مزیت بزرگ است. وقتی اشتباهی مرتکب میشوید و آن را دیرتر (یا حتی خیلی دیر) کشف میکنید، حتی بدتر میشود، اما تسلط فعالانه به اشتباهاتتان باعث احترام شما میشود. این احترام به اعتبار و تأثیر ترجمه می شود.
بستن افکار
بسیاری از کارها برای انجام تجزیه و تحلیل خوب داده ها بلافاصله برای مصرف کنندگان تجزیه و تحلیل شما آشکار نیست. این واقعیت که شما اندازه جمعیت را به دقت بررسی کردید و تأیید کردید که تأثیر آن در مرورگرها ثابت است، احتمالاً به آگاهی افرادی که سعی در تصمیم گیری از این داده ها دارند نمی رسد. این همچنین توضیح میدهد که چرا تجزیه و تحلیل دادههای خوب بیشتر از آن چیزی که برای اکثر مردم به نظر میرسد طول میکشد (مخصوصاً زمانی که آنها فقط خروجی نهایی را میبینند). بخشی از کار ما به عنوان تحلیلگر این است که به تدریج بینش های مبتنی بر داده را در مورد اینکه این مراحل چیست و چرا اهمیت دارند به مصرف کنندگان آموزش دهیم.
نیاز به تمام این دستکاریها و کاوشهای دادههای شما، الزامات یک زبان و محیط تجزیه و تحلیل دادهها را نیز مشخص میکند. ما ابزارهای زیادی برای بررسی داده ها در دسترس داریم. ابزارها و زبانهای مختلف برای تکنیکهای مختلفی که در بالا مورد بحث قرار گرفت، مناسبتر هستند. انتخاب ابزار مناسب یک مهارت مهم برای یک تحلیلگر است. شما نباید توسط قابلیت های ابزاری که بیشتر با آن راحت هستید محدود شوید. وظیفه شما ارائه بینش واقعی است، نه استفاده از ابزار خاصی.
گاهی اوقات به این "تحلیل داده های اولیه" گفته می شود. مقاله ویکی پدیا در مورد تجزیه و تحلیل داده ها را ببینید ↩
از نظر فنی، تنها زمانی باید تکراری باشد که در حال انجام تجزیه و تحلیل اکتشافی هستید، نه تحلیل تاییدی. ↩