نویسنده: پاتریک رایلی
تشکر ویژه از: دایان تانگ، ریحان خان، الیزابت تاکر، امیر نجمی، هیلاری هاچینسون، جوئل دارنائر، دیل نیل، آنر بن آرتزی، سندرز کلاینفلد، دیوید وستبروک و بری روزنبرگ.
تاریخچه
- آخرین به روز رسانی اصلی: ژوئن 2019
- نسخه قبلی برخی از این مطالب در وبلاگ غیر رسمی Google Data Science ظاهر شد: اکتبر 2016
نمای کلی
استخراج حقیقت و بینش از انبوهی از داده ها یک کار قدرتمند اما مستعد خطا است. بهترین تحلیلگران داده و مهندسان داده اندیش به دلیل اظهارات معتبر از داده ها شهرت پیدا می کنند. اما آنها چه کاری انجام می دهند که به آنها اعتبار می دهد؟ من اغلب صفاتی مانند دقیق و روشمند را می شنوم، اما دقیق ترین و روشمندترین تحلیلگران واقعاً چه می کنند؟
این یک سوال پیش پا افتاده نیست، به خصوص با توجه به نوع داده هایی که به طور مرتب در گوگل جمع آوری می کنیم. نه تنها ما معمولاً با مجموعه داده های بسیار بزرگ کار می کنیم، بلکه این مجموعه داده ها بسیار غنی هستند. یعنی هر ردیف از دادهها معمولاً دارای ویژگیهای بسیار زیادی هستند. هنگامی که شما این را با توالی زمانی رویدادها برای یک کاربر معین ترکیب می کنید، تعداد زیادی راه برای مشاهده داده ها وجود دارد. این را با یک آزمایش روانشناسی آکادمیک معمولی مقایسه کنید که در آن نگاه کردن به تک تک نقاط داده برای محقق امری بی اهمیت است. مشکلات ناشی از مجموعه دادههای بزرگ و با ابعاد بالا بسیار متفاوت از مشکلاتی است که در بیشتر تاریخ کار علمی با آن مواجه هستیم.
این سند ایده ها و تکنیک هایی را که تحلیلگران دقیق و روشمند در مجموعه داده های بزرگ و با ابعاد بالا استفاده می کنند، خلاصه می کند. اگرچه این سند بر روی دادههای گزارشها و تجزیه و تحلیل تجربی تمرکز دارد، بسیاری از این تکنیکها به طور گستردهتری قابل استفاده هستند.
بقیه سند شامل سه بخش است که جنبه های مختلف تجزیه و تحلیل داده ها را پوشش می دهد:
- فنی : ایده ها و تکنیک هایی برای دستکاری و بررسی داده های شما.
- فرآیند : توصیه هایی در مورد نحوه برخورد با داده های خود، سؤالاتی که باید بپرسید و مواردی که باید بررسی شوند.
- طرز فکر : نحوه کار با دیگران و ارتباط بینش
فنی
بیایید به چند تکنیک برای بررسی داده های شما نگاه کنیم.
به توزیع های خود نگاه کنید
اکثر پزشکان از معیارهای خلاصه (مثلاً میانگین، میانه، انحراف معیار و غیره) برای برقراری ارتباط در مورد توزیع ها استفاده می کنند. با این حال، معمولاً باید نمایش های توزیع غنی تر را با تولید هیستوگرام، توابع توزیع تجمعی (CDF)، نمودارهای Quantile-Quantile (QQ) و غیره بررسی کنید. این نمایشهای غنیتر به شما امکان میدهند ویژگیهای مهم دادهها، مانند رفتار چندوجهی یا دسته قابل توجهی از نقاط پرت را شناسایی کنید.
موارد پرت را در نظر بگیرید
موارد پرت را به دقت بررسی کنید زیرا آنها می توانند قناری هایی در معدن زغال سنگ باشند که نشان دهنده مشکلات اساسی تری در تجزیه و تحلیل شما هستند. خوب است که موارد پرت را از داده های خود حذف کنید یا آنها را با هم در یک دسته "غیر معمول" قرار دهید، اما باید مطمئن شوید که چرا داده ها در آن دسته قرار گرفتند.
به عنوان مثال، نگاه کردن به جستجوهایی که کمترین تعداد کلیک را دارند، ممکن است کلیکهایی را بر روی عناصری که شما در شمارش آنها ناتوان هستید نشان دهد. نگاه کردن به جستجوهایی با بیشترین تعداد کلیک ممکن است کلیک هایی را نشان دهد که نباید آنها را بشمارید. از سوی دیگر، ممکن است برخی موارد دور از ذهن وجود داشته باشد که هرگز نتوانید توضیح دهید، بنابراین باید مراقب باشید که چقدر زمان برای این کار اختصاص می دهید.
سر و صدا را در نظر بگیرید
تصادفی وجود دارد و ما را فریب خواهد داد. برخی از مردم فکر می کنند، "گوگل داده های زیادی دارد. سر و صدا از بین می رود.» این به سادگی درست نیست. هر تعداد یا خلاصهای از دادههایی که تولید میکنید باید مفهومی از اعتماد شما به این تخمین داشته باشد (از طریق معیارهایی مانند فواصل اطمینان و مقادیر p ).
به نمونه ها نگاه کنید
هر زمان که کد تجزیه و تحلیل جدیدی تولید می کنید، باید به نمونه هایی از داده های زیربنایی و نحوه تفسیر کد شما این نمونه ها نگاه کنید. تولید کد کاری با هر پیچیدگی بدون انجام این مرحله تقریبا غیرممکن است. تجزیه و تحلیل شما بسیاری از جزئیات را از داده های اساسی برای تولید خلاصه های مفید حذف می کند. با نگاه کردن به پیچیدگی کامل مثالها، میتوانید اطمینان حاصل کنید که خلاصهسازی شما معقول است.
نحوه نمونه برداری از این نمونه ها مهم است:
- اگر دادههای اساسی را طبقهبندی میکنید، به نمونههای متعلق به هر کلاس نگاه کنید.
- اگر کلاس بزرگتر است، به نمونه های بیشتری نگاه کنید.
- اگر عددی را محاسبه میکنید (مثلاً زمان بارگذاری صفحه)، مطمئن شوید که به مثالهای شدید (سریعترین و کندترین 5٪ شاید؛ میدانید توزیع شما چگونه به نظر میرسد، درست است؟) و همچنین نقاط در سراسر فضا را بررسی کنید. از اندازه گیری ها
داده های خود را برش دهید
برش به این معنی است که داده های خود را به زیر گروه ها جدا کنید و به مقادیر متریک برای هر زیرگروه به طور جداگانه نگاه کنید. ما معمولاً ابعادی مانند مرورگر، محلی، دامنه، نوع دستگاه و غیره را برش میدهیم. اگر احتمالاً پدیده اساسی در بین زیرگروهها متفاوت عمل میکند، باید دادهها را برش دهید تا تأیید کنید که آیا واقعاً چنین است یا خیر. حتی اگر انتظار ندارید که برش نتایج متفاوتی را به همراه داشته باشد، نگاه کردن به چند برش برای سازگاری درونی به شما اطمینان بیشتری می دهد که کار درست را اندازه گیری می کنید. در برخی موارد، یک بخش خاص ممکن است داده های بدی داشته باشد، تعامل کاربر خراب باشد یا به نوعی تفاوت اساسی داشته باشد.
هر زمان که دادهها را برای مقایسه دو گروه برش میدهید (مانند آزمایش در مقابل کنترل، یا حتی «زمان A» در مقابل «زمان B»)، باید از تغییرات ترکیبی آگاه باشید. تغییر ترکیب زمانی است که مقدار داده در برش ها برای هر گروه متفاوت است. پارادوکس سیمپسون و سردرگمی های دیگر می تواند منجر شود. به طور کلی، اگر مقدار نسبی داده در یک برش در دو گروه شما یکسان باشد، میتوانید با خیال راحت مقایسه کنید.
اهمیت عملی را در نظر بگیرید
با حجم زیاد داده، تمرکز صرفاً بر اهمیت آماری یا دقت در جزئیات هر بیت داده می تواند وسوسه انگیز باشد. اما باید از خود بپرسید، "حتی اگر درست باشد که مقدار X 0.1٪ بیشتر از مقدار Y است، آیا این مهم است؟" اگر قادر به درک/ طبقه بندی بخشی از داده های خود نباشید، این می تواند به ویژه مهم باشد. اگر قادر به درک برخی رشتههای عامل کاربر در گزارشهای خود نیستید، اینکه آیا 0.1% یا 10% از دادهها را نشان میدهد، تفاوت زیادی در میزان بررسی آن موارد ایجاد میکند.
از طرف دیگر، گاهی اوقات حجم کمی از داده ها دارید. بسیاری از تغییرات از نظر آماری معنی دار به نظر نمی رسند، اما این با ادعای "خنثی" بودن این تغییرات متفاوت است. باید از خود بپرسید: "چقدر احتمال دارد که هنوز یک تغییر عملا قابل توجه وجود داشته باشد؟"
ثبات را در طول زمان بررسی کنید
تقریباً همیشه باید داده ها را بر اساس واحدهای زمان برش دهید زیرا با تکامل سیستم های ما در طول زمان، اختلالات زیادی در داده های اساسی رخ می دهد. (ما اغلب از روزها استفاده می کنیم، اما واحدهای دیگر زمان نیز ممکن است مفید باشند.) در طول راه اندازی اولیه یک ویژگی یا جمع آوری داده های جدید، پزشکان اغلب به دقت بررسی می کنند که همه چیز طبق انتظار کار می کند. با این حال، بسیاری از شکستگی ها یا رفتارهای غیرمنتظره می توانند در طول زمان ایجاد شوند.
فقط به این دلیل که یک روز خاص یا مجموعه ای از روزها دور از ذهن است، به این معنی نیست که باید داده های مربوطه را کنار بگذارید. قبل از اینکه داده ها را دور بیندازید، از داده ها به عنوان یک قلاب برای تعیین دلیل علّی متفاوت بودن آن روز یا روزها استفاده کنید.
نگاه کردن به دادههای روز به روز همچنین به شما احساس تنوع در دادهها میدهد که در نهایت منجر به فواصل اطمینان یا ادعاهایی با اهمیت آماری میشود. این به طور کلی نباید جایگزین محاسبه دقیق فاصله اطمینان شود، اما اغلب با تغییرات بزرگ می توانید ببینید که آنها از نظر آماری فقط از نمودارهای روز به روز قابل توجه هستند.
تصدیق و شمارش فیلتر خود را
تقریباً هر تجزیه و تحلیل داده های بزرگ با فیلتر کردن داده ها در مراحل مختلف شروع می شود. شاید بخواهید فقط کاربران ایالات متحده، یا جستجوهای وب، یا جستجوهایی با تبلیغات را در نظر بگیرید. در هر صورت، شما باید:
- تصدیق کنید و به وضوح مشخص کنید که چه فیلتری انجام می دهید.
- تعداد داده های فیلتر شده را در هر مرحله بشمارید.
اغلب بهترین راه برای انجام دومی این است که تمام معیارهای خود را محاسبه کنید، حتی برای جمعیتی که از آن حذف می کنید. سپس میتوانید به آن دادهها نگاه کنید تا به سؤالاتی پاسخ دهید، "فیلتر هرزنامه چه بخشی از جستارها را حذف کرد؟" (بسته به دلیل فیلتر کردن، آن نوع تحلیل ممکن است همیشه امکان پذیر نباشد.)
نسبت ها باید دارای صورت و مخرج واضح باشند
جالبترین معیارها، نسبتهای معیارهای اساسی هستند. اغلب اوقات، فیلترهای جالب یا دیگر انتخاب های داده در تعاریف دقیق صورت و مخرج پنهان می شوند. به عنوان مثال، «پرسشها / کاربر» واقعاً به معنای کدام یک از موارد زیر است؟
- پرس و جوها / کاربران با یک پرس و جو
- پرسشها / کاربرانی که امروز از Google بازدید کردند
- پرس و جوها / کاربران با یک حساب فعال (بله، من باید فعال را تعریف کنم)
واضح بودن در اینجا می تواند از سردرگمی برای خود و دیگران جلوگیری کند.
مورد خاص دیگر معیارهایی است که فقط بر روی برخی از داده های شما قابل محاسبه است. به عنوان مثال "زمان برای کلیک کردن" به طور معمول به معنای "زمان کلیک کردن با توجه به اینکه یک کلیک وجود دارد." هر زمان که به معیاری مانند این نگاه می کنید، باید آن فیلتر را تصدیق کنید و به دنبال تغییر در فیلتر کردن بین گروه هایی باشید که در حال مقایسه هستید.
فرآیند
این بخش حاوی توصیههایی در مورد نحوه نزدیک شدن به دادههای خود، سؤالاتی درباره دادههای خود و مواردی است که باید بررسی کنید.
اعتبارسنجی، توصیف و ارزیابی را جدا کنید
به نظر من تجزیه و تحلیل داده ها دارای سه مرحله مرتبط با یکدیگر است:
- اعتبار سنجی 1 : آیا معتقدم که داده ها خودسازگار هستند، به درستی جمع آوری شده اند، و نشان دهنده کاری است که فکر می کنم انجام می دهد؟
- توضیحات: تفسیر عینی این داده ها چیست؟ به عنوان مثال، "کاربران پرس و جوهای کمتری را به عنوان X طبقه بندی می کنند"، "در گروه آزمایش، زمان بین X و Y 1٪ بزرگتر است" و "کاربران کمتری به صفحه بعدی نتایج می روند."
- ارزیابی: با توجه به توضیحات، آیا داده ها به ما می گویند که اتفاق خوبی برای کاربر، برای گوگل یا برای جهان در حال رخ دادن است؟
با تفکیک این مراحل می توانید راحتتر با دیگران به توافق برسید. توضیحات باید مواردی باشد که همه بتوانند در مورد داده ها توافق کنند. ارزیابی احتمالاً بحث های بسیار بیشتری را برانگیزد. اگر توضیحات و ارزیابی را از هم جدا نکنید، احتمالاً فقط تفسیر دادههایی را خواهید دید که امیدوارید ببینید. علاوه بر این، ارزیابی بسیار سختتر است، زیرا تعیین ارزش هنجاری یک معیار، معمولاً از طریق مقایسههای دقیق با سایر ویژگیها و معیارها، سرمایهگذاری قابل توجهی را میطلبد.
این مراحل به صورت خطی پیشرفت نمی کنند. همانطور که داده ها را بررسی می کنید، ممکن است بین مراحل به جلو و عقب بپرید، اما در هر زمان باید مشخص کنید که در چه مرحله ای هستید.
آزمایش و تنظیم مجموعه داده را تأیید کنید
قبل از مشاهده هر داده، مطمئن شوید که زمینه جمع آوری داده ها را درک کرده اید. اگر داده ها از یک آزمایش می آیند، به پیکربندی آزمایش نگاه کنید. اگر از ابزار دقیق مشتری جدید است، مطمئن شوید که حداقل درک تقریبی از نحوه جمعآوری دادهها دارید. ممکن است پیکربندیهای غیرعادی/بد یا محدودیتهای جمعیت (مانند دادههای معتبر فقط برای Chrome) را مشاهده کنید. هر چیزی که در اینجا قابل توجه است ممکن است به شما در ساختن و تأیید نظریهها بعداً کمک کند. برخی موارد را باید در نظر گرفت:
- اگر آزمایش در حال اجرا است، خودتان آن را امتحان کنید. اگر نمی توانید، حداقل به تصاویر/توضیحات رفتار نگاه کنید.
- بررسی کنید که آیا در محدوده زمانی آزمایش (تعطیلات، پرتابهای بزرگ و غیره) چیز غیرعادی وجود دارد یا خیر.
- تعیین کنید که کدام جمعیت کاربران تحت آزمایش قرار گرفتند.
آنچه را که نباید تغییر کند بررسی کنید
بهعنوان بخشی از مرحله «اعتبارسنجی»، قبل از پاسخ دادن به سؤالی که به آن علاقه دارید (به عنوان مثال، «آیا افزودن تصویری از چهره، کلیکها را افزایش یا کاهش داد؟»)، هر گونه تغییر در دادهها را که ممکن است بر آزمایش به عنوان مثال:
- آیا تعداد کاربران تغییر کرده است؟
- آیا تعداد مناسب پرس و جوهای تحت تأثیر در همه زیرگروه های من نشان داده شد؟
- آیا نرخ خطا تغییر کرد؟
این سوالات هم برای مقایسه آزمایش/کنترل و هم هنگام بررسی روندها در طول زمان معقول هستند.
اول استاندارد، دوم سفارشی
وقتی به ویژگیهای جدید و دادههای جدید نگاه میکنید، بهویژه وسوسهانگیز است که مستقیماً به معیارهایی که جدید یا ویژه این ویژگی جدید هستند، بروید. با این حال، شما همیشه باید ابتدا به معیارهای استاندارد نگاه کنید، حتی اگر انتظار دارید تغییر کنند. به عنوان مثال، هنگام افزودن یک بلوک جهانی جدید به صفحه، مطمئن شوید که تأثیر آن بر معیارهای استاندارد مانند «کلیکها بر روی نتایج وب» را قبل از بررسی معیارهای سفارشی در مورد این نتیجه جدید درک کردهاید.
معیارهای استاندارد بسیار بهتر از معیارهای سفارشی معتبر هستند و احتمال درستی آنها بیشتر است. اگر معیارهای سفارشی شما با معیارهای استاندارد شما منطقی نیست، احتمالاً معیارهای سفارشی شما اشتباه است.
دو بار یا بیشتر اندازه گیری کنید
به خصوص اگر در تلاش برای ثبت یک پدیده جدید هستید، سعی کنید همان چیز زیربنایی را به روش های مختلف اندازه گیری کنید. سپس، تعیین کنید که آیا این اندازه گیری های چندگانه سازگار هستند یا خیر. با استفاده از اندازهگیریهای متعدد، میتوانید اشکالات در اندازهگیری یا کد ثبتنام، ویژگیهای غیرمنتظره دادههای زیربنایی، یا فیلتر کردن مراحل مهم را شناسایی کنید. حتی بهتر است اگر بتوانید از منابع داده های مختلف برای اندازه گیری ها استفاده کنید.
تکرارپذیری را بررسی کنید
هم برش و هم ثبات در طول زمان نمونه های خاصی از بررسی تکرارپذیری هستند. اگر یک پدیده مهم و معنادار است، باید آن را در جمعیتها و زمانهای مختلف کاربران مشاهده کنید. اما تأیید تکرارپذیری بیش از انجام این دو بررسی است. اگر در حال ساخت مدلهایی از دادهها هستید، میخواهید آن مدلها در میان آشفتگیهای کوچک در دادههای زیربنایی پایدار باشند. استفاده از بازههای زمانی مختلف یا نمونههای فرعی تصادفی از دادههای شما نیز به شما نشان میدهد که این مدل چقدر قابل اعتماد/تکرارپذیر است.
اگر یک مدل قابل تکرار نباشد، احتمالاً چیزی اساسی در مورد فرآیند زیربنایی که داده ها را تولید کرده است، دریافت نمی کنید.
سازگاری با اندازه گیری های گذشته را بررسی کنید
اغلب شما معیاری را محاسبه می کنید که مشابه مواردی است که در گذشته شمارش شده است. شما باید معیارهای خود را با معیارهای گزارش شده در گذشته مقایسه کنید، حتی اگر این اندازهگیریها بر روی جمعیتهای مختلف کاربران باشد.
به عنوان مثال، اگر به ترافیک پرس و جو در یک جمعیت خاص نگاه می کنید و اندازه می گیرید که میانگین زمان بارگذاری صفحه 5 ثانیه است، اما تجزیه و تحلیل های گذشته روی همه کاربران میانگین زمان بارگذاری صفحه را 2 ثانیه نشان می دهد، پس باید بررسی کنید. ممکن است شماره شما برای این جمعیت مناسب باشد، اما اکنون باید کار بیشتری برای تأیید این موضوع انجام دهید.
شما نیازی به توافق دقیق ندارید، اما باید در همان محوطه باشید. اگر اینطور نیستید، تا زمانی که بتوانید کاملاً خود را متقاعد کنید، فرض کنید که اشتباه می کنید. بیشتر دادههای شگفتانگیز یک خطا خواهند بود، نه یک بینش جدید افسانهای.
معیارهای جدید باید ابتدا روی داده ها/ویژگی های قدیمی اعمال شوند
اگر معیارهای جدیدی ایجاد کنید (احتمالاً با جمعآوری یک منبع داده جدید) و سعی کنید چیز جدیدی یاد بگیرید، نمیدانید که معیار جدید شما درست است یا خیر. با معیارهای جدید، ابتدا باید آنها را روی یک ویژگی یا داده شناخته شده اعمال کنید. به عنوان مثال، اگر معیار جدیدی برای رضایت کاربر دارید، باید مطمئن شوید که بهترین ویژگیهای شما را به رضایت شما میگوید. اگر معیار جدیدی برای مکانهایی که کاربران توجه خود را به صفحه معطوف میکنند دارید، مطمئن شوید که با آنچه ما از بررسیهای ردیابی چشم یا ارزیابیکنندهها در مورد چگونگی تأثیر تصاویر بر توجه صفحه میدانیم مطابقت دارد. انجام این کار زمانی که برای یادگیری چیزی جدید می روید، اعتبار سنجی را فراهم می کند.
فرضیه بسازید و به دنبال شواهد باشید
به طور معمول، تجزیه و تحلیل داده ها برای یک مسئله پیچیده تکراری است. 2 ناهنجاری ها، روندها یا سایر ویژگی های داده ها را کشف خواهید کرد. به طور طبیعی، شما نظریه هایی را برای توضیح این داده ها ایجاد خواهید کرد. فقط یک نظریه ایجاد نکنید و آن را درست اعلام نکنید. به دنبال شواهد (داخل یا خارج از داده ها) برای تایید/رد این نظریه باشید. به عنوان مثال:
- اگر چیزی را می بینید که شبیه یک روند یادگیری است، ببینید آیا آن را به شدت در کاربران فرکانس بالا نشان می دهد یا خیر.
- اگر فکر میکنید ناهنجاری به دلیل راهاندازی برخی از ویژگیها است، مطمئن شوید که جمعیتی که ویژگی برای آن راهاندازی شده است، تنها جمعیتی است که تحت تأثیر این ناهنجاری قرار گرفته است. از طرف دیگر، مطمئن شوید که بزرگی تغییر با انتظارات پرتاب مطابقت دارد.
- اگر میبینید که نرخ رشد کاربران در یک منطقه تغییر میکند، سعی کنید یک منبع خارجی پیدا کنید که آن نرخ تغییر جمعیت کاربر را تأیید کند.
تجزیه و تحلیل خوب داده ها داستانی برای گفتن دارد. برای اینکه مطمئن شوید داستان درست است، باید داستان را برای خودتان بگویید، سپس به دنبال شواهدی مبنی بر اشتباه بودن آن باشید. یکی از راههای انجام این کار این است که از خود بپرسید، "چه آزمایشهایی را اجرا میکنم که داستانی را که میگویم اعتبار/بی اعتبار کند؟" حتی اگر این آزمایشها را انجام ندهید/نمیتوانید، ممکن است ایدههایی در مورد نحوه اعتبارسنجی با دادههایی که دارید به شما بدهد.
خبر خوب این است که این نظریهها و آزمایشهای احتمالی ممکن است به خطوط جدیدی از تحقیق منجر شود که فراتر از تلاش برای یادگیری در مورد هر ویژگی یا دادهای خاص است. سپس وارد قلمرو درک نه تنها این داده ها، بلکه استخراج معیارها و تکنیک های جدید برای انواع تحلیل های آینده می شوید.
تحلیل اکتشافی از تکرار انتها به انتها سود می برد
هنگام انجام تجزیه و تحلیل اکتشافی، تا آنجا که ممکن است تکرارهای کل آنالیز را انجام دهید. معمولاً شما چندین مرحله از جمعآوری سیگنال، پردازش، مدلسازی و غیره خواهید داشت. اگر برای تکمیل اولین مرحله سیگنالهای اولیه خود زمان زیادی صرف کنید، فرصتهایی را برای انجام تکرارهای بیشتر در همان زمان از دست خواهید داد. علاوه بر این، هنگامی که در پایان به داده های خود نگاه می کنید، ممکن است اکتشافاتی داشته باشید که مسیر شما را تغییر دهد. بنابراین، تمرکز اولیه شما نباید روی کمال باشد، بلکه باید روی دستیابی به چیزی معقول باشد. برای خود یادداشت بگذارید و مواردی مانند فیلتر کردن مراحل و درخواستهای غیرقابل تجزیه یا غیرعادی را تأیید کنید، اما زمان را برای خلاص شدن از شر همه آنها در ابتدای تجزیه و تحلیل اکتشافی تلف نکنید.
مراقب بازخورد باشید
ما معمولاً معیارهای مختلفی را در مورد موفقیت کاربر تعریف می کنیم. به عنوان مثال، آیا کاربران روی یک نتیجه کلیک کردند؟ اگر سپس آن داده ها را به سیستم برگردانید (که در واقع در تعدادی از مکان ها انجام می دهیم)، فرصت های زیادی برای سردرگمی ارزیابی ایجاد می کنید.
شما نمی توانید از معیاری که به سیستم شما بازگردانده می شود به عنوان مبنایی برای ارزیابی تغییرات خود استفاده کنید. اگر آگهیهای بیشتری را نشان دهید که کلیکهای بیشتری دریافت میکنند، نمیتوانید از «کلیکهای بیشتر» به عنوان مبنایی برای تصمیمگیری درباره شادتر بودن کاربران استفاده کنید، حتی اگر «کلیکهای بیشتر» اغلب به معنای «شادتر» است. بعلاوه، شما حتی نباید بر روی متغیرهایی که بازخورد داده و دستکاری کرده اید، برش دهید، زیرا باعث تغییر ترکیبی می شود که درک آن دشوار یا غیرممکن خواهد بود.
طرز فکر
این بخش نحوه کار با دیگران و ارتباط بینش را شرح می دهد.
تجزیه و تحلیل داده ها با سؤالات شروع می شود، نه داده ها یا تکنیک
همیشه انگیزه ای برای تجزیه و تحلیل داده ها وجود دارد. فرمولبندی نیازهای خود بهعنوان سؤال یا فرضیه کمک میکند تا اطمینان حاصل شود که در حال جمعآوری دادههایی هستید که باید جمعآوری کنید و به شکافهای احتمالی در دادهها فکر میکنید. البته، سوالاتی که میپرسید باید با نگاه کردن به دادهها تکامل پیدا کنند. با این حال، تجزیه و تحلیل بدون سوال در نهایت بی هدف خواهد بود.
از تله یافتن تکنیک مورد علاقه و سپس یافتن بخش هایی از مشکلات که این تکنیک روی آنها کار می کند اجتناب کنید. باز هم، ایجاد سؤالات روشن به شما کمک می کند تا از این دام جلوگیری کنید.
هم شکاک باشید و هم قهرمان
همانطور که با داده ها کار می کنید، باید هم قهرمان بینش هایی شوید که به دست می آورید و هم نسبت به آنها بدبین باشید. امیدواریم در داده هایی که به آنها نگاه می کنید، پدیده های جالبی پیدا کنید. هنگامی که یک پدیده جالب را تشخیص دادید، سوالات زیر را از خود بپرسید:
- چه داده های دیگری را می توانم جمع آوری کنم تا نشان دهم این چقدر عالی است؟
- چه چیزی می توانستم پیدا کنم که این را باطل کند؟»
مخصوصاً در مواردی که در حال تجزیه و تحلیل برای کسی هستید که واقعاً یک پاسخ خاص میخواهد (مثلاً «ویژگی من عالی است!»)، برای جلوگیری از خطا، باید شکاک را بازی کنید.
همبستگی != علیت
هنگام ایجاد تئوری در مورد دادهها، اغلب میخواهیم ادعا کنیم که «X باعث Y میشود» – برای مثال، «آهستهتر شدن صفحه باعث میشود کاربران کمتر کلیک کنند». حتی xkcd می داند که به دلیل همبستگی نمی توان به سادگی علیت را ایجاد کرد. با در نظر گرفتن اینکه چگونه یک نظریه علیت را تأیید می کنید، معمولاً می توانید درک خوبی از اعتبار یک نظریه علی ایجاد کنید.
گاهی اوقات، افراد سعی میکنند با این ادعا که حتی اگر هیچ رابطه علّی بین A و B وجود نداشته باشد، یک همبستگی معنادار را حفظ کنند، باید چیزی زیربنای تصادف وجود داشته باشد تا یک سیگنال بتواند نشانگر یا نماینده خوبی برای سیگنال دیگر باشد. این ناحیه برای مشکلات متعدد آزمون فرضیه خطرناک است. همانطور که xkcd نیز میداند ، با توجه به آزمایشهای کافی و ابعاد کافی، برخی از سیگنالها برای یک آزمایش خاص تراز خواهند شد. این بدان معنا نیست که سیگنالهای یکسانی در آینده همسو خواهند شد، بنابراین شما باید یکسان را در نظر بگیرید که یک نظریه علی مانند "یک اثر پنهان C وجود دارد که باعث A و B می شود" را در نظر بگیرید تا بتوانید اعتبار سنجی کنید که چقدر قابل قبول است. این است.
یک تحلیلگر داده اغلب باید این سؤالات علّی را برای افرادی که می خواهند از داده ها استفاده کنند، بررسی کند. شما باید با آن مصرف کنندگان روشن باشید که در مورد علیت چه می توانید بگویید و چه نمی توانید بگویید.
اول با همتایان، در مرحله بعد با مصرف کنندگان خارجی به اشتراک بگذارید
نکات قبلی راههایی را پیشنهاد میکنند که میتوانید انواع درستی از بررسی و اعتبارسنجی درستی را انجام دهید. اما اشتراک گذاری با همسالان یکی از بهترین راه ها برای وادار کردن خودتان به انجام همه این کارها است. یک همتای ماهر میتواند بازخورد کیفی متفاوتی نسبت به مصرفکنندگان دادههای شما ارائه دهد، بهویژه که مصرفکنندگان معمولاً دستور کار دارند. همتایان در چندین نقطه از طریق تجزیه و تحلیل مفید هستند. در همان ابتدا میتوانید درباره مشکلاتی که همتایانتان درباره آنها میدانند، پیشنهادهایی برای اندازهگیری و تحقیقات گذشته در این زمینه اطلاعات کسب کنید. نزدیک به پایان، همسالان در اشاره به موارد عجیب و غریب، ناسازگاری یا سایر سردرگمی ها بسیار خوب هستند.
در حالت ایدهآل، باید از یک همتا بازخورد دریافت کنید که چیزی در مورد دادههایی که شما به آن نگاه میکنید میداند، اما حتی یک همتا با تجربهی کلی در تجزیه و تحلیل دادهها بسیار ارزشمند است.
جهل و اشتباه را انتظار داشته باشید و بپذیرید
محدودیت های زیادی برای آنچه می توانیم از داده ها یاد بگیریم وجود دارد. نیت سیلور در The Signal and the Noise یک مورد قوی ارائه میکند که تنها با پذیرش محدودیتهای اطمینان خود میتوانیم در پیشبینی بهتر پیشرفت کنیم. اعتراف به نادانی یک قدرت است که معمولاً فوراً پاداش نمیگیرد. در آن زمان احساس بدی دارد، اما در درازمدت برای شما و تیمتان یک مزیت بزرگ است. وقتی اشتباهی مرتکب میشوید و آن را دیرتر (یا حتی خیلی دیر) کشف میکنید، حتی بدتر میشود، اما تسلط فعالانه به اشتباهاتتان باعث احترام شما میشود. این احترام به اعتبار و تأثیر ترجمه می شود.
بستن افکار
بسیاری از کارها برای انجام تجزیه و تحلیل خوب داده ها بلافاصله برای مصرف کنندگان تجزیه و تحلیل شما آشکار نیست. این واقعیت که شما اندازه جمعیت را به دقت بررسی کردید و تأیید کردید که تأثیر آن در مرورگرها ثابت است، احتمالاً به آگاهی افرادی که سعی در تصمیم گیری از این داده ها دارند نمی رسد. این همچنین توضیح میدهد که چرا تجزیه و تحلیل دادههای خوب بیشتر از آن چیزی که برای اکثر مردم به نظر میرسد طول میکشد (مخصوصاً زمانی که آنها فقط خروجی نهایی را میبینند). بخشی از کار ما به عنوان تحلیلگر این است که به تدریج بینش های مبتنی بر داده را در مورد اینکه این مراحل چیست و چرا اهمیت دارند به مصرف کنندگان آموزش دهیم.
نیاز به تمام این دستکاریها و کاوشهای دادههای شما، الزامات یک زبان و محیط تجزیه و تحلیل دادهها را نیز مشخص میکند. ما ابزارهای زیادی برای بررسی داده ها در دسترس داریم. ابزارها و زبانهای مختلف برای تکنیکهای مختلفی که در بالا مورد بحث قرار گرفت، مناسبتر هستند. انتخاب ابزار مناسب یک مهارت مهم برای یک تحلیلگر است. شما نباید توسط قابلیت های ابزاری که بیشتر با آن راحت هستید محدود شوید. وظیفه شما ارائه بینش واقعی است، نه استفاده از ابزار خاصی.
گاهی اوقات به این "تحلیل داده های اولیه" گفته می شود. مقاله ویکی پدیا در مورد تجزیه و تحلیل داده ها را ببینید ↩
از نظر فنی، تنها زمانی باید تکراری باشد که در حال انجام تجزیه و تحلیل اکتشافی هستید، نه تحلیل تاییدی. ↩
نویسنده: پاتریک رایلی
تشکر ویژه از: دایان تانگ، ریحان خان، الیزابت تاکر، امیر نجمی، هیلاری هاچینسون، جوئل دارنائر، دیل نیل، آنر بن آرتزی، سندرز کلاینفلد، دیوید وستبروک و بری روزنبرگ.
تاریخچه
- آخرین به روز رسانی اصلی: ژوئن 2019
- نسخه قبلی برخی از این مطالب در وبلاگ غیر رسمی Google Data Science ظاهر شد: اکتبر 2016
نمای کلی
استخراج حقیقت و بینش از انبوهی از داده ها یک کار قدرتمند اما مستعد خطا است. بهترین تحلیلگران داده و مهندسان داده اندیش به دلیل اظهارات معتبر از داده ها شهرت پیدا می کنند. اما آنها چه کاری انجام می دهند که به آنها اعتبار می دهد؟ من اغلب صفاتی مانند دقیق و روشمند را می شنوم، اما دقیق ترین و روشمندترین تحلیلگران واقعاً چه می کنند؟
این یک سوال پیش پا افتاده نیست، به خصوص با توجه به نوع داده هایی که به طور مرتب در گوگل جمع آوری می کنیم. نه تنها ما معمولاً با مجموعه داده های بسیار بزرگ کار می کنیم، بلکه این مجموعه داده ها بسیار غنی هستند. یعنی هر ردیف از دادهها معمولاً دارای ویژگیهای بسیار زیادی هستند. هنگامی که شما این را با توالی زمانی رویدادها برای یک کاربر معین ترکیب می کنید، تعداد زیادی راه برای مشاهده داده ها وجود دارد. این را با یک آزمایش روانشناسی آکادمیک معمولی مقایسه کنید که در آن نگاه کردن به تک تک نقاط داده برای محقق امری بی اهمیت است. مشکلات ناشی از مجموعه دادههای بزرگ و با ابعاد بالا بسیار متفاوت از مشکلاتی است که در بیشتر تاریخ کار علمی با آن مواجه هستیم.
این سند ایده ها و تکنیک هایی را که تحلیلگران دقیق و روشمند در مجموعه داده های بزرگ و با ابعاد بالا استفاده می کنند، خلاصه می کند. اگرچه این سند بر روی دادههای گزارشها و تجزیه و تحلیل تجربی تمرکز دارد، بسیاری از این تکنیکها به طور گستردهتری قابل استفاده هستند.
بقیه سند شامل سه بخش است که جنبه های مختلف تجزیه و تحلیل داده ها را پوشش می دهد:
- فنی : ایده ها و تکنیک هایی برای دستکاری و بررسی داده های شما.
- فرآیند : توصیه هایی در مورد نحوه برخورد با داده های خود، سؤالاتی که باید بپرسید و مواردی که باید بررسی شوند.
- طرز فکر : نحوه کار با دیگران و ارتباط بینش
فنی
بیایید به چند تکنیک برای بررسی داده های شما نگاه کنیم.
به توزیع های خود نگاه کنید
اکثر پزشکان از معیارهای خلاصه (مثلاً میانگین، میانه، انحراف معیار و غیره) برای برقراری ارتباط در مورد توزیع ها استفاده می کنند. با این حال، معمولاً باید نمایش های توزیع غنی تر را با تولید هیستوگرام، توابع توزیع تجمعی (CDF)، نمودارهای Quantile-Quantile (QQ) و غیره بررسی کنید. این نمایشهای غنیتر به شما امکان میدهند ویژگیهای مهم دادهها، مانند رفتار چندوجهی یا دسته قابل توجهی از نقاط پرت را شناسایی کنید.
موارد پرت را در نظر بگیرید
موارد پرت را به دقت بررسی کنید زیرا آنها می توانند قناری هایی در معدن زغال سنگ باشند که نشان دهنده مشکلات اساسی تری در تجزیه و تحلیل شما هستند. خوب است که موارد پرت را از داده های خود حذف کنید یا آنها را با هم در یک دسته "غیر معمول" قرار دهید، اما باید مطمئن شوید که چرا داده ها در آن دسته قرار گرفتند.
به عنوان مثال، نگاه کردن به جستجوهایی که کمترین تعداد کلیک را دارند، ممکن است کلیکهایی را بر روی عناصری که شما در شمارش آنها ناتوان هستید نشان دهد. نگاه کردن به جستجوهایی با بیشترین تعداد کلیک ممکن است کلیک هایی را نشان دهد که نباید آنها را بشمارید. از سوی دیگر، ممکن است برخی موارد دور از ذهن وجود داشته باشد که هرگز نتوانید توضیح دهید، بنابراین باید مراقب باشید که چقدر زمان برای این کار اختصاص می دهید.
سر و صدا را در نظر بگیرید
تصادفی وجود دارد و ما را فریب خواهد داد. برخی از مردم فکر می کنند، "گوگل داده های زیادی دارد. سر و صدا از بین می رود.» این به سادگی درست نیست. هر تعداد یا خلاصهای از دادههایی که تولید میکنید باید مفهومی از اعتماد شما به این تخمین داشته باشد (از طریق معیارهایی مانند فواصل اطمینان و مقادیر p ).
به نمونه ها نگاه کنید
هر زمان که کد تجزیه و تحلیل جدیدی تولید می کنید، باید به نمونه هایی از داده های زیربنایی و نحوه تفسیر کد شما این نمونه ها نگاه کنید. تولید کد کاری با هر پیچیدگی بدون انجام این مرحله تقریبا غیرممکن است. تجزیه و تحلیل شما بسیاری از جزئیات را از داده های اساسی برای تولید خلاصه های مفید حذف می کند. با نگاه کردن به پیچیدگی کامل مثالها، میتوانید اطمینان حاصل کنید که خلاصهسازی شما معقول است.
نحوه نمونه برداری از این نمونه ها مهم است:
- اگر دادههای اساسی را طبقهبندی میکنید، به نمونههای متعلق به هر کلاس نگاه کنید.
- اگر کلاس بزرگتر است، به نمونه های بیشتری نگاه کنید.
- اگر عددی را محاسبه میکنید (مثلاً زمان بارگذاری صفحه)، مطمئن شوید که به مثالهای شدید (سریعترین و کندترین 5٪ شاید؛ میدانید توزیع شما چگونه به نظر میرسد، درست است؟) و همچنین نقاط در سراسر فضا را بررسی کنید. از اندازه گیری ها
داده های خود را برش دهید
برش به این معنی است که داده های خود را به زیر گروه ها جدا کنید و به مقادیر متریک برای هر زیرگروه به طور جداگانه نگاه کنید. ما معمولاً ابعادی مانند مرورگر، محلی، دامنه، نوع دستگاه و غیره را برش میدهیم. اگر احتمالاً پدیده اساسی در بین زیرگروهها متفاوت عمل میکند، باید دادهها را برش دهید تا تأیید کنید که آیا واقعاً چنین است یا خیر. حتی اگر انتظار ندارید که برش نتایج متفاوتی را به همراه داشته باشد، نگاه کردن به چند برش برای سازگاری درونی به شما اطمینان بیشتری می دهد که کار درست را اندازه گیری می کنید. در برخی موارد، یک بخش خاص ممکن است داده های بدی داشته باشد، تعامل کاربر خراب باشد یا به نوعی تفاوت اساسی داشته باشد.
هر زمان که دادهها را برای مقایسه دو گروه برش میدهید (مانند آزمایش در مقابل کنترل، یا حتی «زمان A» در مقابل «زمان B»)، باید از تغییرات ترکیبی آگاه باشید. تغییر ترکیب زمانی است که مقدار داده در برش ها برای هر گروه متفاوت است. پارادوکس سیمپسون و سردرگمی های دیگر می تواند منجر شود. به طور کلی، اگر مقدار نسبی داده در یک برش در دو گروه شما یکسان باشد، میتوانید با خیال راحت مقایسه کنید.
اهمیت عملی را در نظر بگیرید
با حجم زیاد داده، تمرکز صرفاً بر اهمیت آماری یا دقت در جزئیات هر بیت داده می تواند وسوسه انگیز باشد. اما باید از خود بپرسید، "حتی اگر درست باشد که مقدار X 0.1٪ بیشتر از مقدار Y است، آیا این مهم است؟" این امر می تواند به ویژه در صورتی که نتوانید بخشی از داده های خود را درک و طبقه بندی کنید ، بسیار مهم باشد. اگر قادر به درک برخی از رشته های عامل کاربر در سیاهههای مربوط نیستید ، خواه 0.1 ٪ یا 10 ٪ از داده ها تفاوت بزرگی در میزان بررسی آن موارد ایجاد می کند.
از طرف دیگر ، شما گاهی اوقات حجم کمی از داده ها دارید. بسیاری از تغییرات از نظر آماری قابل توجه به نظر نمی رسند ، اما این متفاوت از ادعای این تغییرات "خنثی" است. شما باید از خود بپرسید ، "چقدر احتمال دارد که هنوز یک تغییر عملی قابل توجه وجود داشته باشد؟"
با گذشت زمان ، ثبات را بررسی کنید
شما تقریباً همیشه باید داده ها را توسط واحدهای زمان خرد کنید زیرا بسیاری از اختلالات در داده های اساسی با تکامل سیستم های ما با گذشت زمان اتفاق می افتد. (ما اغلب از روزها استفاده می کنیم ، اما سایر واحدهای زمان نیز ممکن است مفید باشند.) در هنگام راه اندازی اولیه یک ویژگی یا جمع آوری داده های جدید ، پزشکان اغلب با دقت بررسی می کنند که همه چیز همانطور که انتظار می رود کار می کند. با این حال ، بسیاری از شکستگی ها یا رفتار غیر منتظره می تواند با گذشت زمان بوجود بیاید.
فقط به این دلیل که یک روز یا مجموعه روزهای خاص یک چیز خاص است به این معنی نیست که شما باید داده های مربوطه را کنار بگذارید. از داده ها به عنوان قلاب استفاده کنید تا دلیل علی را تعیین کنید که چرا آن روز یا روزها قبل از دور انداختن آن متفاوت است.
با نگاهی به داده های روزانه نیز به شما احساس تغییر در داده ها می دهد که در نهایت منجر به فواصل اطمینان یا ادعای اهمیت آماری می شود. این به طور کلی نباید جایگزین محاسبه دقیق و اعتماد به نفس شود ، اما غالباً با تغییرات بزرگ می توانید ببینید که آنها فقط از نمودارهای روزهای روز از نظر آماری قابل توجه خواهند بود.
فیلتر کردن خود را تأیید کنید و حساب کنید
تقریباً هر تجزیه و تحلیل داده های بزرگ با فیلتر کردن داده ها در مراحل مختلف شروع می شود. شاید شما می خواهید فقط کاربران ما یا جستجوهای وب یا جستجوهای تبلیغاتی را در نظر بگیرید. در هر صورت ، شما باید:
- تأیید کنید و به وضوح مشخص کنید که چه فیلتر می کنید.
- مقدار داده های فیلتر شده در هر مرحله را بشمارید.
اغلب بهترین راه برای انجام دومی ، محاسبه تمام معیارهای خود ، حتی برای جمعیتی است که شما از آن استفاده می کنید. سپس می توانید به آن داده ها نگاه کنید تا به سؤالاتی مانند "چه کسری از نمایش داده ها فیلتر اسپم را حذف کرده است؟" (بسته به اینکه چرا فیلتر می کنید ، ممکن است آن نوع تجزیه و تحلیل همیشه امکان پذیر نباشد.)
نسبت ها باید شمارشگر و مخرج واضحی داشته باشند
بیشتر معیارهای جالب نسبت اقدامات اساسی هستند. اغلب اوقات ، فیلتر جالب یا سایر گزینه های داده در تعاریف دقیق شمارنده و مخرج پنهان است. به عنوان مثال ، "نمایش داده ها / کاربر" در واقع کدام یک از موارد زیر است؟
- نمایش داده شد / کاربران با پرس و جو
- نمایش داده شد / کاربرانی که امروز از Google بازدید کرده اند
- نمایش داده شد / کاربران با یک حساب فعال (بله ، من باید فعال را تعریف کنم)
کاملاً واضح بودن در اینجا می تواند از سردرگمی برای خود و دیگران جلوگیری کند.
مورد خاص دیگر معیارهایی است که فقط در برخی از داده های شما قابل محاسبه است. به عنوان مثال "زمان برای کلیک" به طور معمول به معنای "زمان برای کلیک با توجه به اینکه یک کلیک وجود دارد." هر زمان که به یک متریک مانند این نگاه می کنید ، باید تصدیق کنید که فیلتر کردن و به دنبال تغییر در فیلتر بین گروه هایی که در مقایسه با آنها هستید.
فرآیند
این بخش شامل توصیه هایی در مورد نحوه نزدیک شدن به داده های خود ، چه سؤالاتی در مورد داده های شما و چه چیزی است که باید بررسی کنید.
اعتبار سنجی ، توضیحات و ارزیابی جداگانه
من به تجزیه و تحلیل داده ها فکر می کنم که سه مرحله به هم پیوسته است:
- اعتبار سنجی 1 : آیا من معتقدم که داده ها سازگار هستند ، که به درستی جمع آوری شده است ، و این نشان دهنده کاری است که من فکر می کنم انجام می دهد؟
- توضیحات: تفسیر عینی این داده ها چیست؟ به عنوان مثال ، "کاربران کمتر نمایش داده شده به عنوان X طبقه بندی می شوند ،" "در گروه آزمایش ، زمان بین x و y 1 ٪ بزرگتر است" و "تعداد کمتری از کاربران به صفحه بعدی نتایج می روند."
- ارزیابی: با توجه به توضیحات ، آیا داده ها به ما می گویند که اتفاق خوبی برای کاربر ، Google یا برای جهان رخ می دهد؟
با جدا کردن این مراحل ، می توانید راحت تر با دیگران به توافق برسید. توضیحات باید مواردی باشد که همه می توانند برای داده ها با آنها توافق کنند. ارزیابی احتمالاً بحث و گفتگوهای بیشتری را ایجاد می کند. اگر توضیحات و ارزیابی را جدا نکنید ، به احتمال زیاد فقط تفسیر داده هایی را که امیدوار هستید ببینید ، مشاهده می کنید. علاوه بر این ، ارزیابی بسیار سخت تر است زیرا تعیین ارزش هنجاری یک متریک ، به طور معمول از طریق مقایسه دقیق با سایر ویژگی ها و معیارها ، سرمایه گذاری قابل توجهی را انجام می دهد.
این مراحل به صورت خطی پیشرفت نمی کند. همانطور که داده ها را کشف می کنید ، ممکن است بین مراحل به عقب و جلو پرش کنید ، اما در هر زمان باید مشخص باشید که در چه مرحله ای قرار دارید.
آزمایش و تنظیم جمع آوری داده ها را تأیید کنید
قبل از اینکه به هر داده ای نگاه کنید ، اطمینان حاصل کنید که زمینه جمع آوری داده ها را درک کرده اید. اگر داده ها از یک آزمایش آمده است ، به پیکربندی آزمایش نگاه کنید. اگر از ابزار جدید مشتری است ، حتماً درک سختی از نحوه جمع آوری داده ها داشته باشید. شما ممکن است تنظیمات غیرمعمول/بد یا محدودیت های جمعیت (مانند داده های معتبر فقط برای Chrome) را مشاهده کنید. هر چیز قابل توجه در اینجا ممکن است به شما در ساخت و تأیید نظریه ها بعداً کمک کند. برخی موارد را باید در نظر گرفت:
- اگر آزمایش در حال اجرا است ، خودتان آن را امتحان کنید. اگر نمی توانید ، حداقل به تصاویر/توضیحات رفتار نگاه کنید.
- بررسی کنید که آیا در مورد محدوده زمانی که آزمایش از بین رفته است (تعطیلات ، پرتاب های بزرگ و غیره) چیز غیرمعمول وجود دارد.
- تعیین کنید که جمعیت کاربر در معرض آزمایش قرار گرفته است.
بررسی کنید که چه چیزی نباید تغییر کند
به عنوان بخشی از مرحله "اعتبارسنجی" ، قبل از پاسخ دادن به سؤالی که به آن علاقه دارید (به عنوان مثال ، "آیا اضافه کردن تصویری از چهره افزایش یا کاهش کلیک؟") ، هرگونه تنوع دیگری را در داده هایی که ممکن است تأثیر بگذارد رد کنید آزمایش به عنوان مثال:
- آیا تعداد کاربران تغییر کرده است؟
- آیا تعداد مناسبی از نمایش داده های آسیب دیده در تمام زیر گروه های من نشان داده شده است؟
- آیا نرخ خطا تغییر کرده است؟
این سؤالات هم برای مقایسه آزمایش/کنترل و هم برای بررسی روند به مرور زمان معقول است.
استاندارد اول ، دوم سفارشی
هنگام نگاه به ویژگی های جدید و داده های جدید ، به خصوص وسوسه انگیز است که به معیارهایی که برای این ویژگی جدید جدید یا خاص هستند ، پرش کنید. با این حال ، شما همیشه باید ابتدا به معیارهای استاندارد نگاه کنید ، حتی اگر انتظار دارید که آنها تغییر کنند. به عنوان مثال ، هنگام افزودن یک بلوک جهانی جدید به صفحه ، قبل از غواصی به معیارهای سفارشی درباره این نتیجه جدید ، اطمینان حاصل کنید که تأثیر آن بر معیارهای استاندارد مانند "کلیک بر روی نتایج وب" را درک کرده اید.
معیارهای استاندارد بسیار بهتر تأیید شده و بیشتر از معیارهای سفارشی صحیح هستند. اگر معیارهای سفارشی شما با معیارهای استاندارد شما معنی ندارد ، احتمالاً معیارهای سفارشی شما اشتباه است.
دو بار یا بیشتر اندازه گیری کنید
به خصوص اگر می خواهید یک پدیده جدید را ضبط کنید ، سعی کنید همان چیز اساسی را به روش های مختلف اندازه گیری کنید. سپس ، تعیین کنید که آیا این اندازه گیری های چندگانه سازگار هستند یا خیر. با استفاده از چندین اندازه گیری ، می توانید اشکالات موجود در کد اندازه گیری یا ورود به سیستم ، ویژگی های غیر منتظره داده های اساسی یا مراحل فیلتر را که مهم هستند ، شناسایی کنید. حتی اگر بتوانید از منابع داده های مختلفی برای اندازه گیری ها استفاده کنید ، بهتر است.
تکرارپذیری را بررسی کنید
هر دو برش و سازگاری با گذشت زمان نمونه های خاصی از بررسی تکرارپذیری هستند. اگر یک پدیده مهم و معنی دار است ، باید آن را در جمعیت و زمان مختلف کاربر مشاهده کنید. اما تأیید تکرارپذیری بیشتر از انجام این دو چک است. اگر در حال ساخت مدل های داده هستید ، می خواهید این مدل ها در اختلال های کوچک در داده های اساسی پایدار باشند. استفاده از محدوده زمانی مختلف یا نمونه های فرعی تصادفی از داده های شما نیز به شما می گوید که این مدل چقدر قابل اعتماد/قابل اعتماد است.
اگر یک مدل قابل تکرار نباشد ، احتمالاً در مورد فرآیند اساسی که داده ها را تولید می کند ، چیزی اساسی را ضبط نمی کنید.
سازگاری با اندازه گیری های گذشته را بررسی کنید
غالباً شما یک متریک را که شبیه به مواردی است که در گذشته شمرده شده است محاسبه می کنید. شما باید معیارهای خود را با معیارهای گزارش شده در گذشته مقایسه کنید ، حتی اگر این اندازه گیری ها در جمعیت های مختلف کاربر باشد.
به عنوان مثال ، اگر به دنبال ترافیک پرس و جو در یک جمعیت خاص هستید و اندازه گیری می کنید که میانگین بار بار صفحه 5 ثانیه است ، اما تجزیه و تحلیل های گذشته در مورد همه کاربران زمان متوسط بار صفحه را 2 ثانیه داده است ، پس باید تحقیق کنید. ممکن است تعداد شما برای این جمعیت مناسب باشد ، اما اکنون برای تأیید این امر باید کارهای بیشتری انجام دهید.
شما نیازی به توافق دقیق ندارید ، اما باید در همان بالگرد باشید. اگر نیستید ، فرض کنید که اشتباه می کنید تا زمانی که بتوانید خود را به طور کامل متقاعد کنید. تعجب آور ترین داده ها به نظر می رسد خطایی است ، نه یک بینش جدید و شگفت انگیز.
معیارهای جدید ابتدا باید در داده ها/ویژگی های قدیمی اعمال شود
اگر معیارهای جدیدی را ایجاد می کنید (احتمالاً با جمع آوری یک منبع داده جدید) و سعی کنید چیز جدیدی را یاد بگیرید ، نمی دانید که متریک جدید شما مناسب است یا خیر. با معیارهای جدید ، ابتدا باید آنها را در یک ویژگی یا داده های شناخته شده اعمال کنید. به عنوان مثال ، اگر یک متریک جدید برای رضایت کاربر دارید ، باید مطمئن شوید که بهترین ویژگی های خود را به شما می گوید رضایت بخش است. اگر یک متریک جدید برای جایی که کاربران توجه خود را به صفحه هدایت می کنند ، اطمینان حاصل کنید که با آنچه می دانیم از نگاه کردن به ردیابی چشم یا مطالعات در مورد چگونگی تأثیر تصاویر بر توجه صفحه ، مطابقت دارد. انجام این کار اعتبار سنجی را فراهم می کند وقتی می خواهید چیز جدیدی را یاد بگیرید.
فرضیه ها را بسازید و به دنبال شواهد باشید
به طور معمول ، تجزیه و تحلیل داده ها برای یک مشکل پیچیده تکراری است. 2 ناهنجاری ها ، روندها یا سایر ویژگی های داده ها را کشف خواهید کرد. به طور طبیعی ، شما نظریه هایی را برای توضیح این داده ها تدوین خواهید کرد. فقط یک نظریه را توسعه ندهید و اعلام کنید که درست است. برای تأیید/انکار این نظریه به دنبال شواهد (در داخل یا خارج از داده ها) باشید. به عنوان مثال:
- اگر چیزی را مشاهده می کنید که مانند یک روند یادگیری است ، ببینید که آیا با کاربران فرکانس بالا به شدت تجلی می یابد یا خیر.
- اگر فکر می کنید ناهنجاری به دلیل راه اندازی برخی از ویژگی ها است ، اطمینان حاصل کنید که جمعیتی که از ویژگی های آن راه اندازی شده است ، تنها کسی است که تحت تأثیر ناهنجاری قرار دارد. از طرف دیگر ، اطمینان حاصل کنید که میزان تغییر با انتظارات پرتاب سازگار است.
- اگر می بینید که نرخ رشد کاربران در یک محلی تغییر می کند ، سعی کنید یک منبع خارجی پیدا کنید که اعتبار آن تغییر جمعیت را تأیید کند.
تجزیه و تحلیل داده های خوب داستانی برای گفتن دارد. برای اطمینان از این که این داستان مناسب است ، باید داستان را به خودتان بگویید ، سپس به دنبال شواهدی باشید که اشتباه است. یکی از راه های انجام این کار این است که از خود بپرسید ، "چه آزمایشاتی را اجرا می کنم که داستانی را که می گویم اعتبار یا باطل می کند؟" حتی اگر این آزمایشات را انجام ندهید/نمی توانید ، ممکن است ایده هایی در مورد چگونگی اعتبارسنجی با داده هایی که انجام می دهید به شما ارائه دهد.
خبر خوب این است که این نظریه ها و آزمایش های احتمالی ممکن است منجر به خطوط جدید تحقیق شود که از تلاش برای یادگیری در مورد هر ویژگی یا داده های خاص فراتر می رود. سپس شما نه تنها این داده ها ، بلکه معیارها و تکنیک های جدیدی را برای انواع تحلیل های آینده به دست می آورید.
تجزیه و تحلیل اکتشافی از تکرار پایان به پایان بهره می برد
هنگام انجام تجزیه و تحلیل اکتشافی ، تا حد امکان تکرارهای کل تجزیه و تحلیل را انجام دهید. به طور معمول شما چندین مرحله از جمع آوری سیگنال ، پردازش ، مدل سازی و غیره خواهید داشت. اگر خیلی طولانی را صرف اولین مرحله از سیگنال های اولیه خود کنید ، فرصت هایی را برای انجام تکرارهای بیشتر در همان زمان از دست نمی دهید. علاوه بر این ، هنگامی که در پایان به داده های خود در پایان نگاه می کنید ، ممکن است اکتشافاتی انجام دهید که جهت شما را تغییر می دهد. بنابراین ، تمرکز اولیه شما نباید روی کمال باشد بلکه در تمام راه معقول است. یادداشت ها را برای خود بگذارید و مواردی مانند مراحل فیلتر کردن و درخواست های غیرقابل کنترل یا غیرمعمول را تصدیق کنید ، اما وقت خود را برای خلاص شدن از شر همه آنها در ابتدای تحلیل اکتشافی تلف نکنید.
مراقب بازخورد باشید
ما به طور معمول معیارهای مختلف پیرامون موفقیت کاربر را تعریف می کنیم. به عنوان مثال ، کاربران روی نتیجه کلیک کردند؟ اگر آن داده ها را به سیستم (که در واقع در تعدادی از مکان ها انجام می دهیم) تغذیه کنید ، فرصت های زیادی را برای سردرگمی ارزیابی ایجاد می کنید.
شما نمی توانید از متریک که به سیستم خود تغذیه می شود به عنوان پایه ای برای ارزیابی تغییر خود استفاده کنید. اگر تبلیغات بیشتری را نشان می دهید که کلیک بیشتری می کنند ، نمی توانید از "کلیک بیشتر" به عنوان مبنایی برای تصمیم گیری در مورد خوشبختی کاربران استفاده کنید ، حتی اگر "کلیک بیشتر" اغلب به معنای "شادتر" باشد. علاوه بر این ، شما حتی نباید بر روی متغیرهایی که به عقب تغذیه کرده اید و دستکاری کرده اید ، انجام دهید ، زیرا این امر منجر به تغییر ترکیبی خواهد شد که درک آن دشوار یا غیرممکن خواهد بود.
طرز فکر
در این بخش نحوه کار با دیگران و ارتباط بینش توضیح داده شده است.
تجزیه و تحلیل داده ها با سوالات شروع می شود ، نه داده یا یک تکنیک
همیشه انگیزه ای برای تجزیه و تحلیل داده ها وجود دارد. تدوین نیازهای خود به عنوان سؤال یا فرضیه به اطمینان از جمع آوری داده هایی که باید جمع آوری کنید و در مورد شکاف های احتمالی در داده ها فکر می کنید ، کمک می کند. البته سؤالاتی که می پرسید باید با نگاه کردن به داده ها تکامل یابد. با این حال ، تجزیه و تحلیل بدون سؤال به پایان می رسد.
از پیدا کردن تکنیک مورد علاقه خودداری کنید و سپس فقط بخش هایی از مشکلاتی را که این تکنیک روی آن کار می کند ، پیدا کنید. باز هم ، ایجاد سؤالات واضح به شما در جلوگیری از این تله کمک می کند.
هم شکاک و هم قهرمان باشید
همانطور که با داده ها کار می کنید ، باید هم قهرمان بینش هایی شوید که به دست می آورید و همچنین شکاک از آنها است. امیدوارم در داده هایی که به آنها نگاه می کنید ، پدیده های جالبی پیدا کنید. وقتی یک پدیده جالب را تشخیص می دهید ، از خود سؤالات زیر را بپرسید:
- چه داده های دیگری را می توانم جمع کنم تا نشان دهم این چقدر عالی است؟
- چه چیزی می توانم پیدا کنم که این امر را باطل می کند؟ "
به خصوص در مواردی که شما در حال انجام تحلیل برای کسی هستید که واقعاً جواب خاصی می خواهد (به عنوان مثال ، "ویژگی من عالی است!") ، شما باید شکاک بازی کنید تا از ایجاد خطا جلوگیری کنید.
همبستگی != علیت
هنگام تهیه نظریه ها در مورد داده ها ، ما اغلب می خواهیم ادعا کنیم که "X باعث Y می شود" ، به عنوان مثال ، "صفحه کندتر می شود و باعث می شود کاربران کمتر کلیک کنند." حتی XKCD می داند که شما به دلیل همبستگی نمی توانید به سادگی علیت را ایجاد کنید. با در نظر گرفتن اینکه چگونه می توانید یک تئوری علیت را تأیید کنید ، معمولاً می توانید حس خوبی از این نظریه علیت را داشته باشید.
بعضی اوقات ، مردم سعی می کنند با ادعای اینکه حتی اگر هیچ رابطه علّی بین A و B وجود نداشته باشد ، همبستگی را به عنوان معنی دار حفظ کنند ، باید چیزی در این تصادف وجود داشته باشد تا یک سیگنال بتواند یک شاخص خوب یا پروکسی برای دیگری باشد. این منطقه برای چندین مشکل آزمایش فرضیه خطرناک است. همانطور که XKCD همچنین می داند ، با توجه به آزمایش های کافی و ابعاد کافی ، برخی از سیگنال ها برای یک آزمایش خاص تراز می شوند. این بدان معنا نیست که همان سیگنال ها در آینده تراز خواهند شد ، بنابراین شما همان تعهد را دارید که یک نظریه علی را در نظر بگیرید مانند "یک اثر پنهان C وجود دارد که باعث ایجاد A و B می شود" به طوری که می توانید سعی کنید تا چه اندازه قابل قبول باشد این است.
یک تحلیلگر داده ها باید اغلب برای افرادی که می خواهند داده ها را مصرف کنند ، این سؤالات علی را هدایت کند. شما باید با آن مصرف کنندگان آنچه می توانید و نمی توانید در مورد علیت بگویید ، روشن باشید.
ابتدا با همسالان به اشتراک بگذارید ، مصرف کنندگان خارجی دوم
نکات قبلی راه هایی را برای انجام خود در انجام انواع مناسب بررسی و اعتبار سنجی ارائه می دهد. اما به اشتراک گذاشتن با یک همسالان یکی از بهترین راهها برای مجبور کردن خود برای انجام همه این کارها است. یک همکار ماهر می تواند بازخورد کیفی متفاوتی را نسبت به مصرف کنندگان داده های شما فراهم کند ، به ویژه که مصرف کنندگان معمولاً دستور کار دارند. همسالان در چندین نقطه از طریق تجزیه و تحلیل مفید هستند. در اوایل شما می توانید در مورد GOTCHAS که همسالان شما درباره آن می داند ، پیشنهاداتی برای اندازه گیری چیزها و تحقیقات گذشته در این زمینه بدانید. نزدیک به پایان ، همسالان در اشاره به عجیب ، ناسازگاری یا سردرگمی های دیگر بسیار خوب هستند.
در حالت ایده آل ، شما باید از همسالان بازخورد دریافت کنید که چیزی راجع به داده های مورد نظر خود می داند ، اما حتی یک همسالان با تجربه کلی تجزیه و تحلیل داده های عمومی بسیار ارزشمند است.
انتظار و پذیرش جهل و اشتباهات
محدودیت های زیادی برای آنچه می توانیم از داده ها بیاموزیم وجود دارد. Nate Silver یک مورد قوی در سیگنال و سر و صدایی ایجاد می کند که تنها با پذیرش محدودیت های اطمینان ما می توانیم در پیش بینی بهتر پیشرفت کنیم. پذیرش جهل ، قدرتی است که معمولاً بلافاصله پاداش نمی گیرد. در آن زمان احساس بدی می کند ، اما در دراز مدت برای شما و تیم خود فایده خوبی دارد. وقتی اشتباه می کنید و بعداً آن را کشف می کنید (یا حتی خیلی دیر!) احساس بدتر می کنید ، اما با داشتن پیشرو در برابر اشتباهات شما به شما احترام می گذارد. این احترام به اعتبار و تأثیر تبدیل می شود.
بستن افکار
بخش عمده ای از کارها برای انجام تجزیه و تحلیل داده های خوب بلافاصله برای مصرف کنندگان تجزیه و تحلیل شما آشکار نیست. این واقعیت که شما با دقت اندازه جمعیت را بررسی کرده اید و تأیید کرده اید که این اثر در بین مرورگرها سازگار است ، احتمالاً به آگاهی افرادی که سعی در تصمیم گیری از این داده ها دارند ، نمی رسد. این همچنین توضیح می دهد که چرا تجزیه و تحلیل داده های خوب بیشتر از آنچه به نظر می رسد برای اکثر افراد طول می کشد (به ویژه هنگامی که آنها فقط خروجی نهایی را می بینند). بخشی از شغل ما به عنوان تحلیلگر این است که به تدریج مصرف کنندگان بینش داده های مبتنی بر داده را در مورد این مراحل و چرا مهم آنها آموزش دهیم.
نیاز به همه این دستکاری ها و کاوش در داده های شما نیز الزامات مربوط به یک زبان و محیط تجزیه و تحلیل داده های خوب را بیان می کند. ما ابزارهای زیادی برای بررسی داده ها در دسترس ما هستیم. ابزارها و زبانهای مختلف با تکنیک های مختلفی که در بالا مورد بحث قرار گرفت ، مناسب تر است. انتخاب ابزار مناسب یک مهارت مهم برای یک تحلیلگر است. شما نباید با قابلیت ابزاری که از آن راحت تر هستید محدود شوید. کار شما ارائه بینش واقعی ، استفاده از یک ابزار خاص است.
این گاهی اوقات "تجزیه و تحلیل داده های اولیه" نامیده می شود. به مقاله ویکی پدیا در مورد تجزیه و تحلیل داده ها مراجعه کنید
از نظر فنی ، فقط در صورت انجام تجزیه و تحلیل اکتشافی ، نه تجزیه و تحلیل تأیید کننده ، باید تکراری باشد. ↩