تمت ترجمة هذه الصفحة بواسطة Cloud Translation API‏.

تحليل جيد للبيانات

المؤلف: باتريك رايلي

شكر خاص لكل من: "ديان تانغ" و"ريهان خان" و"إليزابيث تاكر" و"أمير نجمي" و"هيلاري هاتشينسون" و"جويل دارناور" و"ديل نيل" و"آنر بن أرتزي" و"ساندرز كلاينفيلد" و"ديفيد ويستبروك" و"باري روزنبرغ".

السجلّ

آخر تعديل رئيسي: حزيران (يونيو) 2019
ظهرت نسخة سابقة من بعض هذه المواد على مدونة علم البيانات غير الرسمية على Google: تشرين الأول (أكتوبر) 2016

نظرة عامة

يعد الحصول على الحقيقة والرؤية من كومة من البيانات مهمة قوية ولكنها عرضة للخطأ. يكتسب أفضل محللي البيانات والمهندسين المهتمين بالبيانات سمعة في إصدار تصريحات موثوقة من البيانات. لكن ما الذي يفعلونه مما يمنحهم المصداقية؟ غالبًا ما أسمع صفات مثل حذر ومنهجية، ولكن ما الذي يفعله المحللون الأكثر حرصًا ومنهجية في الواقع؟

هذا ليس سؤالاً تافهًا، خاصةً بالنظر إلى نوع البيانات التي نجمعها بانتظام في Google. لا نعمل عادةً مع مجموعات بيانات كبيرة جدًا فقط، ولكن مجموعات البيانات هذه غنية للغاية. أي أن كل صف من البيانات يحتوي عادةً على العديد والعديد من السمات. عند دمج هذا مع التسلسلات الزمنية للأحداث لمستخدم معين، هناك عدد هائل من طرق النظر إلى البيانات. قارن ذلك بتجربة علم نفس أكاديمية نموذجية حيث يكون من السهل للباحث النظر في كل نقطة بيانات على حدة. تختلف المشكلات التي تنشأ عن مجموعات البيانات الكبيرة وعالية الأبعاد عن تلك التي واجهتها خلال معظم تاريخ العمل العلمي.

تلخص هذه الوثيقة الأفكار والتقنيات التي يستخدمها المحللون المنهجيون الدقيقون في مجموعات البيانات الكبيرة وعالية الأبعاد. على الرغم من أن هذا المستند يركز على البيانات من السجلات والتحليل التجريبي، إلا أن العديد من هذه الأساليب قابلة للتطبيق على نطاق أوسع.

يتألف الجزء المتبقي من المستند من ثلاثة أقسام تغطي جوانب مختلفة من تحليل البيانات:

الفنية: أفكار وأساليب لمعالجة بياناتك وفحصها.
المعالجة: اقتراحات حول كيفية التعامل مع بياناتك، والأسئلة التي يجب طرحها، والأشياء التي يجب التحقق منها.
طريقة التفكير: كيفية العمل مع الآخرين وإيصال إحصاءاتهم.

تقني

لنلقِ نظرة على بعض أساليب فحص بياناتك.

الاطّلاع على توزيعاتك

يستخدم معظم الممارسين مقاييس موجزة (على سبيل المثال، المتوسط، والوسيط، والانحراف المعياري وما إلى ذلك) للتواصل بشأن التوزيعات. مع ذلك، يجب عليك عادةً فحص تمثيلات توزيع أكثر ثراءً عن طريق إنشاء مدرجات تكرارية ودوال توزيع تراكمي (CDFs) ومخططات الكمية والكميات (Q-Q)، وما إلى ذلك. تسمح لك هذه التمثيلات الأكثر ثراءً باكتشاف الميزات المهمة للبيانات، مثل السلوك متعدد الوسائط أو فئة كبيرة من القيم المتطرفة.

تحليل القيم الاستثنائية

افحص القيم الاستثنائية بعناية لأنها يمكن أن تكون كناري في منجم الفحم والتي تشير إلى مشكلات أساسية أكثر في تحليلك. من الجيد استبعاد القيم الاستثنائية من بياناتك أو تجميعها معًا في فئة "غير معتادة"، ولكن يجب عليك التأكد من معرفة سبب انتهاء البيانات في تلك الفئة.

على سبيل المثال، عند الاطّلاع على طلبات البحث التي تسجّل أقل عدد من النقرات، قد يظهر لك عدد نقرات على عناصر يتعذّر احتسابها. عند الاطّلاع على طلبات البحث التي تسجّل أكبر عدد من النقرات، قد يظهر لك عدد نقرات لا يجب احتسابها. من ناحية أخرى، قد تكون هناك بعض القيم الاستثنائية التي لن تتمكن أبدًا من شرحها، لذلك عليك أن تكون حذرًا في مقدار الوقت الذي تخصصه لهذه المهمة.

مراعاة التشويش

العشوائية موجودة وسوف يخدعنا. يعتقد بعض الناس أن "لدى Google الكثير من البيانات، وتتخلّص من التشويش". وهذا ببساطة ليس صحيحًا. يجب أن يكون لكل رقم أو ملخص للبيانات التي تنتجها مفهوم مصاحب لثقتك في هذا التقدير (من خلال مقاييس مثل فواصل الثقة وp-values).

اطّلع على أمثلة

في أي وقت تقوم فيه بإنشاء رمز تحليل جديد، عليك إلقاء نظرة على أمثلة من البيانات الأساسية وكيفية تفسير التعليمات البرمجية لهذه الأمثلة. يكاد يكون من المستحيل إنتاج رمز عمل لأي تعقيد بدون تنفيذ هذه الخطوة. يستخرج تحليلك العديد من التفاصيل من البيانات الأساسية لإنتاج ملخصات مفيدة. من خلال النظر إلى التعقيد الكامل للأمثلة الفردية، يمكنك اكتساب الثقة في أن تلخيصك معقول.

تُعد كيفية أخذ عينات من هذه الأمثلة مهمة:

إذا كنت تقوم بتصنيف البيانات الأساسية، فارجع إلى الأمثلة الخاصة بكل فئة.
وإذا كانت فئة أكبر، فافحص المزيد من العينات.
إذا كنت تقوم بحساب عدد (على سبيل المثال، وقت تحميل الصفحة)، فتأكد من إلقاء نظرة على الأمثلة القصوى (الأسرع والأبطأ 5% ربما؛ فأنت تعرف شكل توزيعك، أليس كذلك؟) بالإضافة إلى النقاط في مساحة القياسات.

تقسيم البيانات

يعني التقسيم تقسيم البيانات إلى مجموعات فرعية والنظر إلى قيم المقاييس لكل مجموعة فرعية على حدة. وعادةً ما نقسّم البيانات إلى جانب سمات مثل المتصفح واللغة والنطاق ونوع الجهاز وما إلى ذلك. إذا كان من المحتمل أن تعمل الظاهرة الأساسية بشكل مختلف عبر المجموعات الفرعية، فيجب عليك تقسيم البيانات لتأكيد ما إذا كان هذا هو الحال بالفعل. حتى لو لم تكن تتوقع أن يؤدي التقسيم إلى نتائج مختلفة، فإن النظر إلى بعض الشرائح لتحقيق الاتساق الداخلي يمنحك ثقة أكبر أنك تقيس الشيء الصحيح. في بعض الحالات، قد تحتوي شريحة معينة على بيانات سيئة، أو تفاعل مستخدم مكسور، أو قد تكون مختلفة بشكل أساسي بطريقة ما.

في أي وقت تقسّم فيه البيانات لمقارنة مجموعتين (مثل التجربة مقابل مجموعة التحكم، أو حتى "الوقت أ" مقابل "الوقت ب")، يجب أن تكون على دراية بالتحولات المختلطة. تحدث متغيّرات المزيج عندما تختلف كمية البيانات في الشرائح لكل مجموعة. يمكن أن ينتج عن متناقضة سيمبسون وغير ذلك من الالتباسات. بشكل عام، إذا كان الكمية النسبية من البيانات في الشريحة هو نفسه عبر المجموعتين، يمكنك إجراء مقارنة بأمان.

التفكير في الدلالة العملية

مع وجود حجم كبير من البيانات، قد يكون من المغري التركيز فقط على الدلالة الإحصائية أو التركيز على تفاصيل كل جزء من البيانات. لكنك عليك أن تسأل نفسك، "حتى لو كان ذلك صحيحًا أن القيمة X أكثر من 0.1٪ من القيمة Y، هل هذا مهم؟" قد يكون هذا مهمًا بشكل خاص إذا لم تتمكن من فهم/تصنيف جزء من بياناتك. إذا لم تتمكن من فهم بعض سلاسل وكيل المستخدم في سجلاتك، فسواء كانت تمثل 0.1% أو 10% من البيانات ستحدث فارقًا كبيرًا في مقدار التحقق الذي يجب عليك التحقق منه في هذه الحالات.

أو بدلاً من ذلك، لديك أحيانًا كمية صغيرة من البيانات. قد لا تبدو العديد من التغييرات ذات دلالة إحصائية، لكنّ ذلك يختلف عن الادّعاء بأنّ هذه التغييرات "محايدة". ويجب أن تسأل نفسك "ما مدى احتمالية استمرار وجود تغيير مهم عمليًا؟"

التحقّق من الاتساق بمرور الوقت

يجب أن تحاول دائمًا تقسيم البيانات حسب الوحدات الزمنية لأنّ العديد من اضطرابات البيانات الأساسية تحدث مع تطوّر أنظمتنا بمرور الوقت. (غالبًا ما نستخدم الأيام، ولكن قد تكون الوحدات الزمنية الأخرى مفيدة أيضًا). أثناء الإطلاق الأولي لميزة أو جمع بيانات جديدة، غالبًا ما يتحقق الممارسون بعناية من أن كل شيء يعمل كما هو متوقع. ومع ذلك، يمكن أن يحدث العديد من الأعطال أو السلوك غير المتوقع مع مرور الوقت.

لا يعني مجرد يوم أو مجموعة من الأيام أنه قيمة استثنائية لا يعني أنه يجب عليك تجاهل البيانات المقابلة. استخدم البيانات كعنصر جذب لتحديد السبب السببي لاختلاف هذا اليوم أو الأيام قبل تجاهلها.

يمنحك الاطّلاع على البيانات اليومية أيضًا فكرة عن التنوع في البيانات التي ستؤدي في النهاية إلى فواصل ثقة أو ادعاءات ذات دلالة إحصائية. ولا ينبغي أن يستبدل هذا بشكل عام الحساب الصارم للفاصل الزمني للثقة، ولكن غالبًا مع التغييرات الكبيرة، يمكنك أن تلاحظ أنها ستكون ذات دلالة إحصائية فقط من الرسوم البيانية اليومية.

الإقرار بالفلترة واحتسابها

يبدأ كل تحليل بيانات كبير تقريبًا بتصفية البيانات في مراحل مختلفة. ربما تريد مراعاة المستخدمين في الولايات المتحدة فقط، أو عمليات البحث على الويب، أو عمليات البحث التي تتضمّن إعلانات. أيًا كانت الحالة، يجب:

الاعتراف بالتصفية التي تجريها وتحديدها بوضوح.
حساب مقدار البيانات التي تتم فلترتها في كل خطوة.

غالبًا ما تكون أفضل طريقة لفعل هذا الإجراء هي حساب جميع المقاييس، حتى مع المجموعة بالكامل التي تستبعدها. يمكنك بعد ذلك إلقاء نظرة على تلك البيانات للإجابة عن أسئلة مثل، "ما نسبة طلبات البحث التي أزالتها تصفية الرسائل غير المرغوب فيها؟" (بناءً على سبب الفلترة، قد لا يكون هذا النوع من التحليل ممكنًا في جميع الأوقات).

يجب أن تحتوي النسب على بسط ومقام واضح.

أكثر المقاييس إثارة للاهتمام هي نسب المقاييس الأساسية. في كثير من الأحيان، يتم إخفاء التصفية المثيرة للاهتمام أو خيارات البيانات الأخرى في التعريفات الدقيقة للبسط والمقام. على سبيل المثال، أي مما يلي تعنيه "طلبات البحث / المستخدم" بالفعل؟

طلبات البحث / المستخدمون الذين لديهم طلب بحث
طلبات البحث / المستخدمون الذين زاروا Google اليوم
طلبات البحث / المستخدمون الذين لديهم حساب نشط (نعم، سيتعين عليّ تحديد نشط)

الوضوح حقًا هنا يمكن أن يجنبك الالتباس بالنسبة لك وللآخرين.

هناك حالة خاصة أخرى وهي المقاييس التي يمكن حسابها على بعض بياناتك فقط. على سبيل المثال، يعني مصطلح "الوقت المستغرق للنقر" عادةً "الوقت المستغرق للنقر نظرًا لوجود نقرة". في أي وقت تنظر إلى مقياس كهذا، عليك أن تدرك أن التصفية والبحث عن تحول في التصفية بين المجموعات التي تقارنها.

العملية

يحتوي هذا القسم على توصيات حول كيفية التعامل مع بياناتك، والأسئلة التي يجب طرحها حول بياناتك، وما يجب التحقق منه.

فصل التحقق من الصحة والوصف والتقييم

أعتقد أن تحليل البيانات ينطوي على ثلاث مراحل مترابطة:

التحقّق¹: هل أعتقد أنّ البيانات غير متّسقة ذاتيًا وأنّها تم جمعها بشكل صحيح وأنّها تمثّل ما أعتقده؟
الوصف: ما التفسير الموضوعي لهذه البيانات؟ على سبيل المثال، "يجري المستخدمون طلبات بحث أقل مصنفة على أنها X"، و"في مجموعة التجربة، يكون الوقت بين X وY أكبر بنسبة 1%"، و"ينتقل عدد أقل من المستخدمين إلى صفحة النتائج التالية".
التقييم: بناءً على الوصف، هل تخبرنا البيانات بأنّ هناك شيئًا جيدًا يحدث للمستخدم أو لشركة Google أو للعالم؟

من خلال فصل هذه المراحل، يمكنك التوصل إلى اتفاق مع الآخرين بسهولة أكبر. يجب أن يكون الوصف أشياء يمكن للجميع الاتفاق عليها على البيانات. من المرجح أن يؤدي التقييم إلى طرح المزيد من الجدل. وإذا لم تفصل بين الوصف والتقييم، فمن المرجح أن ترى فقط تفسير البيانات التي تأمل في رؤيتها. علاوة على ذلك، قد يكون التقييم أكثر صعوبة لأن تحديد القيمة المعيارية للمقياس، عادةً من خلال مقارنات صارمة مع الميزات والمقاييس الأخرى، يتطلب استثمارًا كبيرًا.

لا يتم تقديم هذه المراحل خطيًا. أثناء استكشاف البيانات، قد تقفز ذهابًا وإيابًا بين المراحل، ولكن في أي وقت ينبغي أن تكون واضحًا في المرحلة التي أنت فيها.

تأكيد إعداد التجربة وجمع البيانات

قبل النظر في أي بيانات، تأكد من فهم السياق الذي تم جمع البيانات فيه. إذا جاءت البيانات من تجربة، اطّلِع على إعدادات التجربة. وإذا كان ذلك من أدوات عميل جديد، فتأكد على الأقل من أن لديك فهمًا تقريبيًا لكيفية جمع البيانات. قد تكتشف عمليات ضبط غير معتادة/سيئة أو قيود على السكان (مثل البيانات الصالحة لمتصفِّح Chrome فقط). قد يساعدك أي شيء بارز هنا في بناء النظريات والتحقق منها لاحقًا. بعض الأشياء التي يجب مراعاتها:

إذا كانت التجربة قيد التنفيذ، جرِّبها بنفسك. إذا لم تستطع، فكّر على الأقل في لقطات الشاشة/أوصاف السلوك.
تحقَّق ممّا إذا كان هناك أيّ شيء غير عادي حول النطاق الزمني الذي مرّت به التجربة (العطلات، وعمليات إطلاق المنتجات الكبيرة، وما إلى ذلك).
تحديد مجموعات المستخدمين الذين خضعوا للتجربة.

التحقق مما يجب ألا يتغير

كجزء من مرحلة "التحقق من الصحة"، قبل الإجابة فعليًا عن السؤال الذي تريد طرحه (على سبيل المثال، "هل تؤدي إضافة صورة وجه إلى زيادة أو تقليل عدد النقرات؟")، استبعد أي تباين آخر في البيانات قد يؤثر على التجربة. مثلاً:

هل تغير عدد المستخدمين؟
هل ظهر العدد الصحيح من طلبات البحث المتأثرة في جميع مجموعاتي الفرعية؟
هل تغيرت معدلات الخطأ؟

هذه الأسئلة منطقية لكل من مقارنات التجربة/التحكم، وعند فحص الاتجاهات بمرور الوقت.

قياسي أولاً، ثم تخصيص ثانٍ

عند النظر إلى الميزات الجديدة والبيانات الجديدة، يكون من المغري بشكلٍ خاص الانتقال مباشرةً إلى المقاييس الجديدة أو الخاصة لهذه الميزة الجديدة. ومع ذلك، عليك دائمًا النظر إلى المقاييس القياسية أولاً، حتى إذا كنت تتوقع أن تتغير. على سبيل المثال، عند إضافة مجموعة عامة جديدة إلى الصفحة، احرص على فهم التأثير على المقاييس العادية مثل "النقرات على نتائج الويب" قبل التعمق في المقاييس المخصّصة المرتبطة بهذه النتيجة الجديدة.

يتم التحقّق من المقاييس العادية بشكل أفضل وأكثر احتمالاً أن تكون صحيحة مقارنةً بالمقاييس المخصّصة. إذا لم تكن مقاييسك المخصّصة منطقية مع مقاييسك القياسية، فمن المحتمل أن تكون مقاييسك المخصّصة خاطئة.

يجب القياس مرتين أو أكثر.

خاصة إذا كنت تحاول التقاط ظاهرة جديدة، فحاول قياس الشيء الأساسي نفسه بطرق متعددة. بعد ذلك، حدد ما إذا كانت هذه القياسات المتعددة متسقة. باستخدام قياسات متعددة، يمكنك تحديد الأخطاء في رمز القياس أو التسجيل، أو الميزات غير المتوقّعة للبيانات الأساسية، أو خطوات الفلترة المُهمّة. من الأفضل استخدام مصادر بيانات مختلفة للقياسات.

التحقق من إمكانية التكاثر

يعد كل من التقسيم والاتساق مع مرور الوقت أمثلة معينة على التحقق من قابلية التكرار. إذا كانت الظاهرة مهمة وذات مغزى، فيجب أن تراها على مستوى مجموعات المستخدمين المختلفة وأوقاتهم. لكن التحقق من التكاثر يعني أكثر من إجراء هاتين الفحوصات. إذا كنت تقوم ببناء نماذج من البيانات، فأنت تريد أن تكون هذه النماذج مستقرة عبر الاضطرابات الصغيرة في البيانات الأساسية. سيخبرك استخدام نطاقات زمنية مختلفة أو عينات فرعية عشوائية لبياناتك أيضًا بمدى موثوقية/قابلية إعادة إنتاج هذا النموذج.

إذا لم يكن النموذج قابلاً للتكرار، فعلى الأرجح أنك لا تلتقط شيئًا أساسيًا حول العملية الأساسية التي ينتج عنها البيانات.

التحقق من الاتساق مع القياسات السابقة

غالبًا ما ستحسب مقياسًا مشابهًا للأشياء التي تم حسابها في الماضي. يجب عليك مقارنة مقاييسك بالمقاييس التي تم الإبلاغ عنها في الماضي، حتى لو كانت هذه القياسات تتعلق بمجموعات مختلفة من المستخدمين.

على سبيل المثال، إذا كنت تنظر إلى عدد زيارات طلبات البحث على مجموعة خاصة من الجمهور وكنت تقيس أن متوسط وقت تحميل الصفحة يبلغ 5 ثوانٍ، إلا أنّ التحليلات السابقة لجميع المستخدمين حدّدت متوسط وقت تحميل الصفحة ثانيتَين، فعليك التحقّق من ذلك. قد يكون رقمك مناسبًا لهذه المجموعة، ولكن عليك الآن القيام بمزيد من العمل للتحقق من صحة ذلك.

لست بحاجة إلى الحصول على اتفاق دقيق، ولكن يجب أن تكون في نفس الملعب. إذا لم تكن كذلك، افترض أنك مخطئ حتى يمكنك إقناع نفسك بالكامل. ستتحول البيانات الأكثر إثارة للدهشة إلى خطأ، وليست رؤية جديدة رائعة.

يجب تطبيق المقاييس الجديدة على البيانات/الميزات القديمة أولاً.

إذا أنشأت مقاييس جديدة (ربما من خلال جمع مصدر بيانات جديد) وحاولت تعلم شيء جديد، فلن تعرف ما إذا كان مقياسك الجديد صحيحًا. باستخدام المقاييس الجديدة، يجب أولاً تطبيقها على ميزة أو بيانات معروفة. على سبيل المثال، إذا كان لديك مقياس جديد لرضا المستخدم، فيجب عليك التأكد من أنه يخبرك بأفضل الميزات التي تساعد في الرضا. إذا كان لديك مقياس جديد للمكان الذي يوجّه فيه المستخدمون انتباههم إلى الصفحة، تأكّد من أنّه يتطابق مع ما نعرفه من دراسات تتبُّع العين أو المصنّفين حول كيفية تأثير الصور في انتباه الصفحة. يوفر القيام بذلك التحقق عندما تذهب إلى تعلم شيء جديد.

وضع الفرضيات والبحث عن الأدلة

عادةً ما يكون تحليل البيانات لمشكلة معقدة تكراريًا.² ستكتشف الحالات الشاذة أو الاتجاهات أو الميزات الأخرى للبيانات. بطبيعة الحال، ستقوم بتطوير النظريات لشرح هذه البيانات. لا تقوم فقط بتطوير نظرية والادعاء بأنها صحيحة. ابحث عن دليل (داخل أو خارج البيانات) لتأكيد/إنكار هذه النظرية. مثلاً:

إذا رأيت شيئًا يبدو كمؤشر تعليمي، فتحقّق مما إذا كان يظهر بشدة مع المستخدمين ذوي التكرار العالي.
إذا كنت تعتقد أنّ حالة شاذة تعود إلى إطلاق بعض الميزات، تأكَّد من أنّ عدد السكان الذين تم إطلاق الميزة لهم هم السكان الوحيدون المتأثرون بهذا التغيير. بدلاً من ذلك، تأكد من أن حجم التغيير متوافق مع توقعات الإطلاق.
إذا لاحظت تغيّر معدّلات نمو المستخدمين في لغة معيّنة، حاوِل البحث عن مصدر خارجي يؤكّد صحة معدّل تغيُّر عدد السكان هذا.

سيكون لتحليل البيانات الجيد قصة. للتأكد من أنها القصة الصحيحة، عليك أن تحكي القصة لنفسك، ثم ابحث عن دليل على أنها خاطئة. إحدى الطرق للقيام بذلك هي أن تسأل نفسك، "ما هي التجارب التي سأجريها والتي من شأنها أن تثبت أو تبطل صحة القصة التي أرويها؟" وحتى إذا لم تتمكن أو لم تتمكن من إجراء هذه التجارب، فقد يمنحك ذلك أفكارًا حول كيفية التحقق من صحة البيانات التي لديك.

الخبر السار هو أن هذه النظريات والتجارب المحتملة قد تؤدي إلى سطور استفسار جديدة تتجاوز محاولة التعرف على أي ميزة أو بيانات معينة. يمكنك بعد ذلك الدخول إلى مجال فهم ليس فقط هذه البيانات، ولكن استخلاص مقاييس وتقنيات جديدة لجميع أنواع التحليلات المستقبلية.

فوائد التحليل الاستكشافي من التكرار الشامل

عند إجراء التحليل الاستكشافي، قم بإجراء أكبر عدد ممكن من التكرارات للتحليل بأكمله. عادةً ما سيكون لديك خطوات متعددة لجمع الإشارات والمعالجة والنمذجة وما إلى ذلك. وإذا أمضيت وقتًا طويلاً في الحصول على المرحلة الأولى من إشاراتك الأولية المثالية، فستفقد فرص إجراء المزيد من التكرارات التحسينية في نفس المدّة الزمنية. علاوة على ذلك، عندما تنظر أخيرًا إلى بياناتك في النهاية، يمكنك إجراء اكتشافات تغير اتجاهك. لذلك، يجب ألا يكون تركيزك الأولي على الكمال ولكن على الحصول على شيء معقول طوال العملية. اكتب ملاحظات لنفسك واعترف بأشياء مثل تصفية الخطوات والطلبات غير القابلة للتحليل أو غير المعتادة، لكن لا تضيع الوقت في محاولة التخلص منها جميعًا في بداية التحليل الاستكشافي.

يُرجى توخي الحذر من تلقّي الملاحظات.

نحدّد عادةً مقاييس مختلفة حول نجاح المستخدم. على سبيل المثال، هل نقر المستخدمون على إحدى النتائج؟ إذا قمت بعد ذلك بتغذية هذه البيانات مرة أخرى بالنظام (وهو ما نقوم به بالفعل في عدد من الأماكن)، فإنك تخلق الكثير من الفرص للارتباك في التقييم.

لا يمكنك استخدام المقياس الذي يتم رده إلى نظامك كأساس لتقييم التغيير. إذا عرضت المزيد من الإعلانات التي تتلقى المزيد من النقرات، لا يمكنك استخدام "المزيد من النقرات" كأساس لتحديد مدى سعادة المستخدمين، على الرغم من أن "المزيد من النقرات" غالبًا ما تعني "أكثر سعادة". إضافةً إلى ذلك، يجب عدم تقسيم المتغيرات التي عالجتها وعالجتها، لأنّ ذلك سينتج عنه متغيّرات مختلطة يصعب أو يستحيل فهمها.

عقلية

يصف هذا القسم كيفية العمل مع الآخرين وتوضيح الأفكار.

يبدأ تحليل البيانات بالأسئلة، وليس البيانات أو الأسلوب

هناك دائمًا دافع لتحليل البيانات. يساعد صياغة احتياجاتك كأسئلة أو فرضيات على ضمان أنك تجمع البيانات التي يجب أن تجمعها وأنك تفكر في الفجوات المحتملة في البيانات. بالطبع، يجب أن تتطور الأسئلة التي تطرحها أثناء النظر إلى البيانات. ومع ذلك، فإن التحليل بدون سؤال سينتهي به الأمر بلا هدف.

تجنب شباك العثور على بعض الأساليب المفضلة ثم العثور فقط على أجزاء المشكلات التي تعمل عليها هذه التقنية. مرة أخرى، سيساعدك إنشاء أسئلة واضحة في تجنب هذا الفخ.

كن متشككًا وبطلاً

أثناء عملك على البيانات، يجب أن تصبح بطلاً للرؤى التي تكتسبها ومتشككًا بها. نأمل أن تجد بعض الظواهر المثيرة للاهتمام في البيانات التي تنظر إليها. عندما تكتشف ظاهرة مثيرة للاهتمام، اسأل نفسك الأسئلة التالية:

ما البيانات الأخرى التي يمكنني جمعها لإظهار مدى روعة هذا؟
ما هي المعلومات التي قد تُلغي صلاحية هذا؟"

خاصة في الحالات التي تجري فيها تحليلاً لشخص يريد حقًا إجابة معينة (على سبيل المثال، "ميزتي رائعة!")، يجب أن تشعر بالشكوك لتجنب ارتكاب الأخطاء.

الارتباط != السببية

عند وضع نظريات حول البيانات، غالبًا ما نرغب في تأكيد أنّ "س" تؤدي إلى "ص" - على سبيل المثال، "تسبب بطء الصفحة في نقر المستخدمين على عدد أقل من النقرات". حتى xkcd يعلم أنه لا يمكنك مجرد إنشاء سببية بسبب الارتباط. من خلال التفكير في كيفية التحقق من صحة نظرية السببية، يمكنك عادةً تطوير فكرة جيدة عن مدى مصداقية النظرية السببية.

في بعض الأحيان، يحاول الأشخاص الإبقاء على الارتباط ذا مغزى من خلال التأكيد على أنه حتى لو لم تكن هناك علاقة سببية بين A وB، يجب أن يكون هناك شيء أساسي للمصادفة بحيث يمكن أن تكون إحدى الإشارات مؤشرًا جيدًا أو وكيلاً للأخرى. يشكّل هذا المجال خطيرًا بالنسبة إلى مشاكل اختبار الفرضيات المتعددة. وكما تعرف xkcd، بعد إجراء تجارب وأبعاد كافية، ستتم مواءمة بعض الإشارات مع تجربة معيّنة. هذا لا يعني أن نفس الإشارات ستتم محاذاتها في المستقبل، لذلك عليك الالتزام نفسه بمراعاة النظرية السببية مثل "هناك تأثير خفي (ج) يؤدي إلى كلاً من A وB" بحيث يمكنك محاولة التحقق من مدى صحة ذلك.

يجب على محلل البيانات غالبًا التنقل في هذه الأسئلة السببية للأشخاص الذين يرغبون في استهلاك البيانات. عليك أن تكون واضحًا مع هؤلاء المستهلكين ما يمكنك وما لا يمكنك قوله عن السببية.

المشاركة مع التطبيقات المشابهة أولاً، ثم المستهلكين الخارجيين

اقترحت النقاط السابقة بعض الطرق التي تجعل نفسك تقوم بالأنواع الصحيحة من فحص السلامة والتحقق من الصحة. لكن المشاركة مع زميل تعد إحدى أفضل الطرق لإجبار نفسك على القيام بكل هذه الأشياء. يمكن لزميل ماهر تقديم ملاحظات نوعية مختلفة عن المستهلكين لبياناتك، خاصة وأن المستهلكين لديهم جدول أعمال بشكل عام. الزملاء مفيدون في نقاط متعددة من خلال التحليل. في وقت مبكر يمكنك معرفة المشكلات التي يعرفها زميلك واقتراحات أشياء يمكن قياسها والأبحاث السابقة في هذا المجال. بالقرب من النهاية، يعتبر الزملاء جيدًا جدًا في الإشارة إلى التناقضات أو التناقضات أو غيرها من الالتباسات.

من الناحية المثالية، يجب أن تحصل على ملاحظات من زميل يعرف شيئًا عن البيانات التي تبحث عنها، ولكن حتى زميل لديه تجربة تحليل عامة فقط يعد أمرًا ذا قيمة للغاية.

توقُّع الجهل والأخطاء وقبولها

هناك العديد من القيود لما يمكن أن نتعلمه من البيانات. ويؤكد "نيت سيلفر" في كتاب The Signal and the Noise أنّه لا يمكننا إحراز تقدّم في التوقّع بشكل أفضل إلا من خلال الاعتراف بحدود ثقتنا. الاعتراف بالجهل هو قوة لا تحصل في العادة على الفور. قد تشعر بالاستياء وقتها، لكنه يعود بالفائدة الكبيرة عليك لفريقك على المدى الطويل. تشعر بأسوأ الأمر عندما ترتكب خطأ وتكتشفه لاحقًا (أو حتى بعد فوات الأوان!)، لكن التصرف بشكل استباقي لأخطائك يكسبك الاحترام. هذا الاحترام يترجم المصداقية والتأثير.

إغلاق الأفكار

إن الكثير من العمل الذي تقوم به لتحليل البيانات بشكل جيد ليس واضحًا على الفور لمستهلكي تحليلك. وحقيقة أنك راجعت أحجام السكان بعناية وتحققت من أن التأثير كان متسقًا عبر المتصفحات على الأرجح لن تصل إلى وعي الأشخاص الذين يحاولون اتخاذ القرارات استنادًا إلى هذه البيانات. يشرح هذا أيضًا سبب أن تحليل البيانات الجيد يستغرق وقتًا أطول مما يبدو عليه لمعظم الأشخاص (خاصة عندما يرون النتيجة النهائية فقط). يتمثل جزء من مهمتنا كمحللين في تزويد المستهلكين تدريجيًا بالرؤى القائمة على البيانات حول ماهية هذه الخطوات وسبب أهميتها.

الحاجة إلى كل هذه المعالجة والاستكشافات لبياناتك تحدد أيضًا متطلبات لغة وبيئة تحليل بيانات جيدة. لدينا العديد من الأدوات المتاحة لنا لفحص البيانات. تتناسب الأدوات واللغات المختلفة بشكل أفضل مع الأساليب المختلفة التي تمت مناقشتها أعلاه؛ واختيار الأداة المناسبة هو مهارة مهمة للمحلل. يجب ألا تكون مقيدًا بإمكانيات الأداة التي تناسبك أكثر؛ وظيفتك هي تقديم رؤية حقيقية، وليس تطبيق أداة معينة.

ويُسمى ذلك أحيانًا "التحليل الأولي للبيانات". يمكنك الاطّلاع على مقالة ويكيبيديا حول تحليل البيانات ↩
من الناحية الفنية، يجب أن يكون الأمر تكراريًا فقط إذا كنت تجري تحليلاً استكشافيًا، وليس تحليلاً تأكيديًا.↩