أربعة وجهات نظر حول فن تحليل البيانات - البيانات

أربعة وجهات نظر حول فن تحليل البيانات - تنوع البيانات

عقدة المصدر: 3059543

باعتبارنا متخصصين في علم البيانات، غالبًا ما يُنظر إلينا على أننا أشخاص يستخلصون استنتاجات بناءً على البيانات فقط ويقللون من العوامل الأخرى. عادة ما يصبح هذا التصور مثيرًا للجدل عندما تكون الرؤى والأدلة المستمدة من البيانات غير متسقة مع "فرضية" شخص آخر. أو نشعر بالارتباك وربما بالإحباط عندما يتفوق التحليل "النوعي" على التحليل الكمي. في المرة القادمة التي تشعر فيها بهذا الإحباط، فكر في وجهات النظر الأربعة هذه حول تحليلات البيانات للتحقق من صحة وجهات النظر الأخرى والنظر فيها حتى تتمكن من محاولة إيجاد أرضية مشتركة:  

1. "القيم المتطرفة تكافؤ الفرص."  

تقدم القيم المتطرفة نفسها في مجموعة البيانات على أنها حالات شاذة. ربما تكون القيم المتطرفة ضوضاء، لكن ربما تكون مميزة. 

يمكن أن تكون القيم المتطرفة رؤى فريدة، أو اتجاهات ناشئة، أو قطاعات مثيرة للاهتمام. في الأبحاث الطبية، يمكن أن تشير القيم المتطرفة إلى آثار جانبية نادرة لدواء ما ولكنها تهدد الحياة. في حالة بيانات العملاء، يمكن أن تكون القيمة المتطرفة مكانًا قيمًا للعملاء لم تتم معالجته بعد. يمكن أن تكون القيم المتطرفة اتجاها ناشئا. بدأ اللون الوردي باعتباره لونًا غريبًا ولكنه سرعان ما أصبح خيار الموضة الأكثر شعبية. 

قبل استبعاد القيم المتطرفة باعتبارها ضجيجًا، استخدمها لإثارة الأسئلة والفضول:   

  • هل يشير المتطرف إلى فرصة؟   
  • لماذا يوجد الخارج؟   
  • إذا كان بإمكانك تغيير الطابع الزمني لمجموعة البيانات الخاصة بك، فكيف يمكن أن يؤثر ذلك على القيم المتطرفة؟ 
  • هل عليك أن تفترض ما إذا كان هناك المزيد من القيم المتطرفة؟  
  • ماذا يخبرنا الشخص الغريب عن النظام أو العملية التي يتم تحليلها؟    
  • ما الذي يتطلبه الأمر لكي يصبح الشخص المتطرف ملفًا شخصيًا أو شريحة مميزة؟  

يمكن أن يؤدي فهم القيم المتطرفة إلى تطوير منتجات مبتكرة، وتحديد فرص السوق الجديدة، والتعرف على المخاطر المحتملة. في مجالات مثل العلوم البيئية أو الاقتصاد، يمكن أن تشير القيم المتطرفة إلى تغييرات مهمة في النمط، مثل التحولات المناخية المفاجئة أو الأزمات المالية. تتمتع القيم المتطرفة بالقدرة على تغيير الطريقة التي ننظر بها إلى البيانات وتفسيرها، وتغييرها من نقاط بيانات يساء فهمها إلى معلومات ثمينة. 

2. "مرة واحدة هي الصدفة. مرتين هي صدفة. ثلاث مرات لعمل العدو." -إصبع الذهب  

هل تساءلت يومًا لماذا يشعر الآخرون بالارتياح في صنع "تعتمد على البياناتقرارات بمعلومات محدودة للغاية؟ المزيد من نقاط البيانات يمنحنا المزيد من الثقة والدقة الأعلى، ولكن في بعض الأحيان، نحتاج إلى التصرف بسرعة.  

ومؤخرًا، أطلقت شركة OpenAI تطبيق ChatGPT على الرغم من عيوبه، بينما انتظر الآخرون الذين لديهم منتجات مماثلة لزيادة مستوى ثقتهم في دقة الردود. عندما تعتقد أن شخصًا ما يتخذ قرارًا يعتمد على البيانات بمستويات ثقة منخفضة ودقة محدودة، ففكر في تكلفة الوقت. قد يطلق العدو النار. 

3. "ليس كل ما يهم يمكن إحصاؤه، وليس كل ما يمكن إحصاؤه مهماً." - يُنسب عادةً إلى ألبرت أينشتاين 

وبعبارة أخرى، "أنا أقدر تحليلك للبيانات، ولكن ما أعتقده أو أسمعه هو الأهم. لا يمكن عدها أو قياسها." 

كيف ترد؟ هذا الوضع هو المكان الذي تحتاج فيه إلى الإبداع.   

على سبيل المثال، قد يكون سلوك العملاء، بما في ذلك مشاعر العملاء والولاء للعلامة التجارية والاتجاهات التي تحركها التحولات الثقافية، غير ملموس ويصعب قياسه. إذا كان لديك فقط بيانات السلوك عبر الإنترنت، فاستخدم طرقًا أخرى للوصول إلى مصادر البيانات الجديدة مثل برامج الاختبار أو الدراسات الاستقصائية أو تحليل المشاعر الاجتماعية أو الإثنوغرافيا عبر الإنترنت أو أبحاث العملاء الأساسية التي تعود إلى الأساسيات.  

ربما لن يكون هناك شيء نهائي، ولكن الجمع والاتساق بين الأساليب والمصادر المختلفة هو الذي يشير إلى نتيجة ثابتة.  

4. "الارتباط يساوي السببية؟"  

يمكن أن يؤدي استبدال الارتباط بالسببية إلى اتخاذ قرارات مضللة عندما يتم ذلك دون وعي. ومع ذلك، هناك حالات لا يمكننا فيها سوى الوصول إلى بيانات الارتباط. في هذه الحالات، من المهم التدقيق فيما إذا كان الارتباط مجرد مصادفة أو إذا كان هناك سبب أساسي صحيح. 

على سبيل المثال، ضع في اعتبارك التحدي المتمثل في قياس إسناد الإنفاق التسويقي وتحليل أنشطة المبيعات. هذه مهام معقدة ليس لها علاقة سببية مباشرة. قد يلاحظ المرء معدل إغلاق بنسبة 90٪ عندما يزور العملاء مكتب البائع للحصول على إحاطة للعملاء، ولكن من المهم عدم القفز إلى الاستنتاجات وافتراض العلاقة السببية. وبدلا من ذلك، هناك حاجة إلى نهج أكثر دقة.  

عند الفحص الدقيق، يصبح من الواضح أن معدل الإغلاق المرتفع ليس نتيجة مجرد جدولة إحاطات العملاء لكل تفاعل مبيعات. وبدلاً من ذلك، فإن التفاعلات نفسها تخلق الرغبة لدى العملاء لحضور هذه الإحاطات، مما يؤدي لاحقًا إلى معدل إغلاق مرتفع. يوضح هذا المثال اندماج الفن والعلم في تحليلات - عملية تتضمن فهم الديناميكيات الأساسية وليس الاعتماد فقط على الارتباطات السطحية. 

نود جميعًا الثقة الإحصائية في الكثير من البيانات مع مجموعة البيانات المثالية. والحقيقة هي أنه في بعض الأحيان، يجب علينا أن نكون مبدعين ومبدعين ونفحص القيم المتطرفة، والعلاقات المتبادلة، ومجموعات البيانات البديلة. أو في بعض الأحيان، لا يوجد وقت، وتحتاج إلى التصرف بناءً على بيانات محدودة. 

الطابع الزمني:

اكثر من البيانات