مقاربات لإسناد البيانات

أعاد نشره أفلاطون

المتابعون: 0

نادرًا ما تكون مجموعات البيانات الواقعية مثالية وغالبًا ما تأتي بقيم مفقودة أو معلومات غير كاملة. قد تكون هذه الأخطاء ناتجة عن العنصر البشري (المسوحات المعبأة بشكل غير صحيح أو غير المملوءة) أو التكنولوجيا (أجهزة الاستشعار المعطلة). مهما كانت الحالة ، غالبًا ما تُترك قيمًا أو معلومات مفقودة.

بالطبع ، هذا يمثل مشكلة. بدون القيم المفقودة ، قد يتم اعتبار مجموعة البيانات بأكملها غير قابلة للاستخدام. ولكن نظرًا لأن الأمر يستغرق وقتًا طويلاً وجهدًا ومالًا (في كثير من الحالات) الحصول على بيانات عالية الجودة، قد لا يكون التخلص من البيانات غير الصحيحة والبدء من جديد خيارين قابلين للتطبيق. بدلاً من ذلك ، يجب أن نجد طريقة للتغلب على هذه القيم المفقودة أو استبدالها. هذا هو المكان الذي يأتي فيه احتساب البيانات.

سيناقش هذا الدليل ماهية احتساب البيانات بالإضافة إلى أنواع الأساليب التي يدعمها.

بينما لا يمكننا استبدال البيانات المفقودة أو الفاسدة ، هناك طرق يمكننا استخدامها للسماح لمجموعة البيانات بأن تظل قابلة للاستخدام. يعد احتساب البيانات أحد أكثر التقنيات موثوقية لتحقيق ذلك. ومع ذلك ، يجب علينا أولاً تحديد نوع البيانات المفقودة ولماذا.

في الإحصاء وعلوم البيانات ، هناك ثلاثة أنواع رئيسية من البيانات المفقودة:

مفقود عشوائيًا (MAR)، حيث ترتبط البيانات المفقودة بمتغير ويمكن في النهاية ملاحظتها أو تتبعها. في كثير من الحالات ، يمكن أن يوفر لك هذا مزيدًا من المعلومات حول التركيبة السكانية أو موضوعات البيانات. على سبيل المثال ، قد يقرر الأشخاص في عمر معين تخطي سؤال في استطلاع أو إزالة أنظمة التتبع من أجهزتهم في أوقات معينة.
مفقود تمامًا بشكل عشوائي (MCAR)، حيث بيانات مفقودة لا يمكن ملاحظتها أو تتبعها إلى متغير. يكاد يكون من المستحيل تمييز سبب فقدان البيانات.
بيانات مفقودة ليست مفقودة بشكل عشوائي (NMAR)، حيث ترتبط البيانات المفقودة بمتغير اهتمام. في معظم الحالات ، يمكن تجاهل هذه البيانات المفقودة. يمكن أن تحدث NMAR عندما يتخطى أحد المشاركين في الاستطلاع سؤالاً لا ينطبق عليهم.

التعامل مع البيانات المفقودة

حاليًا ، لديك ثلاثة خيارات أساسية للتعامل مع قيم البيانات المفقودة:

شطب
بتر
تجاهل

بدلاً من التخلص من مجموعة البيانات بأكملها ، يمكنك استخدام ما يعرف بحذف القائمة. يتضمن ذلك حذف السجلات التي تحتوي على معلومات أو قيم مفقودة. الميزة الرئيسية لحذف القائمة هي أنه يدعم جميع الفئات الثلاث للبيانات المفقودة.

ومع ذلك ، قد يؤدي هذا إلى فقدان بيانات إضافي. من المستحسن أن تستخدم فقط قائمة الحذف في الحالات التي يكون فيها عدد القيم المفقودة (المرصودة) أكبر من القيم الحالية (الملاحظة) ، ويرجع ذلك أساسًا إلى عدم وجود بيانات كافية لاستنتاجها أو استبدالها.

إذا كانت البيانات المفقودة المرصودة غير مهمة (يمكن تجاهلها) وفقدت قيم قليلة فقط ، فيمكنك تجاهلها والعمل مع ما لديك. ومع ذلك ، هذا ليس احتمالًا دائمًا. يوفر احتساب البيانات حلاً ثالثًا ويحتمل أن يكون أكثر قابلية للتطبيق.

يتضمن احتساب البيانات استبدال القيم الغائبة بحيث تظل مجموعات البيانات قابلة للاستخدام. هناك فئتان من مناهج احتساب البيانات:

غير متزوجة
قد يؤدي إجراء

يعد متوسط التضمين (MI) أحد أشهر أشكال احتساب البيانات الفردية.

يعني البتر (MI)

MI هو شكل من أشكال التضمين البسيط. يتضمن ذلك حساب متوسط القيم المرصودة واستخدام النتائج لاستنتاج القيم المفقودة. لسوء الحظ ، ثبت أن هذه الطريقة غير فعالة. يمكن أن يؤدي إلى العديد من التقديرات المتحيزة ، حتى عندما تكون البيانات مفقودة تمامًا بشكل عشوائي. بالإضافة إلى ذلك ، تعتمد "دقة" التقديرات على عدد القيم المفقودة.

على سبيل المثال ، إذا كان هناك عدد كبير من القيم المرصودة المفقودة ، باستخدام متوسط التضمين يمكن أن يؤدي إلى التقليل من القيمة. وبالتالي ، فهي مناسبة بشكل أفضل لمجموعات البيانات والمتغيرات مع عدد قليل من القيم المفقودة.

الاستبدال اليدوي

في هذه الحالة ، يمكن للمشغل استخدام المعرفة المسبقة بقيم مجموعة البيانات لاستبدال القيم المفقودة. إنها طريقة احتساب فردية تعتمد على ذاكرة أو معرفة المشغل ويشار إليها أحيانًا على أنها معرفة مسبقة بالرقم المثالي. تتوقف الدقة على قدرة المشغل على استدعاء القيم ، لذلك قد تكون هذه الطريقة أكثر ملاءمة لمجموعات البيانات ذات القيم القليلة المفقودة.

K- أقرب الجيران (K-NN)

K- الجار الأقرب هو أسلوب مشهور في التعلم الآلي لمعالجة مشاكل الانحدار والتصنيف. يستخدم متوسط قيمة البيانات المفقودة للجيران لقيمة البيانات المفقودة لحسابها وإسنادها. ال طريقة K-NN أكثر فاعلية بكثير من متوسط التضمين البسيط ومثالي لقيم MCAR و MAR.

الاستبدال

يشمل الاستبدال العثور على فرد جديد أو موضوع للمسح أو الاختبار. يجب أن يكون هذا الموضوع لم يتم اختياره في العينة الأصلية.

بتر الانحدار

يحاول الانحدار تحديد قوة متغير تابع (عادةً ما يتم تحديده على أنه Y) لمجموعة من المتغيرات المستقلة (يشار إليها عادةً باسم X). الانحدار الخطي هو أكثر أشكال الانحدار شهرة. يستخدم الخط الأنسب للتنبؤ بالقيمة المفقودة أو تحديدها. وبالتالي ، فهي أفضل طريقة لتمثيل البيانات بشكل مرئي من خلال نموذج الانحدار.

عندما يكون الانحدار الخطي أحد أشكال الانحدار الحتمي حيث يتم إنشاء علاقة دقيقة بين القيم المفقودة والحالية ، يتم استبدال القيم المفقودة بالتنبؤ بنسبة 100٪ لنموذج الانحدار. ومع ذلك ، هناك قيود على هذه الطريقة. غالبًا ما يؤدي الانحدار الخطي الحتمي إلى المبالغة في تقدير تقارب العلاقة بين القيم.

مؤشر الاستوكاستيك الانحدارالخطي يعوض عن "الدقة الزائدة" للانحدار الحتمي بإدخال مصطلح خطأ (عشوائي) لأن حالتين أو متغيرين نادراً ما يكونان متصلين بشكل مثالي. هذا يجعل ملء القيم المفقودة باستخدام الانحدار أكثر ملاءمة.

أخذ عينات سطح السفينة الساخنة

يتضمن هذا النهج اختيار قيمة تم اختيارها عشوائيًا من موضوع مع قيم أخرى مماثلة للموضوع الذي يفتقد القيمة. يتطلب منك البحث عن الموضوعات أو الأفراد ثم ملء البيانات المفقودة باستخدام قيمهم.

تحدد طريقة أخذ العينات على السطح الساخن نطاق القيم التي يمكن بلوغها. على سبيل المثال ، إذا كانت عينتك مقصورة على فئة عمرية تتراوح بين 20 و 25 عامًا ، فستكون نتيجتك دائمًا بين هذه الأرقام ، مما يزيد من الدقة المحتملة لقيمة الاستبدال. يتم اختيار الموضوعات / الأفراد لطريقة الإسناد هذه عشوائيًا.

أخذ عينات السطح البارد

تتضمن هذه الطريقة البحث عن فرد / موضوع له قيم متشابهة أو متطابقة لجميع المتغيرات / المعلمات الأخرى في مجموعة البيانات. على سبيل المثال ، قد يكون للموضوع نفس الطول والخلفية الثقافية والعمر للموضوع الذي تفتقد قيمه. وهو يختلف عن أخذ العينات على السطح الساخن من حيث أن الموضوعات يتم اختيارها وإعادة استخدامها بشكل منهجي.

في حين أن هناك العديد من الخيارات والأساليب للتعامل مع البيانات المفقودة ، فإن الوقاية دائمًا أفضل من العلاج. يجب على الباحثين تطبيق صارم التخطيط للتجارب والدراسات. يجب أن تحتوي الدراسة على بيان مهمة أو هدف واضح في الاعتبار.

في كثير من الأحيان ، يبالغ الباحثون في تعقيد الدراسة أو يفشلون في التخطيط لمواجهة العوائق ، مما يؤدي إلى فقدان البيانات أو عدم كفايتها. من الأفضل دائمًا تبسيط تصميم الدراسة مع التركيز بدقة على جمع البيانات.

اجمع فقط البيانات التي تحتاجها لتحقيق أهداف الدراسة ولا شيء أكثر من ذلك. يجب عليك أيضًا التأكد من أن جميع الأدوات وأجهزة الاستشعار المشاركة في الدراسة أو التجارب تعمل بكامل طاقتها في جميع الأوقات. ضع في اعتبارك إنشاء نسخ احتياطية منتظمة من بياناتك / ردودك أثناء تقدم الدراسة.

البيانات المفقودة أمر شائع. حتى إذا قمت بتطبيق أفضل الممارسات ، فقد تظل تعاني من عدم اكتمال البيانات. لحسن الحظ ، هناك طرق لمعالجة هذه المشكلة بعد وقوعها.

نهلة ديفيز هو مطور برامج وكاتب تقني. قبل تكريس عملها بدوام كامل للكتابة التقنية ، تمكنت - من بين أشياء أخرى مثيرة للاهتمام - من العمل كمبرمج رئيسي في مؤسسة تجارية تجريبية 5,000 للعلامة التجارية التي تضم عملائها Samsung و Time Warner و Netflix و Sony.