تصوير رون لاش
نادرًا ما تكون مجموعات البيانات الواقعية مثالية وغالبًا ما تأتي بقيم مفقودة أو معلومات غير كاملة. قد تكون هذه الأخطاء ناتجة عن العنصر البشري (المسوحات المعبأة بشكل غير صحيح أو غير المملوءة) أو التكنولوجيا (أجهزة الاستشعار المعطلة). مهما كانت الحالة ، غالبًا ما تُترك قيمًا أو معلومات مفقودة.
بالطبع ، هذا يمثل مشكلة. بدون القيم المفقودة ، قد يتم اعتبار مجموعة البيانات بأكملها غير قابلة للاستخدام. ولكن نظرًا لأن الأمر يستغرق وقتًا طويلاً وجهدًا ومالًا (في كثير من الحالات) الحصول على بيانات عالية الجودة، قد لا يكون التخلص من البيانات غير الصحيحة والبدء من جديد خيارين قابلين للتطبيق. بدلاً من ذلك ، يجب أن نجد طريقة للتغلب على هذه القيم المفقودة أو استبدالها. هذا هو المكان الذي يأتي فيه احتساب البيانات.
سيناقش هذا الدليل ماهية احتساب البيانات بالإضافة إلى أنواع الأساليب التي يدعمها.
بينما لا يمكننا استبدال البيانات المفقودة أو الفاسدة ، هناك طرق يمكننا استخدامها للسماح لمجموعة البيانات بأن تظل قابلة للاستخدام. يعد احتساب البيانات أحد أكثر التقنيات موثوقية لتحقيق ذلك. ومع ذلك ، يجب علينا أولاً تحديد نوع البيانات المفقودة ولماذا.
في الإحصاء وعلوم البيانات ، هناك ثلاثة أنواع رئيسية من البيانات المفقودة:
- مفقود عشوائيًا (MAR)، حيث ترتبط البيانات المفقودة بمتغير ويمكن في النهاية ملاحظتها أو تتبعها. في كثير من الحالات ، يمكن أن يوفر لك هذا مزيدًا من المعلومات حول التركيبة السكانية أو موضوعات البيانات. على سبيل المثال ، قد يقرر الأشخاص في عمر معين تخطي سؤال في استطلاع أو إزالة أنظمة التتبع من أجهزتهم في أوقات معينة.
- مفقود تمامًا بشكل عشوائي (MCAR)، حيث بيانات مفقودة لا يمكن ملاحظتها أو تتبعها إلى متغير. يكاد يكون من المستحيل تمييز سبب فقدان البيانات.
- بيانات مفقودة ليست مفقودة بشكل عشوائي (NMAR)، حيث ترتبط البيانات المفقودة بمتغير اهتمام. في معظم الحالات ، يمكن تجاهل هذه البيانات المفقودة. يمكن أن تحدث NMAR عندما يتخطى أحد المشاركين في الاستطلاع سؤالاً لا ينطبق عليهم.
التعامل مع البيانات المفقودة
حاليًا ، لديك ثلاثة خيارات أساسية للتعامل مع قيم البيانات المفقودة:
- شطب
- بتر
- تجاهل
بدلاً من التخلص من مجموعة البيانات بأكملها ، يمكنك استخدام ما يعرف بحذف القائمة. يتضمن ذلك حذف السجلات التي تحتوي على معلومات أو قيم مفقودة. الميزة الرئيسية لحذف القائمة هي أنه يدعم جميع الفئات الثلاث للبيانات المفقودة.
ومع ذلك ، قد يؤدي هذا إلى فقدان بيانات إضافي. من المستحسن أن تستخدم فقط قائمة الحذف في الحالات التي يكون فيها عدد القيم المفقودة (المرصودة) أكبر من القيم الحالية (الملاحظة) ، ويرجع ذلك أساسًا إلى عدم وجود بيانات كافية لاستنتاجها أو استبدالها.
إذا كانت البيانات المفقودة المرصودة غير مهمة (يمكن تجاهلها) وفقدت قيم قليلة فقط ، فيمكنك تجاهلها والعمل مع ما لديك. ومع ذلك ، هذا ليس احتمالًا دائمًا. يوفر احتساب البيانات حلاً ثالثًا ويحتمل أن يكون أكثر قابلية للتطبيق.
يتضمن احتساب البيانات استبدال القيم الغائبة بحيث تظل مجموعات البيانات قابلة للاستخدام. هناك فئتان من مناهج احتساب البيانات:
- غير متزوجة
- قد يؤدي إجراء
يعد متوسط التضمين (MI) أحد أشهر أشكال احتساب البيانات الفردية.
يعني البتر (MI)
MI هو شكل من أشكال التضمين البسيط. يتضمن ذلك حساب متوسط القيم المرصودة واستخدام النتائج لاستنتاج القيم المفقودة. لسوء الحظ ، ثبت أن هذه الطريقة غير فعالة. يمكن أن يؤدي إلى العديد من التقديرات المتحيزة ، حتى عندما تكون البيانات مفقودة تمامًا بشكل عشوائي. بالإضافة إلى ذلك ، تعتمد "دقة" التقديرات على عدد القيم المفقودة.
على سبيل المثال ، إذا كان هناك عدد كبير من القيم المرصودة المفقودة ، باستخدام متوسط التضمين يمكن أن يؤدي إلى التقليل من القيمة. وبالتالي ، فهي مناسبة بشكل أفضل لمجموعات البيانات والمتغيرات مع عدد قليل من القيم المفقودة.
الاستبدال اليدوي
في هذه الحالة ، يمكن للمشغل استخدام المعرفة المسبقة بقيم مجموعة البيانات لاستبدال القيم المفقودة. إنها طريقة احتساب فردية تعتمد على ذاكرة أو معرفة المشغل ويشار إليها أحيانًا على أنها معرفة مسبقة بالرقم المثالي. تتوقف الدقة على قدرة المشغل على استدعاء القيم ، لذلك قد تكون هذه الطريقة أكثر ملاءمة لمجموعات البيانات ذات القيم القليلة المفقودة.
K- أقرب الجيران (K-NN)
K- الجار الأقرب هو أسلوب مشهور في التعلم الآلي لمعالجة مشاكل الانحدار والتصنيف. يستخدم متوسط قيمة البيانات المفقودة للجيران لقيمة البيانات المفقودة لحسابها وإسنادها. ال طريقة K-NN أكثر فاعلية بكثير من متوسط التضمين البسيط ومثالي لقيم MCAR و MAR.
الاستبدال
يشمل الاستبدال العثور على فرد جديد أو موضوع للمسح أو الاختبار. يجب أن يكون هذا الموضوع لم يتم اختياره في العينة الأصلية.
بتر الانحدار
يحاول الانحدار تحديد قوة متغير تابع (عادةً ما يتم تحديده على أنه Y) لمجموعة من المتغيرات المستقلة (يشار إليها عادةً باسم X). الانحدار الخطي هو أكثر أشكال الانحدار شهرة. يستخدم الخط الأنسب للتنبؤ بالقيمة المفقودة أو تحديدها. وبالتالي ، فهي أفضل طريقة لتمثيل البيانات بشكل مرئي من خلال نموذج الانحدار.
عندما يكون الانحدار الخطي أحد أشكال الانحدار الحتمي حيث يتم إنشاء علاقة دقيقة بين القيم المفقودة والحالية ، يتم استبدال القيم المفقودة بالتنبؤ بنسبة 100٪ لنموذج الانحدار. ومع ذلك ، هناك قيود على هذه الطريقة. غالبًا ما يؤدي الانحدار الخطي الحتمي إلى المبالغة في تقدير تقارب العلاقة بين القيم.
مؤشر الاستوكاستيك الانحدارالخطي يعوض عن "الدقة الزائدة" للانحدار الحتمي بإدخال مصطلح خطأ (عشوائي) لأن حالتين أو متغيرين نادراً ما يكونان متصلين بشكل مثالي. هذا يجعل ملء القيم المفقودة باستخدام الانحدار أكثر ملاءمة.
أخذ عينات سطح السفينة الساخنة
يتضمن هذا النهج اختيار قيمة تم اختيارها عشوائيًا من موضوع مع قيم أخرى مماثلة للموضوع الذي يفتقد القيمة. يتطلب منك البحث عن الموضوعات أو الأفراد ثم ملء البيانات المفقودة باستخدام قيمهم.
تحدد طريقة أخذ العينات على السطح الساخن نطاق القيم التي يمكن بلوغها. على سبيل المثال ، إذا كانت عينتك مقصورة على فئة عمرية تتراوح بين 20 و 25 عامًا ، فستكون نتيجتك دائمًا بين هذه الأرقام ، مما يزيد من الدقة المحتملة لقيمة الاستبدال. يتم اختيار الموضوعات / الأفراد لطريقة الإسناد هذه عشوائيًا.
أخذ عينات السطح البارد
تتضمن هذه الطريقة البحث عن فرد / موضوع له قيم متشابهة أو متطابقة لجميع المتغيرات / المعلمات الأخرى في مجموعة البيانات. على سبيل المثال ، قد يكون للموضوع نفس الطول والخلفية الثقافية والعمر للموضوع الذي تفتقد قيمه. وهو يختلف عن أخذ العينات على السطح الساخن من حيث أن الموضوعات يتم اختيارها وإعادة استخدامها بشكل منهجي.
في حين أن هناك العديد من الخيارات والأساليب للتعامل مع البيانات المفقودة ، فإن الوقاية دائمًا أفضل من العلاج. يجب على الباحثين تطبيق صارم التخطيط للتجارب والدراسات. يجب أن تحتوي الدراسة على بيان مهمة أو هدف واضح في الاعتبار.
في كثير من الأحيان ، يبالغ الباحثون في تعقيد الدراسة أو يفشلون في التخطيط لمواجهة العوائق ، مما يؤدي إلى فقدان البيانات أو عدم كفايتها. من الأفضل دائمًا تبسيط تصميم الدراسة مع التركيز بدقة على جمع البيانات.
اجمع فقط البيانات التي تحتاجها لتحقيق أهداف الدراسة ولا شيء أكثر من ذلك. يجب عليك أيضًا التأكد من أن جميع الأدوات وأجهزة الاستشعار المشاركة في الدراسة أو التجارب تعمل بكامل طاقتها في جميع الأوقات. ضع في اعتبارك إنشاء نسخ احتياطية منتظمة من بياناتك / ردودك أثناء تقدم الدراسة.
البيانات المفقودة أمر شائع. حتى إذا قمت بتطبيق أفضل الممارسات ، فقد تظل تعاني من عدم اكتمال البيانات. لحسن الحظ ، هناك طرق لمعالجة هذه المشكلة بعد وقوعها.
نهلة ديفيز هو مطور برامج وكاتب تقني. قبل تكريس عملها بدوام كامل للكتابة التقنية ، تمكنت - من بين أشياء أخرى مثيرة للاهتمام - من العمل كمبرمج رئيسي في مؤسسة تجارية تجريبية 5,000 للعلامة التجارية التي تضم عملائها Samsung و Time Warner و Netflix و Sony.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. الوصول هنا.
- المصدر https://www.kdnuggets.com/2023/01/approaches-data-imputation.html?utm_source=rss&utm_medium=rss&utm_campaign=approaches-to-data-imputation
- 000
- a
- القدرة
- من نحن
- غائب
- دقة
- إضافي
- وبالإضافة إلى ذلك
- العنوان
- مميزات
- بعد
- ضد
- الكل
- دائما
- من بين
- و
- التقديم
- نهج
- اقتراب
- مناسب
- حول
- يمكن بلوغه
- محاولات
- خلفية
- النسخ الاحتياطي
- لان
- قبل
- أفضل
- أفضل الممارسات
- أفضل
- ما بين
- العلامات التجارية
- حساب
- لا تستطيع
- حقيبة
- الحالات
- الفئات
- معين
- اختيار
- تصنيف
- واضح
- عميل
- مجموعة شتاء XNUMX
- تأتي
- مشترك
- تماما
- متصل
- بناء على ذلك
- نظر
- كبير
- استطاع
- الدورة
- خلق
- ثقافي
- العلاج.
- البيانات
- فقدان البيانات
- علم البيانات
- مجموعة البيانات
- مجموعات البيانات
- صفقة
- تعامل
- التركيبة السكانية
- تابع
- يعتمد
- تصميم
- حدد
- المطور
- الأجهزة
- بحث
- لا
- الطُرق الفعّالة
- جهد
- كاف
- ضمان
- كامل
- خطأ
- أنشئ
- تقديرات
- حتى
- مثال
- تجريبي
- يفشلون
- مشهور
- اشتهر
- قليل
- شغل
- معبأ
- العثور على
- الاسم الأول
- تناسب
- تركز
- النموذج المرفق
- أشكال
- لحسن الحظ
- تبدأ من
- بالإضافة إلى
- تماما
- وظيفي
- هدف
- الأهداف
- عظيم
- أكبر
- تجمع
- توجيه
- ارتفاع
- عالي الجودة
- أفضل العروض
- لكن
- HTML
- HTTPS
- الانسان
- العنصر البشري
- IBM
- المثالي
- مطابق
- تحديد
- تنفيذ
- أهمية
- مستحيل
- in
- Inc.
- تتضمن
- غير صحيح
- في ازدياد
- مستقل
- فرد
- الأفراد
- غير فعال
- معلومات
- مثل
- بدلًا من ذلك
- الصكوك
- مصلحة
- إدخال
- المشاركة
- IT
- KD nuggets
- المعرفة
- معروف
- قيادة
- تعلم
- تحديد
- حدود
- خط
- خسارة
- آلة
- آلة التعلم
- الرئيسية
- يصنع
- تمكن
- كثير
- تعرف علي
- مكبر الصوت : يدعم، مع دعم ميكروفون مدمج لمنع الضوضاء
- طريقة
- طرق
- مانع
- مفقود
- المهمة
- مهامُنا
- نموذج
- مال
- الأكثر من ذلك
- أكثر
- تقريبا
- حاجة
- الجيران
- نت فلیکس
- جديد
- عدد
- أرقام
- عروض
- ONE
- عامل
- مزيد من الخيارات
- منظمة
- أصلي
- أخرى
- مجتمع
- وضع
- خطة
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- إمكانية
- محتمل
- يحتمل
- الممارسات
- تنبأ
- تنبؤ
- يقدم
- الهدايا
- الوقاية
- ابتدائي
- قبل
- المشكلة
- مشاكل
- مبرمج
- ثبت
- تزود
- سؤال
- عشوائية
- نطاق
- موصى به
- تسجيل
- يشار
- تراجع
- منتظم
- صلة
- الخدمة الموثوقة
- إزالة
- يحل محل
- استبدال
- تمثل
- يتطلب
- الباحثين
- مقيد
- نتيجة
- النتائج
- نفسه
- سامسونج
- علوم
- بحث
- البحث
- نادرا ما
- مختار
- اختيار
- أجهزة الاستشعار
- خدمة
- طقم
- باكجات
- ينبغي
- مماثل
- الاشارات
- تبسيط
- منذ
- عزباء
- حالة
- حالات
- So
- تطبيقات الكمبيوتر
- حل
- Sony
- محدد
- ابتداء
- ملخص الحساب
- إحصائيات
- لا يزال
- قوة
- دراسات
- دراسة
- موضوع
- مناسب
- الدعم
- الدراسة الاستقصائية
- أنظمة
- يأخذ
- التكنولوجيا
- تقني
- تقنيات
- تكنولوجيا
- تجربه بالعربي
- •
- من مشاركة
- الأشياء
- الثالث
- ثلاثة
- عبر
- مربوط
- الوقت
- مرات
- إلى
- تتبع الشحنة
- أنواع
- في النهاية
- تستخدم
- عادة
- قيمنا
- القيم
- قابل للحياة
- نذير
- طرق
- معروف
- ابحث عن
- ما هي تفاصيل
- التي
- في حين
- من الذى
- سوف
- بدون
- للعمل
- كاتب
- جاري الكتابة
- X
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت