عکس رون لاخ
مجموعه داده های دنیای واقعی به ندرت کامل هستند و اغلب دارای مقادیر گم شده یا اطلاعات ناقص هستند. این ایرادات ممکن است به دلیل عنصر انسانی (بررسی های پر شده یا پر نشده اشتباه) یا فناوری (عملکرد نادرست حسگرها) باشد. در هر صورت، شما اغلب با مقادیر یا اطلاعات از دست رفته مواجه می شوید.
البته این یک مشکل ایجاد می کند. بدون مقادیر از دست رفته، کل مجموعه داده ممکن است غیرقابل استفاده در نظر گرفته شود. اما از آنجایی که این کار زمان، تلاش و (در بسیاری موارد) پول قابل توجهی می طلبد به دست آوردن داده های با کیفیت بالا، از بین بردن داده های نادرست و شروع مجدد ممکن است گزینه های مناسبی نباشند. در عوض، ما باید راهی برای دور زدن یا جایگزینی این مقادیر از دست رفته پیدا کنیم. اینجاست که تلقین داده وارد می شود.
این راهنما در مورد اینکه انتساب داده چیست و همچنین انواع رویکردهایی که پشتیبانی می کند بحث خواهد کرد.
در حالی که نمیتوانیم دادههای گمشده یا خراب را جایگزین کنیم، روشهایی وجود دارد که میتوانیم از آنها استفاده کنیم تا بتوانیم مجموعه دادهها را همچنان قابل استفاده باشد. انتساب داده ها یکی از قابل اعتمادترین تکنیک ها برای دستیابی به این امر است. با این حال، ابتدا باید تشخیص دهیم که چه نوع داده ای وجود ندارد و چرا.
در آمار و علم داده، سه نوع اصلی از داده های از دست رفته وجود دارد:
- گمشده به صورت تصادفی (MAR)، جایی که داده های از دست رفته به یک متغیر گره خورده است و در نهایت می توان آنها را مشاهده یا ردیابی کرد. در بسیاری از موارد، این می تواند اطلاعات بیشتری در مورد جمعیت شناسی یا موضوعات داده ها در اختیار شما قرار دهد. به عنوان مثال، افراد در یک سن خاص ممکن است تصمیم بگیرند از یک سوال در یک نظرسنجی صرف نظر کنند یا سیستم های ردیابی را در زمان های خاص از دستگاه خود حذف کنند.
- کاملاً تصادفی از دست رفته (MCAR)، که در آن داده های از دست رفته قابل مشاهده یا ردیابی به یک متغیر نیست. تشخیص اینکه چرا داده ها گم شده اند تقریبا غیرممکن است.
- دادههای از دست رفته که بهطور تصادفی گم نمیشوند (NMAR)، جایی که داده های از دست رفته به متغیر مورد علاقه گره خورده است. در بیشتر موارد، این داده های از دست رفته را می توان نادیده گرفت. NMAR ممکن است زمانی اتفاق بیفتد که یک نظرسنجی از سؤالی که در مورد آنها صدق نمی کند صرف نظر کند.
مقابله با داده های از دست رفته
در حال حاضر، شما سه گزینه اصلی برای مقابله با مقادیر داده از دست رفته دارید:
- حذف
- بدل کردن
- نادیده گرفتن
به جای دور انداختن کل مجموعه داده ها، می توانید از چیزی که به عنوان حذف لیست شناخته می شود استفاده کنید. این شامل حذف رکوردهایی با اطلاعات یا مقادیر از دست رفته است. مزیت اصلی حذف مبتنی بر فهرست این است که از هر سه دسته از داده های از دست رفته پشتیبانی می کند.
با این حال، این ممکن است منجر به از دست دادن اطلاعات اضافی شود. توصیه می شود فقط استفاده کنید حذف فهرستی در مواردی که تعداد مقادیر گمشده (مشاهدهشده) بیشتر از مقادیر فعلی (مشاهدهشده) است، عمدتاً به این دلیل که دادههای کافی برای استنتاج یا جایگزینی آنها وجود ندارد.
اگر داده های از دست رفته مشاهده شده مهم نیستند (غیر قابل چشم پوشی) و فقط چند مقدار از دست رفته است، می توانید آنها را نادیده بگیرید و با آنچه دارید کار کنید. با این حال، این همیشه یک امکان نیست. انتساب داده ها راه حل سوم و به طور بالقوه عملی تر را ارائه می دهد.
انتساب داده شامل جایگزینی مقادیر غایب است تا مجموعه داده ها همچنان قابل استفاده باشند. دو دسته از رویکردهای انتساب داده وجود دارد:
- تنها
- چندین
انتساب میانگین (MI) یکی از معروف ترین اشکال انتساب تک داده است.
میانگین منتسب (MI)
MI شکلی از انتساب ساده است. این شامل محاسبه میانگین مقادیر مشاهده شده و استفاده از نتایج برای استنتاج مقادیر از دست رفته است. متأسفانه ناکارآمدی این روش ثابت شده است. این می تواند منجر به بسیاری از تخمین های مغرضانه شود، حتی زمانی که داده ها به طور تصادفی از دست رفته باشند. علاوه بر این، "دقت" تخمین ها به تعداد مقادیر از دست رفته بستگی دارد.
به عنوان مثال، اگر تعداد زیادی از مقادیر مشاهده شده از دست رفته وجود داشته باشد، با استفاده از انتساب میانگین می تواند منجر به دست کم گرفتن ارزش شود. بنابراین، برای مجموعه دادهها و متغیرهایی که فقط چند مقدار از دست رفته دارند، مناسبتر است.
تعویض دستی
در این شرایط، یک اپراتور می تواند از دانش قبلی مقادیر مجموعه داده برای جایگزینی مقادیر از دست رفته استفاده کند. این یک روش انتساب واحد است که بر حافظه یا دانش اپراتور متکی است و گاهی اوقات به عنوان دانش قبلی از یک عدد ایده آل نامیده می شود. دقت به توانایی اپراتور برای به خاطر آوردن مقادیر بستگی دارد، بنابراین این روش ممکن است برای مجموعههای دادهای که تنها چند مقدار از دست رفته دارند مناسبتر باشد.
K-نزدیکترین همسایه (K-NN)
K-نزدیکترین همسایه تکنیکی است که در یادگیری ماشین برای رسیدگی به مشکلات رگرسیون و طبقهبندی استفاده میشود. از میانگین مقدار دادههای گمشده، مقدار دادههای گمشده همسایگان برای محاسبه و نسبت دادن آن استفاده میکند. را روش K-NN بسیار موثرتر از نسبت میانگین ساده است و برای مقادیر MCAR و MAR ایده آل است.
جایگزینی
جایگزینی شامل یافتن یک فرد جدید یا موضوع بررسی یا آزمایش است. این باید موضوعی باشد که در نمونه اصلی انتخاب نشده باشد.
نسبت رگرسیون
رگرسیون تلاش می کند تا قدرت یک متغیر وابسته (معمولاً با Y مشخص شود) به مجموعه ای از متغیرهای مستقل (معمولاً با X نشان داده می شود) را تعیین کند. رگرسیون خطی شناخته شده ترین شکل رگرسیون است. از خط بهترین تناسب برای پیشبینی یا تعیین مقدار گمشده استفاده میکند. در نتیجه، این بهترین روش برای نمایش داده ها به صورت بصری از طریق یک مدل رگرسیون است.
هنگامی که رگرسیون خطی شکلی از رگرسیون قطعی است که در آن یک رابطه دقیق بین مقادیر از دست رفته و فعلی برقرار می شود، مقادیر از دست رفته با پیش بینی 100٪ مدل رگرسیون جایگزین می شوند. اما محدودیتی برای این روش وجود دارد. رگرسیون خطی قطعی اغلب می تواند منجر به تخمین بیش از حد نزدیکی رابطه بین مقادیر شود.
اتفاقی رگرسیون خطی "دقت بیش از حد" رگرسیون قطعی را با معرفی یک عبارت خطای (تصادفی) جبران می کند زیرا دو موقعیت یا متغیر به ندرت کاملاً به هم مرتبط هستند. این باعث می شود که مقادیر از دست رفته با استفاده از رگرسیون پر کردن مناسب تر باشد.
نمونه برداری از عرشه داغ
این رویکرد شامل انتخاب یک مقدار تصادفی انتخاب شده از یک موضوع با مقادیر دیگر مشابه با موضوعی است که مقدار را از دست داده است. از شما میخواهد افراد یا افراد را جستجو کنید و سپس دادههای گمشده را با استفاده از مقادیر آنها پر کنید.
روش نمونه برداری از عرشه داغ دامنه مقادیر قابل دستیابی را محدود می کند. به عنوان مثال، اگر نمونه شما محدود به یک گروه سنی بین 20 تا 25 باشد، نتیجه شما همیشه بین این اعداد خواهد بود و دقت بالقوه مقدار جایگزینی را افزایش می دهد. افراد / افراد برای این روش انتساب به طور تصادفی انتخاب می شوند.
نمونه برداری از عرشه سرد
این روش شامل جستجوی یک فرد/موضوع است که مقادیر مشابه یا یکسانی برای همه متغیرها/پارامترهای دیگر در مجموعه داده دارد. به عنوان مثال، آزمودنی ممکن است دارای قد، پیشینه فرهنگی و سنی مشابه با موضوعی باشد که ارزش های آن گم شده است. تفاوت آن با نمونه برداری از عرشه داغ در این است که افراد به طور سیستماتیک انتخاب و مورد استفاده مجدد قرار می گیرند.
در حالی که گزینه ها و تکنیک های زیادی برای مقابله با داده های از دست رفته وجود دارد، پیشگیری همیشه بهتر از درمان است. محققان باید سختگیرانه عمل کنند برنامه ریزی برای آزمایش و مطالعه می کند. مطالعه باید بیانیه ماموریت یا هدف روشنی در ذهن داشته باشد.
اغلب، محققان یک مطالعه را بیش از حد پیچیده می کنند یا در برنامه ریزی در برابر موانع شکست می خورند، که منجر به از دست رفتن یا ناکافی بودن داده ها می شود. همیشه بهتر است طراحی مطالعه را ساده کنید و در عین حال تمرکز دقیقی بر جمع آوری داده ها داشته باشید.
فقط داده هایی را که برای دستیابی به اهداف مطالعه نیاز دارید جمع آوری کنید و نه بیشتر. همچنین باید اطمینان حاصل کنید که همه ابزارها و حسگرهای درگیر در مطالعه یا آزمایشها در همه زمانها کاملاً کارکرد هستند. همزمان با پیشرفت مطالعه، از داده ها/پاسخ های خود نسخه پشتیبان تهیه کنید.
داده های از دست رفته یک اتفاق رایج است. حتی اگر بهترین شیوه ها را پیاده سازی کنید، ممکن است همچنان از داده های ناقص رنج ببرید. خوشبختانه، راه هایی برای رفع این مشکل پس از واقعیت وجود دارد.
نهلا دیویس یک توسعه دهنده نرم افزار و نویسنده فناوری است. قبل از اینکه کار خود را به طور تمام وقت به نویسندگی فنی اختصاص دهد، موفق شد - در میان چیزهای جذاب دیگر - به عنوان برنامه نویس اصلی در یک سازمان برندسازی تجربی شرکت 5,000 خدمت کند که مشتریان آن شامل سامسونگ، تایم وارنر، نتفلیکس و سونی هستند.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی به اینجا.
- منبع: https://www.kdnuggets.com/2023/01/approaches-data-imputation.html?utm_source=rss&utm_medium=rss&utm_campaign=approaches-to-data-imputation
- 000
- a
- توانایی
- درباره ما
- غایب
- دقت
- اضافی
- علاوه بر این
- نشانی
- مزیت - فایده - سود - منفعت
- پس از
- در برابر
- معرفی
- همیشه
- در میان
- و
- درخواست
- روش
- رویکردها
- مناسب
- دور و بر
- قابل دستیابی است
- تلاشها
- زمینه
- پشتیبان گیری
- زیرا
- قبل از
- بهترین
- بهترین شیوه
- بهتر
- میان
- علامت گذاری
- محاسبه
- نمی توان
- مورد
- موارد
- دسته
- معین
- برگزیده
- طبقه بندی
- واضح
- مشتریان
- مجموعه
- بیا
- مشترک
- به طور کامل
- متصل
- در نتیجه
- در نظر بگیرید
- قابل توجه
- میتوانست
- دوره
- ایجاد
- فرهنگی
- علاج
- داده ها
- از دست رفتن داده ها
- علم اطلاعات
- مجموعه داده ها
- مجموعه داده ها
- مقدار
- معامله
- جمعیت
- وابسته
- بستگی دارد
- طرح
- مشخص کردن
- توسعه دهنده
- دستگاه ها
- بحث و تبادل نظر
- نمی کند
- موثر
- تلاش
- کافی
- اطمینان حاصل شود
- تمام
- خطا
- تاسیس
- تخمین می زند
- حتی
- مثال
- تجربی
- FAIL
- معروف
- معروف
- کمی از
- پر کردن
- پر شده
- پیدا کردن
- پیدا کردن
- نام خانوادگی
- مناسب
- تمرکز
- فرم
- اشکال
- خوشبختانه
- از جانب
- کامل
- کاملا
- تابعی
- هدف
- اهداف
- بزرگ
- بیشتر
- گروه
- راهنمایی
- ارتفاع
- با کیفیت بالا
- HOT
- اما
- HTML
- HTTPS
- انسان
- عنصر انسانی
- آی بی ام
- دلخواه
- یکسان
- شناسایی
- انجام
- مهم
- غیر ممکن
- in
- شرکت
- شامل
- نادرست
- افزایش
- مستقل
- فرد
- افراد
- ناکارآمد
- اطلاعات
- نمونه
- در عوض
- ابزار
- علاقه
- معرفی
- گرفتار
- IT
- kdnuggets
- دانش
- شناخته شده
- رهبری
- یادگیری
- محدودیت
- محدودیت
- لاین
- خاموش
- دستگاه
- فراگیری ماشین
- اصلی
- باعث می شود
- اداره می شود
- بسیاری
- دیدار
- حافظه
- روش
- روش
- ذهن
- گم
- ماموریت
- بیانیه ماموریت
- مدل
- پول
- بیش
- اکثر
- تقریبا
- نیاز
- همسایه ها
- نت فلیکس
- جدید
- عدد
- تعداد
- پیشنهادات
- ONE
- اپراتور
- گزینه
- کدام سازمان ها
- اصلی
- دیگر
- مردم
- کامل
- دادن
- برنامه
- افلاطون
- هوش داده افلاطون
- PlatoData
- امکان
- پتانسیل
- بالقوه
- شیوه های
- پیش بینی
- پیش گویی
- در حال حاضر
- هدیه
- پیشگیری
- اصلی
- قبلا
- مشکل
- مشکلات
- برنامهنویس
- اثبات شده
- ارائه
- سوال
- تصادفی
- محدوده
- توصیه می شود
- سوابق
- اشاره
- رگرسیون
- منظم
- ارتباط
- قابل اعتماد
- برداشتن
- جایگزین کردن
- جایگزین
- نمایندگی
- نیاز
- محققان
- منحصر
- نتیجه
- نتایج
- همان
- سامسونگ
- علم
- جستجو
- جستجو
- به ندرت
- انتخاب شد
- انتخاب
- سنسور
- خدمت
- تنظیم
- مجموعه
- باید
- مشابه
- ساده
- ساده کردن
- پس از
- تنها
- وضعیت
- شرایط
- So
- نرم افزار
- راه حل
- سونی
- مشخص شده
- راه افتادن
- بیانیه
- ارقام
- هنوز
- استحکام
- مطالعات
- مهاجرت تحصیلی
- موضوع
- مناسب
- پشتیبانی از
- بررسی
- سیستم های
- طول می کشد
- فن آوری
- فنی
- تکنیک
- پیشرفته
- آزمون
- La
- شان
- اشیاء
- سوم
- سه
- از طریق
- گره خورده است
- زمان
- بار
- به
- پیگردی
- انواع
- در نهایت
- استفاده کنید
- معمولا
- ارزش
- ارزشها
- قابل اعتماد
- وارنر
- راه
- معروف
- چی
- چه شده است
- که
- در حین
- WHO
- اراده
- بدون
- مهاجرت کاری
- نویسنده
- نوشته
- X
- شما
- زفیرنت