رویکردهای نسبت داده‌ها

بازنشر افلاطون

دنبال: 0

مجموعه داده های دنیای واقعی به ندرت کامل هستند و اغلب دارای مقادیر گم شده یا اطلاعات ناقص هستند. این ایرادات ممکن است به دلیل عنصر انسانی (بررسی های پر شده یا پر نشده اشتباه) یا فناوری (عملکرد نادرست حسگرها) باشد. در هر صورت، شما اغلب با مقادیر یا اطلاعات از دست رفته مواجه می شوید.

البته این یک مشکل ایجاد می کند. بدون مقادیر از دست رفته، کل مجموعه داده ممکن است غیرقابل استفاده در نظر گرفته شود. اما از آنجایی که این کار زمان، تلاش و (در بسیاری موارد) پول قابل توجهی می طلبد به دست آوردن داده های با کیفیت بالا، از بین بردن داده های نادرست و شروع مجدد ممکن است گزینه های مناسبی نباشند. در عوض، ما باید راهی برای دور زدن یا جایگزینی این مقادیر از دست رفته پیدا کنیم. اینجاست که تلقین داده وارد می شود.

این راهنما در مورد اینکه انتساب داده چیست و همچنین انواع رویکردهایی که پشتیبانی می کند بحث خواهد کرد.

در حالی که نمی‌توانیم داده‌های گمشده یا خراب را جایگزین کنیم، روش‌هایی وجود دارد که می‌توانیم از آنها استفاده کنیم تا بتوانیم مجموعه داده‌ها را همچنان قابل استفاده باشد. انتساب داده ها یکی از قابل اعتمادترین تکنیک ها برای دستیابی به این امر است. با این حال، ابتدا باید تشخیص دهیم که چه نوع داده ای وجود ندارد و چرا.

در آمار و علم داده، سه نوع اصلی از داده های از دست رفته وجود دارد:

گمشده به صورت تصادفی (MAR)، جایی که داده های از دست رفته به یک متغیر گره خورده است و در نهایت می توان آنها را مشاهده یا ردیابی کرد. در بسیاری از موارد، این می تواند اطلاعات بیشتری در مورد جمعیت شناسی یا موضوعات داده ها در اختیار شما قرار دهد. به عنوان مثال، افراد در یک سن خاص ممکن است تصمیم بگیرند از یک سوال در یک نظرسنجی صرف نظر کنند یا سیستم های ردیابی را در زمان های خاص از دستگاه خود حذف کنند.
کاملاً تصادفی از دست رفته (MCAR)، که در آن داده های از دست رفته قابل مشاهده یا ردیابی به یک متغیر نیست. تشخیص اینکه چرا داده ها گم شده اند تقریبا غیرممکن است.
داده‌های از دست رفته که به‌طور تصادفی گم نمی‌شوند (NMAR)، جایی که داده های از دست رفته به متغیر مورد علاقه گره خورده است. در بیشتر موارد، این داده های از دست رفته را می توان نادیده گرفت. NMAR ممکن است زمانی اتفاق بیفتد که یک نظرسنجی از سؤالی که در مورد آنها صدق نمی کند صرف نظر کند.

مقابله با داده های از دست رفته

در حال حاضر، شما سه گزینه اصلی برای مقابله با مقادیر داده از دست رفته دارید:

حذف
بدل کردن
نادیده گرفتن

به جای دور انداختن کل مجموعه داده ها، می توانید از چیزی که به عنوان حذف لیست شناخته می شود استفاده کنید. این شامل حذف رکوردهایی با اطلاعات یا مقادیر از دست رفته است. مزیت اصلی حذف مبتنی بر فهرست این است که از هر سه دسته از داده های از دست رفته پشتیبانی می کند.

با این حال، این ممکن است منجر به از دست دادن اطلاعات اضافی شود. توصیه می شود فقط استفاده کنید حذف فهرستی در مواردی که تعداد مقادیر گمشده (مشاهده‌شده) بیشتر از مقادیر فعلی (مشاهده‌شده) است، عمدتاً به این دلیل که داده‌های کافی برای استنتاج یا جایگزینی آنها وجود ندارد.

اگر داده های از دست رفته مشاهده شده مهم نیستند (غیر قابل چشم پوشی) و فقط چند مقدار از دست رفته است، می توانید آنها را نادیده بگیرید و با آنچه دارید کار کنید. با این حال، این همیشه یک امکان نیست. انتساب داده ها راه حل سوم و به طور بالقوه عملی تر را ارائه می دهد.

انتساب داده شامل جایگزینی مقادیر غایب است تا مجموعه داده ها همچنان قابل استفاده باشند. دو دسته از رویکردهای انتساب داده وجود دارد:

تنها
چندین

انتساب میانگین (MI) یکی از معروف ترین اشکال انتساب تک داده است.

میانگین منتسب (MI)

MI شکلی از انتساب ساده است. این شامل محاسبه میانگین مقادیر مشاهده شده و استفاده از نتایج برای استنتاج مقادیر از دست رفته است. متأسفانه ناکارآمدی این روش ثابت شده است. این می تواند منجر به بسیاری از تخمین های مغرضانه شود، حتی زمانی که داده ها به طور تصادفی از دست رفته باشند. علاوه بر این، "دقت" تخمین ها به تعداد مقادیر از دست رفته بستگی دارد.

به عنوان مثال، اگر تعداد زیادی از مقادیر مشاهده شده از دست رفته وجود داشته باشد، با استفاده از انتساب میانگین می تواند منجر به دست کم گرفتن ارزش شود. بنابراین، برای مجموعه داده‌ها و متغیرهایی که فقط چند مقدار از دست رفته دارند، مناسب‌تر است.

تعویض دستی

در این شرایط، یک اپراتور می تواند از دانش قبلی مقادیر مجموعه داده برای جایگزینی مقادیر از دست رفته استفاده کند. این یک روش انتساب واحد است که بر حافظه یا دانش اپراتور متکی است و گاهی اوقات به عنوان دانش قبلی از یک عدد ایده آل نامیده می شود. دقت به توانایی اپراتور برای به خاطر آوردن مقادیر بستگی دارد، بنابراین این روش ممکن است برای مجموعه‌های داده‌ای که تنها چند مقدار از دست رفته دارند مناسب‌تر باشد.

K-نزدیکترین همسایه (K-NN)

K-نزدیکترین همسایه تکنیکی است که در یادگیری ماشین برای رسیدگی به مشکلات رگرسیون و طبقه‌بندی استفاده می‌شود. از میانگین مقدار داده‌های گم‌شده، مقدار داده‌های گم‌شده همسایگان برای محاسبه و نسبت دادن آن استفاده می‌کند. را روش K-NN بسیار موثرتر از نسبت میانگین ساده است و برای مقادیر MCAR و MAR ایده آل است.

جایگزینی

جایگزینی شامل یافتن یک فرد جدید یا موضوع بررسی یا آزمایش است. این باید موضوعی باشد که در نمونه اصلی انتخاب نشده باشد.

نسبت رگرسیون

رگرسیون تلاش می کند تا قدرت یک متغیر وابسته (معمولاً با Y مشخص شود) به مجموعه ای از متغیرهای مستقل (معمولاً با X نشان داده می شود) را تعیین کند. رگرسیون خطی شناخته شده ترین شکل رگرسیون است. از خط بهترین تناسب برای پیش‌بینی یا تعیین مقدار گمشده استفاده می‌کند. در نتیجه، این بهترین روش برای نمایش داده ها به صورت بصری از طریق یک مدل رگرسیون است.

هنگامی که رگرسیون خطی شکلی از رگرسیون قطعی است که در آن یک رابطه دقیق بین مقادیر از دست رفته و فعلی برقرار می شود، مقادیر از دست رفته با پیش بینی 100٪ مدل رگرسیون جایگزین می شوند. اما محدودیتی برای این روش وجود دارد. رگرسیون خطی قطعی اغلب می تواند منجر به تخمین بیش از حد نزدیکی رابطه بین مقادیر شود.

اتفاقی رگرسیون خطی "دقت بیش از حد" رگرسیون قطعی را با معرفی یک عبارت خطای (تصادفی) جبران می کند زیرا دو موقعیت یا متغیر به ندرت کاملاً به هم مرتبط هستند. این باعث می شود که مقادیر از دست رفته با استفاده از رگرسیون پر کردن مناسب تر باشد.

نمونه برداری از عرشه داغ

این رویکرد شامل انتخاب یک مقدار تصادفی انتخاب شده از یک موضوع با مقادیر دیگر مشابه با موضوعی است که مقدار را از دست داده است. از شما می‌خواهد افراد یا افراد را جستجو کنید و سپس داده‌های گمشده را با استفاده از مقادیر آنها پر کنید.

روش نمونه برداری از عرشه داغ دامنه مقادیر قابل دستیابی را محدود می کند. به عنوان مثال، اگر نمونه شما محدود به یک گروه سنی بین 20 تا 25 باشد، نتیجه شما همیشه بین این اعداد خواهد بود و دقت بالقوه مقدار جایگزینی را افزایش می دهد. افراد / افراد برای این روش انتساب به طور تصادفی انتخاب می شوند.

نمونه برداری از عرشه سرد

این روش شامل جستجوی یک فرد/موضوع است که مقادیر مشابه یا یکسانی برای همه متغیرها/پارامترهای دیگر در مجموعه داده دارد. به عنوان مثال، آزمودنی ممکن است دارای قد، پیشینه فرهنگی و سنی مشابه با موضوعی باشد که ارزش های آن گم شده است. تفاوت آن با نمونه برداری از عرشه داغ در این است که افراد به طور سیستماتیک انتخاب و مورد استفاده مجدد قرار می گیرند.

در حالی که گزینه ها و تکنیک های زیادی برای مقابله با داده های از دست رفته وجود دارد، پیشگیری همیشه بهتر از درمان است. محققان باید سختگیرانه عمل کنند برنامه ریزی برای آزمایش و مطالعه می کند. مطالعه باید بیانیه ماموریت یا هدف روشنی در ذهن داشته باشد.

اغلب، محققان یک مطالعه را بیش از حد پیچیده می کنند یا در برنامه ریزی در برابر موانع شکست می خورند، که منجر به از دست رفتن یا ناکافی بودن داده ها می شود. همیشه بهتر است طراحی مطالعه را ساده کنید و در عین حال تمرکز دقیقی بر جمع آوری داده ها داشته باشید.

فقط داده هایی را که برای دستیابی به اهداف مطالعه نیاز دارید جمع آوری کنید و نه بیشتر. همچنین باید اطمینان حاصل کنید که همه ابزارها و حسگرهای درگیر در مطالعه یا آزمایش‌ها در همه زمان‌ها کاملاً کارکرد هستند. همزمان با پیشرفت مطالعه، از داده ها/پاسخ های خود نسخه پشتیبان تهیه کنید.

داده های از دست رفته یک اتفاق رایج است. حتی اگر بهترین شیوه ها را پیاده سازی کنید، ممکن است همچنان از داده های ناقص رنج ببرید. خوشبختانه، راه هایی برای رفع این مشکل پس از واقعیت وجود دارد.

نهلا دیویس یک توسعه دهنده نرم افزار و نویسنده فناوری است. قبل از اینکه کار خود را به طور تمام وقت به نویسندگی فنی اختصاص دهد، موفق شد - در میان چیزهای جذاب دیگر - به عنوان برنامه نویس اصلی در یک سازمان برندسازی تجربی شرکت 5,000 خدمت کند که مشتریان آن شامل سامسونگ، تایم وارنر، نتفلیکس و سونی هستند.