دریفت داده در مقابل رانش مفهومی: تفاوت چیست؟

دریفت داده در مقابل رانش مفهومی: تفاوت چیست؟

گره منبع: 1936845

رانش مدل به پدیده ای اشاره دارد که زمانی رخ می دهد که عملکرد یک مدل یادگیری ماشینی با گذشت زمان کاهش می یابد. این امر به دلایل مختلفی از جمله تغییرات توزیع داده ها، تغییر در اهداف یا اهداف مدل یا تغییر در محیطی که مدل در آن کار می کند اتفاق می افتد. دو تا اصلی وجود دارد انواع دریفت مدل که می تواند رخ دهد: رانش داده و رانش مفهوم.

انحراف داده به تغییر توزیع داده هایی که مدل برای آن اعمال می شود اشاره دارد. رانش مفهومی به یک هدف یا هدف اساسی در حال تغییر برای مدل اشاره دارد. هر دو رانش داده و رانش مفهومی می توانند منجر به کاهش عملکرد a شوند فراگیری ماشین مدل.

جابجایی مدل می‌تواند مشکل مهمی برای سیستم‌های یادگیری ماشینی باشد که در تنظیمات دنیای واقعی مستقر هستند، زیرا می‌تواند منجر به پیش‌بینی‌ها یا تصمیم‌های نادرست یا غیرقابل اعتماد شود. برای رسیدگی به انحراف مدل، نظارت مداوم بر عملکرد مدل‌های یادگیری ماشین در طول زمان و اتخاذ گام‌هایی برای جلوگیری یا کاهش آن، مانند آموزش مجدد مدل بر روی داده‌های جدید یا تنظیم پارامترهای مدل، مهم است. این سیستم های نظارت و تنظیم باید بخشی جدایی ناپذیر از a سیستم استقرار نرم افزار برای مدل های ML

دریفت مفهومی در مقابل رانش داده: تفاوت چیست؟

رانش داده

رانش داده یا تغییر متغیر به پدیده ای اشاره دارد که در آن توزیع داده های ورودی مدل ML آموزش داده شد با توزیع ورودی های داده ای که مدل روی آن اعمال می شود متفاوت است. این می‌تواند منجر به کاهش دقت یا اثربخشی مدل در پیش‌بینی یا تصمیم‌گیری شود.

یک نمایش ریاضی از رانش داده ها را می توان به صورت زیر بیان کرد:

P(x|y) ≠ P(x|y')

جایی که P(x|y) به توزیع احتمال داده های ورودی (x) با توجه به داده های خروجی (y) اشاره دارد، و P(x|y') توزیع احتمال داده های ورودی است که داده های خروجی برای داده های جدید داده شده است. که مدل اعمال می شود (y').

برای مثال، فرض کنید یک مدل ML بر روی مجموعه داده‌ای از داده‌های مشتری از یک فروشگاه خرده‌فروشی خاص آموزش داده شده است، و از این مدل برای پیش‌بینی اینکه آیا یک مشتری بر اساس سن، درآمد و موقعیت مکانی خرید می‌کند یا خیر، استفاده می‌شود. 

اگر توزیع داده‌های ورودی (سن، درآمد و مکان) برای داده‌های جدید تغذیه‌شده به مدل به‌طور قابل‌توجهی با توزیع داده‌های ورودی در مجموعه داده آموزشی متفاوت باشد، این می‌تواند منجر به جابجایی داده‌ها و در نتیجه کاهش دقت مدل شود.

غلبه بر رانش داده

یکی از راه‌های غلبه بر انحراف داده‌ها، استفاده از تکنیک‌هایی مانند وزن‌دهی یا نمونه‌گیری برای تنظیم تفاوت‌ها در توزیع داده‌ها است. برای مثال، ممکن است نمونه‌های موجود در مجموعه داده آموزشی را وزن کنید تا با توزیع داده‌های ورودی برای داده‌های جدیدی که مدل روی آن اعمال می‌شود مطابقت بیشتری داشته باشد. 

از طرف دیگر، می توانید از داده های جدید و داده های آموزشی نمونه برداری کنید تا یک مجموعه داده متعادل برای آموزش مدل ایجاد کنید. رویکرد دیگر استفاده از تکنیک‌های تطبیق دامنه است که هدف آن انطباق مدل با توزیع داده‌های جدید با یادگیری نقشه‌برداری بین حوزه منبع (داده‌های آموزشی) و دامنه هدف (داده‌های جدید) است. یکی از راه های رسیدن به این هدف استفاده از آن است تولید داده های مصنوعی الگوریتم ها

مفهوم رانش

انحراف مفهوم زمانی اتفاق می افتد که در رابطه عملکردی بین داده های ورودی و خروجی مدل تغییری ایجاد شود. این مدل با وجود تغییر بافت، بدون آگاهی از تغییرات، به کار خود ادامه می دهد. بنابراین، الگوهایی که در طول آموزش آموخته است دیگر دقیق نیستند.

انحراف مفهوم گاهی اوقات رانش کلاس یا تغییر احتمال پسین نیز نامیده می شود. این به این دلیل است که به تغییرات احتمالات بین موقعیت های مختلف اشاره دارد:

Pt1 (Y|X) ≠ Pt2 (Y|X)

این نوع رانش ناشی از فرآیندها یا رویدادهای خارجی است. به عنوان مثال، ممکن است مدلی داشته باشید که هزینه زندگی را بر اساس موقعیت جغرافیایی، با مناطق مختلف به عنوان ورودی، پیش بینی می کند. با این حال، سطح توسعه هر منطقه می تواند افزایش یا کاهش یابد و هزینه زندگی در دنیای واقعی را تغییر دهد. بنابراین، مدل توانایی پیش‌بینی دقیق را از دست می‌دهد. 

معنای اصلی "انحراف مفهوم" تغییر در نحوه درک ما از برچسب های خاص است. یک مثال، چیزی است که ما در ایمیل ها به عنوان "هرزنامه" برچسب گذاری می کنیم. الگوهایی مانند ایمیل های مکرر و انبوه زمانی نشانه هایی از هرزنامه به حساب می آمدند، اما امروزه همیشه اینطور نیست. آشکارسازهای هرزنامه که هنوز از این ویژگی‌های قدیمی استفاده می‌کنند، در هنگام شناسایی هرزنامه‌ها کمتر مؤثر خواهند بود، زیرا دارای رانش مفهومی هستند و نیاز به آموزش مجدد دارند.

در اینجا نمونه های بیشتری از رانش مفهومی آورده شده است:

  • تأثیر تغییرات در کد مالیاتی بر مدلی که انطباق مالیاتی را پیش‌بینی می‌کند
  • تأثیر تغییر رفتار مشتری بر مدلی که فروش محصول را پیش‌بینی می‌کند
  • تاثیر بحران مالی بر پیش بینی سود یک شرکت

دریفت مفهومی در مقابل رانش داده

با جابجایی داده ها، مرز تصمیم تغییر نمی کند. فقط توزیع احتمال ورودی ها تغییر می کند - P(x). با رانش مفهومی، مرز تصمیم تغییر می کند، با تغییر توزیع ورودی و خروجی - P(x) و P(y). 

تفاوت مهم دیگر این است که رانش داده ها عمدتاً نتیجه عوامل داخلی مانند جمع آوری، پردازش و آموزش داده ها است. انحراف مفهوم معمولاً ناشی از عوامل خارجی است، مانند وضعیت در دنیای واقعی.

استراتژی هایی برای شناسایی و غلبه بر داده ها و رانش مفهومی

چندین استراتژی وجود دارد که می تواند به شناسایی و غلبه بر تغییر مدل در سیستم یادگیری ماشین کمک کند:

  • نظارت بر عملکرد: ارزیابی منظم عملکرد مدل ML بر روی مجموعه داده های نگهدارنده یا در تولید می تواند به شناسایی هر گونه کاهش دقت یا سایر معیارهایی که ممکن است نشان دهنده جابجایی مدل باشد کمک کند.
  • الگوریتم های تشخیص رانش داده و مفهوم: الگوریتم‌هایی وجود دارند که به‌طور خاص برای تشخیص انحراف داده‌ها طراحی شده‌اند، مانند آزمون Page-Hinkley یا آزمون Kolmogorov-Smirnov، و همچنین الگوریتم‌هایی مانند الگوریتم ADWIN که دریفت مفهوم را تشخیص می‌دهند. این الگوریتم‌ها می‌توانند به‌طور خودکار تغییراتی را در داده‌های ورودی یا وظیفه‌ای که ممکن است نشان‌دهنده تغییر مدل باشد، شناسایی کنند.
  • تکنیک های پیشگیری از رانش داده ها و مفهوم: این تکنیک‌ها می‌توانند در وهله اول از رخ دادن داده‌ها یا مفهوم‌ها جلوگیری کنند. به عنوان مثال، استفاده از افزایش داده یا تولید داده مصنوعی می تواند به اطمینان حاصل شود که یک مدل ML در معرض طیف گسترده ای از داده ها قرار دارد، که می تواند آن را در برابر تغییرات در توزیع داده انعطاف پذیرتر کند. به طور مشابه، استفاده از یادگیری انتقالی یا یادگیری چند وظیفه ای می تواند به مدل کمک کند تا با یک کار یا هدف در حال تغییر سازگار شود.
  • بازآموزی و تنظیم دقیق: اگر انحراف مدل تشخیص داده شود، آموزش مجدد یا تنظیم دقیق مدل بر روی داده های جدید می تواند به غلبه بر آن کمک کند. این می تواند به صورت دوره ای یا در پاسخ به تغییرات قابل توجه در داده ها یا وظایف انجام شود.

با نظارت منظم برای تغییر مدل و انجام اقدامات پیشگیرانه برای جلوگیری یا کاهش آن، می توان دقت و قابلیت اطمینان مدل های یادگیری ماشین را در طول زمان حفظ کرد.

نتیجه

در نتیجه، رانش داده و رانش مدل دو پدیده مهمی هستند که می‌توانند بر عملکرد مدل‌های یادگیری ماشین (ML) تأثیر بگذارند. 

جابجایی داده، که به عنوان تغییر متغیر نیز شناخته می‌شود، زمانی اتفاق می‌افتد که توزیع داده‌های ورودی که یک مدل ML روی آن آموزش داده شده، با توزیع داده‌های ورودی که مدل بر روی آن اعمال می‌شود، متفاوت باشد. رانش مدل، که به عنوان رانش مفهومی نیز شناخته می‌شود، زمانی رخ می‌دهد که ویژگی‌های آماری داده‌هایی که یک مدل ML در مورد آنها آموزش داده شده است در طول زمان تغییر کند. 

هم انحراف داده ها و هم جابجایی مدل می توانند منجر به کاهش دقت یا اثربخشی مدل در پیش بینی یا تصمیم گیری شوند، و درک و پرداختن به این پدیده ها به منظور حفظ عملکرد یک مدل ML در طول زمان مهم است. 

تکنیک های مختلفی وجود دارد که می توان برای غلبه بر انحراف داده ها و رانش مدل استفاده کرد، از جمله آموزش مجدد مدل بر روی داده های به روز شده، استفاده از یادگیری آنلاین یا یادگیری تطبیقی، و نظارت بر عملکرد مدل در طول زمان.

تمبر زمان:

بیشتر از DATAVERSITY