قابلیت توضیح داده ها: همتای مدل توضیح پذیری - DATAVERSITY

قابلیت توضیح داده ها: همتای توضیح پذیری مدل - DATAVERSITY

گره منبع: 2658143

امروزه هوش مصنوعی و ML همه جا هستند. 

این که آیا همه با آن بازی می کنند GPT چت (سریع ترین برنامه پذیرفته شده در تاریخ) یا یک پیشنهاد اخیر برای افزودن رنگ چهارم چراغ راهنمایی برای ایمن تر کردن انتقال به خودروهای خودران، هوش مصنوعی زندگی ما را کاملاً اشباع کرده است. در حالی که ممکن است هوش مصنوعی بیش از همیشه در دسترس به نظر برسد، پیچیدگی مدل های هوش مصنوعی به طور تصاعدی افزایش یافته است. 

مدل های هوش مصنوعی در دسته بندی های اصلی جعبه سیاه و جعبه سفید قرار می گیرند. مدل‌های جعبه سیاه بدون توضیح به یک تصمیم می‌رسند، در حالی که مدل‌های جعبه سفید نتیجه‌ای را بر اساس قوانینی ارائه می‌کنند که آن نتیجه را ایجاد کرده‌اند. 

همانطور که ما به سمت دنیایی از روش‌های یادگیری عمیق ادامه می‌دهیم، بیشتر آنها عمدتاً به سمت مدل‌های جعبه سیاه جذب می‌شوند. 

مشکل آن رویکرد؟ مدل های جعبه سیاه (مانند آنهایی که در بینایی کامپیوتر ساخته شده اند) نمی توانند مستقیماً مصرف شوند. این اغلب به عنوان مشکل جعبه سیاه نامیده می شود. در حالی که بازآموزی مدل‌های جعبه سیاه می‌تواند به کاربران کمک کند، تفسیر مدل و درک نتایج مدل جعبه سیاه با افزایش پیچیدگی مدل‌ها سخت‌تر می‌شود.

یک تاکتیک برای حل معمای جعبه سیاه این است که یک مدل بسیار سفارشی و قابل توضیح ایجاد کنید. 

اما، این جهتی نیست که جهان در حال حرکت است. 

جایی که توضیح‌پذیری مدل به پایان می‌رسد، توضیح‌پذیری داده‌ها آغاز می‌شود

توضیح پذیری بسیار مهم است زیرا شفافیت، دقت و انصاف مدل را بهبود می بخشد و همچنین می تواند اعتماد به هوش مصنوعی را بهبود بخشد. در حالی که توضیح‌پذیری مدل یک رویکرد مرسوم است، اکنون نیاز به نوع جدیدی نیز وجود دارد: توضیح‌پذیری داده‌ها.

توضیح پذیری مدل به معنای درک الگوریتم، به منظور درک نتیجه نهایی است. به عنوان مثال، اگر یک مدل مورد استفاده در یک واحد انکولوژی برای آزمایش سرطانی بودن رشد طراحی شده باشد، یک ارائه دهنده مراقبت های بهداشتی باید متغیرهایی را که نتایج نهایی را ایجاد می کنند، درک کند. در حالی که این از نظر تئوری عالی به نظر می رسد، توضیح مدل به طور کامل مشکل جعبه سیاه را برطرف نمی کند. 

همانطور که مدل‌ها پیچیده‌تر می‌شوند، اکثر پزشکان قادر به تعیین دقیق تحولات و تفسیر محاسبات در لایه‌های داخلی مدل نخواهند بود. آنها تا حد زیادی به آنچه می توانند کنترل کنند، یعنی مجموعه داده های آموزشی و آنچه مشاهده می کنند، نتایج و اقدامات پیش بینی تکیه می کنند.  

بیایید از مثال یک دانشمند داده استفاده کنیم که یک مدل برای تشخیص عکس‌های لیوان قهوه از هزاران عکس می‌سازد – اما برای مثال، مدل شروع به شناسایی تصاویر لیوان‌های نوشیدن و لیوان‌های آبجو می‌کند. در حالی که لیوان های شیشه ای و آبجو ممکن است شباهت هایی به لیوان های قهوه داشته باشند، تفاوت های مشخصی مانند مواد معمولی، رنگ، مات و نسبت های ساختاری وجود دارد.

برای اینکه این مدل لیوان های قهوه را با قابلیت اطمینان بالاتر شناسایی کند، دانشمند داده باید به سوالاتی مانند زیر پاسخ دهد:

  • مدل به جای لیوان قهوه چه تصاویری برداشت؟ 
  • آیا این مدل شکست خورده است زیرا من به اندازه کافی یا نمونه های مناسبی از لیوان های قهوه برای آن ارائه نکرده ام؟
  • آیا آن مدل حتی برای آنچه من سعی در انجام آن داشتم به اندازه کافی خوب است؟
  • آیا باید دیدگاه خود را نسبت به مدل به چالش بکشم؟
  • چه چیزی می توانم به طور قطعی تعیین کنم که باعث شکست مدل شده است؟ 
  • آیا باید مفروضات جدیدی از مدل ایجاد کنم؟
  • آیا برای شروع کار، مدل اشتباهی را انتخاب کردم؟

همانطور که می بینید، ارائه این نوع بینش، درک و توضیح مدل در هر زمانی که مشکلی وجود دارد بسیار بعید است.

توضیح پذیری داده ها درک داده ها برای آموزش و ورود به یک مدل، به منظور درک چگونگی رسیدن به نتیجه نهایی یک مدل استفاده می شود. همانطور که الگوریتم‌های ML پیچیده‌تر می‌شوند، اما به طور گسترده‌تر در حرفه‌ها و صنایع مورد استفاده قرار می‌گیرند، قابلیت توضیح داده‌ها به عنوان کلیدی برای باز کردن سریع و حل مشکلات رایج، مانند مثال لیوان قهوه ما، عمل می‌کند.

افزایش انصاف و شفافیت در ML با قابلیت توضیح داده ها

انصاف در مدل‌های ML یک موضوع داغ است که می‌توان آن را با استفاده از قابلیت توضیح داده‌ها داغ‌تر کرد.

چرا وزوز؟ تعصب در هوش مصنوعی می تواند نتایج پیش داوری برای یک گروه ایجاد کند. یکی از مستندترین موارد در این مورد، سوگیری در موارد استفاده نژادی است. بیایید به یک مثال نگاه کنیم. 

بگویید یک پلتفرم مصرف کننده بزرگ و شناخته شده در حال استخدام برای یک مدیر بازاریابی جدید است. برای مقابله با انبوه رزومه های دریافتی روزانه، بخش منابع انسانی یک مدل AI/ML را به کار می گیرد تا با انتخاب ویژگی های کلیدی یا متقاضیان واجد شرایط، روند درخواست و استخدام را ساده کند. 

برای انجام این کار، و تشخیص و سطل کردن هر رزومه، مدل این کار را با درک ویژگی‌های غالب کلیدی انجام می‌دهد. متاسفانه این همچنین به این معنی که این مدل می‌تواند به طور ضمنی سوگیری‌های نژادی عمومی را در نامزدها نیز بررسی کند. دقیقاً چگونه این اتفاق می افتد؟ اگر استخر متقاضی شامل درصد کمتری از یک نژاد باشد، دستگاه فکر می‌کند که سازمان اعضای یک نژاد متفاوت یا مجموعه داده غالب را ترجیح می‌دهد.

اگر یک مدل شکست بخورد، حتی اگر ناخواسته باشد، شکست باید توسط شرکت برطرف شود. اساساً، هر کسی که این مدل را به کار گرفته است باید بتواند از استفاده از مدل دفاع کند.

در مورد استخدام و تعصب نژادی، مدافع باید بتواند به عموم خشمگین و/یا مجموعه کاربردی استفاده از مجموعه داده ها برای آموزش مدل، نتایج موفقیت آمیز اولیه مدل مبتنی بر آن آموزش، و شکست مدلی که باید در یک جعبه گوشه انتخاب شود، و اینکه چگونه این منجر به عدم تعادل داده های ناخواسته شد که در نهایت یک فرآیند فیلترینگ مغرضانه نژادی ایجاد کرد.

برای بیشتر، این نوع جزئیات دقیق در هوش مصنوعی، مجموعه داده‌های عدم تعادل، آموزش مدل و شکست نهایی از طریق نظارت بر داده‌ها به خوبی دریافت نمی‌شود یا حتی درک نمی‌شود. اما چه چیزی از این داستان فهمیده می‌شود و چه چیزی را می‌توان در نظر گرفت؟ شرکت XYZ تعصب نژادی را در استخدام اعمال می کند. 

اخلاقیات این مثال بسیار رایج این است که اشتباهات ناخواسته از یک مدل بسیار هوشمند اتفاق می افتد و می تواند تأثیر منفی بر انسان بگذارد و عواقب ناگواری داشته باشد. 

جایی که قابلیت توضیح داده ها ما را می برد

به جای ترجمه نتایج از طریق درک یک مدل یادگیری ماشینی پیچیده، قابلیت توضیح داده ها استفاده از داده ها برای توضیح پیش بینی ها و خرابی ها است.

سپس قابلیت توضیح داده ها ترکیبی از دیدن داده های آزمون است و درک اینکه یک مدل از آن داده ها چه چیزی را انتخاب می کند. این شامل درک نمونه‌های داده کم‌بازنمایی، نمونه‌های بیش از حد ارائه‌شده (مانند نمونه استخدام)، و شفافیت تشخیص یک مدل به منظور درک دقیق پیش‌بینی‌ها و پیش‌بینی‌های نادرست است.

این درک از قابلیت توضیح داده‌ها نه تنها دقت و انصاف مدل را بهبود می‌بخشد، بلکه به مدل‌ها کمک می‌کند تا سرعت بیشتری بگیرند.

از آنجایی که ما همچنان به برنامه های پیچیده هوش مصنوعی و ML در زندگی روزمره خود متکی هستیم و آنها را وارد می کنیم، حل مشکل جعبه سیاه، به ویژه برای خرابی ها و پیش بینی های نادرست، حیاتی می شود. 

در حالی که قابلیت توضیح مدل همیشه جای خود را خواهد داشت، به لایه دیگری نیاز دارد. ما به توضیح پذیری داده ها نیاز داریم، زیرا درک آنچه که یک مدل می بیند و می خواند هرگز توسط توضیح پذیری مدل کلاسیک پوشش داده نمی شود.

تمبر زمان:

بیشتر از DATAVERSITY