مدل‌های زبان بزرگ در سازمان: زمان پیدا کردن حد وسط است - DATAVERSITY

مدل‌های زبان بزرگ در سازمان: زمان پیدا کردن حد وسط است - DATAVERSITY

گره منبع: 2738155

ChatGPT، چت ربات مکالمه ای که توسط OpenAI در ماه نوامبر منتشر شد، تنها در دو ماه 100 میلیون کاربر به خود اختصاص داد و آن را تبدیل به یک سریع ترین رشد برنامه مصرف کننده در تاریخچه اینترنت اما فناوری که زیربنای ChatGPT است برای مشاغل مرتبط و جذاب است. همانطور که قبلاً می دانید، GPT مخفف ترانسفورماتور از پیش آموزش دیده مولد است، که فناوری زیربنای ایجاد مدل زبان بزرگ (LLM) است. از آنجایی که مدل‌های زبان بزرگ بر روی مقادیر زیادی داده آموزش می‌بینند، می‌توانند انواع مختلفی از وظایف پردازش زبان طبیعی (NLP) را انجام دهند.

هیاهو در مورد مدل های زبان بزرگ بازتاب تبلیغات اولیه در مورد هوش مصنوعی (AI) بزرگ است، به طوری که بسیاری از مردم در مورد آنچه که وجود دارد صحبت می کنند. ممکن با استفاده از این فناوری، اما افراد کمتری به طور علنی در مورد پیچ ​​و مهره های اجرایی کردن آن، به ویژه در زمینه سازمانی، بحث می کنند. تحقیقات و تلاش‌های عملی زیادی برای کارآمد کردن این فناوری برای شرکت‌ها در پشت صحنه اتفاق می‌افتد، و بسیاری از کسانی که روی آن کار می‌کنند موافقند که با توجه به موفقیت و محبوبیت فوق‌العاده ChatGPT در میان افراد معمولی (غیر فنی یا مستقیماً درگیر هوش مصنوعی یا IT) این کار بسیار سخت‌تر از آن چیزی است که تصور می‌شود.

دو مکتب فکری هوش مصنوعی

نکته مهمی که درمورد هوش مصنوعی به طور کلی باید فهمید این است که دو مکتب فکری یا رویکردی در رابطه با ساخت و پیاده‌سازی سیستم‌های هوش مصنوعی وجود دارد.

از یک طرف، ما هوش مصنوعی سنتی داریم، جایی که محققان در تلاش هستند تا چیزی آجر به آجر بسازند، و از الگوریتم‌های پیچیده مبتنی بر قوانین، روش‌های رسمی، منطق و استدلال استفاده کنند. این محققان در درک و بازتولید اصول اساسی نحوه تفکر و پردازش اطلاعات افراد بسیار دقیق هستند. برای مثال، آنها مرز روشنی بین معناشناسی (معنا) و نحو (بیان، شکل سطحی) زبان می‌کشند و معتقدند که مدل‌سازی صرفاً احتمالی زبان نشان‌دهنده معناشناسی زیربنایی نیست، بنابراین احتمالاً نمی‌تواند به راه‌حل‌های واقعاً «هوشمندانه» منجر شود. یک مشکل بزرگ با این رویکرد این است که منجر به برنامه‌های کاربردی هوش مصنوعی می‌شود که بسیار پیچیده، نگهداری سخت و مقیاس‌بندی آن دشوار است، بنابراین با گذشت زمان تحقیقات به سمت داده‌محور تغییر کرده است. فراگیری ماشین پارادایم، که در آن به مدل اجازه می دهیم از داده ها یاد بگیرد نه اینکه قوانین را به صورت دستی پیاده سازی کند.

از طرف دیگر، ما یک جامعه یادگیری عمیق داریم که حوزه هوش مصنوعی را با طوفانی تحت تأثیر قرار داده است. در اصل، به جای ساختن یک سیستم هوشمند آجر به آجر از پایه، حجم عظیمی از داده ها را به سمت آن پرتاب می کنیم و از آن می خواهیم که از آن داده ها با استفاده از روش GPT بیاموزد، اما ما دقیقاً نمی دانیم که آنها در نهایت چه چیزی فراتر از احتمال کلماتی که پشت سر هم قرار می گیرند یاد می گیرند و چقدر مفاهیم زیربنایی را "درک" می کنند. در نهایت، ما سعی می‌کنیم این مدل‌ها را از نظر دانش آنها بررسی کنیم تا آنها را بهتر درک کنیم و آنها را روی مجموعه داده‌های کنترل‌شده‌تری تنظیم کنیم که توزیع آنها را به سمت نتیجه مطلوب تغییر می‌دهد. از آنجایی که ما دقیقاً از عمق دانش این مدل ها اطلاعی نداریم و نمی دانیم و نمی دانیم چگونه آنها را کنترل کنیم یا آنها را به طور قابل اعتماد تصحیح کنیم، تضمین کیفیت نتایجی که آنها تولید می کنند دشوار است، بنابراین ساخت برنامه های کاربردی قابل اعتماد در بالای آن مدل ها دشوار است. این مدل‌ها، در واقع، در تقلید پاسخ‌های معنادار در سطح نحوی بسیار خوب هستند، اما در سطح معنایی کاملاً یک قمار هستند. همان‌قدر که می‌خواهیم یک راه‌حل انتها به انتها داشته باشیم که در آن یک مدل را آموزش می‌دهید و همه چیز به شکلی جادویی کار می‌کند، کاری که ما در نهایت انجام می‌دهیم یک راه‌حل مهندسی بسیار پیچیده است که در آن سعی می‌کنیم قوانین دست‌ساز را در برنامه‌های مبتنی بر یادگیری ماشین قرار دهیم، یا LLM‌ها را با مدل‌های قطعی‌تر کوچک‌تر ترکیب کنیم که به کاهش ماهیت افسارگسیخته LLM کمک می‌کند. این شامل بسیاری از فرآیندهای انسان در حلقه است که در آن انسان به صورت دستی خروجی ها را تصحیح می کند یا بهترین پاسخ را از لیست گزینه هایی که LLM تولید کرده است انتخاب می کند. 

برای مدت طولانی، "انتهای به پایان" یک خط تحقیقاتی با خروجی کمی بود، به ویژه در زمینه هوش مصنوعی مکالمه ای که من بیش از 15 سال در آن کار کرده ام. ارزیابی مدل‌های محاوره‌ای مولد و مشاهده پیشرفت دشوار بود، بنابراین ما به روش‌های بلوک ساختمانی سنتی‌تر متوسل شدیم، که در آن هر مدل یادگیری ماشینی مسئول یک کار بسیار خاص است و می‌تواند آن را به خوبی انجام دهد. با پیشرفت‌های قابل توجهی در سخت‌افزار مورد نیاز برای آموزش مدل‌های هوش مصنوعی و کشف فناوری GPT، افراد بیشتری از رویکرد بلوک‌های ساختمانی دور شده‌اند و به سمت مکتب فکری «پایان به انتها» رفته‌اند و اکنون شاهد پیشرفت‌های چشمگیر و بی‌سابقه‌ای در این راه‌حل‌های «پایان به انتها» هستیم، با این حال، هنوز راه زیادی تا رسیدن به نتایج قابل اعتماد از این فناوری وجود دارد. 

پیدا کردن حد وسط

در حالی که پارادایم end-to-end به دلایل زیادی جذاب است، موارد زیادی وجود دارد که در آن پذیرش در سطح شرکت بسیار سریع است. از آنجایی که مدل های بزرگ می توانند جعبه سیاه باشند، فرآیند تنظیم معماری مدل می تواند بسیار دشوار باشد. برای به دست آوردن کنترل مدل‌های زبان بزرگ، مردم اغلب مجبور می‌شوند از روش‌های سنتی مانند وصل کردن برخی از الگوریتم‌های سبک وزن مبتنی بر قوانین استفاده کنند. در حالی که آونگ از مدل‌های کوچک‌تر به یک مدل بزرگ تبدیل شده است، مؤثرترین رویکرد احتمالاً جایی در این بین است. 

این روند با توجه به مشهود است به هوش مصنوعی مولد، برای مثال. سام آلتمن، مدیر عامل OpenAI، گفته است که مدل های نسل بعدی بزرگتر نخواهند بود. در عوض، آنها در واقع کوچکتر و هدفمندتر خواهند بود. در حالی که مدل های زبان بزرگ در تولید متن طبیعی یا روان بهترین هستند، هر چیزی که واقعی باشد بهتر است از زیرسیستم های مختلف تهیه شود. در ادامه، مسئولیت های آن زیرسیستم ها احتمالاً به مدل زبان بزرگ منتقل می شود. اما در این میان، ما شاهد بازگشت جزئی به روش های سنتی تر هستیم. 

آینده مدل های زبان بزرگ در سازمان

قبل از پرش درست به یک پارادایم انتها به انتها، به کسب و کارها توصیه می شود آمادگی خود را برای استفاده از این فناوری ارزیابی کنند، زیرا هر برنامه جدید با منحنی یادگیری و مسائل پیش بینی نشده همراه است. در حالی که ChatGPT اوج این فناوری در نظر گرفته می شود، هنوز کارهای زیادی برای موثر بودن در زمینه سازمانی وجود دارد. 

از آنجایی که شرکت ها به دنبال اجرای LLM هستند، سؤالات زیادی باقی می ماند. اکثر شرکت ها هنوز در مرحله ای هستند که به سادگی بفهمند از آن چه می خواهند. سوالات متداول عبارتند از:

  • چگونه می توانم از LLM ها استفاده کنم؟
  • آیا نیاز به استخدام افراد جدید دارم؟
  • آیا باید با فروشنده شخص ثالث کار کنم؟ 
  • LLM ها واقعاً چه کاری می توانند انجام دهند؟

این سؤالات باید قبل از غواصی به دقت مورد بررسی قرار گیرند. وضعیت موجود در حال حاضر، مدل های زبان بزرگ نمی توانند همه مشکلاتی را که مردم انتظار داشتند فوراً حل کنند. اما، آنها به احتمال زیاد قادر به انجام این کار در پنج یا چند سال آینده خواهند بود. در این میان، استقرار برنامه‌های کاربردی آماده تولید مستلزم یافتن حد وسطی بین رویکرد بلوک ساختمانی سنتی و رویکرد پایان به انتها است. 

تمبر زمان:

بیشتر از DATAVERSITY