مدل‌های زبان بزرگ در سازمان: زمان پیدا کردن یک حد وسط است - DATAVERSITY

بازنشر افلاطون

دنبال: 0

ChatGPT، چت ربات مکالمه ای که توسط OpenAI در ماه نوامبر منتشر شد، تنها در دو ماه 100 میلیون کاربر به خود اختصاص داد و آن را تبدیل به یک سریع ترین رشد برنامه مصرف کننده در تاریخچه اینترنت اما فناوری که زیربنای ChatGPT است برای مشاغل مرتبط و جذاب است. همانطور که قبلاً می دانید، GPT مخفف ترانسفورماتور از پیش آموزش دیده مولد است، که فناوری زیربنای ایجاد مدل زبان بزرگ (LLM) است. از آنجایی که مدل‌های زبان بزرگ بر روی مقادیر زیادی داده آموزش می‌بینند، می‌توانند انواع مختلفی از وظایف پردازش زبان طبیعی (NLP) را انجام دهند.

هیاهو در مورد مدل های زبان بزرگ بازتاب تبلیغات اولیه در مورد هوش مصنوعی (AI) بزرگ است، به طوری که بسیاری از مردم در مورد آنچه که وجود دارد صحبت می کنند. ممکن با استفاده از این فناوری، اما افراد کمتری به طور علنی در مورد پیچ و مهره های اجرایی کردن آن، به ویژه در زمینه سازمانی، بحث می کنند. تحقیقات و تلاش‌های عملی زیادی برای کارآمد کردن این فناوری برای شرکت‌ها در پشت صحنه اتفاق می‌افتد، و بسیاری از کسانی که روی آن کار می‌کنند موافقند که با توجه به موفقیت و محبوبیت فوق‌العاده ChatGPT در میان افراد معمولی (غیر فنی یا مستقیماً درگیر هوش مصنوعی یا IT) این کار بسیار سخت‌تر از آن چیزی است که تصور می‌شود.

دو مکتب فکری هوش مصنوعی

نکته مهمی که درمورد هوش مصنوعی به طور کلی باید فهمید این است که دو مکتب فکری یا رویکردی در رابطه با ساخت و پیاده‌سازی سیستم‌های هوش مصنوعی وجود دارد.

از یک طرف، ما هوش مصنوعی سنتی داریم، جایی که محققان در تلاش هستند تا چیزی آجر به آجر بسازند، و از الگوریتم‌های پیچیده مبتنی بر قوانین، روش‌های رسمی، منطق و استدلال استفاده کنند. این محققان در درک و بازتولید اصول اساسی نحوه تفکر و پردازش اطلاعات افراد بسیار دقیق هستند. برای مثال، آنها مرز روشنی بین معناشناسی (معنا) و نحو (بیان، شکل سطحی) زبان می‌کشند و معتقدند که مدل‌سازی صرفاً احتمالی زبان نشان‌دهنده معناشناسی زیربنایی نیست، بنابراین احتمالاً نمی‌تواند به راه‌حل‌های واقعاً «هوشمندانه» منجر شود. یک مشکل بزرگ با این رویکرد این است که منجر به برنامه‌های کاربردی هوش مصنوعی می‌شود که بسیار پیچیده، نگهداری سخت و مقیاس‌بندی آن دشوار است، بنابراین با گذشت زمان تحقیقات به سمت داده‌محور تغییر کرده است. فراگیری ماشین پارادایم، که در آن به مدل اجازه می دهیم از داده ها یاد بگیرد نه اینکه قوانین را به صورت دستی پیاده سازی کند.

از طرف دیگر، ما یک جامعه یادگیری عمیق داریم که حوزه هوش مصنوعی را با طوفانی تحت تأثیر قرار داده است. در اصل، به جای ساختن یک سیستم هوشمند آجر به آجر از پایه، حجم عظیمی از داده ها را به سمت آن پرتاب می کنیم و از آن می خواهیم که از آن داده ها با استفاده از روش GPT بیاموزد، اما ما دقیقاً نمی دانیم که آنها در نهایت چه چیزی فراتر از احتمال کلماتی که پشت سر هم قرار می گیرند یاد می گیرند و چقدر مفاهیم زیربنایی را "درک" می کنند. در نهایت، ما سعی می‌کنیم این مدل‌ها را از نظر دانش آنها بررسی کنیم تا آنها را بهتر درک کنیم و آنها را روی مجموعه داده‌های کنترل‌شده‌تری تنظیم کنیم که توزیع آنها را به سمت نتیجه مطلوب تغییر می‌دهد. از آنجایی که ما دقیقاً از عمق دانش این مدل ها اطلاعی نداریم و نمی دانیم و نمی دانیم چگونه آنها را کنترل کنیم یا آنها را به طور قابل اعتماد تصحیح کنیم، تضمین کیفیت نتایجی که آنها تولید می کنند دشوار است، بنابراین ساخت برنامه های کاربردی قابل اعتماد در بالای آن مدل ها دشوار است. این مدل‌ها، در واقع، در تقلید پاسخ‌های معنادار در سطح نحوی بسیار خوب هستند، اما در سطح معنایی کاملاً یک قمار هستند. همان‌قدر که می‌خواهیم یک راه‌حل انتها به انتها داشته باشیم که در آن یک مدل را آموزش می‌دهید و همه چیز به شکلی جادویی کار می‌کند، کاری که ما در نهایت انجام می‌دهیم یک راه‌حل مهندسی بسیار پیچیده است که در آن سعی می‌کنیم قوانین دست‌ساز را در برنامه‌های مبتنی بر یادگیری ماشین قرار دهیم، یا LLM‌ها را با مدل‌های قطعی‌تر کوچک‌تر ترکیب کنیم که به کاهش ماهیت افسارگسیخته LLM کمک می‌کند. این شامل بسیاری از فرآیندهای انسان در حلقه است که در آن انسان به صورت دستی خروجی ها را تصحیح می کند یا بهترین پاسخ را از لیست گزینه هایی که LLM تولید کرده است انتخاب می کند.

برای مدت طولانی، "انتهای به پایان" یک خط تحقیقاتی با خروجی کمی بود، به ویژه در زمینه هوش مصنوعی مکالمه ای که من بیش از 15 سال در آن کار کرده ام. ارزیابی مدل‌های محاوره‌ای مولد و مشاهده پیشرفت دشوار بود، بنابراین ما به روش‌های بلوک ساختمانی سنتی‌تر متوسل شدیم، که در آن هر مدل یادگیری ماشینی مسئول یک کار بسیار خاص است و می‌تواند آن را به خوبی انجام دهد. با پیشرفت‌های قابل توجهی در سخت‌افزار مورد نیاز برای آموزش مدل‌های هوش مصنوعی و کشف فناوری GPT، افراد بیشتری از رویکرد بلوک‌های ساختمانی دور شده‌اند و به سمت مکتب فکری «پایان به انتها» رفته‌اند و اکنون شاهد پیشرفت‌های چشمگیر و بی‌سابقه‌ای در این راه‌حل‌های «پایان به انتها» هستیم، با این حال، هنوز راه زیادی تا رسیدن به نتایج قابل اعتماد از این فناوری وجود دارد.

پیدا کردن حد وسط

در حالی که پارادایم end-to-end به دلایل زیادی جذاب است، موارد زیادی وجود دارد که در آن پذیرش در سطح شرکت بسیار سریع است. از آنجایی که مدل های بزرگ می توانند جعبه سیاه باشند، فرآیند تنظیم معماری مدل می تواند بسیار دشوار باشد. برای به دست آوردن کنترل مدل‌های زبان بزرگ، مردم اغلب مجبور می‌شوند از روش‌های سنتی مانند وصل کردن برخی از الگوریتم‌های سبک وزن مبتنی بر قوانین استفاده کنند. در حالی که آونگ از مدل‌های کوچک‌تر به یک مدل بزرگ تبدیل شده است، مؤثرترین رویکرد احتمالاً جایی در این بین است.

این روند با توجه به مشهود است به هوش مصنوعی مولد، برای مثال. سام آلتمن، مدیر عامل OpenAI، گفته است که مدل های نسل بعدی بزرگتر نخواهند بود. در عوض، آنها در واقع کوچکتر و هدفمندتر خواهند بود. در حالی که مدل های زبان بزرگ در تولید متن طبیعی یا روان بهترین هستند، هر چیزی که واقعی باشد بهتر است از زیرسیستم های مختلف تهیه شود. در ادامه، مسئولیت های آن زیرسیستم ها احتمالاً به مدل زبان بزرگ منتقل می شود. اما در این میان، ما شاهد بازگشت جزئی به روش های سنتی تر هستیم.

آینده مدل های زبان بزرگ در سازمان

قبل از پرش درست به یک پارادایم انتها به انتها، به کسب و کارها توصیه می شود آمادگی خود را برای استفاده از این فناوری ارزیابی کنند، زیرا هر برنامه جدید با منحنی یادگیری و مسائل پیش بینی نشده همراه است. در حالی که ChatGPT اوج این فناوری در نظر گرفته می شود، هنوز کارهای زیادی برای موثر بودن در زمینه سازمانی وجود دارد.

از آنجایی که شرکت ها به دنبال اجرای LLM هستند، سؤالات زیادی باقی می ماند. اکثر شرکت ها هنوز در مرحله ای هستند که به سادگی بفهمند از آن چه می خواهند. سوالات متداول عبارتند از:

چگونه می توانم از LLM ها استفاده کنم؟
آیا نیاز به استخدام افراد جدید دارم؟
آیا باید با فروشنده شخص ثالث کار کنم؟
LLM ها واقعاً چه کاری می توانند انجام دهند؟

این سؤالات باید قبل از غواصی به دقت مورد بررسی قرار گیرند. وضعیت موجود در حال حاضر، مدل های زبان بزرگ نمی توانند همه مشکلاتی را که مردم انتظار داشتند فوراً حل کنند. اما، آنها به احتمال زیاد قادر به انجام این کار در پنج یا چند سال آینده خواهند بود. در این میان، استقرار برنامه‌های کاربردی آماده تولید مستلزم یافتن حد وسطی بین رویکرد بلوک ساختمانی سنتی و رویکرد پایان به انتها است.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
PlatoESG. خودرو / خودروهای الکتریکی، کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
BlockOffsets. نوسازی مالکیت افست زیست محیطی. دسترسی به اینجا.
منبع: https://www.dataversity.net/large-language-models-in-the-enterprise-its-time-to-find-a-middle-ground/

تمبر زمان: ژوئن 29، 2023

تمبر زمان: سپتامبر 28، 2023

مدل‌های زبان بزرگ در سازمان: زمان پیدا کردن حد وسط است - DATAVERSITY

بازنشر افلاطون

دو مکتب فکری هوش مصنوعی

پیدا کردن حد وسط

آینده مدل های زبان بزرگ در سازمان

بیشتر از DATAVERSITY

4 اصل اساسی مدیریت داده ها – DATAVERSITY

بازگرداندن ابر افسانه‌ای: روند نادرست در رایانش ابری - DATAVERSITY

نسخه نمایشی DataKitchen: سفر داده ای که منجر به کیفیت و مشاهده پذیری در مقیاس می شود - DATAVERSITY

داده های بد را حذف کنید تا تصمیمات تجاری بهتری بگیرید - DATAVERSITY

از VPN به SDP – چهار دلیل برای تغییر اکنون

وبینار EEDL: ارزیابی سواد داده

Confluent سرویس Apache Flink را برای پردازش جریان ساده - DATAVERSITY معرفی کرد

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب