شبکه های عصبی باز: تقاطع هوش مصنوعی و وب3

گره منبع: 1683067

توسط ریشین شارما و جیک بروخمن.

تشکر ویژه از همه کسانی که درباره این قطعه بازخورد دادند، از جمله نیک یاکوونکو، دیوید پاکمن، جان کوپنز، ای سی، ایوان فنگ، آدی سیدمن.

اعلان: «سایبورگ نیمه‌شفاف نشسته روی تخت فلزی در قلعه‌ای آینده‌نگر، سایبرپانک، خطوط بسیار دقیق، تیز، چراغ‌های نئون»

منبع: تصویر ایجاد شده توسط هوش مصنوعی از Lexica.art، یک موتور جستجوی انتشار پایدار

نوآوری های تکنولوژیکی هرگز آرام نمی گیرند و این به ویژه در مورد هوش مصنوعی صادق است. در چند سال گذشته، ما شاهد محبوبیت دوباره مدل‌های یادگیری عمیق به عنوان پیشرو در هوش مصنوعی بوده‌ایم. همچنین به عنوان شبکه های عصبیاین مدل‌ها از لایه‌های بهم پیوسته گره‌هایی تشکیل شده‌اند که اطلاعات را از یکدیگر عبور می‌دهند و تقریباً شبیه ساختن مغز انسان هستند. در اوایل دهه 2010، پیشرفته‌ترین مدل‌ها دارای میلیون‌ها پارامتر بودند، مدل‌های تحت نظارت شدیدی که برای تجزیه و تحلیل و طبقه‌بندی احساسات خاص استفاده می‌شدند. پیشرفته ترین مدل های امروزی مانند استودیو رویایی, GPT-3, DALL-E2و تصویر به یک تریلیون پارامتر نزدیک می شوند و کارهای پیچیده و حتی خلاقانه ای را انجام می دهند که با کار انسان رقابت می کند. برای مثال، تصویر یا خلاصه این پست وبلاگ را در نظر بگیرید. هر دو توسط هوش مصنوعی تولید شده اند. ما تازه شروع به دیدن پیامدهای اجتماعی و فرهنگی این مدل‌ها کرده‌ایم زیرا نحوه یادگیری چیزهای جدید، تعامل با یکدیگر و بیان خلاقانه خود را شکل می‌دهند.

با این حال، بسیاری از دانش فنی، مجموعه‌های داده‌های کلیدی و توانایی محاسباتی برای آموزش شبکه‌های عصبی بزرگ امروزه منبع بسته و توسط شرکت‌های «بزرگ فناوری» مانند گوگل و متا محافظت می‌شوند. در حالی که ماکت مدل های متن باز مانند GPT-NeoX, DALLE-مگاو شکوفه توسط سازمان هایی از جمله StabilityAI, الوتر هوش مصنوعیو صورت در آغوش گرفته، web3 آماده است تا هوش مصنوعی منبع باز را حتی بیشتر شارژ کند.

یک لایه زیرساخت وب 3 برای هوش مصنوعی می‌تواند عناصر توسعه منبع باز، مالکیت و حاکمیت جامعه، و دسترسی جهانی را معرفی کند که مدل‌ها و کارایی‌های جدیدی را در توسعه این فناوری‌های جدید ایجاد می‌کند."

علاوه بر این، بسیاری از موارد استفاده حیاتی برای web3 با پذیرش فناوری‌های هوش مصنوعی افزایش می‌یابد. از جانب NFT های هنری مولد برای مناظر متاورزال، هوش مصنوعی موارد استفاده زیادی را در web3 پیدا می کند. هوش مصنوعی منبع باز با اخلاق باز، غیرمتمرکز و دموکراتیک وب 3 مطابقت دارد و جایگزینی برای هوش مصنوعی ارائه شده توسط Big Tech است که به احتمال زیاد به این زودی ها باز نخواهد شد.

مدل های فونداسیون شبکه‌های عصبی هستند که بر روی مجموعه داده‌های گسترده آموزش دیده‌اند تا وظایفی را انجام دهند که معمولاً به رفتار هوشمند انسانی نیاز دارند. این مدل ها نتایج چشمگیری ایجاد کرده اند.

مدل های زبانی مانند OpenAI GPT-3, LaMDA گوگلو Megatron-Turing NLG انویدیا توانایی درک و تولید زبان طبیعی، خلاصه و ترکیب متن و حتی کد کامپیوتر بنویس.

DALLE-2 متعلق به OpenAI است مدل انتشار متن به تصویر که می تواند تصاویر منحصر به فردی را از متن نوشته شده تولید کند. بخش هوش مصنوعی گوگل، DeepMind، مدل‌های رقیب از جمله PalM، یک مدل زبان پارامتری 540B، و Imagen، مدل تولید تصویر خود را تولید کرده است که در معیارهای DrawBench و COCO FID بهتر از DALLE-2 است. Imagen به طور مشخص نتایج فوتورئالیستی بیشتری تولید می کند و توانایی املا را دارد.

مدل های یادگیری تقویتی مانند گوگل آلفاگو را شکست داده اند قهرمان جهان انسان گو در حالی که استراتژی های جدید و تکنیک های بازی را کشف می کنید که در تاریخ سه هزار ساله بازی ظاهر نشده اند.

رقابت برای ساخت مدل‌های پایه پیچیده از قبل با فناوری بزرگ در خط مقدم نوآوری آغاز شده است. به همان اندازه که پیشرفت این رشته هیجان انگیز است، یک موضوع کلیدی وجود دارد که نگران کننده است.

در طول دهه گذشته، همانطور که مدل‌های هوش مصنوعی پیچیده‌تر شده‌اند، به‌طور فزاینده‌ای به روی عموم بسته شده‌اند.

غول‌های فناوری سرمایه‌گذاری هنگفتی برای تولید چنین مدل‌هایی و حفظ داده‌ها و کدها به‌عنوان فناوری‌های اختصاصی انجام می‌دهند و در عین حال از مزایای صرفه‌جویی در مقیاس خود برای آموزش و محاسبات مدل، خندق رقابتی خود را حفظ می‌کنند.

برای هر شخص ثالثی، تولید مدل‌های پایه یک فرآیند فشرده منابع با سه گلوگاه اصلی است: داده، محاسبه، و کسب درآمد.

اینجا جایی است که ما شاهد هجوم اولیه تم های web3 در حل برخی از این مسائل هستیم.

مجموعه داده های برچسب گذاری شده برای ساخت مدل های موثر حیاتی هستند. سیستم‌های هوش مصنوعی با تعمیم نمونه‌های موجود در مجموعه داده‌ها یاد می‌گیرند و با آموزش در طول زمان به طور مداوم بهبود می‌یابند. با این حال، گردآوری و برچسب‌گذاری مجموعه داده با کیفیت علاوه بر منابع محاسباتی، نیازمند دانش و پردازش تخصصی است. شرکت‌های بزرگ فناوری اغلب دارای تیم‌های داده داخلی متخصص در کار با مجموعه داده‌های بزرگ و اختصاصی هستند سیستم های IP مدل های خود را آموزش دهند و انگیزه کمی برای دسترسی آزاد به تولید یا توزیع داده های خود داشته باشند.

در حال حاضر جوامعی وجود دارند که آموزش مدل را برای جامعه جهانی محققان باز و قابل دسترس می کنند. در اینجا چند نمونه آورده شده است:

  1. خزش مشترک، یک مخزن عمومی ده ساله داده های اینترنتی، می تواند برای آموزش عمومی استفاده شود. (اگر چه تحقیقات نشان میدهد که دقیق‌تر، مجموعه داده‌های تجزیه‌شده می‌تواند دانش کلی بین دامنه‌ای و قابلیت‌های تعمیم پایین‌دستی مدل‌ها را بهبود بخشد.)
  2. LAION یک سازمان غیرانتفاعی است که قصد دارد مدل ها و مجموعه داده های یادگیری ماشینی در مقیاس بزرگ را در دسترس عموم قرار دهد و منتشر کند. LAION5B، یک مجموعه داده جفت متن-تصویر با فیلتر CLIP با 5.85 میلیارد CLIP که پس از انتشار به بزرگترین مجموعه داده تصویر-متن قابل دسترسی آشکار در جهان تبدیل شد.
  3. الوتر هوش مصنوعی یک مجموعه غیرمتمرکز است که یکی از بزرگترین مجموعه داده های متنی متن باز به نام را منتشر کرد توده. Pile یک مجموعه داده انگلیسی 825.18 گیگابایتی برای مدل‌سازی زبان است که از 22 منبع داده مختلف استفاده می‌کند.

در حال حاضر، این جوامع به صورت غیررسمی سازماندهی شده اند و به کمک های یک پایگاه گسترده داوطلبانه متکی هستند. برای افزایش تلاش‌های آن‌ها، از پاداش‌های توکن می‌توان به عنوان مکانیزمی برای ایجاد مجموعه داده‌های منبع باز استفاده کرد. توکن‌ها می‌توانند بر اساس مشارکت‌هایی مانند برچسب‌گذاری مجموعه داده‌های تصویر متنی بزرگ منتشر شوند و یک جامعه DAO می‌تواند چنین ادعاهایی را تأیید کند. در نهایت، مدل‌های بزرگ می‌توانند توکن‌ها را از یک استخر مشترک صادر کنند و درآمد پایین‌دستی از محصولات ساخته‌شده در بالای مدل‌های مذکور می‌تواند به ارزش توکن تعلق گیرد. به این ترتیب مشارکت‌کنندگان مجموعه داده‌ها می‌توانند از طریق توکن‌های خود در مدل‌های بزرگ سهم داشته باشند و محققان می‌توانند از منابع ساختمان در فضای باز درآمد کسب کنند.

گردآوری مجموعه‌های داده منبع باز خوب ساخته شده برای گسترش دسترسی به تحقیق برای مدل‌های بزرگ و بهبود عملکرد مدل بسیار مهم است. مجموعه داده های متن-تصویر را می توان با افزایش اندازه و فیلتر برای انواع مختلف تصاویر برای نتایج دقیق تر گسترش داد. مجموعه داده‌های غیرانگلیسی برای آموزش مدل‌های زبان طبیعی که جمعیت‌های غیر انگلیسی زبان می‌توانند استفاده کنند، مورد نیاز است. با گذشت زمان، با استفاده از رویکرد web3 می‌توانیم به این نتایج بسیار سریع‌تر و آشکارتر دست پیدا کنیم.

محاسبات مورد نیاز برای آموزش شبکه های عصبی در مقیاس بزرگ یکی از بزرگترین تنگناها در مدل های پایه است. در دهه گذشته، تقاضا برای محاسبات در آموزش مدل‌های هوش مصنوعی افزایش یافته است هر 3.4 ماه دو برابر می شود. در این دوره، مدل‌های هوش مصنوعی از تشخیص تصویر به استفاده از الگوریتم‌های یادگیری تقویتی تا شکست دادن قهرمانان انسانی در بازی‌های استراتژیک و استفاده از ترانسفورماتورها برای آموزش مدل‌های زبانی رفته‌اند. به عنوان مثال، GPT-3 OpenAI دارای 175 میلیارد پارامتر بود و 3,640 پتافلاپ در روز آموزش داده شد. این کار در سریعترین ابررایانه جهان دو هفته و برای محاسبه یک لپ تاپ استاندارد بیش از یک هزاره طول می کشد. از آنجایی که اندازه مدل تنها به رشد خود ادامه می دهد، محاسبات همچنان یک گلوگاه در پیشرفت این حوزه باقی می ماند.

ابررایانه‌های هوش مصنوعی به سخت‌افزار خاصی نیاز دارند که برای انجام عملیات‌های ریاضی لازم برای آموزش شبکه‌های عصبی، مانند واحدهای پردازش گرافیکی (GPU) یا مدارهای مجتمع خاص برنامه (ASIC) بهینه شده است. امروزه، بیشتر سخت افزارهای بهینه شده برای این نوع محاسبات توسط چند ارائه دهنده خدمات ابری انحصاری مانند Google Cloud، Amazon Web Services، Microsoft Azure و IBM Cloud کنترل می شود.

این تقاطع بزرگ بعدی است که در آن شاهد تخصیص محاسبات غیرمتمرکز از طریق شبکه‌های عمومی و باز هستیم. حکمرانی غیرمتمرکز ممکن است برای تأمین مالی و تخصیص منابع برای آموزش پروژه های جامعه محور استفاده شود. علاوه بر این، یک مدل بازار غیرمتمرکز می تواند به طور آشکار در سراسر جغرافیایی قابل دسترسی باشد به طوری که هر محققی بتواند به منابع محاسباتی دسترسی داشته باشد. سیستمی را تصور کنید که سرمایه‌گذاری جمعی با صدور توکن، آموزش را مدلسازی می‌کند. سرمایه‌گذاری‌های جمعی موفق، محاسبات اولویت‌بندی‌شده برای مدل خود را دریافت می‌کنند و نوآوری‌ها را در جایی که تقاضای زیادی وجود دارد، به پیش می‌برند. به عنوان مثال، اگر تقاضای قابل توجهی از سوی DAO برای تولید یک مدل GPT اسپانیایی یا هندی برای خدمات رسانی به بخش های بزرگتری از جمعیت وجود داشته باشد، می توان تحقیقات را روی آن حوزه متمرکز کرد.

در حال حاضر، شرکت ها دوست دارند GenSyn در حال کار بر روی راه اندازی پروتکل هایی برای ایجاد انگیزه و هماهنگی دسترسی سخت افزاری جایگزین، مقرون به صرفه و مبتنی بر ابر برای محاسبات یادگیری عمیق هستند. با گذشت زمان، یک شبکه محاسباتی مشترک و غیرمتمرکز جهانی که با زیرساخت وب 3 ساخته شده است، مقرون به صرفه‌تر می‌شود و به ما کمک می‌کند تا مرز هوش مصنوعی را بررسی کنیم.

مجموعه داده ها و محاسبات این پایان نامه را فعال می کند: مدل های AI منبع باز. در چند سال گذشته، مدل‌های بزرگ به طور فزاینده‌ای خصوصی شده‌اند، زیرا سرمایه‌گذاری در منابع لازم برای تولید آنها، پروژه‌ها را به سمت منبع بسته سوق داده است.

OpenAI را انتخاب کنید. OpenAI در سال 2015 تاسیس شد به عنوان یک آزمایشگاه تحقیقاتی غیرانتفاعی با مأموریت تولید هوش مصنوعی عمومی به نفع تمام بشریت، تضاد آشکار با رهبران هوش مصنوعی در آن زمان، گوگل و فیسبوک. با گذشت زمان، رقابت شدید و فشار برای تامین مالی، آرمان‌های شفافیت و کد منبع باز را از بین برده است زیرا OpenAI به سمت مدل انتفاعی و بزرگ امضا کرد قرارداد تجاری یک میلیارد دلاری با مایکروسافت. علاوه بر این، بحث‌های اخیر پیرامون مدل متن به تصویر آن‌ها، DALLE-2، وجود دارد. برای سانسور عمومی آن. (به عنوان مثال، DALLE-2 عبارات «تفنگ، «اجرا، «حمله»، «اوکراین» و تصاویر افراد مشهور را ممنوع کرده است؛ چنین سانسور خامی از اعلان‌هایی مانند «حمله لبرون جیمز به سبد» یا «برنامه‌نویسی که دسترسی به بتای خصوصی برای این مدل‌ها یک سوگیری جغرافیایی ضمنی برای کاربران غربی دارد تا بخش‌های زیادی از جمعیت جهان را از تعامل و اطلاع‌رسانی به این مدل‌ها قطع کنند.

هوش مصنوعی اینگونه نیست که باید منتشر شود: توسط چند شرکت بزرگ فناوری محافظت، پلیس و حفظ شود. همانطور که در مورد بلاک چین، فناوری جدید باید تا حد امکان عادلانه اعمال شود تا مزایای آن در میان معدود افرادی که دسترسی دارند متمرکز نشود. پیشرفت مرکب در هوش مصنوعی باید آشکارا در صنایع مختلف، مناطق جغرافیایی و جوامع مختلف به کار گرفته شود تا به طور جمعی جذاب ترین موارد استفاده را کشف کرده و در مورد استفاده منصفانه از هوش مصنوعی به اجماع برسیم. منبع باز نگه داشتن مدل های بنیاد می تواند تضمین کند که از سانسور جلوگیری می شود و سوگیری تحت نظر عموم به دقت نظارت می شود.

با ساختار رمزی برای مدل‌های پایه تعمیم‌یافته، می‌توان مجموعه بزرگ‌تری از مشارکت‌کنندگان را جمع‌آوری کرد که می‌توانند همزمان با انتشار کد منبع باز، از کار خود درآمد کسب کنند. پروژه‌هایی مانند OpenAI که با تز منبع باز ساخته شده‌اند، مجبور شده‌اند به یک شرکت مستقل سرمایه‌گذاری شوند تا برای استعداد و منابع رقابت کنند. Web3 به پروژه های منبع باز اجازه می دهد تا از نظر مالی به همان اندازه سودآور باشند و با پروژه هایی که توسط سرمایه گذاری های خصوصی توسط Big Tech هدایت می شوند رقابت بیشتری داشته باشند. علاوه بر این، مبتکرانی که محصولاتی را بر روی مدل های منبع باز ایجاد می کنند، می توانند با اطمینان خاطر شفافیت در هوش مصنوعی زیربنایی را ایجاد کنند. اثر پایین دستی این، پذیرش سریع و عرضه به بازار موارد جدید استفاده از هوش مصنوعی خواهد بود. در فضای وب 3، این شامل برنامه های امنیتی که تجزیه و تحلیل پیش‌بینی‌کننده را برای آسیب‌پذیری‌های قرارداد هوشمند و کشش‌ها انجام می‌دهند، تولید کننده های تصویر که می توان از آن برای برش NFT و ایجاد مناظر متاورس استفاده کرد، شخصیت های دیجیتالی هوش مصنوعی که می تواند در زنجیره وجود داشته باشد تا مالکیت فردی را حفظ کند و موارد دیگر.

هوش مصنوعی یکی از سریع‌ترین فناوری‌های در حال پیشرفت امروزی است که پیامدهای بسیار زیادی بر کل جامعه ما خواهد داشت. امروزه، فناوری‌های بزرگ بر این حوزه تسلط دارند زیرا سرمایه‌گذاری‌های مالی در استعدادها، داده‌ها و محاسبات، خندق‌های قابل توجهی را برای توسعه منبع باز ایجاد می‌کند. ادغام وب 3 در لایه زیرساخت هوش مصنوعی گامی مهم است تا اطمینان حاصل شود که سیستم های هوش مصنوعی به گونه ای منصفانه، باز و در دسترس ساخته شده اند. ما در حال حاضر شاهد هستیم که مدل‌های باز در فضاهای باز مانند توییتر و HuggingFace و کریپتو، موقعیت نوآوری سریع و عمومی را اتخاذ می‌کنند و می‌توانند این تلاش‌ها را به سمت جلو افزایش دهند.

در اینجا چیزی است که تیم CoinFund در تقاطع هوش مصنوعی و رمزنگاری به دنبال آن است:

  1. تیم هایی با هوش مصنوعی باز در هسته ماموریت خود قرار دارند
  2. جوامعی که منابع عمومی مانند داده ها و محاسبات را برای کمک به ساخت مدل های هوش مصنوعی مدیریت می کنند
  3. محصولاتی که از هوش مصنوعی برای آوردن خلاقیت، امنیت و نوآوری به جریان اصلی استفاده می کنند

اگر در حال ساخت پروژه ای در تقاطع هوش مصنوعی و وب 3 هستید، از طریق ارتباط با CoinFund در سایت با ما چت کنید. توییتر یا پست الکترونیک rishin@coinfund.io or jake@coinfund.io.

تمبر زمان:

بیشتر از CoinFund