هوش مصنوعی زبانی که به تازگی از طریق چشم و گوش یک کودک نوپا یاد گرفته است

بازنشر افلاطون

دنبال: 0

سم شش ماهه بود که برای اولین بار یک دوربین سبک وزن را روی پیشانی خود بست.

برای یک سال و نیم آینده، دوربین تکه هایی از زندگی او را ثبت کرد. او در اطراف حیوانات خانگی خانواده خزیده بود، پدر و مادرش را تماشا می کرد که آشپزی می کردند و در ایوان جلو با مادربزرگ گریه می کرد. در تمام این مدت، دوربین همه چیزهایی را که او می شنید ضبط می کرد.

چیزی که شبیه یک ویدیوی خانگی برای یک کودک نوپا بامزه به نظر می رسد در واقع یک مفهوم جسورانه است: آیا هوش مصنوعی می تواند زبان را مانند یک کودک یاد بگیرد؟ نتایج همچنین می تواند نشان دهد که چگونه کودکان به سرعت زبان و مفاهیم را در سنین پایین به دست می آورند.

یک مطالعه جدید in علم توضیح می دهد که چگونه محققان از ضبط های سام برای آموزش هوش مصنوعی برای درک زبان استفاده کردند. تنها با بخش کوچکی از تجربه زندگی یک کودک در طول یک سال، هوش مصنوعی توانست مفاهیم اساسی را درک کند - به عنوان مثال، یک توپ، یک پروانه یا یک سطل.

این هوش مصنوعی که دیدگاه کودک برای یادگیری متضاد (CVCL) نامیده می شود، تقریباً نحوه یادگیری ما را در کودکی با تطبیق بینایی با صدا تقلید می کند. این یک رویکرد بسیار متفاوت از رویکردی است که توسط مدل های زبان بزرگی مانند آن ها اتخاذ شده است پشت ChatGPT یا Bard. توانایی عجیب این مدل‌ها در ساخت مقاله، شعر یا حتی اسکریپت‌های پادکست، جهان را به وجد آورده است. اما آنها نیاز به هضم تریلیون ها کلمه از طیف گسترده ای از مقالات خبری، فیلمنامه ها و کتاب ها برای توسعه این مهارت ها دارند.

در مقابل، بچه‌ها با ورودی بسیار کمتری یاد می‌گیرند و در حین رشد، به سرعت آموخته‌های خود را تعمیم می‌دهند. دانشمندان مدت‌هاست به این فکر می‌کردند که آیا هوش مصنوعی می‌تواند این توانایی‌ها را تنها با تجربیات روزمره به دست آورد.

دکتر وای کین وونگ، نویسنده این مطالعه در مرکز علوم داده دانشگاه نیویورک، گفت: «ما برای اولین بار نشان می‌دهیم که یک شبکه عصبی که بر روی این ورودی واقع‌گرایانه رشدی از یک کودک آموزش دیده است، می‌تواند یاد بگیرد که کلمات را به همتایان بصری خود پیوند دهد. گفت: در آزادی مطبوعات در مورد تحقیق

بازی کودکان

کودکان به راحتی کلمات و معانی آنها را از تجربیات روزمره جذب می کنند.

تنها در شش ماهگی، آنها شروع به اتصال کلمات به آنچه می‌بینند می‌کنند - برای مثال، یک چیز گرد پرتاب یک "توپ" است. تا دو سالگی، آنها تقریباً 300 کلمه و مفاهیم آنها را می دانند.

دانشمندان مدتهاست که درباره چگونگی این اتفاق بحث کرده اند. یک نظریه می گوید بچه ها یاد می گیرند آنچه را که می بینند با چیزی که می شنوند تطبیق دهند. یکی دیگر پیشنهاد می کند که یادگیری زبان به تجربه وسیع تری از جهان مانند تعامل اجتماعی و توانایی استدلال نیاز دارد.

جدا کردن این ایده ها با تست های سنتی شناختی در کودکان نوپا دشوار است. اما ممکن است با آموزش یک هوش مصنوعی از طریق چشم و گوش یک کودک به پاسخ بپردازیم.

M3GAN؟

مطالعه جدید از یک منبع ویدیویی غنی به نام استفاده کرده است SAYCamکه شامل داده‌های جمع‌آوری‌شده از سه کودک بین ۶ تا ۳۲ ماهه با استفاده از دوربین‌های GoPro مانند است که به پیشانی آن‌ها بسته شده است.

دو بار در هفته، دوربین ها حدود یک ساعت فیلم و صدا را در حین پرستاری، خزیدن و بازی ضبط می کردند. تمام گفتگوهای شنیداری به "گفته ها" - کلمات یا جملاتی که قبل از تغییر گوینده یا مکالمه گفته می شود، رونویسی می شود. نتیجه، داده های چندرسانه ای فراوانی از دیدگاه نوزادان و کودکان نوپا است.

برای سیستم جدید، تیم دو شبکه عصبی با یک "قاضی" برای هماهنگ کردن آنها طراحی کردند. یکی جلوه های بصری اول شخص را به چه کسی و چه چیزی در یک صحنه ترجمه کرد - آیا این یک مادر در حال آشپزی است؟ بقیه کلمات و معانی را از ضبط‌های صوتی رمزگشایی کردند.

سپس این دو سیستم در زمان با هم مرتبط شدند، بنابراین هوش مصنوعی یاد گرفت که تصاویر صحیح را با کلمات مرتبط کند. به عنوان مثال، هوش مصنوعی یاد گرفت که تصویر یک نوزاد را با کلمات "ببین، بچه ای وجود دارد" یا تصویر توپ یوگا را با "وای، این یک توپ بزرگ است" تطبیق دهد. با آموزش، به تدریج یاد گرفت که مفهوم توپ یوگا را از نوزاد جدا کند.

وونگ گفت: «این سرنخی را برای مدل ارائه می دهد که کدام کلمات باید با کدام اشیا مرتبط شوند.

سپس این تیم هوش مصنوعی را بر روی ویدیوهایی از تقریباً یک سال و نیم از زندگی سم آموزش داد. مجموعاً بیش از 600,000 فریم ویدیو همراه با 37,500 گفتار رونویسی شده بود. اگرچه این اعداد بزرگ به نظر می‌رسند، اما در مقایسه با مقدار داده‌ای که برای آموزش مدل‌های زبانی بزرگ استفاده می‌شود، تقریباً یک درصد از زندگی روزانه سم و بادام زمینی است.

هوش مصنوعی کودک در حال افزایش

برای آزمایش این سیستم، تیم یک آزمون شناختی رایج را که برای اندازه گیری توانایی های زبانی کودکان استفاده می شود، اقتباس کردند. آنها چهار تصویر جدید - یک گربه، یک گهواره، یک توپ و یک چمن- را به هوش مصنوعی نشان دادند و پرسیدند که کدام یک توپ است.

به طور کلی، هوش مصنوعی در حدود 62 درصد مواقع تصویر صحیح را انتخاب کرد. این عملکرد تقریباً با الگوریتم پیشرفته‌ای مطابقت داشت که بر روی 400 میلیون جفت تصویر و متن از وب آموزش داده شده بود - مرتبه‌ای از داده‌های بزرگتر از آنچه برای آموزش هوش مصنوعی در این مطالعه استفاده شد. آنها دریافتند که پیوند تصاویر ویدیویی با صدا بسیار مهم است. زمانی که تیم فریم‌های ویدیویی و گفته‌های مرتبط با آن‌ها را به هم ریخت، مدل کاملاً خراب شد.

هوش مصنوعی همچنین می تواند خارج از چارچوب "فکر کند" و به موقعیت های جدید تعمیم دهد.

در آزمایش دیگری، این کتاب بر اساس دیدگاه سام از یک کتاب تصویری آموزش داده شد، همانطور که والدینش گفتند: "این یک اردک و یک پروانه است." بعداً وقتی از او پرسیدند: «می‌توانی پروانه را انجام دهی؟» یک پروانه اسباب‌بازی را بالا گرفت؟ هنگامی که با تصاویر پروانه های رنگارنگ به چالش کشیده شد - تصاویری که هوش مصنوعی قبلا ندیده بود - از هر چهار نمونه، سه نمونه پروانه را با دقت بالای 80 درصد شناسایی کرد.

همه مفاهیم کلمه امتیاز یکسانی ندارند. به عنوان مثال، "قاشق" یک مبارزه بود. اما شایان ذکر است که مانند یک سخت است reCAPTCHA را، رمزگشایی تصاویر آموزشی حتی برای یک انسان نیز سخت بود.

درد در حال رشد

La هوش مصنوعی بر پیشرفت های اخیر در یادگیری ماشینی چندوجهی استوار است، که متن، تصاویر، صدا یا ویدئو را برای آموزش مغز ماشین ترکیب می کند.

این الگوریتم با استفاده از تجربیات تنها یک کودک توانست نحوه ارتباط کلمات را با یکدیگر و پیوند کلمات را به تصاویر و مفاهیم نشان دهد. این نشان می دهد که برای کودکان نوپا شنیدن کلمات و تطبیق آنها با آنچه که می بینند به ساخت واژگان آنها کمک می کند.

این بدان معنا نیست که دیگر فرآیندهای مغز، مانند نشانه های اجتماعی و استدلال، وارد بازی نمی شوند. نویسندگان نوشتند افزودن این اجزا به الگوریتم به طور بالقوه می تواند آن را بهبود بخشد.

این تیم قصد دارد آزمایش را ادامه دهد. در حال حاضر، هوش مصنوعی "کودک" فقط از فریم های عکس یاد می گیرد و واژگانی دارد که عمدتاً از اسم ها تشکیل شده است. ادغام بخش‌های ویدیویی در آموزش می‌تواند به هوش مصنوعی در یادگیری افعال کمک کند زیرا ویدیو شامل حرکت است.

افزودن لحن به داده های گفتار نیز می تواند کمک کننده باشد. بچه‌ها خیلی زود یاد می‌گیرند که «هوم» مادر بسته به لحن، می‌تواند معانی بسیار متفاوتی داشته باشد.

اما به طور کلی، ترکیب هوش مصنوعی و تجربیات زندگی یک روش جدید قدرتمند برای مطالعه مغز ماشین و انسان است. این می تواند به ما کمک کند تا مدل های هوش مصنوعی جدیدی ایجاد کنیم که مانند کودکان یاد می گیرند و به طور بالقوه درک ما از نحوه یادگیری زبان و مفاهیم مغزمان را تغییر می دهند.

اعتبار تصویر: Wai Keen Vong