एक एआई ने अभी-अभी एक बच्चे की आँखों और कानों के माध्यम से भाषा सीखी

एक एआई ने अभी-अभी एक बच्चे की आँखों और कानों के माध्यम से भाषा सीखी

स्रोत नोड: 3092738

सैम छह महीने का था जब उसने पहली बार अपने माथे पर एक हल्का कैमरा बांधा था।

अगले डेढ़ साल के लिए, कैमरे ने उनके जीवन के कुछ अंश कैद किए। वह परिवार के पालतू जानवरों के आसपास रेंगता था, अपने माता-पिता को खाना बनाते हुए देखता था और दादी के साथ सामने बरामदे में रोता था। इस दौरान उसने जो कुछ भी सुना, कैमरे ने उसे रिकार्ड कर लिया।

जो एक प्यारे बच्चे का होम वीडियो जैसा लगता है वह वास्तव में एक साहसी अवधारणा है: क्या एआई एक बच्चे की तरह भाषा सीख सकता है? नतीजों से यह भी पता चल सकता है कि बच्चे कम उम्र में ही कैसे तेजी से भाषा और अवधारणाएं सीख लेते हैं।

एक नए अध्ययन से in विज्ञान वर्णन करता है कि कैसे शोधकर्ताओं ने एआई को भाषा समझने के लिए प्रशिक्षित करने के लिए सैम की रिकॉर्डिंग का उपयोग किया। एक वर्ष में एक बच्चे के जीवन के अनुभव के एक छोटे से हिस्से के साथ, एआई बुनियादी अवधारणाओं को समझने में सक्षम था - उदाहरण के लिए, एक गेंद, एक तितली, या एक बाल्टी।

एआई, जिसे चाइल्ड्स व्यू फॉर कंट्रास्टिव लर्निंग (सीवीसीएल) कहा जाता है, मोटे तौर पर नकल करता है कि हम ऑडियो के साथ दृष्टि का मिलान करके बच्चों के रूप में कैसे सीखते हैं। यह उन जैसे बड़े भाषा मॉडलों द्वारा अपनाए गए दृष्टिकोण से बहुत अलग दृष्टिकोण है चैटजीपीटी या बार्ड के पीछे. इन मॉडलों की निबंध, कविता या यहां तक ​​कि पॉडकास्ट स्क्रिप्ट तैयार करने की अद्भुत क्षमता ने दुनिया को रोमांचित कर दिया है। लेकिन इन कौशलों को विकसित करने के लिए उन्हें विभिन्न प्रकार के समाचार लेखों, पटकथाओं और किताबों से खरबों शब्द पचाने होंगे।

इसके विपरीत, बच्चे बहुत कम इनपुट के साथ सीखते हैं और जैसे-जैसे वे बड़े होते हैं, वे तेजी से अपनी सीख का सामान्यीकरण करते हैं। वैज्ञानिक लंबे समय से सोच रहे हैं कि क्या एआई अकेले रोजमर्रा के अनुभवों से इन क्षमताओं को हासिल कर सकता है।

एनवाईयू के डेटा साइंस सेंटर में लेखक डॉ. वाई कीन वोंग ने कहा, "हमने पहली बार दिखाया है कि एक बच्चे के इस विकासात्मक यथार्थवादी इनपुट पर प्रशिक्षित तंत्रिका नेटवर्क शब्दों को उनके दृश्य समकक्षों से जोड़ना सीख सकता है।" एक प्रेस विज्ञप्ति में कहा शोध के बारे में।

बच्चे का खेल

बच्चे रोजमर्रा के अनुभव से शब्द और उनके अर्थ आसानी से सीख लेते हैं।

केवल छह महीने की उम्र में, वे जो देख रहे हैं उससे शब्दों को जोड़ना शुरू कर देते हैं - उदाहरण के लिए, एक गोल उछाल वाली चीज़ एक "गेंद" है। दो साल की उम्र तक, वे लगभग 300 शब्द और उनकी अवधारणाएँ जानते हैं।

वैज्ञानिकों ने लंबे समय से इस बात पर बहस की है कि ऐसा कैसे होता है। एक सिद्धांत कहता है कि बच्चे जो देख रहे हैं उसका और जो सुन रहे हैं उसका मिलान करना सीखते हैं। एक अन्य सुझाव है कि भाषा सीखने के लिए दुनिया के व्यापक अनुभव की आवश्यकता होती है, जैसे सामाजिक संपर्क और तर्क करने की क्षमता।

बच्चों में पारंपरिक संज्ञानात्मक परीक्षणों के साथ इन विचारों को अलग करना कठिन है। लेकिन हमें एक बच्चे की आंखों और कानों के माध्यम से एआई का प्रशिक्षण देकर उत्तर मिल सकता है।

एम3जीएएन?

नए अध्ययन में एक समृद्ध वीडियो संसाधन का उपयोग किया गया जिसे कहा जाता है SAYCam, जिसमें 6 से 32 महीने के बीच के तीन बच्चों से उनके माथे पर लगे गोप्रो-जैसे कैमरों का उपयोग करके एकत्र किया गया डेटा शामिल है।

हर हफ्ते में दो बार, जब वे स्तनपान कर रहे थे, रेंग रहे थे और खेल रहे थे, कैमरे ने लगभग एक घंटे की फुटेज और ऑडियो रिकॉर्ड की। सभी श्रव्य संवादों को "उच्चारण" में बदल दिया गया - वक्ता या बातचीत में बदलाव से पहले बोले गए शब्द या वाक्य। इसका परिणाम शिशुओं और छोटे बच्चों के परिप्रेक्ष्य से मल्टीमीडिया डेटा का खजाना है।

नई प्रणाली के लिए, टीम ने समन्वय के लिए एक "जज" के साथ दो तंत्रिका नेटवर्क डिजाइन किए। एक ने प्रथम-व्यक्ति दृश्यों को एक दृश्य के कौन और क्या में अनुवादित किया - क्या यह एक माँ खाना बना रही है? अन्य ने ऑडियो रिकॉर्डिंग से शब्दों और अर्थों को समझा।

फिर दोनों प्रणालियों को समय के साथ सहसंबद्ध किया गया ताकि एआई ने सही दृश्यों को शब्दों के साथ जोड़ना सीख लिया। उदाहरण के लिए, एआई ने एक बच्चे की छवि को "देखो, वहाँ एक बच्चा है" या योग गेंद की छवि को "वाह, यह एक बड़ी गेंद है" शब्दों से मिलाना सीखा। प्रशिक्षण के साथ, इसने धीरे-धीरे योगा बॉल की अवधारणा को एक बच्चे से अलग करना सीख लिया।

वोंग ने कहा, "यह मॉडल को एक सुराग प्रदान करता है कि कौन से शब्द किस वस्तु के साथ जुड़े होने चाहिए।"

इसके बाद टीम ने सैम के जीवन के लगभग डेढ़ साल के वीडियो पर एआई को प्रशिक्षित किया। कुल मिलाकर, इसमें 600,000 से अधिक वीडियो फ़्रेम थे, जो 37,500 लिखित कथनों के साथ जोड़े गए थे। हालाँकि संख्याएँ बड़ी लगती हैं, लेकिन बड़े भाषा मॉडलों को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटा की मात्रा की तुलना में वे सैम के दैनिक जागने वाले जीवन का केवल एक प्रतिशत हैं।

बेबी एआई का उदय हो रहा है

प्रणाली का परीक्षण करने के लिए, टीम ने बच्चों की भाषा क्षमताओं को मापने के लिए उपयोग किए जाने वाले एक सामान्य संज्ञानात्मक परीक्षण को अपनाया। उन्होंने एआई को चार नई छवियां दिखाईं - एक बिल्ली, एक पालना, एक गेंद और एक लॉन - और पूछा कि गेंद कौन सी थी।

कुल मिलाकर, एआई ने लगभग 62 प्रतिशत समय सही छवि चुनी। प्रदर्शन लगभग वेब से 400 मिलियन छवि और टेक्स्ट जोड़े पर प्रशिक्षित अत्याधुनिक एल्गोरिदम से मेल खाता है - अध्ययन में एआई को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटा की तुलना में अधिक परिमाण का ऑर्डर। उन्होंने पाया कि वीडियो छवियों को ऑडियो के साथ जोड़ना महत्वपूर्ण था। जब टीम ने वीडियो फ़्रेम और उनसे संबंधित कथनों में फेरबदल किया, तो मॉडल पूरी तरह से टूट गया।

एआई बॉक्स के बाहर भी "सोच" सकता है और नई स्थितियों को सामान्य बना सकता है।

एक अन्य परीक्षण में, इसे सैम के चित्र पुस्तक के परिप्रेक्ष्य पर प्रशिक्षित किया गया था क्योंकि उसके माता-पिता ने कहा था, "यह एक बत्तख और एक तितली है।" बाद में जब उनसे पूछा गया, "क्या आप तितली बना सकते हैं?" तो उन्होंने एक खिलौना तितली पकड़ा दी। जब बहुरंगी तितली छवियों के साथ चुनौती दी गई - जिन्हें एआई ने पहले कभी नहीं देखा था - तो उसने 80 प्रतिशत से अधिक सटीकता के साथ "तितली" के चार में से तीन उदाहरणों का पता लगाया।

सभी शब्द अवधारणाओं का स्कोर समान नहीं है। उदाहरण के लिए, "चम्मच" एक संघर्ष था। लेकिन यह इंगित करने लायक है कि, एक कठिन की तरह reCAPTCHA, प्रशिक्षण छवियों को एक इंसान के लिए भी समझना कठिन था।

वात - व्याधि

RSI एआई मल्टीमॉडल मशीन लर्निंग में हाल की प्रगति पर आधारित है, जो एक मशीनी मस्तिष्क को प्रशिक्षित करने के लिए पाठ, चित्र, ऑडियो या वीडियो को जोड़ती है।

केवल एक बच्चे के अनुभव से इनपुट के साथ, एल्गोरिदम यह पकड़ने में सक्षम था कि शब्द एक-दूसरे से कैसे संबंधित हैं और शब्दों को छवियों और अवधारणाओं से जोड़ते हैं। इससे पता चलता है कि बच्चों को शब्द सुनने और जो वे देख रहे हैं उससे उनका मिलान करने से उनकी शब्दावली बनाने में मदद मिलती है।

इसका मतलब यह नहीं है कि अन्य मस्तिष्क प्रक्रियाएं, जैसे कि सामाजिक संकेत और तर्क, चलन में नहीं आती हैं। लेखकों ने लिखा, इन घटकों को एल्गोरिदम में जोड़ने से संभावित रूप से इसमें सुधार हो सकता है।

टीम की योजना प्रयोग जारी रखने की है. अभी के लिए, "बेबी" एआई केवल स्थिर छवि फ़्रेमों से सीखता है और इसकी शब्दावली में ज्यादातर संज्ञाएं शामिल हैं। प्रशिक्षण में वीडियो खंडों को एकीकृत करने से एआई को क्रियाएं सीखने में मदद मिल सकती है क्योंकि वीडियो में गति शामिल है।

वाक् डेटा में स्वर-शैली जोड़ने से भी मदद मिल सकती है। बच्चे जल्दी ही सीख जाते हैं कि माँ के "हम्म" के स्वर के आधार पर बहुत भिन्न अर्थ हो सकते हैं।

लेकिन कुल मिलाकर, एआई और जीवन के अनुभवों का संयोजन मशीन और मानव मस्तिष्क दोनों का अध्ययन करने के लिए एक शक्तिशाली नई विधि है। यह हमें नए एआई मॉडल विकसित करने में मदद कर सकता है जो बच्चों की तरह सीखते हैं, और संभावित रूप से हमारी समझ को नया आकार देते हैं कि हमारा दिमाग भाषा और अवधारणाओं को कैसे सीखता है।

छवि क्रेडिट: वाई कीन वोंग

समय टिकट:

से अधिक विलक्षणता हब

वैज्ञानिकों ने यह पता लगाने के लिए 348 स्तनधारियों का अध्ययन किया कि क्यों कुछ लोग महीनों तक जीवित रहते हैं जबकि अन्य सदियों तक जीवित रहते हैं

स्रोत नोड: 2824652
समय टिकट: अगस्त 15, 2023