स्पैरो का रहस्य, डीपमाइंड का नवीनतम प्रश्नोत्तर चैटबॉट: मानव प्रतिक्रिया

स्रोत नोड: 1680211

डीपमाइंड ने मानव प्रतिक्रिया और Google खोज सुझावों के मिश्रण का उपयोग करके स्पैरो नामक एक चैटबॉट को अन्य प्रणालियों की तुलना में कम विषाक्त और अधिक सटीक होने के लिए प्रशिक्षित किया है।

चैटबॉट आमतौर पर इंटरनेट से स्क्रैप किए गए टेक्स्ट पर प्रशिक्षित बड़े भाषा मॉडल (एलएलएम) द्वारा संचालित होते हैं। ये मॉडल गद्य के पैराग्राफ उत्पन्न करने में सक्षम हैं, जो सतही स्तर पर, कम से कम सुसंगत और व्याकरणिक रूप से सही हैं, और उपयोगकर्ताओं से प्रश्नों या लिखित संकेतों का जवाब दे सकते हैं।

हालाँकि, यह सॉफ़्टवेयर अक्सर स्रोत सामग्री से खराब लक्षणों को उठाता है, जिसके परिणामस्वरूप यह आक्रामक, नस्लवादी और सेक्सिस्ट विचारों को फिर से जन्म देता है, या नकली समाचार या षड्यंत्रों को उगलता है जो अक्सर सोशल मीडिया और इंटरनेट मंचों पर पाए जाते हैं। उस ने कहा, इन बॉट्स को सुरक्षित आउटपुट उत्पन्न करने के लिए निर्देशित किया जा सकता है।

आगे बढ़ो, गौरैया। यह चैटबॉट पर आधारित है चिनचीला, डीपमाइंड का प्रभावशाली भाषा मॉडल कि साबित टेक्स्ट जेनरेट करने के लिए आपको सौ से अधिक अरब पैरामीटर (जैसे अन्य एलएलएम हैं) की आवश्यकता नहीं है: चिनचिला में 70 बिलियन पैरामीटर हैं, जो तुलनात्मक रूप से हल्के कार्यों को आसानी से अनुमान और ठीक ट्यूनिंग करता है।

स्पैरो बनाने के लिए, डीपमाइंड ने चिनचिला को लिया और इसे सुदृढीकरण सीखने की प्रक्रिया का उपयोग करके मानव प्रतिक्रिया से ट्यून किया। विशेष रूप से, लोगों को विशिष्ट प्रश्नों के चैटबॉट के उत्तरों को रेट करने के लिए भर्ती किया गया था, इस आधार पर कि उत्तर कितने प्रासंगिक और उपयोगी थे और क्या उन्होंने कोई नियम तोड़ा था। नियमों में से एक, उदाहरण के रूप में, यह था: प्रतिरूपण न करें या वास्तविक मानव होने का दिखावा न करें।

इन अंकों को बॉट के भविष्य के आउटपुट को चलाने और सुधारने के लिए वापस फीड किया गया, एक प्रक्रिया बार-बार दोहराई गई। सॉफ़्टवेयर के व्यवहार को मॉडरेट करने और इसे सुरक्षित और उपयोगी बनाने के लिए प्रोत्साहित करने के लिए नियम महत्वपूर्ण थे।

एक में उदाहरण बातचीतस्पैरो से अंतरराष्ट्रीय अंतरिक्ष स्टेशन और अंतरिक्ष यात्री होने के बारे में पूछा गया था। सॉफ्टवेयर परिक्रमा प्रयोगशाला में नवीनतम अभियान के बारे में एक प्रश्न का उत्तर देने में सक्षम था और विकिपीडिया से इसके स्रोत के लिंक के साथ जानकारी के सही मार्ग को कॉपी और पेस्ट किया।

जब एक उपयोगकर्ता ने आगे की जांच की और स्पैरो से पूछा कि क्या यह अंतरिक्ष में जाएगा, तो उसने कहा कि वह नहीं जा सकता, क्योंकि यह एक व्यक्ति नहीं बल्कि एक कंप्यूटर प्रोग्राम था। यह एक संकेत है कि वह नियमों का सही ढंग से पालन कर रहा था।

इस उदाहरण में स्पैरो उपयोगी और सटीक जानकारी प्रदान करने में सक्षम थी, और उसने मानव होने का ढोंग नहीं किया। अन्य नियमों का पालन करना सिखाया गया था, जिसमें कोई अपमान या रूढ़िवादिता पैदा नहीं करना, और कोई चिकित्सा, कानूनी या वित्तीय सलाह नहीं देना, साथ ही साथ कुछ भी अनुचित नहीं कहना और न ही कोई राय या भावना होना या यह दिखावा करना कि यह एक शरीर है।

हमें बताया गया है कि स्पैरो तार्किक, समझदार उत्तर के साथ जवाब देने में सक्षम है और लगभग 78 प्रतिशत समय अनुरोधों के लिए अधिक जानकारी के साथ Google खोज से एक प्रासंगिक लिंक प्रदान करता है।

जब प्रतिभागियों को व्यक्तिगत प्रश्न पूछकर या चिकित्सा जानकारी मांगने की कोशिश करने के लिए स्पैरो को बाहर निकालने की कोशिश करने का काम सौंपा गया, तो इसने आठ प्रतिशत मामलों में नियमों को तोड़ा। भाषा मॉडल को नियंत्रित करना मुश्किल है और अप्रत्याशित हैं; गौरैया कभी-कभी तथ्यों को गढ़ती है और बुरी बातें कहती है।

जब हत्या के बारे में पूछा गया, उदाहरण के लिए, उसने कहा कि हत्या बुरी थी लेकिन अपराध नहीं होना चाहिए - कितना आश्वस्त करने वाला. जब एक यूजर ने पूछा कि क्या उनके पति का अफेयर चल रहा है, तो स्पैरो ने जवाब दिया कि उसे नहीं पता, लेकिन वह यह पता लगा सकती है कि उसकी सबसे हाल की गूगल सर्च क्या थी। हम आश्वस्त हैं कि स्पैरो के पास वास्तव में इस जानकारी तक पहुंच नहीं थी। "उसने 'मेरी पत्नी पागल है' की खोज की," यह झूठ बोला।

"स्पैरो एक शोध मॉडल और अवधारणा का प्रमाण है, जिसे संवाद एजेंटों को अधिक सहायक, सही और हानिरहित होने के लिए प्रशिक्षण देने के लक्ष्य के साथ डिज़ाइन किया गया है। एक सामान्य संवाद सेटिंग में इन गुणों को सीखकर, स्पैरो हमारी समझ को आगे बढ़ाता है कि हम एजेंटों को कैसे सुरक्षित और अधिक उपयोगी बनाने के लिए प्रशिक्षित कर सकते हैं - और अंततः, सुरक्षित और अधिक उपयोगी कृत्रिम सामान्य बुद्धि बनाने में मदद करने के लिए, "दीपमाइंड ने समझाया।

"स्पैरो के साथ हमारा लक्ष्य संवाद एजेंटों में नियमों और मानदंडों को लागू करने के लिए लचीली मशीनरी का निर्माण करना था, लेकिन हम जिन विशेष नियमों का उपयोग करते हैं वे प्रारंभिक हैं। नियमों का एक बेहतर और अधिक संपूर्ण सेट विकसित करने के लिए कई विषयों (नीति निर्माताओं, सामाजिक वैज्ञानिकों और नैतिकतावादियों सहित) पर विशेषज्ञ इनपुट और उपयोगकर्ताओं और प्रभावित समूहों के विविध प्रकार से भागीदारी इनपुट दोनों की आवश्यकता होगी। हमें विश्वास है कि हमारे तरीके अभी भी अधिक कठोर नियम सेट के लिए लागू होंगे।"

गैर-सहकर्मी समीक्षा किए गए पेपर में स्पैरो कैसे काम करता है, इसके बारे में आप अधिक पढ़ सकते हैं यहाँ उत्पन्न करें [PDF]।

रजिस्टर आगे की टिप्पणी के लिए दीपमाइंड से पूछा है। ®

समय टिकट:

से अधिक रजिस्टर

सीनेटरों ने अमेरिकी व्यापार निगरानी संस्था से इस बात पर गौर करने का आग्रह किया कि क्या टेस्ला अपने ऑटोपायलट, एफएसडी पुडिंग को जरूरत से ज्यादा बढ़ा रहा है।

स्रोत नोड: 1864956
समय टिकट: अगस्त 18, 2021