AI Tom Hanks Didn’t Offer Me A Job, But It Sure Sounds Like He Did

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

एआई टॉम हैंक्स ने मुझे नौकरी की पेशकश नहीं की, लेकिन ऐसा ज़रूर लगता है जैसे उन्होंने किया था | पीसी की दुनिया

<!--

छवि: ड्रीमस्टूडियो.एआई के माध्यम से मार्क हैचमैन/आईडीजी

टॉम हैंक्स ने मुझे सिर्फ एक भूमिका के लिए ही नहीं बुलाया था, बल्कि यह निश्चित रूप से ऐसा लगता है।

जब से पीसीवर्ल्ड ने इसके उत्थान को कवर करना शुरू किया एआई कला जैसे विभिन्न एआई अनुप्रयोग, मैं GitHub में कोड रिपॉजिटरी और Reddit के लिंक में इधर-उधर ताक-झांक कर रहा हूं, जहां लोग विभिन्न दृष्टिकोणों के लिए अपने स्वयं के AI मॉडल में बदलाव पोस्ट करेंगे।

इनमें से कुछ मॉडल वास्तव में वाणिज्यिक साइटों पर समाप्त होते हैं, जो या तो अपने स्वयं के एल्गोरिदम को रोल करते हैं या खुले स्रोत के रूप में प्रकाशित दूसरों को अनुकूलित करते हैं। मौजूदा AI ऑडियो साइट का एक बेहतरीन उदाहरण है Uberduck.ai, जो वस्तुतः सैकड़ों प्रीप्रोग्राम्ड मॉडल पेश करता है। टेक्स्ट फ़ील्ड में टेक्स्ट दर्ज करें और आप वर्चुअल एलोन मस्क, बिल गेट्स, पैगी हिल, डैफ़ी डक, एलेक्स ट्रेबेक, बीविस, द जोकर या यहां तक कि सिरी से आपकी पूर्व-प्रोग्राम की गई पंक्तियों को पढ़ सकते हैं।

हमने पिछले साल पीसीवर्ल्ड की प्रशंसा करते हुए एक नकली बिल क्लिंटन अपलोड किया था और मॉडल पहले से ही बहुत अच्छा लग रहा है।

यहां हमारे पूर्व राष्ट्रपति का एक मॉडल है जो पीसीवर्ल्ड और नाश्ते के साथ बैठे हैं। निःसंदेह, यह नकली है।

भाषण को पुन: प्रस्तुत करने के लिए एआई को प्रशिक्षित करने में स्पष्ट आवाज के नमूने अपलोड करना शामिल है। एआई "सीखता है" कि वक्ता उन रिश्तों को सीखने, उन्हें बेहतर बनाने और परिणामों की नकल करने के लिए लक्ष्य के साथ ध्वनियों को कैसे जोड़ता है। यदि आप 1992 की उत्कृष्ट थ्रिलर से परिचित हैं स्नीकर्स (रॉबर्ट रेडफोर्ड, सिडनी पोइटियर और बेन किंग्सले सहित अन्य कलाकारों के साथ), तो आप उस दृश्य के बारे में जानते हैं जिसमें पात्रों को लक्ष्य की आवाज का एक आवाज नमूना रिकॉर्ड करके बायोमेट्रिक वॉयस पासवर्ड को "क्रैक" करने की आवश्यकता होती है। . यह लगभग वैसी ही बात है.

आम तौर पर, एक अच्छे वॉयस मॉडल को असेंबल करने के लिए काफी प्रशिक्षण की आवश्यकता होती है, जिसमें लंबे नमूने यह दर्शाते हैं कि कोई व्यक्ति कैसे बोलता है। हालाँकि, पिछले कुछ दिनों में, कुछ नया सामने आया है: माइक्रोसॉफ्ट वॉल-ई, एक शोध पत्र (सजीव उदाहरणों के साथ) एक संश्लेषित आवाज जिसे पूरी तरह से प्रोग्राम करने योग्य आवाज उत्पन्न करने के लिए केवल कुछ सेकंड के स्रोत ऑडियो की आवश्यकता होती है।

स्वाभाविक रूप से, एआई शोधकर्ता और अन्य एआई समूह जानना चाहते थे कि क्या वॉल-ई मॉडल अभी तक जनता के लिए जारी किया गया है। उत्तर नहीं है, हालाँकि आप चाहें तो किसी अन्य मॉडल के साथ खेल सकते हैं, जिसे कछुआ कहा जाता है। (लेखक का कहना है कि इसे कछुआ कहा जाता है क्योंकि यह धीमा है, जो कि है, लेकिन यह काम करता है।)

कछुए के साथ अपनी खुद की एआई आवाज़ को प्रशिक्षित करें

जो बात कछुए को दिलचस्प बनाती है वह यह है कि आप बस कुछ ऑडियो क्लिप अपलोड करके मॉडल को अपनी पसंद की किसी भी आवाज पर प्रशिक्षित कर सकते हैं। कछुआ GitHub पृष्ठ ध्यान दें कि आपके पास लगभग एक दर्जन सेकंड की कुछ क्लिप होनी चाहिए। आपको उन्हें एक विशिष्ट गुणवत्ता के साथ .WAV फ़ाइल के रूप में सहेजना होगा।

यह कैसे काम करता है? एक सार्वजनिक उपयोगिता के माध्यम से जिसके बारे में आप नहीं जानते होंगे: गूगल कोलाब. अनिवार्य रूप से, Collab एक क्लाउड सेवा है जो Google प्रदान करता है जो Python सर्वर तक पहुंच की अनुमति देता है। जो कोड आप (या कोई और) लिखते हैं उसे एक नोटबुक के रूप में संग्रहीत किया जा सकता है, जिसे उन उपयोगकर्ताओं के साथ साझा किया जा सकता है जिनके पास सामान्य Google खाता है। कछुआ साझा संसाधन यहाँ है.

इंटरफ़ेस डराने वाला लगता है, लेकिन यह उतना बुरा नहीं है। आपको Google उपयोगकर्ता के रूप में लॉग इन करना होगा और फिर ऊपरी दाएं कोने में "कनेक्ट" पर क्लिक करना होगा। खतरे के संकेत के लिए एक शब्द ही काफी है। हालाँकि यह Colab आपके Google Drive पर कुछ भी डाउनलोड नहीं करता है, अन्य Colab हो सकता है। (हालाँकि, इससे उत्पन्न होने वाली ऑडियो फ़ाइलें ब्राउज़र में संग्रहीत होती हैं लेकिन आपके पीसी पर डाउनलोड की जा सकती हैं।) सावधान रहें कि आप वह कोड चला रहे हैं जो किसी और ने लिखा है। आपको या तो खराब इनपुट के कारण या Google के पास उपलब्ध GPU न होने जैसी पिछली समस्या के कारण त्रुटि संदेश प्राप्त हो सकते हैं। यह सब थोड़ा प्रयोगात्मक है.

Google सहयोग कछुआ — कछुआ सहयोग। आरंभ करने के लिए "कनेक्ट" बटन पर क्लिक करें, फिर कोड के प्रत्येक ब्लॉक के बगल में छोटे "प्ले" आइकन पर क्लिक करें।

मार्क हैचमन / आईडीजी

कोड के प्रत्येक ब्लॉक में एक छोटा "प्ले" आइकन होता है जो तब दिखाई देता है जब आप उस पर अपना माउस घुमाते हैं। इसे चलाने के लिए आपको कोड के प्रत्येक ब्लॉक पर "प्ले" पर क्लिक करना होगा, अगला ब्लॉक चलाने से पहले प्रत्येक ब्लॉक के निष्पादित होने की प्रतीक्षा करनी होगी।

हालाँकि हम सभी सुविधाओं पर विस्तृत निर्देश नहीं दे रहे हैं, बस इस बात से अवगत रहें कि लाल पाठ उपयोगकर्ता द्वारा संशोधित किया जा सकता है, जैसे कि सुझाया गया पाठ जिसे आप मॉडल से बोलना चाहते हैं। लगभग सात ब्लॉक नीचे, आपके पास मॉडल को प्रशिक्षित करने का विकल्प होगा। आपको मॉडल को नाम देना होगा, फिर ऑडियो फ़ाइलें अपलोड करनी होंगी। जब यह पूरा हो जाए, तो चौथे ब्लॉक में नया ऑडियो मॉडल चुनें, कोड चलाएं, फिर तीसरे ब्लॉक में टेक्स्ट को कॉन्फ़िगर करें। दौड़ना कि कोड ब्लॉक।

यदि सब कुछ योजना के अनुसार हुआ, तो आपके पास अपनी नमूना आवाज का एक छोटा ऑडियो आउटपुट होगा। क्या यह काम करता है? खैर, मैंने अपने सहकर्मी गॉर्डन माह उंग का एक त्वरित और गंदा आवाज मॉडल बनाया, जिसका काम हमारे यहां दिखाई देता है फुल नर्ड पॉडकास्ट साथ ही विभिन्न वीडियो भी। मैंने छोटे स्निपेट के बजाय कई मिनट का नमूना अपलोड किया, यह देखने के लिए कि क्या यह काम करेगा।

परिणाम? असल में वह लगता है जीवंत, लेकिन गॉर्डन जैसा बिल्कुल नहीं। वह फिलहाल डिजिटल प्रतिरूपण से निश्चित रूप से सुरक्षित है। (यह किसी फास्ट-फूड श्रृंखला का समर्थन भी नहीं है।)

लेकिन एक मौजूदा मॉडल जिसे टोर्टोइज़ लेखक ने अभिनेता टॉम हैंक्स पर प्रशिक्षित किया है, बहुत अच्छा लगता है। मैं यहाँ टॉम हैंक्स नहीं बोल रहा हूँ! टॉम ने भी किया नहीं मुझे नौकरी की पेशकश करो, लेकिन यह कम से कम मेरे एक दोस्त को बेवकूफ बनाने के लिए काफी था।

निष्कर्ष? यह थोड़ा डरावना है: हम जो सुनते हैं (और जल्द ही देखते हैं) उस पर विश्वास करने का युग समाप्त हो रहा है। या यह पहले से ही है.

लेखक: मार्क हैचमैन, वरिष्ठ संपादक

पीसीवर्ल्ड के वरिष्ठ संपादक के रूप में, मार्क अन्य क्षेत्रों के अलावा माइक्रोसॉफ्ट समाचार और चिप प्रौद्योगिकी पर ध्यान केंद्रित करते हैं। उन्होंने पहले PCMag, BYTE, Slashdot, eWEEK और ReadWrite के लिए लिखा है।

मार्क हैचमैन की हालिया कहानियां:

कूपन कोड

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
स्रोत: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html

समय टिकट: जनवरी ७,२०२१

समय टिकट: दिसम्बर 15, 2023

एआई टॉम हैंक्स ने मुझे नौकरी की पेशकश नहीं की, लेकिन यह निश्चित रूप से ऐसा लगता है जैसे उसने किया था

प्लेटो द्वारा पुनर्प्रकाशित

कछुए के साथ अपनी खुद की एआई आवाज़ को प्रशिक्षित करें

लेखक: मार्क हैचमैन, वरिष्ठ संपादक

मार्क हैचमैन की हालिया कहानियां:

कूपन कोड

से अधिक पीसी वर्ल्ड

RIP Cortana: Microsoft का कहना है कि उसका Windows AI ऐप मर जाएगा

परीक्षण किया गया: Microsoft का DirectStorage तकनीक SATA SSDs के सूर्यास्त का संकेत देता है

लेनोवो का नया कलर ई-इंक लैपटॉप खरीदने लायक हो सकता है

डेल का शानदार XPS 13 लैपटॉप 650 डॉलर में बिक्री पर है

Nvidia ने GeForce RTX 4070 Ti, उन्नत RTX 40-सीरीज़ लैपटॉप और बहुत कुछ लॉन्च किया

हेडवे पर अतिरिक्त $20 की छूट के साथ प्रतिदिन कुछ नया सीखें

एसर का नवीनतम स्विफ्ट एज 16 पतला, स्मार्ट और सस्ता हो गया है

पहली प्रमुख सुरक्षा सावधानी जो आपको हमेशा नए पीसी पर सक्षम करनी चाहिए

मेमोरियल डे के लिए ये आपातकालीन फ्लैशलाइट बिक्री पर हैं I

इंटेल के सह-संस्थापक और चिप उद्योग के दिग्गज गॉर्डन मूर का 94 वर्ष की आयु में निधन हो गया

केवल $2021 में जीवन भर के लिए Microsoft Office Pro 50 में अपग्रेड करें

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा