->
تصویر: مارک هاچمن / IDG از طریق Dreamstudio.ai
تام هنکس فقط با من تماس نگرفت تا نقشی را به من بدهد، اما مطمئناً به نظر می رسد.
از زمانی که PCWorld شروع به پوشش خبری ظهور کرد برنامه های مختلف هوش مصنوعی مانند هنر هوش مصنوعی، من در مخازن کد در GitHub و پیوندهای داخل Reddit جستجو کرده ام، جایی که افراد برای رویکردهای مختلف، ترفندهایی را در مدل های هوش مصنوعی خود ارسال می کنند.
برخی از این مدلها در واقع به سایتهای تجاری ختم میشوند، که یا الگوریتمهای خود را رول میکنند یا سایرین را که به عنوان منبع باز منتشر شدهاند، تطبیق میدهند. یک مثال عالی از یک سایت صوتی AI موجود است Uberduck.ai، که به معنای واقعی کلمه صدها مدل از پیش برنامه ریزی شده را ارائه می دهد. متن را در قسمت متن وارد کنید و میتوانید از ایلان ماسک، بیل گیتس، پگی هیل، دافی داک، الکس تربک، بیویس، جوکر یا حتی سیری، خطوط از پیش برنامهریزی شده شما را بخوانند.
ما سال گذشته یک بیل کلینتون جعلی را بارگذاری کردیم که PCWorld را ستایش می کرد و مدل در حال حاضر بسیار خوب به نظر می رسد.
آموزش هوش مصنوعی برای بازتولید گفتار شامل آپلود نمونه های صدای واضح است. هوش مصنوعی «می آموزد» که چگونه گوینده صداها را با هدف ترکیب می کند تا آن روابط را بیاموزد، آنها را کامل کند و نتایج را تقلید کند. اگر با تریلر عالی 1992 آشنا هستید کفش ورزشی (با یک بازیگر تمام ستاره از رابرت ردفورد، سیدنی پواتیه، و بن کینگزلی، در میان دیگران)، سپس در مورد صحنه ای که در آن شخصیت ها باید با ضبط یک نمونه صوتی از صدای هدف، رمز عبور صدای بیومتریک را "شکن" کنند، می دانید. . این تقریباً همان چیزی است.
به طور معمول، مونتاژ یک مدل صدای خوب می تواند کمی آموزش داشته باشد، با نمونه های طولانی که نشان می دهد یک فرد خاص چگونه صحبت می کند. با این حال، در چند روز گذشته، چیز جدیدی ظاهر شده است: مایکروسافت Vall-E، یک مقاله تحقیقاتی (با نمونه های زنده) صدای سنتز شده که برای تولید صدای کاملاً قابل برنامه ریزی فقط به چند ثانیه صدای منبع نیاز دارد.
طبیعتاً محققان هوش مصنوعی و سایر گروههای هوش مصنوعی میخواستند بدانند آیا مدل Vall-E هنوز برای عموم منتشر شده است یا خیر. پاسخ منفی است، اگرچه در صورت تمایل می توانید با مدل دیگری به نام لاک پشت بازی کنید. (نویسنده اشاره می کند که به آن لاک پشت می گویند زیرا کند است، که همین طور است، اما کار می کند.)
صدای هوش مصنوعی خود را با Tortoise آموزش دهید
چیزی که لاک پشت را جالب می کند این است که می توانید مدل را با هر صدایی که انتخاب می کنید به سادگی با آپلود چند کلیپ صوتی آموزش دهید. را صفحه لاک پشت GitHub یادداشت می کند که باید چند کلیپ در حدود ده ثانیه یا بیشتر داشته باشید. شما باید آنها را به عنوان یک فایل WAV. با کیفیتی خاص ذخیره کنید.
چطور کار میکند؟ از طریق یک ابزار عمومی که ممکن است از آن آگاه نباشید: Google Colab. در اصل، Collab یک سرویس ابری است که گوگل ارائه می کند و اجازه دسترسی به سرور پایتون را می دهد. کدی که شما (یا شخص دیگری) می نویسید می تواند به عنوان یک نوت بوک ذخیره شود که می تواند با کاربرانی که دارای یک حساب عمومی گوگل هستند به اشتراک گذاشته شود. را منبع مشترک لاک پشت اینجاست.
رابط کاربری ترسناک به نظر می رسد، اما آنقدرها هم بد نیست. شما باید به عنوان یک کاربر Google وارد شوید و سپس باید روی "اتصال" در گوشه سمت راست بالا کلیک کنید. یک کلمه هشدار دهنده در حالی که این Colab چیزی را در Google Drive شما دانلود نمی کند، سایر Colab ها ممکن است. (هر چند فایلهای صوتی تولید شده در مرورگر ذخیره میشوند اما میتوانند در رایانه شخصی شما دانلود شوند.) توجه داشته باشید که در حال اجرای کدهایی هستید که شخص دیگری نوشته است. ممکن است به دلیل ورودی های نامناسب یا به این دلیل که Google در قسمت پشتی مشکل دارد، پیام های خطا دریافت کنید، مانند نداشتن GPU در دسترس. همه اینها کمی تجربی است.
هر بلوک کد دارای یک نماد "بازی" کوچک است که اگر ماوس خود را روی آن نگه دارید ظاهر می شود. برای اجرای هر بلوک کد باید روی «play» کلیک کنید و منتظر بمانید تا هر بلوک قبل از اجرای بلوک بعدی اجرا شود.
در حالی که ما قصد نداریم دستورالعملهای دقیق در مورد همه ویژگیها را مرور کنیم، فقط توجه داشته باشید که متن قرمز قابل تغییر توسط کاربر است، مانند متن پیشنهادی که میخواهید مدل صحبت کند. حدود هفت بلوک پایین تر، می توانید این مدل را آموزش دهید. شما باید مدل را نام ببرید، سپس فایل های صوتی را آپلود کنید. پس از تکمیل، مدل صوتی جدید را در بلوک چهارم انتخاب کنید، کد را اجرا کنید، سپس متن را در بلوک سوم پیکربندی کنید. اجرا کن که بلوک کد
اگر همه چیز طبق برنامه پیش برود، یک خروجی صوتی کوچک از صدای نمونه خود خواهید داشت. آیا کار می کند؟ خوب، من یک مدل صدای سریع و کثیف از همکارم گوردون ماه اونگ انجام دادم که کارش در سایت ما ظاهر می شود. پادکست کامل Nerd و همچنین ویدیوهای مختلف من یک نمونه چند دقیقه ای را به جای قطعات کوتاه آپلود کردم، فقط برای اینکه ببینم کار می کند یا خیر.
نتیجه؟ خوب، آن را برای تلفن های موبایل واقعی است، اما اصلا شبیه گوردون نیست. او مطمئناً در حال حاضر از جعل هویت دیجیتال در امان است. (این نیز تاییدی بر هیچ زنجیره فست فود نیست.)
اما مدل موجودی که نویسنده لاک پشت بر روی بازیگر تام هنکس آموزش داده بسیار خوب به نظر می رسد. این تام هنکس نیست که اینجا صحبت می کند! تام هم این کار را کرد نه به من پیشنهاد کار داد، اما همین کافی بود که حداقل یکی از دوستانم را فریب دهم.
نتیجه گیری؟ این کمی ترسناک است: دوران باور به آنچه می شنویم (و به زودی می بینیم) به پایان می رسد. یا قبلاً داشته است.
کد کوپن
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی به اینجا.
- منبع: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html
- 1
- 2023
- 39
- a
- درباره ما
- دسترسی
- حساب
- واقعا
- وفق دادن
- AI
- الکس
- الگوریتم
- معرفی
- اجازه می دهد تا
- قبلا
- در میان
- amp
- و
- دیگر
- پاسخ
- برنامه های کاربردی
- رویکردها
- دور و بر
- مقاله
- مصنوعی
- سمعی
- نویسنده
- در دسترس
- به عقب
- بد
- زیرا
- قبل از
- آغاز شد
- باور کردن
- لایحه
- بیل کلینتون
- بیل گیتس
- بیومتریک
- بیت
- مسدود کردن
- بلاک ها
- مرورگر
- دکمه
- صدا
- نام
- کارت
- دسته بندی
- قطعا
- زنجیر
- کاراکتر
- تراشه
- را انتخاب کنید
- واضح
- کلیپ های
- ابر
- رمز
- هم قطار
- ترکیب
- نظرات
- تجاری
- تکمیل شده
- نتیجه
- گروه شاهد
- گوشه
- دوره
- پوشش
- اعتبار
- CSS
- تاریخ
- روز
- شرح
- دقیق
- DID
- دیجیتال
- نمی کند
- پایین
- دانلود
- دوجین
- راندن
- هر
- سردبیر
- هر دو
- الون
- Elon مشک
- ظهور
- کافی
- وارد
- خطا
- اساسا
- اتر (ETH)
- حتی
- همه چیز
- مثال
- مثال ها
- عالی
- اجرا کردن
- موجود
- جعلی
- آشنا
- امکانات
- کمی از
- رشته
- پرونده
- فایل ها
- تمرکز
- به دنبال
- سابق
- سابق
- چهارم
- دوستان
- از جانب
- کامل
- کاملا
- گیتس
- تولید می کنند
- تولید می کند
- دریافت کنید
- گرفتن
- GitHub
- هدف
- می رود
- رفتن
- خوب
- گوگل
- GPU
- بزرگ
- داشتن
- ارتفاع
- در تردید بودن
- چگونه
- اما
- HTML
- HTTPS
- انسان
- صدها نفر
- ICON
- تصویر
- in
- شاخص
- نشان دادن
- دستورالعمل
- جالب
- رابط
- ارعاب
- IT
- ژانویه
- کار
- بذله گو
- دانستن
- بزرگ
- نام
- پارسال
- یادگیری
- خطوط
- لینک ها
- کوچک
- زنده
- مطالب
- باعث می شود
- مدیر
- علامت
- ماتریس
- حداکثر عرض
- پیام
- مایکروسافت
- قدرت
- دقیقه
- آینه
- مدل
- مدل
- مشک
- نام
- نیاز
- جدید
- اخبار
- بعد
- دفتر یادداشت
- یادداشت
- ارائه
- پیشنهادات
- ONE
- باز کن
- منبع باز
- بهینه
- گزینه
- دیگر
- دیگران
- خود
- بخش
- ویژه
- کلمه عبور
- گذشته
- PC
- مردم
- تکمیل
- شخص
- شخصی
- قیر
- برنامه ریزی
- افلاطون
- هوش داده افلاطون
- PlatoData
- بازی
- پلاگین
- پست
- حق بیمه
- رئيس جمهور
- زیبا
- اصلی
- مشخصات
- فراهم می کند
- عمومی
- منتشر شده
- پــایتــون
- کیفیت
- خواندن
- مطالعه
- گرفتن
- اخیر
- ضبط
- قرمز
- ق
- روابط
- منتشر شد
- نیاز
- تحقیق
- محققان
- منابع
- نتیجه
- نتایج
- طلوع
- رابرت
- ربات
- ربات ها
- نورد
- دویدن
- در حال اجرا
- امن
- همان
- ذخیره
- صحنه
- ثانیه
- ارشد
- جستجوگرها
- سرویس
- خدمات
- هفت
- به اشتراک گذاشته شده
- کوتاه
- باید
- به سادگی
- پس از
- تنها
- سیری
- سایت
- سایت
- نشسته
- کند
- کوچک
- So
- نرم افزار
- کسی
- چیزی
- بزودی
- منبع
- سخن گفتن
- گوینده
- صحبت کردن
- صحبت می کند
- خاص
- سخنرانی - گفتار
- شروع
- آغاز شده
- گام
- ذخیره شده
- داستان
- چنین
- جدول
- TAG
- گرفتن
- پیشرفته
- La
- شان
- چیز
- سوم
- از طریق
- زمان
- عنوان
- به
- هم
- قطار
- آموزش دیده
- آموزش
- دور زدن
- توییتر
- آپلود شده
- آپلود
- URL
- کاربر
- کاربران
- سودمندی
- مختلف
- نسخه
- از طريق
- فیلم های
- مجازی
- صدا
- صداها
- W
- منتظر
- خواسته
- هشدار
- چی
- که
- در حین
- WHO
- اراده
- در داخل
- کلمه
- مهاجرت کاری
- با این نسخهها کار
- خواهد بود
- کتبی
- سال
- شما
- یوتیوب
- زفیرنت