AI Tom Hanks Didn’t Offer Me A Job, But It Sure Sounds Like He Did

Opublikowane ponownie przez Plato

Obserwuje: 0

AI Tom Hanks nie zaoferował mi pracy, ale wygląda na to, że to zrobił | Świat PC

<!--

Zdjęcie: Mark Hachman / IDG przez Dreamstudio.ai

Tom Hanks nie zadzwonił do mnie tylko po to, żeby zaproponować mi rolę, ale z pewnością tak to brzmi.

Odkąd PCWorld zaczął relacjonować powstanie różne aplikacje AI, takie jak AI art, Grzebałem w repozytoriach kodu w GitHub i linkach w Reddit, gdzie ludzie będą publikować poprawki do własnych modeli AI dla różnych podejść.

Niektóre z tych modeli faktycznie trafiają na komercyjne strony, które albo rozwijają własne algorytmy, albo dostosowują inne, które zostały opublikowane jako open source. Świetnym przykładem istniejącej witryny audio AI jest Uberduck.ai, która oferuje dosłownie setki wstępnie zaprogramowanych modeli. Wpisz tekst w polu tekstowym, a wirtualny Elon Musk, Bill Gates, Peggy Hill, Kaczor Daffy, Alex Trebek, Beavis, Joker, a nawet Siri odczyta zaprogramowane linie.

W zeszłym roku wrzuciliśmy fałszywego Billa Clintona chwalącego PCWorld, a model już brzmi całkiem nieźle.

Oto model naszego byłego Prezydenta siedzącego z PCWorld i przekąską. To fałsz, oczywiście.

Szkolenie sztucznej inteligencji w zakresie odtwarzania mowy obejmuje przesyłanie czystych próbek głosu. Sztuczna inteligencja „uczy się”, w jaki sposób mówca łączy dźwięki z celem, aby nauczyć się tych relacji, udoskonalić je i naśladować wyniki. Jeśli znasz doskonały thriller z 1992 roku Sneakersy (z gwiazdorską obsadą Roberta Redforda, Sidneya Poitiera i Bena Kingsleya), to wiesz o scenie, w której bohaterowie muszą „złamać” biometryczne hasło głosowe, nagrywając próbkę głosu celu . To jest prawie dokładnie to samo.

Zwykle złożenie dobrego modelu głosu może wymagać sporo treningu, z długimi próbkami wskazującymi, jak mówi dana osoba. Jednak w ciągu ostatnich kilku dni pojawiło się coś nowego: Microsoft Vall-E, dokument badawczy (z żywymi przykładami) zsyntetyzowanego głosu, który wymaga zaledwie kilku sekund źródła dźwięku, aby wygenerować w pełni programowalny głos.

Oczywiście badacze sztucznej inteligencji i inni fani sztucznej inteligencji chcieli wiedzieć, czy model Vall-E został już udostępniony publicznie. Odpowiedź brzmi: nie, chociaż jeśli chcesz, możesz pobawić się innym modelem, zwanym Tortoise. (Autor zauważa, że nazywa się Tortoise, ponieważ jest powolny, co jest prawdą, ale działa.)

Trenuj swój własny głos AI z Tortoise

To, co czyni Tortoise interesującym, to fakt, że możesz trenować model na dowolnym głosie, który wybierzesz, po prostu przesyłając kilka klipów audio. The Strona Tortoise na GitHubie zauważa, że powinieneś mieć kilka klipów trwających około kilkunastu sekund. Musisz zapisać je jako plik .WAV o określonej jakości.

Jak to wszystko działa? Poprzez narzędzie publiczne, o którym możesz nie wiedzieć: Współpraca Google. Zasadniczo Collab to usługa w chmurze udostępniana przez Google, która umożliwia dostęp do serwera Pythona. Kod napisany przez Ciebie (lub kogoś innego) może być przechowywany jako notatnik, który można udostępniać użytkownikom posiadającym ogólne konto Google. The Udostępniony zasób Tortoise jest tutaj.

Interfejs wygląda onieśmielająco, ale nie jest tak źle. Musisz być zalogowany jako użytkownik Google, a następnie kliknąć „Połącz” w prawym górnym rogu. Słowo ostrzeżenia. Chociaż ten Colab nie pobiera niczego na Twój Dysk Google, inne Colab mogą to zrobić. (Pliki audio, które to generuje, są jednak przechowywane w przeglądarce, ale można je pobrać na komputer.) Pamiętaj, że uruchamiasz kod napisany przez kogoś innego. Możesz otrzymywać komunikaty o błędach z powodu błędnych danych wejściowych lub czkawki Google w zapleczu, takiej jak brak dostępnego procesora graficznego. To wszystko jest trochę eksperymentalne.

Żółw współpracujący z Google — Współpraca żółwia. Aby rozpocząć, kliknij przycisk „Połącz”, a następnie kliknij kolejno małą ikonę „odtwórz” obok każdego bloku kodu.

Mark Hachman / IDG

Każdy blok kodu ma małą ikonę „play”, która pojawia się po najechaniu na nią kursorem myszy. Będziesz musiał kliknąć „play” na każdym bloku kodu, aby go uruchomić, czekając na wykonanie każdego bloku przed uruchomieniem następnego.

Chociaż nie będziemy szczegółowo omawiać wszystkich funkcji, pamiętaj tylko, że czerwony tekst może być modyfikowany przez użytkownika, na przykład sugerowany tekst, który ma mówić model. Około siedmiu przecznic dalej będziesz miał możliwość trenowania modelu. Musisz nazwać model, a następnie przesłać pliki audio. Po zakończeniu wybierz nowy model audio w czwartym bloku, uruchom kod, a następnie skonfiguruj tekst w trzecim bloku. Biegać że blok kodu.

Jeśli wszystko pójdzie zgodnie z planem, uzyskasz mały dźwięk z przykładowego głosu. Czy to działa? Cóż, zrobiłem szybki i brudny model głosu mojego kolegi Gordona Mah Ung, którego praca pojawia się na naszym Podcast Full Nerd a także różne filmy. Przesłałem kilkuminutową próbkę zamiast krótkich fragmentów, żeby sprawdzić, czy to zadziała.

Wynik? Cóż, to Dźwięki realistyczny, ale w ogóle nie taki jak Gordon. Na razie z pewnością jest bezpieczny przed cyfrowym podszywaniem się. (Nie jest to również poparcie dla żadnej sieci fast foodów.)

Ale istniejący model, który autor Tortoise przeszkolił na aktorze Tomie Hanksie, brzmi całkiem nieźle. Tu nie mówi Tom Hanks! Tomek też to zrobił nie zaproponować mi pracę, ale to wystarczyło, by oszukać przynajmniej jednego z moich znajomych.

Konkluzja? To trochę przerażające: kończy się era wiary w to, co słyszymy (i wkrótce widzimy). Albo już to zrobił.

Autor: Mark Hachman, Redaktor

Jako starszy redaktor magazynu PCWorld Mark koncentruje się między innymi na nowościach firmy Microsoft i technologii chipów. Wcześniej pisał dla PCMag, BYTE, Slashdot, eWEEK i ReadWrite.

Ostatnie historie Marka Hachmana:

Kody kuponów

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. Dostęp tutaj.
Źródło: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html

Znak czasu: 13 stycznia 2023 r.

Znak czasu: Grudnia 15, 2023

AI Tom Hanks nie zaoferował mi pracy, ale wygląda na to, że tak

Opublikowane ponownie przez Plato

Trenuj swój własny głos AI z Tortoise

Autor: Mark Hachman, Redaktor

Ostatnie historie Marka Hachmana:

Kody kuponów

Więcej z PC World

RIP Cortana: Microsoft twierdzi, że jego aplikacja Windows AI umrze

Testowane: technologia DirectStorage firmy Microsoft sygnalizuje koniec dysków SSD SATA

Nowy kolorowy laptop e-ink firmy Lenovo może być wart zakupu

Luksusowy laptop Dell XPS 13 jest dostępny w cenie 650 dolarów

Nvidia wprowadza na rynek karty GeForce RTX 4070 Ti, zaawansowane laptopy z serii RTX 40 i nie tylko

Codziennie ucz się czegoś nowego dzięki dodatkowym 20 USD zniżki na Headway

Najnowszy Swift Edge 16 firmy Acer jest cieńszy, inteligentniejszy i tańszy

1 główny środek bezpieczeństwa, który zawsze powinieneś włączyć na nowym komputerze

Te awaryjne latarki są w sprzedaży z okazji Dnia Pamięci

Gordon Moore, współzałożyciel firmy Intel i legenda branży układów scalonych, umiera w wieku 94 lat

Uaktualnij do pakietu Microsoft Office Pro 2021 na całe życie za jedyne 50 USD

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto