->
Zdjęcie: Mark Hachman / IDG przez Dreamstudio.ai
Tom Hanks nie zadzwonił do mnie tylko po to, żeby zaproponować mi rolę, ale z pewnością tak to brzmi.
Odkąd PCWorld zaczął relacjonować powstanie różne aplikacje AI, takie jak AI art, Grzebałem w repozytoriach kodu w GitHub i linkach w Reddit, gdzie ludzie będą publikować poprawki do własnych modeli AI dla różnych podejść.
Niektóre z tych modeli faktycznie trafiają na komercyjne strony, które albo rozwijają własne algorytmy, albo dostosowują inne, które zostały opublikowane jako open source. Świetnym przykładem istniejącej witryny audio AI jest Uberduck.ai, która oferuje dosłownie setki wstępnie zaprogramowanych modeli. Wpisz tekst w polu tekstowym, a wirtualny Elon Musk, Bill Gates, Peggy Hill, Kaczor Daffy, Alex Trebek, Beavis, Joker, a nawet Siri odczyta zaprogramowane linie.
W zeszłym roku wrzuciliśmy fałszywego Billa Clintona chwalącego PCWorld, a model już brzmi całkiem nieźle.
Szkolenie sztucznej inteligencji w zakresie odtwarzania mowy obejmuje przesyłanie czystych próbek głosu. Sztuczna inteligencja „uczy się”, w jaki sposób mówca łączy dźwięki z celem, aby nauczyć się tych relacji, udoskonalić je i naśladować wyniki. Jeśli znasz doskonały thriller z 1992 roku Sneakersy (z gwiazdorską obsadą Roberta Redforda, Sidneya Poitiera i Bena Kingsleya), to wiesz o scenie, w której bohaterowie muszą „złamać” biometryczne hasło głosowe, nagrywając próbkę głosu celu . To jest prawie dokładnie to samo.
Zwykle złożenie dobrego modelu głosu może wymagać sporo treningu, z długimi próbkami wskazującymi, jak mówi dana osoba. Jednak w ciągu ostatnich kilku dni pojawiło się coś nowego: Microsoft Vall-E, dokument badawczy (z żywymi przykładami) zsyntetyzowanego głosu, który wymaga zaledwie kilku sekund źródła dźwięku, aby wygenerować w pełni programowalny głos.
Oczywiście badacze sztucznej inteligencji i inni fani sztucznej inteligencji chcieli wiedzieć, czy model Vall-E został już udostępniony publicznie. Odpowiedź brzmi: nie, chociaż jeśli chcesz, możesz pobawić się innym modelem, zwanym Tortoise. (Autor zauważa, że nazywa się Tortoise, ponieważ jest powolny, co jest prawdą, ale działa.)
Trenuj swój własny głos AI z Tortoise
To, co czyni Tortoise interesującym, to fakt, że możesz trenować model na dowolnym głosie, który wybierzesz, po prostu przesyłając kilka klipów audio. The Strona Tortoise na GitHubie zauważa, że powinieneś mieć kilka klipów trwających około kilkunastu sekund. Musisz zapisać je jako plik .WAV o określonej jakości.
Jak to wszystko działa? Poprzez narzędzie publiczne, o którym możesz nie wiedzieć: Współpraca Google. Zasadniczo Collab to usługa w chmurze udostępniana przez Google, która umożliwia dostęp do serwera Pythona. Kod napisany przez Ciebie (lub kogoś innego) może być przechowywany jako notatnik, który można udostępniać użytkownikom posiadającym ogólne konto Google. The Udostępniony zasób Tortoise jest tutaj.
Interfejs wygląda onieśmielająco, ale nie jest tak źle. Musisz być zalogowany jako użytkownik Google, a następnie kliknąć „Połącz” w prawym górnym rogu. Słowo ostrzeżenia. Chociaż ten Colab nie pobiera niczego na Twój Dysk Google, inne Colab mogą to zrobić. (Pliki audio, które to generuje, są jednak przechowywane w przeglądarce, ale można je pobrać na komputer.) Pamiętaj, że uruchamiasz kod napisany przez kogoś innego. Możesz otrzymywać komunikaty o błędach z powodu błędnych danych wejściowych lub czkawki Google w zapleczu, takiej jak brak dostępnego procesora graficznego. To wszystko jest trochę eksperymentalne.
Każdy blok kodu ma małą ikonę „play”, która pojawia się po najechaniu na nią kursorem myszy. Będziesz musiał kliknąć „play” na każdym bloku kodu, aby go uruchomić, czekając na wykonanie każdego bloku przed uruchomieniem następnego.
Chociaż nie będziemy szczegółowo omawiać wszystkich funkcji, pamiętaj tylko, że czerwony tekst może być modyfikowany przez użytkownika, na przykład sugerowany tekst, który ma mówić model. Około siedmiu przecznic dalej będziesz miał możliwość trenowania modelu. Musisz nazwać model, a następnie przesłać pliki audio. Po zakończeniu wybierz nowy model audio w czwartym bloku, uruchom kod, a następnie skonfiguruj tekst w trzecim bloku. Biegać że blok kodu.
Jeśli wszystko pójdzie zgodnie z planem, uzyskasz mały dźwięk z przykładowego głosu. Czy to działa? Cóż, zrobiłem szybki i brudny model głosu mojego kolegi Gordona Mah Ung, którego praca pojawia się na naszym Podcast Full Nerd a także różne filmy. Przesłałem kilkuminutową próbkę zamiast krótkich fragmentów, żeby sprawdzić, czy to zadziała.
Wynik? Cóż, to Dźwięki realistyczny, ale w ogóle nie taki jak Gordon. Na razie z pewnością jest bezpieczny przed cyfrowym podszywaniem się. (Nie jest to również poparcie dla żadnej sieci fast foodów.)
Ale istniejący model, który autor Tortoise przeszkolił na aktorze Tomie Hanksie, brzmi całkiem nieźle. Tu nie mówi Tom Hanks! Tomek też to zrobił nie zaproponować mi pracę, ale to wystarczyło, by oszukać przynajmniej jednego z moich znajomych.
Konkluzja? To trochę przerażające: kończy się era wiary w to, co słyszymy (i wkrótce widzimy). Albo już to zrobił.
Kody kuponów
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. Dostęp tutaj.
- Źródło: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html
- 1
- 2023
- 39
- a
- O nas
- dostęp
- Konto
- faktycznie
- przystosować
- AI
- alex
- Algorytmy
- Wszystkie kategorie
- pozwala
- już
- wśród
- amp
- i
- Inne
- odpowiedź
- aplikacje
- awanse
- na około
- artykuł
- sztuczny
- audio
- autor
- dostępny
- z powrotem
- Łazienka
- bo
- zanim
- rozpoczął
- wierząc
- Rachunek
- Bill Clinton
- Bill Gates
- biometryczny
- Bit
- Blokować
- Bloki
- przeglądarka
- przycisk
- wezwanie
- nazywa
- karta
- Kategoria
- na pewno
- łańcuch
- znaków
- żeton
- Dodaj
- jasny
- Teledyski
- Chmura
- kod
- kolega
- kombajny
- komentarze
- handlowy
- Ukończył
- konkluzja
- kontroli
- Corner
- kurs
- pokrycie
- kredyt
- CSS
- Data
- Dni
- opis
- szczegółowe
- ZROBIŁ
- cyfrowy
- Nie
- na dół
- pobieranie
- tuzin
- napęd
- każdy
- redaktor
- bądź
- Elon
- Elon Musk
- wyłonił
- dość
- Wchodzę
- błąd
- istotnie
- Eter (ETH)
- Parzyste
- wszystko
- przykład
- przykłady
- doskonała
- wykonać
- Przede wszystkim system został opracowany
- imitacja
- znajomy
- Korzyści
- kilka
- pole
- filet
- Akta
- koncentruje
- obserwuj
- Dawny
- dawniej
- Czwarty
- przyjaciele
- od
- pełny
- w pełni
- Bramy
- Generować
- generuje
- otrzymać
- miejsce
- GitHub
- cel
- Goes
- będzie
- dobry
- GPU
- wspaniały
- mający
- wysokość
- unosić
- W jaki sposób
- Jednak
- HTML
- HTTPS
- człowiek
- Setki
- ICON
- obraz
- in
- wskaźnik
- wskazać
- instrukcje
- ciekawy
- Interfejs
- zastraszające
- IT
- styczeń
- Praca
- żartowniś
- Wiedzieć
- duży
- Nazwisko
- Ostatni rok
- nauka
- linie
- linki
- mało
- relacja na żywo
- WYGLĄD
- WYKONUJE
- kierownik
- znak
- Matrix
- Maksymalna szerokość
- wiadomości
- Microsoft
- może
- minuty
- lustro
- model
- modele
- Piżmo
- Nazwa
- Potrzebować
- Nowości
- aktualności
- Następny
- notatnik
- Uwagi
- oferta
- Oferty
- ONE
- koncepcja
- open source
- zoptymalizowane
- Option
- Inne
- Pozostałe
- własny
- część
- szczególny
- Hasło
- Przeszłość
- PC
- Ludzie
- doskonalenie
- osoba
- osobisty
- Smoła
- planowany
- plato
- Analiza danych Platona
- PlatoDane
- Grać
- wtyczka
- Post
- Premia
- prezydent
- bardzo
- pierwotny
- Profil
- zapewnia
- publiczny
- opublikowany
- Python
- jakość
- Czytaj
- Czytający
- otrzymać
- niedawny
- nagranie
- Czerwony
- Relacje
- wydany
- Wymaga
- Badania naukowe
- Badacze
- Zasób
- dalsze
- Efekt
- Rosnąć
- ROBERT
- robot
- roboty
- Rolka
- run
- bieganie
- "bezpiecznym"
- taki sam
- Zapisz
- scena
- sekund
- senior
- seo
- usługa
- Usługi
- siedem
- shared
- Short
- powinien
- po prostu
- ponieważ
- pojedynczy
- Siri
- witryna internetowa
- Witryny
- Siedzący
- powolny
- mały
- So
- Tworzenie
- Ktoś
- coś
- Wkrótce
- Źródło
- mówić
- Głośnik
- Mówiąc
- Mówi
- specyficzny
- przemówienie
- początek
- rozpoczęty
- Ewolucja krok po kroku
- przechowywany
- historie
- taki
- stół
- TAG
- Brać
- Technologia
- Połączenia
- ich
- rzecz
- Trzeci
- Przez
- czas
- Tytuł
- do
- także
- Pociąg
- przeszkolony
- Trening
- SKRĘCAĆ
- i twitterze
- przesłanych
- Uploading
- URL
- Użytkownik
- Użytkownicy
- użyteczność
- różnorodny
- wersja
- przez
- Filmy
- Wirtualny
- Głos
- GŁOSY
- W
- Czekanie
- poszukiwany
- ostrzeżenie
- Co
- który
- Podczas
- KIM
- będzie
- w ciągu
- słowo
- Praca
- działa
- by
- napisany
- rok
- Twój
- youtube
- zefirnet