AI Tom Hanks Tidak Menawarkan Saya Pekerjaan, Tapi Kedengarannya Seperti Dia Memberi Saya

Diterbitkan Ulang Oleh Plato

Followers: 0

AI Tom Hanks tidak menawari saya pekerjaan, tapi sepertinya dia melakukannya | Dunia PC

<!--

Manusia melihat ke dalam robot di cermin

Gambar: Mark Hachman / IDG via Dreamstudio.ai

Tom Hanks tidak hanya menelepon saya untuk memberi saya bagian, tetapi memang terdengar seperti itu.

Sejak PCWorld mulai meliput kebangkitan berbagai aplikasi AI seperti seni AI, saya telah mencari-cari di repositori kode di GitHub dan tautan di dalam Reddit, tempat orang akan memposting tweak ke model AI mereka sendiri untuk berbagai pendekatan.

Beberapa dari model ini benar-benar berakhir di situs komersial, yang menjalankan algoritme mereka sendiri atau mengadaptasi algoritme lain yang telah dipublikasikan sebagai sumber terbuka. Contoh bagus dari situs audio AI yang ada adalah Uberduck.ai, yang menawarkan ratusan model yang telah diprogram sebelumnya. Masukkan teks di bidang teks dan Anda dapat meminta Elon Musk, Bill Gates, Peggy Hill, Daffy Duck, Alex Trebek, Beavis, The Joker, atau bahkan Siri virtual untuk membacakan baris yang telah diprogram sebelumnya.

Kami mengunggah Bill Clinton palsu yang memuji PCWorld tahun lalu dan modelnya sudah terdengar cukup bagus.

Inilah model mantan Presiden kita yang duduk bersama PCWorld dan camilan. Itu palsu, tentu saja.

Melatih AI untuk mereproduksi ucapan melibatkan pengunggahan sampel suara yang jelas. AI "mempelajari" bagaimana pembicara menggabungkan suara dengan tujuan untuk mempelajari hubungan tersebut, menyempurnakannya, dan meniru hasilnya. Jika Anda terbiasa dengan film thriller 1992 yang luar biasa Sepatu kets (dengan pemeran Robert Redford, Sidney Poitier, dan Ben Kingsley, antara lain), maka Anda tahu tentang adegan di mana karakter perlu "memecahkan" kata sandi suara biometrik dengan merekam sampel suara dari suara target. . Ini hampir sama persis.

Biasanya, merakit model suara yang bagus membutuhkan sedikit pelatihan, dengan sampel yang panjang untuk menunjukkan bagaimana seseorang berbicara. Namun, dalam beberapa hari terakhir, sesuatu yang baru telah muncul: Microsoft Vall-E, makalah penelitian (dengan contoh langsung) dari suara yang disintesis yang hanya membutuhkan beberapa detik audio sumber untuk menghasilkan suara yang sepenuhnya dapat diprogram.

Secara alami, peneliti AI dan grup AI lainnya ingin tahu apakah model Vall-E sudah dirilis ke publik. Jawabannya adalah tidak, meskipun Anda bisa bermain dengan model lain jika mau, yang disebut Tortoise. (Penulis mencatat bahwa ini disebut Kura-kura karena memang lambat, tetapi berhasil.)

Latih suara AI Anda sendiri dengan Tortoise

Apa yang membuat Kura-kura menarik adalah Anda dapat melatih model pada suara apa pun yang Anda pilih hanya dengan mengunggah beberapa klip audio. Itu halaman Tortoise GitHub catatan bahwa Anda harus memiliki beberapa klip sekitar belasan detik atau lebih. Anda harus menyimpannya sebagai file .WAV dengan kualitas tertentu.

Bagaimana cara kerjanya? Melalui utilitas publik yang mungkin tidak Anda sadari: google colab. Pada dasarnya, Collab adalah layanan cloud yang disediakan Google yang memungkinkan akses ke server Python. Kode yang Anda (atau orang lain) tulis dapat disimpan sebagai buku catatan, yang dapat dibagikan dengan pengguna yang memiliki akun Google generik. Itu Sumber daya bersama kura-kura ada di sini.

Antarmukanya terlihat mengintimidasi, tetapi tidak seburuk itu. Anda harus masuk sebagai pengguna Google dan kemudian Anda harus mengeklik "Hubungkan" di sudut kanan atas. Sebuah kata peringatan. Meskipun Colab ini tidak mendownload apa pun ke Google Drive Anda, Colab lain mungkin melakukannya. (Namun, file audio yang dihasilkan ini disimpan di browser tetapi dapat diunduh ke PC Anda.) Ketahuilah bahwa Anda menjalankan kode yang ditulis orang lain. Anda mungkin menerima pesan kesalahan baik karena input yang buruk atau karena Google mengalami masalah di bagian belakang seperti tidak memiliki GPU yang tersedia. Semuanya sedikit eksperimental.

Google Collab Kura-kura — Kolaborasi Kura-kura. Klik tombol "Hubungkan" untuk memulai, lalu klik ikon "putar" kecil di sebelah setiap blok kode secara bergantian.

Mark Hachman / IDG

Setiap blok kode memiliki ikon "putar" kecil yang muncul jika Anda mengarahkan mouse ke atasnya. Anda harus mengklik "mainkan" pada setiap blok kode untuk menjalankannya, menunggu setiap blok dieksekusi sebelum Anda menjalankan yang berikutnya.

Meskipun kami tidak akan melangkah melalui instruksi mendetail tentang semua fitur, perlu diketahui bahwa teks merah dapat dimodifikasi oleh pengguna, seperti teks yang disarankan yang ingin Anda ucapkan pada model. Sekitar tujuh blok ke bawah, Anda akan memiliki opsi untuk melatih model tersebut. Anda harus memberi nama model, lalu mengunggah file audio. Setelah selesai, pilih model audio baru di blok keempat, jalankan kode, lalu konfigurasikan teks di blok ketiga. Lari bahwa blok kode.

Jika semuanya berjalan sesuai rencana, Anda akan memiliki output audio kecil dari sampel suara Anda. Apakah itu bekerja? Nah, saya membuat model suara cepat dan kotor dari rekan saya Gordon Mah Ung, yang karyanya muncul di kami Podcast Nerd Penuh serta berbagai video. Saya mengunggah sampel beberapa menit daripada potongan pendek, hanya untuk melihat apakah itu akan berhasil.

Hasil? Yah, itu suara seperti aslinya, tapi tidak seperti Gordon sama sekali. Dia pasti aman dari peniruan digital untuk saat ini. (Ini juga bukan dukungan dari rantai makanan cepat saji mana pun.)

Tapi model yang sudah ada yang dilatih oleh penulis Kura-kura pada aktor Tom Hanks terdengar cukup bagus. Ini bukan Tom Hanks yang berbicara di sini! Tom juga melakukannya tidak menawari saya pekerjaan, tetapi itu cukup untuk membodohi setidaknya salah satu teman saya.

Kesimpulannya? Agak menakutkan: zaman mempercayai apa yang kita dengar (dan segera lihat) sudah berakhir. Atau sudah.

Pengarang : Mark Hachman, Redaktur Senior

Sebagai editor senior PCWorld, Mark berfokus pada berita Microsoft dan teknologi chip, antara lain. Dia sebelumnya menulis untuk PCMag, BYTE, Slashdot, eWEEK, dan ReadWrite.

Cerita terbaru oleh Mark Hachman:

Kode Kupon

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
Platoblockchain. Intelijen Metaverse Web3. Pengetahuan Diperkuat. Akses Di Sini.
Sumber: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html

Stempel Waktu: Januari 13, 2023

Stempel Waktu: Desember 15, 2023

AI Tom Hanks tidak menawari saya pekerjaan, tapi sepertinya dia melakukannya

Diterbitkan Ulang Oleh Plato

Latih suara AI Anda sendiri dengan Tortoise

Pengarang : Mark Hachman, Redaktur Senior

Cerita terbaru oleh Mark Hachman:

Kode Kupon

Lebih dari PC World

RIP Cortana: Microsoft mengatakan aplikasi Windows AI-nya akan mati

Diuji: Teknologi DirectStorage Microsoft menandakan matahari terbenam SSD SATA

Laptop e-ink warna baru Lenovo mungkin layak dibeli

Laptop mewah Dell XPS 13 dijual seharga $650

Nvidia merilis GeForce RTX 4070 Ti, laptop RTX 40-series canggih, dan banyak lagi

Pelajari sesuatu yang baru setiap hari dengan tambahan diskon $20 untuk Headway

Swift Edge 16 terbaru Acer menjadi lebih tipis, lebih pintar, dan lebih murah

1 pencegahan keamanan utama yang harus selalu Anda aktifkan di PC baru

Senter darurat ini dijual untuk Hari Peringatan

Gordon Moore, salah satu pendiri Intel dan legenda industri chip, meninggal dunia pada usia 94 tahun

Tingkatkan ke Microsoft Office Pro 2021 seumur hidup hanya dengan $50

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun