->
Hình ảnh: Mark Hachman / IDG qua Dreamstudio.ai
Tom Hanks không chỉ gọi cho tôi để mời tôi tham gia, nhưng chắc chắn là có vẻ như vậy.
Kể từ khi PCWorld bắt đầu đưa tin về sự gia tăng của các ứng dụng AI khác nhau như nghệ thuật AI, Tôi đã tìm hiểu về kho lưu trữ mã trong GitHub và các liên kết trong Reddit, nơi mọi người sẽ đăng các chỉnh sửa cho các mô hình AI của riêng họ để có nhiều cách tiếp cận khác nhau.
Một số mô hình này thực sự kết thúc trên các trang web thương mại, các trang web này sẽ đưa ra các thuật toán của riêng chúng hoặc điều chỉnh các mô hình khác đã xuất bản dưới dạng nguồn mở. Một ví dụ tuyệt vời về trang web âm thanh AI hiện có là Uberduck.ai, cung cấp hàng trăm mô hình được lập trình sẵn theo đúng nghĩa đen. Nhập văn bản vào trường văn bản và bạn có thể yêu cầu một Elon Musk ảo, Bill Gates, Peggy Hill, Daffy Duck, Alex Trebek, Beavis, The Joker hoặc thậm chí Siri đọc các dòng được lập trình sẵn của bạn.
Chúng tôi đã tải lên một Bill Clinton giả ca ngợi PCWorld vào năm ngoái và mô hình này nghe có vẻ khá ổn.
Đào tạo AI để tái tạo giọng nói liên quan đến việc tải lên các mẫu giọng nói rõ ràng. AI “học” cách người nói kết hợp âm thanh với mục tiêu để tìm hiểu các mối quan hệ đó, hoàn thiện chúng và bắt chước kết quả. Nếu bạn đã quen thuộc với bộ phim kinh dị xuất sắc năm 1992 Giày thể thao (với dàn diễn viên toàn sao Robert Redford, Sidney Poitier và Ben Kingsley, trong số những người khác), thì bạn sẽ biết về cảnh các nhân vật cần “bẻ khóa” mật khẩu giọng nói sinh trắc học bằng cách ghi lại mẫu giọng nói của mục tiêu. . Đây gần như là điều tương tự chính xác.
Thông thường, việc lắp ráp một mẫu giọng nói tốt có thể mất khá nhiều thời gian đào tạo, với các mẫu dài để chỉ ra cách một người cụ thể nói. Tuy nhiên, trong vài ngày qua, một điều mới đã xuất hiện: Microsoft Vall-E, một tài liệu nghiên cứu (với các ví dụ trực tiếp) của giọng nói tổng hợp chỉ cần vài giây âm thanh nguồn để tạo ra giọng nói có thể lập trình đầy đủ.
Đương nhiên, các nhà nghiên cứu AI và các nhóm AI khác muốn biết liệu mô hình Vall-E đã được phát hành ra công chúng chưa. Câu trả lời là không, mặc dù bạn có thể chơi với một mô hình khác nếu muốn, được gọi là Tortoise. (Tác giả lưu ý rằng nó được gọi là Tortoise vì nó chậm, nhưng nó hoạt động.)
Huấn luyện giọng nói AI của riêng bạn với Tortoise
Điều khiến Tortoise trở nên thú vị là bạn có thể huấn luyện mô hình theo bất kỳ giọng nói nào bạn chọn chỉ bằng cách tải lên một vài đoạn âm thanh. Các Trang GitHub của Rùa lưu ý rằng bạn nên có một vài clip khoảng chục giây hoặc lâu hơn. Bạn sẽ cần lưu chúng dưới dạng tệp .WAV với chất lượng cụ thể.
Làm thế nào để tất cả hoạt động? Thông qua một tiện ích công cộng mà bạn có thể không biết: google colab. Về cơ bản, Collab là một dịch vụ đám mây mà Google cung cấp cho phép truy cập vào máy chủ Python. Mã mà bạn (hoặc người khác) viết có thể được lưu trữ dưới dạng sổ tay, sổ tay này có thể được chia sẻ với những người dùng có tài khoản Google chung. Các Tài nguyên được chia sẻ của rùa ở đây.
Giao diện trông đáng sợ, nhưng nó không tệ lắm. Bạn cần phải đăng nhập với tư cách là người dùng Google và sau đó, bạn cần nhấp vào “Kết nối” ở góc trên bên phải. Một lời cảnh báo. Mặc dù Colab này không tải bất cứ thứ gì xuống Google Drive của bạn nhưng các Colab khác thì có thể. (Tuy nhiên, các tệp âm thanh mà nó tạo ra được lưu trữ trong trình duyệt nhưng có thể được tải xuống PC của bạn.) Hãy lưu ý rằng bạn đang chạy mã do người khác viết. Bạn có thể nhận được thông báo lỗi do đầu vào không hợp lệ hoặc do Google gặp trục trặc ở mặt sau, chẳng hạn như không có sẵn GPU. Đó là tất cả một chút thử nghiệm.
Mỗi khối mã có một biểu tượng “phát” nhỏ xuất hiện nếu bạn di chuột qua nó. Bạn cần nhấp vào “phát” trên mỗi khối mã để chạy nó, đợi mỗi khối thực thi trước khi bạn chạy khối tiếp theo.
Mặc dù chúng tôi sẽ không hướng dẫn chi tiết về tất cả các tính năng, chỉ cần lưu ý rằng văn bản màu đỏ là người dùng có thể sửa đổi, chẳng hạn như văn bản được đề xuất mà bạn muốn mô hình đọc. Cách khoảng bảy dãy nhà, bạn sẽ có tùy chọn huấn luyện mô hình. Bạn sẽ cần đặt tên cho mô hình, sau đó tải tệp âm thanh lên. Khi hoàn tất, hãy chọn kiểu âm thanh mới trong khối thứ tư, chạy mã, sau đó định cấu hình văn bản trong khối thứ ba. Chạy việc này khối mã.
Nếu mọi thứ diễn ra theo kế hoạch, bạn sẽ có một đầu ra âm thanh nhỏ của giọng nói mẫu của mình. Nó có hoạt động không? Chà, tôi đã tạo mẫu giọng nói nhanh và bẩn của đồng nghiệp Gordon Mah Ung, người có tác phẩm xuất hiện trên tạp chí của chúng tôi. Toàn bộ podcast Nerd cũng như các video khác nhau. Tôi đã tải lên một mẫu dài vài phút thay vì các đoạn trích ngắn, chỉ để xem nó có hoạt động không.
Kết quả? Chà, nó âm thanh sống động như thật, nhưng không giống Gordon chút nào. Hiện tại, anh ấy chắc chắn an toàn trước sự mạo danh kỹ thuật số. (Đây cũng không phải là sự chứng thực của bất kỳ chuỗi thức ăn nhanh nào.)
Nhưng một mô hình hiện có mà tác giả Rùa đã đào tạo về nam diễn viên Tom Hanks nghe có vẻ khá ổn. Đây không phải là Tom Hanks đang nói ở đây! Tom cũng đã làm không đề nghị cho tôi một công việc, nhưng nó đủ để đánh lừa ít nhất một người bạn của tôi.
Kết luận? Điều đó hơi đáng sợ: thời đại tin vào những gì chúng ta nghe thấy (và sẽ sớm thấy) sắp kết thúc. Hoặc nó đã có.
Mã phiếu mua hàng
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. Truy cập Tại đây.
- nguồn: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html
- 1
- 2023
- 39
- a
- Giới thiệu
- truy cập
- Tài khoản
- thực sự
- thích ứng
- AI
- alex
- thuật toán
- Tất cả
- cho phép
- Đã
- trong số
- amp
- và
- Một
- trả lời
- các ứng dụng
- cách tiếp cận
- xung quanh
- bài viết
- nhân tạo
- âm thanh
- tác giả
- có sẵn
- trở lại
- Bad
- bởi vì
- trước
- bắt đầu
- tin tưởng
- Hóa đơn
- Bill Clinton
- Bill Gates
- biometric
- Một chút
- Chặn
- Khối
- trình duyệt
- nút
- cuộc gọi
- gọi là
- thẻ
- Phân loại
- chắc chắn
- chuỗi
- nhân vật
- Chip
- Chọn
- trong sáng
- clip
- đám mây
- mã
- đồng nghiệp
- kết hợp
- Bình luận
- thương gia
- Hoàn thành
- phần kết luận
- điều khiển
- Corner
- khóa học mơ ước
- bao gồm
- tín dụng
- CSS
- Ngày
- Ngày
- Mô tả
- chi tiết
- ĐÃ LÀM
- kỹ thuật số
- Không
- xuống
- tải về
- hàng chục
- lái xe
- mỗi
- biên tập viên
- hay
- Elon
- Elon Musk
- xuất hiện
- đủ
- đăng ký hạng mục thi
- lôi
- chủ yếu
- Ether (ETH)
- Ngay cả
- tất cả mọi thứ
- ví dụ
- ví dụ
- tuyệt vời
- thi hành
- hiện tại
- giả mạo
- quen
- Tính năng
- vài
- lĩnh vực
- Tập tin
- Các tập tin
- tập trung
- theo
- Cựu
- trước kia
- Thứ tư
- bạn bè
- từ
- Full
- đầy đủ
- Gates
- tạo ra
- tạo
- được
- nhận được
- GitHub
- mục tiêu
- Đi
- đi
- tốt
- GPU
- tuyệt vời
- có
- cao
- di chuột
- Độ đáng tin của
- Tuy nhiên
- HTML
- HTTPS
- Nhân loại
- Hàng trăm
- ICON
- hình ảnh
- in
- chỉ số
- chỉ
- hướng dẫn
- thú vị
- Giao thức
- đáng sợ
- IT
- Tháng một
- Việc làm
- anh chàng
- Biết
- lớn
- Họ
- Năm ngoái
- học tập
- dòng
- liên kết
- ít
- sống
- NHÌN
- LÀM CHO
- giám đốc
- dấu
- Matrix
- max-width
- tin nhắn
- microsoft
- Might
- phút
- gương
- kiểu mẫu
- mô hình
- Xạ hương
- tên
- Cần
- Mới
- tin tức
- tiếp theo
- máy tính xách tay
- Chú ý
- cung cấp
- Cung cấp
- ONE
- mở
- mã nguồn mở
- tối ưu hóa
- Tùy chọn
- Nền tảng khác
- Khác
- riêng
- một phần
- riêng
- Mật khẩu
- qua
- PC
- người
- hoàn thiện
- người
- riêng
- Pitch
- kế hoạch
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- Play
- Plugin
- Bài đăng
- cao cấp
- Chủ tịch
- khá
- chính
- Hồ sơ
- cung cấp
- công khai
- công bố
- Python
- chất lượng
- Đọc
- Reading
- nhận
- gần đây
- ghi âm
- đỏ
- Mối quan hệ
- phát hành
- đòi hỏi
- nghiên cứu
- nhà nghiên cứu
- tài nguyên
- kết quả
- Kết quả
- Tăng lên
- ROBERT
- Robot
- robot
- Lăn
- chạy
- chạy
- an toàn
- tương tự
- Lưu
- bối cảnh
- giây
- cao cấp
- SEO
- dịch vụ
- DỊCH VỤ
- XNUMX
- chia sẻ
- ngắn
- nên
- đơn giản
- kể từ khi
- duy nhất
- siri
- website
- Các trang web
- Ngồi
- chậm
- nhỏ
- So
- Phần mềm
- Một người nào đó
- một cái gì đó
- Chẳng bao lâu
- nguồn
- nói
- Loa
- nói
- Nói
- riêng
- phát biểu
- Bắt đầu
- bắt đầu
- Bước
- lưu trữ
- Những câu chuyện
- như vậy
- bàn
- TAG
- Hãy
- Công nghệ
- Sản phẩm
- cung cấp their dịch
- điều
- Thứ ba
- Thông qua
- thời gian
- Yêu sách
- đến
- quá
- Train
- đào tạo
- Hội thảo
- XOAY
- tải lên
- Đang tải lên
- URL
- người sử dang
- Người sử dụng
- tiện ích
- khác nhau
- phiên bản
- thông qua
- Video
- ảo
- Giọng nói
- VOICE
- W
- Đợi
- muốn
- cảnh báo
- Điều gì
- cái nào
- trong khi
- CHÚNG TÔI LÀ
- sẽ
- ở trong
- Từ
- Công việc
- công trinh
- sẽ
- viết
- năm
- trên màn hình
- youtube
- zephyrnet