->
ภาพ: Mark Hachman / IDG ผ่าน Dreamstudio.ai
ทอม แฮงส์ไม่เพียงแค่โทรหาฉันเพื่อเสนอบทให้ฉันฟัง แต่ดูเหมือนว่าจะเป็นเช่นนั้น
นับตั้งแต่ PCWorld เริ่มครอบคลุมการเพิ่มขึ้นของ แอปพลิเคชัน AI ต่างๆ เช่น AI artฉันได้ค้นหาในที่เก็บโค้ดใน GitHub และลิงก์ภายใน Reddit ซึ่งผู้คนจะโพสต์การปรับแต่งโมเดล AI ของตนเองสำหรับแนวทางต่างๆ
โมเดลเหล่านี้บางโมเดลลงเอยในไซต์เชิงพาณิชย์ ซึ่งใช้อัลกอริทึมของตัวเองหรือดัดแปลงรูปแบบอื่นที่เผยแพร่เป็นโอเพ่นซอร์ส ตัวอย่างที่ดีของไซต์เสียง AI ที่มีอยู่คือ Uberduck.aiซึ่งนำเสนอแบบจำลองที่ตั้งโปรแกรมไว้ล่วงหน้าหลายร้อยแบบอย่างแท้จริง ป้อนข้อความในช่องข้อความและคุณสามารถให้ Elon Musk, Bill Gates, Peggy Hill, Daffy Duck, Alex Trebek, Beavis, The Joker หรือแม้แต่ Siri อ่านบทที่คุณตั้งโปรแกรมไว้ล่วงหน้าได้
เราอัปโหลด Bill Clinton ปลอมเพื่อยกย่อง PCWorld เมื่อปีที่แล้ว และโมเดลดังกล่าวฟังดูดีทีเดียว
การฝึกอบรม AI เพื่อสร้างคำพูดนั้นเกี่ยวข้องกับการอัปโหลดตัวอย่างเสียงที่ชัดเจน AI "เรียนรู้" วิธีที่ผู้พูดรวมเสียงเข้ากับเป้าหมายเพื่อเรียนรู้ความสัมพันธ์เหล่านั้น ปรับปรุงเสียงให้สมบูรณ์ และเลียนแบบผลลัพธ์ หากคุณคุ้นเคยกับหนังระทึกขวัญปี 1992 ที่ยอดเยี่ยม รองเท้าผ้าใบ (ร่วมกับนักแสดงระดับแนวหน้าอย่าง Robert Redford, Sidney Poitier และ Ben Kingsley เป็นต้น) จากนั้นคุณก็ทราบเกี่ยวกับฉากที่ตัวละครจำเป็นต้อง "ถอดรหัส" รหัสผ่านเสียงไบโอเมตริกซ์ด้วยการบันทึกตัวอย่างเสียงของเสียงของเป้าหมาย . นี่แทบจะเป็นสิ่งเดียวกันทุกประการ
โดยปกติแล้ว การประกอบโมเดลเสียงที่ดีอาจใช้เวลาฝึกฝนค่อนข้างนาน โดยมีตัวอย่างยาวๆ เพื่อระบุว่าบุคคลนั้นๆ พูดอย่างไร อย่างไรก็ตาม ในช่วงไม่กี่วันที่ผ่านมา มีสิ่งใหม่เกิดขึ้น: Microsoft Vall-E เอกสารการวิจัย (พร้อมตัวอย่างจริง) ของเสียงสังเคราะห์ที่ต้องใช้เสียงต้นฉบับเพียงไม่กี่วินาทีเพื่อสร้างเสียงที่ตั้งโปรแกรมได้อย่างสมบูรณ์
โดยปกติแล้ว นักวิจัย AI และกลุ่ม AI อื่นๆ ต้องการทราบว่าโมเดล Vall-E ได้รับการเผยแพร่สู่สาธารณะแล้วหรือยัง คำตอบคือไม่ แต่คุณสามารถเล่นกับโมเดลอื่นที่เรียกว่า Tortoise ได้หากต้องการ (ผู้เขียนสังเกตว่ามันเรียกว่าเต่าเพราะมันช้า แต่ก็ได้ผล)
ฝึกเสียง AI ของคุณเองด้วยเต่า
สิ่งที่ทำให้ Tortoise น่าสนใจคือคุณสามารถฝึกโมเดลด้วยเสียงที่คุณเลือกได้ง่ายๆ เพียงแค่อัปโหลดคลิปเสียงไม่กี่คลิป เดอะ หน้าเต่า GitHub โปรดทราบว่าคุณควรมีคลิปสัก XNUMX-XNUMX คลิป ความยาวประมาณ XNUMX วินาที คุณจะต้องบันทึกเป็นไฟล์ .WAV ที่มีคุณภาพเฉพาะ
มันทำงานอย่างไร? ผ่านสาธารณูปโภคที่คุณอาจไม่รู้: Google Colab. โดยพื้นฐานแล้ว Collab เป็นบริการคลาวด์ที่ Google ให้บริการซึ่งอนุญาตให้เข้าถึงเซิร์ฟเวอร์ Python รหัสที่คุณ (หรือบุคคลอื่น) เขียนสามารถจัดเก็บเป็นสมุดบันทึก ซึ่งสามารถแชร์กับผู้ใช้ที่มีบัญชี Google ทั่วไปได้ เดอะ ทรัพยากรที่ใช้ร่วมกันของเต่าอยู่ที่นี่.
อินเทอร์เฟซดูน่ากลัว แต่ก็ไม่แย่ขนาดนั้น คุณจะต้องเข้าสู่ระบบในฐานะผู้ใช้ Google จากนั้นคุณจะต้องคลิก "เชื่อมต่อ" ที่มุมขวาบน คำเตือน แม้ว่า Colab นี้จะไม่ดาวน์โหลดอะไรลงใน Google ไดรฟ์ของคุณ แต่ Colab อื่นๆ อาจทำได้ (แม้ว่าไฟล์เสียงที่สร้างขึ้นจะถูกจัดเก็บไว้ในเบราว์เซอร์ แต่สามารถดาวน์โหลดไปยังพีซีของคุณได้) โปรดทราบว่าคุณกำลังเรียกใช้โค้ดที่คนอื่นเขียนขึ้น คุณอาจได้รับข้อความแสดงข้อผิดพลาดเนื่องจากอินพุตไม่ถูกต้องหรือเนื่องจาก Google มีปัญหาที่ส่วนหลัง เช่น ไม่มี GPU ที่พร้อมใช้งาน ทั้งหมดเป็นการทดลองเล็กน้อย
โค้ดแต่ละบล็อกจะมีไอคอน "เล่น" เล็กๆ ปรากฏขึ้นเมื่อคุณเลื่อนเมาส์ไปเหนือ คุณจะต้องคลิก "เล่น" บนบล็อกโค้ดแต่ละบล็อกเพื่อเรียกใช้ โดยรอให้แต่ละบล็อกดำเนินการก่อนที่จะเรียกใช้บล็อกถัดไป
แม้ว่าเราจะไม่อธิบายถึงคำแนะนำโดยละเอียดเกี่ยวกับคุณสมบัติทั้งหมด แต่โปรดทราบว่าข้อความสีแดงนั้นผู้ใช้แก้ไขได้ เช่น ข้อความแนะนำที่คุณต้องการให้โมเดลพูด ประมาณเจ็ดช่วงตึก คุณจะมีตัวเลือกในการฝึกโมเดล คุณจะต้องตั้งชื่อโมเดล จากนั้นอัปโหลดไฟล์เสียง เมื่อเสร็จสิ้น ให้เลือกรูปแบบเสียงใหม่ในบล็อกที่สี่ รันโค้ด จากนั้นกำหนดค่าข้อความในบล็อกที่สาม วิ่ง ที่ บล็อกรหัส
หากทุกอย่างเป็นไปตามแผน คุณจะมีเอาต์พุตเสียงขนาดเล็กของเสียงตัวอย่างของคุณ มันทำงานหรือไม่ ฉันทำแบบจำลองเสียงที่รวดเร็วและสกปรกของเพื่อนร่วมงานของฉัน Gordon Mah Ung ซึ่งผลงานของเราปรากฏอยู่ใน พอดคาสต์ Nerd เต็มรูปแบบ ตลอดจนวิดีโอต่างๆ ฉันอัปโหลดตัวอย่างความยาวหลายนาทีแทนตัวอย่างสั้นๆ เพื่อดูว่าจะใช้ได้ไหม
ผลลัพธ์? ก็มัน เสียง เหมือนจริง แต่ไม่เหมือน Gordon เลย ตอนนี้เขาปลอดภัยจากการแอบอ้างทางดิจิทัลอย่างแน่นอน (นี่ไม่ใช่การรับรองห่วงโซ่อาหารฟาสต์ฟู้ดใดๆ เช่นกัน)
แต่แบบจำลองที่มีอยู่ซึ่งผู้เขียน Tortoise ฝึกฝนให้กับนักแสดง Tom Hanks ฟังดูค่อนข้างดี นี่ไม่ใช่ทอม แฮงก์พูดที่นี่! ทอมก็ทำเช่นกัน ไม่ เสนองานให้ฉัน แต่มันก็เพียงพอแล้วที่จะหลอกเพื่อนของฉันอย่างน้อยหนึ่งคน
ข้อสรุป? มันน่ากลัวเล็กน้อย: ยุคของการเชื่อในสิ่งที่เราได้ยิน (และเห็นในไม่ช้า) กำลังจะสิ้นสุดลง หรือมีอยู่แล้ว
รหัสคูปอง
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
- ที่มา: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html
- 1
- 2023
- 39
- a
- เกี่ยวกับเรา
- เข้า
- ลงชื่อเข้าใช้
- จริง
- ปรับ
- AI
- อเล็กซ์
- อัลกอริทึม
- ทั้งหมด
- ช่วยให้
- แล้ว
- ในหมู่
- amp
- และ
- อื่น
- คำตอบ
- การใช้งาน
- วิธีการ
- รอบ
- บทความ
- เทียม
- เสียง
- ผู้เขียน
- ใช้ได้
- กลับ
- ไม่ดี
- เพราะ
- ก่อน
- เริ่ม
- เชื่อว่า
- บิล
- คลินตันบิล
- บิลเกตส์
- ไบโอเมตริกซ์
- บิต
- ปิดกั้น
- Blocks
- เบราว์เซอร์
- ปุ่ม
- โทรศัพท์
- ที่เรียกว่า
- บัตร
- หมวดหมู่
- อย่างแน่นอน
- โซ่
- อักขระ
- ชิป
- Choose
- ชัดเจน
- คลิป
- เมฆ
- รหัส
- เพื่อนร่วมงาน
- รวม
- ความคิดเห็น
- เชิงพาณิชย์
- เสร็จสิ้น
- ข้อสรุป
- การควบคุม
- มุม
- หลักสูตร
- ครอบคลุม
- เครดิต
- CSS
- วันที่
- วัน
- ลักษณะ
- รายละเอียด
- DID
- ดิจิตอล
- ไม่
- ลง
- ดาวน์โหลด
- โหล
- ขับรถ
- แต่ละ
- บรรณาธิการ
- ทั้ง
- Elon
- Elon Musk
- โผล่ออกมา
- พอ
- เข้าสู่
- ความผิดพลาด
- เป็นหลัก
- อีเธอร์ (ETH)
- แม้
- ทุกอย่าง
- ตัวอย่าง
- ตัวอย่าง
- ยอดเยี่ยม
- ดำเนินการ
- ที่มีอยู่
- เทียม
- คุ้นเคย
- คุณสมบัติ
- สองสาม
- สนาม
- เนื้อไม่มีมัน
- ไฟล์
- มุ่งเน้นไปที่
- ปฏิบัติตาม
- อดีต
- สมัยก่อน
- ที่สี่
- เพื่อน
- ราคาเริ่มต้นที่
- เต็ม
- อย่างเต็มที่
- เกตส์
- สร้าง
- สร้าง
- ได้รับ
- ได้รับ
- GitHub
- เป้าหมาย
- ไป
- ไป
- ดี
- GPU
- ยิ่งใหญ่
- มี
- ความสูง
- โฉบ
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- อย่างไรก็ตาม
- HTML
- HTTPS
- เป็นมนุษย์
- ร้อย
- ICON
- ภาพ
- in
- ดัชนี
- แสดง
- คำแนะนำการใช้
- น่าสนใจ
- อินเตอร์เฟซ
- ข่มขู่
- IT
- มกราคม
- การสัมภาษณ์
- โจ๊ก
- ทราบ
- ใหญ่
- ชื่อสกุล
- ปีที่แล้ว
- การเรียนรู้
- เส้น
- การเชื่อมโยง
- น้อย
- สด
- LOOKS
- ทำให้
- ผู้จัดการ
- เครื่องหมาย
- มดลูก
- ความกว้างสูงสุด
- ข้อความ
- ไมโครซอฟท์
- อาจ
- นาที
- กระจก
- แบบ
- โมเดล
- ชะมด
- ชื่อ
- จำเป็นต้อง
- ใหม่
- ข่าว
- ถัดไป
- สมุดบันทึก
- หมายเหตุ / รายละเอียดเพิ่มเติม
- เสนอ
- เสนอ
- ONE
- เปิด
- โอเพนซอร์ส
- การปรับให้เหมาะสม
- ตัวเลือกเสริม (Option)
- อื่นๆ
- ผลิตภัณฑ์อื่นๆ
- ของตนเอง
- ส่วนหนึ่ง
- ในสิ่งที่สนใจ
- รหัสผ่าน
- อดีต
- PC
- คน
- สมบูรณ์แบบ
- คน
- ส่วนบุคคล
- ขว้าง
- การวางแผน
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- เล่น
- เสียบเข้าไป
- โพสต์
- Premium
- ประธาน
- สวย
- ประถม
- โปรไฟล์
- ให้
- สาธารณะ
- การตีพิมพ์
- หลาม
- คุณภาพ
- อ่าน
- การอ่าน
- รับ
- เมื่อเร็ว ๆ นี้
- การบันทึก
- สีแดง
- ความสัมพันธ์
- การเผยแพร่
- ต้อง
- การวิจัย
- นักวิจัย
- ทรัพยากร
- ผล
- ผลสอบ
- ขึ้น
- โรเบิร์ต
- หุ่นยนต์
- หุ่นยนต์
- ม้วน
- วิ่ง
- วิ่ง
- ปลอดภัย
- เดียวกัน
- ลด
- ฉาก
- วินาที
- ระดับอาวุโส
- SEO
- บริการ
- บริการ
- เจ็ด
- ที่ใช้ร่วมกัน
- สั้น
- น่า
- ง่ายดาย
- ตั้งแต่
- เดียว
- siri
- เว็บไซต์
- สถานที่ทำวิจัย
- นั่ง
- ช้า
- เล็ก
- So
- ซอฟต์แวร์
- บางคน
- บางสิ่งบางอย่าง
- ในไม่ช้า
- แหล่ง
- พูด
- ลำโพง
- การพูด
- พูด
- โดยเฉพาะ
- การพูด
- เริ่มต้น
- ข้อความที่เริ่ม
- ขั้นตอน
- เก็บไว้
- จำนวนชั้น
- อย่างเช่น
- ตาราง
- TAG
- เอา
- เทคโนโลยี
- พื้นที่
- ของพวกเขา
- สิ่ง
- ที่สาม
- ตลอด
- เวลา
- ชื่อหนังสือ
- ไปยัง
- เกินไป
- รถไฟ
- ผ่านการฝึกอบรม
- การฝึกอบรม
- กลับ
- พูดเบาและรวดเร็ว
- อัปโหลด
- อัปโหลด
- URL
- ผู้ใช้งาน
- ผู้ใช้
- ประโยชน์
- ต่างๆ
- รุ่น
- ผ่านทาง
- วิดีโอ
- เสมือน
- เสียงพูด
- เสียงVO
- W
- ที่รอ
- อยาก
- คำเตือน
- อะไร
- ที่
- ในขณะที่
- WHO
- จะ
- ภายใน
- คำ
- งาน
- โรงงาน
- จะ
- เขียน
- ปี
- ของคุณ
- YouTube
- ลมทะเล