AI Tom Hanks는 나에게 일자리를 제안하지 않았지만 그가 한 것처럼 들립니다

플라톤에 의해 재발행

팔로워 : 0

AI Tom Hanks는 나에게 일자리를 제안하지 않았지만 그가 한 것처럼 들립니다. | PC월드

<!--

이미지: Mark Hachman / Dreamstudio.ai를 통한 IDG

Tom Hanks는 단지 나에게 역할을 제안하기 위해 전화한 것이 아니라 확실히 그렇게 들립니다.

PCWorld가 AI 아트 등 다양한 AI 활용, 저는 GitHub의 코드 리포지토리와 Reddit 내의 링크를 샅샅이 뒤져 사람들이 다양한 접근 방식을 위해 자신의 AI 모델에 대한 수정 사항을 게시할 것입니다.

이러한 모델 중 일부는 실제로 자체 알고리즘을 굴리거나 오픈 소스로 게시된 다른 알고리즘을 채택하는 상용 사이트에서 끝납니다. 기존 AI 오디오 사이트의 좋은 예는 Uberduck.ai, 말 그대로 수백 개의 사전 프로그래밍된 모델을 제공합니다. 텍스트 필드에 텍스트를 입력하면 가상의 Elon Musk, Bill Gates, Peggy Hill, Daffy Duck, Alex Trebek, Beavis, The Joker 또는 Siri가 사전 프로그래밍된 대사를 읽도록 할 수 있습니다.

우리는 작년에 PCWorld를 칭찬하는 가짜 빌 클린턴을 올렸고 모델은 이미 꽤 좋은 것 같습니다.

여기 PCWorld와 간식을 들고 앉아 있는 전직 대통령의 모델이 있습니다. 물론 가짜입니다.

음성을 재생하도록 AI를 교육하려면 명확한 음성 샘플을 업로드해야 합니다. AI는 화자가 소리를 목표와 결합하여 이러한 관계를 학습하고, 완벽하게 만들고, 결과를 모방하는 방법을 "학습"합니다. 훌륭한 1992 스릴러에 익숙하다면 운동화 (Robert Redford, Sidney Poitier, Ben Kingsley 등의 올스타 캐스트와 함께) 그러면 캐릭터가 대상 음성의 음성 샘플을 녹음하여 생체 인식 음성 암호를 "해독"해야 하는 장면을 알 수 있습니다. . 이것은 거의 똑같은 것입니다.

일반적으로 좋은 음성 모델을 조립하려면 특정 사람이 말하는 방식을 나타내는 긴 샘플을 사용하여 상당한 훈련이 필요할 수 있습니다. 그러나 지난 며칠 동안 새로운 것이 나타났습니다. Microsoft Vall-E, 연구 논문 완전히 프로그래밍 가능한 음성을 생성하는 데 단 몇 초의 소스 오디오가 필요한 합성 음성의 (라이브 예제 포함).

당연히 AI 연구자와 다른 AI 그룹은 Vall-E 모델이 아직 대중에게 공개되지 않았는지 알고 싶어했습니다. 대답은 '아니오'입니다. 원하는 경우 Tortoise라는 다른 모델로 플레이할 수 있습니다. (저자는 그것이 느리기 때문에 Tortoise라고 불린다고 지적합니다. 하지만 작동합니다.)

Tortoise로 나만의 AI 음성 훈련

Tortoise를 흥미롭게 만드는 것은 몇 개의 오디오 클립을 업로드하기만 하면 선택한 음성으로 모델을 훈련시킬 수 있다는 것입니다. 그만큼 거북이 GitHub 페이지 약 XNUMX초 정도의 클립이 몇 개 있어야 합니다. 특정 품질의 .WAV 파일로 저장해야 합니다.

어떻게 작동합니까? 당신이 알지 못할 수도 있는 공공 유틸리티를 통해: 구글 콜랩. 기본적으로 Collab은 Python 서버에 대한 액세스를 허용하는 Google에서 제공하는 클라우드 서비스입니다. 귀하(또는 다른 사람)가 작성하는 코드는 일반 Google 계정이 있는 사용자와 공유할 수 있는 노트북으로 저장할 수 있습니다. 그만큼 거북이 공유 리소스는 여기.

인터페이스가 위협적으로 보이지만 그렇게 나쁘지는 않습니다. Google 사용자로 로그인한 다음 오른쪽 상단 모서리에 있는 "연결"을 클릭해야 합니다. 경고의 말씀. 이 Colab은 Google 드라이브에 아무 것도 다운로드하지 않지만 다른 Colab은 다운로드할 수 있습니다. (하지만 이렇게 생성되는 오디오 파일은 브라우저에 저장되지만 PC로 다운로드할 수 있습니다.) 다른 사람이 작성한 코드를 실행하고 있다는 점에 유의하십시오. 입력이 잘못되었거나 Google에 사용 가능한 GPU가 없는 등 백엔드에 문제가 있는 경우 오류 메시지가 표시될 수 있습니다. 그것은 모두 약간 실험적입니다.

구글 콜라보 거북이 — 거북이 콜라보. "연결" 버튼을 클릭하여 시작한 다음 각 코드 블록 옆에 있는 작은 "재생" 아이콘을 차례로 클릭합니다.

Mark Hachman / IDG

각 코드 블록에는 마우스를 가져가면 나타나는 작은 "재생" 아이콘이 있습니다. 코드를 실행하려면 각 코드 블록에서 "재생"을 클릭하고 다음 블록을 실행하기 전에 각 블록이 실행될 때까지 기다려야 합니다.

모든 기능에 대한 자세한 지침을 단계별로 안내하지는 않지만 빨간색 텍스트는 모델이 말하도록 제안된 텍스트와 같이 사용자가 수정할 수 있다는 점에 유의하십시오. 약 XNUMX블록 아래에 모델 훈련 옵션이 있습니다. 모델 이름을 지정한 다음 오디오 파일을 업로드해야 합니다. 완료되면 네 번째 블록에서 새 오디오 모델을 선택하고 코드를 실행한 다음 세 번째 블록에서 텍스트를 구성합니다. 달리다 그 코드 블록.

모든 것이 계획대로 진행되면 샘플 음성의 작은 오디오 출력을 갖게 됩니다. 작동합니까? 음, 저는 제 동료 Gordon Mah Ung의 빠르고 더러운 음성 모델을 만들었습니다. 더 풀 너드 팟캐스트 뿐만 아니라 다양한 비디오. 작동하는지 확인하기 위해 짧은 스니펫 대신 몇 분 분량의 샘플을 업로드했습니다.

결과? 음, 그것 소리 생생하지만 Gordon과는 전혀 다릅니다. 그는 현재 디지털 사칭으로부터 확실히 안전합니다. (이것은 패스트푸드 체인을 지지하는 것도 아닙니다.)

그러나 Tortoise 작가가 배우 Tom Hanks에 대해 교육한 기존 모델은 꽤 좋은 것 같습니다. 여기서 말하는 사람은 톰 행크스가 아닙니다! 톰도 그랬어 지원 나에게 직업을 제안했지만 적어도 내 친구 중 한 명은 속이기에 충분했습니다.

결론? 조금 무섭습니다. 우리가 듣는(그리고 곧 보는) 것을 믿는 시대가 끝나고 있습니다. 아니면 이미 가지고 있습니다.

저자: 마크 해치먼, 수석 편집자

PCWorld의 수석 편집자로서 Mark는 Microsoft 뉴스와 칩 기술 등의 분야에 중점을 두고 있습니다. 그는 이전에 PCMag, BYTE, Slashdot, eWEEK 및 ReadWrite에 글을 썼습니다.

Mark Hachman의 최근 이야기:

쿠폰 코드

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
플라토 블록체인. Web3 메타버스 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
출처: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html

타임 스탬프 : 2023 년 1 월 13 일

타임 스탬프 : 12월 15, 2023

AI Tom Hanks는 나에게 일자리를 제안하지 않았지만 그가 한 것처럼 들립니다.

플라톤에 의해 재발행

Tortoise로 나만의 AI 음성 훈련

저자: 마크 해치먼, 수석 편집자

Mark Hachman의 최근 이야기:

쿠폰 코드

더보기 PC 월드

RIP Cortana: Microsoft는 Windows AI 앱이 죽을 것이라고 말합니다.

테스트됨: Microsoft의 DirectStorage 기술은 SATA SSD의 종말을 알립니다.

Lenovo의 새로운 컬러 전자 잉크 노트북은 구매할 가치가 있습니다.

Dell의 고급형 XPS 13 노트북이 650달러에 판매됩니다.

Nvidia, GeForce RTX 4070 Ti, 고급 RTX 40 시리즈 노트북 등 출시

$20 추가 할인으로 매일 새로운 것을 배워보세요 Headway

Acer의 최신 Swift Edge 16은 더 얇고, 더 똑똑하고, 더 저렴해집니다.

새 PC에서 항상 활성화해야 하는 1가지 주요 보안 예방 조치

이 비상 손전등은 현충일에 판매 중입니다.

인텔 공동 창업자이자 칩 업계의 전설인 고든 무어(Gordon Moore)가 94세의 나이로 별세했습니다.

단 2021달러에 평생 Microsoft Office Pro 50로 업그레이드하세요

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정