->
이미지: Mark Hachman / Dreamstudio.ai를 통한 IDG
Tom Hanks는 단지 나에게 역할을 제안하기 위해 전화한 것이 아니라 확실히 그렇게 들립니다.
PCWorld가 AI 아트 등 다양한 AI 활용, 저는 GitHub의 코드 리포지토리와 Reddit 내의 링크를 샅샅이 뒤져 사람들이 다양한 접근 방식을 위해 자신의 AI 모델에 대한 수정 사항을 게시할 것입니다.
이러한 모델 중 일부는 실제로 자체 알고리즘을 굴리거나 오픈 소스로 게시된 다른 알고리즘을 채택하는 상용 사이트에서 끝납니다. 기존 AI 오디오 사이트의 좋은 예는 Uberduck.ai, 말 그대로 수백 개의 사전 프로그래밍된 모델을 제공합니다. 텍스트 필드에 텍스트를 입력하면 가상의 Elon Musk, Bill Gates, Peggy Hill, Daffy Duck, Alex Trebek, Beavis, The Joker 또는 Siri가 사전 프로그래밍된 대사를 읽도록 할 수 있습니다.
우리는 작년에 PCWorld를 칭찬하는 가짜 빌 클린턴을 올렸고 모델은 이미 꽤 좋은 것 같습니다.
음성을 재생하도록 AI를 교육하려면 명확한 음성 샘플을 업로드해야 합니다. AI는 화자가 소리를 목표와 결합하여 이러한 관계를 학습하고, 완벽하게 만들고, 결과를 모방하는 방법을 "학습"합니다. 훌륭한 1992 스릴러에 익숙하다면 운동화 (Robert Redford, Sidney Poitier, Ben Kingsley 등의 올스타 캐스트와 함께) 그러면 캐릭터가 대상 음성의 음성 샘플을 녹음하여 생체 인식 음성 암호를 "해독"해야 하는 장면을 알 수 있습니다. . 이것은 거의 똑같은 것입니다.
일반적으로 좋은 음성 모델을 조립하려면 특정 사람이 말하는 방식을 나타내는 긴 샘플을 사용하여 상당한 훈련이 필요할 수 있습니다. 그러나 지난 며칠 동안 새로운 것이 나타났습니다. Microsoft Vall-E, 연구 논문 완전히 프로그래밍 가능한 음성을 생성하는 데 단 몇 초의 소스 오디오가 필요한 합성 음성의 (라이브 예제 포함).
당연히 AI 연구자와 다른 AI 그룹은 Vall-E 모델이 아직 대중에게 공개되지 않았는지 알고 싶어했습니다. 대답은 '아니오'입니다. 원하는 경우 Tortoise라는 다른 모델로 플레이할 수 있습니다. (저자는 그것이 느리기 때문에 Tortoise라고 불린다고 지적합니다. 하지만 작동합니다.)
Tortoise로 나만의 AI 음성 훈련
Tortoise를 흥미롭게 만드는 것은 몇 개의 오디오 클립을 업로드하기만 하면 선택한 음성으로 모델을 훈련시킬 수 있다는 것입니다. 그만큼 거북이 GitHub 페이지 약 XNUMX초 정도의 클립이 몇 개 있어야 합니다. 특정 품질의 .WAV 파일로 저장해야 합니다.
어떻게 작동합니까? 당신이 알지 못할 수도 있는 공공 유틸리티를 통해: 구글 콜랩. 기본적으로 Collab은 Python 서버에 대한 액세스를 허용하는 Google에서 제공하는 클라우드 서비스입니다. 귀하(또는 다른 사람)가 작성하는 코드는 일반 Google 계정이 있는 사용자와 공유할 수 있는 노트북으로 저장할 수 있습니다. 그만큼 거북이 공유 리소스는 여기.
인터페이스가 위협적으로 보이지만 그렇게 나쁘지는 않습니다. Google 사용자로 로그인한 다음 오른쪽 상단 모서리에 있는 "연결"을 클릭해야 합니다. 경고의 말씀. 이 Colab은 Google 드라이브에 아무 것도 다운로드하지 않지만 다른 Colab은 다운로드할 수 있습니다. (하지만 이렇게 생성되는 오디오 파일은 브라우저에 저장되지만 PC로 다운로드할 수 있습니다.) 다른 사람이 작성한 코드를 실행하고 있다는 점에 유의하십시오. 입력이 잘못되었거나 Google에 사용 가능한 GPU가 없는 등 백엔드에 문제가 있는 경우 오류 메시지가 표시될 수 있습니다. 그것은 모두 약간 실험적입니다.
각 코드 블록에는 마우스를 가져가면 나타나는 작은 "재생" 아이콘이 있습니다. 코드를 실행하려면 각 코드 블록에서 "재생"을 클릭하고 다음 블록을 실행하기 전에 각 블록이 실행될 때까지 기다려야 합니다.
모든 기능에 대한 자세한 지침을 단계별로 안내하지는 않지만 빨간색 텍스트는 모델이 말하도록 제안된 텍스트와 같이 사용자가 수정할 수 있다는 점에 유의하십시오. 약 XNUMX블록 아래에 모델 훈련 옵션이 있습니다. 모델 이름을 지정한 다음 오디오 파일을 업로드해야 합니다. 완료되면 네 번째 블록에서 새 오디오 모델을 선택하고 코드를 실행한 다음 세 번째 블록에서 텍스트를 구성합니다. 달리다 그 코드 블록.
모든 것이 계획대로 진행되면 샘플 음성의 작은 오디오 출력을 갖게 됩니다. 작동합니까? 음, 저는 제 동료 Gordon Mah Ung의 빠르고 더러운 음성 모델을 만들었습니다. 더 풀 너드 팟캐스트 뿐만 아니라 다양한 비디오. 작동하는지 확인하기 위해 짧은 스니펫 대신 몇 분 분량의 샘플을 업로드했습니다.
결과? 음, 그것 소리 생생하지만 Gordon과는 전혀 다릅니다. 그는 현재 디지털 사칭으로부터 확실히 안전합니다. (이것은 패스트푸드 체인을 지지하는 것도 아닙니다.)
그러나 Tortoise 작가가 배우 Tom Hanks에 대해 교육한 기존 모델은 꽤 좋은 것 같습니다. 여기서 말하는 사람은 톰 행크스가 아닙니다! 톰도 그랬어 지원 나에게 직업을 제안했지만 적어도 내 친구 중 한 명은 속이기에 충분했습니다.
결론? 조금 무섭습니다. 우리가 듣는(그리고 곧 보는) 것을 믿는 시대가 끝나고 있습니다. 아니면 이미 가지고 있습니다.
쿠폰 코드
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- 플라토 블록체인. Web3 메타버스 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 출처: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html
- 1
- 2023
- 39
- a
- 소개
- ACCESS
- 계정
- 실제로
- 각색하다
- AI
- 알렉스
- 알고리즘
- All
- 수
- 이미
- 중
- amp
- 과
- 다른
- 답변
- 어플리케이션
- 구혼
- 약
- 기사
- 인조의
- 오디오
- 저자
- 가능
- 뒤로
- 나쁜
- 때문에
- 전에
- 시작
- 믿음
- 지폐
- 빌 클린턴
- 빌 게이츠 (Bill Gates)
- 생체 인식
- 비트
- 블록
- 블록
- 브라우저
- 단추
- 전화
- 라는
- 카드
- 범주
- 확실히
- 체인
- 문자
- 칩
- 왼쪽 메뉴에서
- 선명한
- 클립
- 클라우드
- 암호
- 동료
- 결합
- 댓글
- 상업
- 완료
- 결론
- 컨트롤
- 모서리
- 코스
- 피복
- 신용
- CSS
- 날짜
- 일
- 설명
- 상세한
- DID
- 디지털
- 하지 않습니다
- 아래 (down)
- 다운로드
- 다스
- 드라이브
- 마다
- 편집자
- 중
- 엘론
- 엘론 머스크
- 등장
- 충분히
- 엔터 버튼
- 오류
- 본질적으로
- 에테르 (ETH)
- 조차
- 모두
- 예
- 예
- 우수한
- 실행
- 현존하는
- 모조품
- 익숙한
- 특징
- 를
- 들
- 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에
- 파일
- 집중
- 따라
- 이전
- 전에
- 네번째
- 친구
- 에
- 가득 찬
- 충분히
- 게이츠
- 생성
- 생성
- 얻을
- 점점
- GitHub의
- 골
- 간다
- 가는
- 좋은
- 구글
- GPU
- 큰
- 데
- 신장
- 가져가
- 방법
- 그러나
- HTML
- HTTPS
- 사람의
- 수백
- ICON
- 영상
- in
- 색인
- 표시
- 명령
- 흥미있는
- 인터페이스
- 협박하는
- IT
- 일월
- 일
- 조커
- 알아
- 넓은
- 성
- 작년
- 배우기
- 라인
- 모래밭
- 작은
- 살고있다
- 봐라.
- 제작
- 매니저
- 표
- 매트릭스
- 최대 폭
- 메시지
- Microsoft
- 수도
- 분
- 거울
- 모델
- 모델
- 사향
- name
- 필요
- 신제품
- news
- 다음 것
- 수첩
- 노트
- 제공
- 제공
- ONE
- 열 수
- 오픈 소스
- 최적화
- 선택권
- 기타
- 기타
- 자신의
- 부품
- 특별한
- 비밀번호
- 과거
- PC
- 사람들
- 완성
- 사람
- 확인
- 피치
- 계획
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 연극
- 플러그인
- 게시하다
- 프리미엄
- 대통령
- 예쁜
- 일차
- 프로필
- 제공
- 공개
- 출판
- Python
- 품질
- 읽기
- 읽기
- 받다
- 최근
- 방송
- 빨간색
- 레딧
- 관계
- 출시
- 필요
- 연구
- 연구원
- 의지
- 결과
- 결과
- 상승
- ROBERT
- 로봇
- 로봇
- 롤
- 달리기
- 달리는
- 가장 안전한 따뜻함
- 같은
- 찜하기
- 장면
- 초
- 연장자
- 검색 엔진 최적화
- 서비스
- 서비스
- 일곱
- 공유
- 짧은
- 영상을
- 간단히
- 이후
- 단일
- 시리
- 대지
- 사이트
- 좌석
- 느리게
- 작은
- So
- 소프트웨어
- 어떤 사람
- 무언가
- 예정입니다.
- 출처
- 말하다
- Speaker
- 말하기
- 언어
- 구체적인
- 연설
- 스타트
- 시작
- 단계
- 저장
- 이야기
- 이러한
- 테이블
- TAG
- 받아
- Technology
- XNUMXD덴탈의
- 그들의
- 맡은 일
- 제삼
- 을 통하여
- 시간
- Title
- 에
- 너무
- Train
- 훈련 된
- 트레이닝
- 회전
- 트위터
- 업로드
- 업로드
- URL
- 사용자
- 사용자
- 유틸리티
- 여러
- 버전
- 를 통해
- 동영상
- 온라인
- 목소리
- 음성
- W
- 기다리는
- 원
- 경고
- 뭐
- 어느
- 동안
- 누구
- 의지
- 이내
- 워드
- 작업
- 일
- 겠지
- 쓴
- year
- 너의
- 유튜브
- 제퍼 넷