Google, 동영상 제작 및 편집, 이미지 애니메이션을 위한 AI 기반 동영상 편집기 Dreamix 출시

Google, 동영상 제작 및 편집, 이미지 애니메이션을 위한 AI 기반 동영상 편집기 Dreamix 출시

소스 노드 : 1953261

OpenAI ChatGPT가 24시간 뉴스 주기에서 모든 산소를 빨아들이는 동안 Google은 비디오, 이미지 및 텍스트 입력이 제공될 때 비디오를 생성할 수 있는 새로운 AI 모델을 조용히 공개했습니다. 새로운 Google Dreamix AI 비디오 편집기는 이제 생성된 비디오를 현실에 더 가깝게 만듭니다.

GitHub에 게시된 연구에 따르면 Dreamix는 비디오 및 텍스트 프롬프트를 기반으로 비디오를 편집합니다. 결과 비디오는 색상, 자세, 개체 크기 및 카메라 포즈에 대한 충실도를 유지하여 시간적으로 일관된 비디오를 생성합니다. 현재 Dreamix는 프롬프트만으로 비디오를 생성할 수 없지만 기존 자료를 가져와 텍스트 프롬프트를 사용하여 비디오를 수정할 수 있습니다.

Google은 DALL-E2 또는 오픈 소스 Stable Diffusion과 같은 이미지 AI에서 볼 수 있는 대부분의 비디오 이미지 편집에 성공적으로 적용된 접근 방식인 Dreamix용 비디오 확산 모델을 사용합니다.

이 접근 방식은 입력 비디오를 크게 줄이고 인공 노이즈를 추가한 다음 비디오 확산 모델에서 처리한 다음 텍스트 프롬프트를 사용하여 원본 비디오의 일부 속성을 유지하고 다른 속성을 다시 렌더링하는 새 비디오를 생성하는 방법을 포함합니다. 텍스트 입력에.

비디오 확산 모델은 비디오 작업의 새로운 시대를 열 수 있는 유망한 미래를 제공합니다.

예를 들어, 아래 비디오에서 Dreamix는 "곰이 춤을 추고 경쾌한 음악에 맞춰 점프하며 몸 전체를 움직입니다."라는 프롬프트에 따라 먹는 원숭이(왼쪽)를 춤추는 곰(오른쪽)으로 바꿉니다.

아래의 또 다른 예에서 Dreamix는 단일 사진을 템플릿으로 사용하고(이미지에서 비디오로) 개체는 프롬프트를 통해 비디오에서 애니메이션으로 표시됩니다. 새로운 장면이나 후속 타임랩스 녹화에서도 카메라 움직임이 가능합니다.

또 다른 예에서 Dreamix는 물웅덩이(왼쪽)에 있는 오랑우탄을 아름다운 욕실에서 목욕하는 주황색 머리카락을 가진 오랑우탄으로 바꿉니다.

“확산 모델은 이미지 편집에 성공적으로 적용되었지만 비디오 편집에는 거의 적용되지 않았습니다. 일반 동영상의 모션 및 외형 편집을 텍스트 기반으로 수행할 수 있는 최초의 확산 기반 방식을 제시합니다.”

Google 연구 논문에 따르면 Dreamix는 비디오 확산 모델을 사용하여 추론 시간에 원본 비디오의 저해상도 시공간 정보를 안내 텍스트 프롬프트에 맞춰 합성한 새로운 고해상도 정보와 결합합니다.”

구글은 "원본 비디오에 대한 높은 충실도를 얻으려면 고해상도 정보의 일부를 유지해야 하기 때문에 원본 비디오에 모델을 미세 조정하는 예비 단계를 추가하여 충실도를 크게 높인다"고 말했습니다.

아래는 Dreamix 작동 방식에 대한 비디오 개요입니다.

[포함 된 콘텐츠]

Dreamix 비디오 확산 모델의 작동 방식

Google에 따르면 입력 비디오에서만 Dreamix의 비디오 확산 모델을 미세 조정하면 모션 변경 범위가 제한됩니다. 대신, 원래 대물렌즈(왼쪽 아래) 외에 정렬되지 않은 프레임 세트에서도 미세 조정되는 혼합 대물렌즈를 사용합니다. 이것은 "마스킹된 임시 주의"를 사용하여 수행되어 임시 주의 및 컨볼루션이 미세 조정되는 것을 방지합니다(오른쪽 아래). 이를 통해 정적 비디오에 모션을 추가할 수 있습니다.

“우리의 방법은 입력 콘텐츠를 균일한 비디오 형식으로 변환하는 애플리케이션 종속 사전 처리(왼쪽)를 통해 여러 애플리케이션을 지원합니다. 이미지 대 비디오의 경우 입력 이미지가 복제되고 원근 변환을 사용하여 변환되어 약간의 카메라 움직임이 있는 대략적인 비디오를 합성합니다. 피사체 중심의 비디오 생성의 경우 입력이 생략됩니다. 미세 조정만으로 충실도를 관리할 수 있습니다. 그런 다음 일반 "Dreamix Video Editor"(오른쪽)를 사용하여 이 거친 비디오를 편집합니다. 먼저 다운샘플링한 다음 노이즈를 추가하여 비디오를 손상시킵니다. 그런 다음 비디오를 최종 시공간 해상도로 업스케일링하는 미세 조정된 텍스트 안내 비디오 확산 모델을 적용합니다.”라고 Dream은 에 썼습니다. GitHub의.

아래 연구 논문을 읽을 수 있습니다.

구글 드리믹스

타임 스탬프 :

더보기 테크스타트업