ভিডিও তৈরি ও সম্পাদনা করতে এবং ছবি অ্যানিমেট করার জন্য Google এআই-চালিত ভিডিও সম্পাদক ড্রিমিকস চালু করেছে

ভিডিও তৈরি ও সম্পাদনা করতে এবং ছবি অ্যানিমেট করার জন্য Google এআই-চালিত ভিডিও সম্পাদক ড্রিমিকস চালু করেছে

উত্স নোড: 1953261

যখন OpenAI ChatGPT 24-ঘন্টার সংবাদ চক্রের সমস্ত অক্সিজেন চুষে নিচ্ছে, Google শান্তভাবে একটি নতুন AI মডেল উন্মোচন করেছে যা ভিডিও, চিত্র এবং পাঠ্য ইনপুট দেওয়া হলে ভিডিও তৈরি করতে পারে। নতুন Google Dreamix AI ভিডিও এডিটর এখন জেনারেট করা ভিডিওকে বাস্তবের কাছাকাছি নিয়ে এসেছে।

গিটহাবে প্রকাশিত গবেষণা অনুসারে, ড্রিমিকস একটি ভিডিও এবং একটি পাঠ্য প্রম্পটের উপর ভিত্তি করে ভিডিওটি সম্পাদনা করে। ফলস্বরূপ ভিডিওটি রঙ, ভঙ্গি, বস্তুর আকার এবং ক্যামেরার ভঙ্গির প্রতি তার বিশ্বস্ততা বজায় রাখে, ফলে একটি সাময়িকভাবে সামঞ্জস্যপূর্ণ ভিডিও হয়। এই মুহুর্তে, Dreamix শুধুমাত্র একটি প্রম্পট থেকে ভিডিও তৈরি করতে পারে না, তবে, এটি বিদ্যমান উপাদান নিতে পারে এবং পাঠ্য প্রম্পট ব্যবহার করে ভিডিও পরিবর্তন করতে পারে।

Google ড্রিমিকসের জন্য ভিডিও ডিফিউশন মডেল ব্যবহার করে, একটি পদ্ধতি যা আমরা DALL-E2 বা ওপেন-সোর্স স্টেবল ডিফিউশন-এর মতো ইমেজ AI-তে দেখি বেশিরভাগ ভিডিও ইমেজ এডিটিং-এর জন্য সফলভাবে প্রয়োগ করা হয়েছে।

পদ্ধতির মধ্যে ব্যাপকভাবে ইনপুট ভিডিও হ্রাস করা, কৃত্রিম শব্দ যোগ করা, এবং তারপরে এটিকে একটি ভিডিও ডিফিউশন মডেলে প্রক্রিয়াকরণ করা জড়িত, যা তারপরে এটি থেকে একটি নতুন ভিডিও তৈরি করতে একটি পাঠ্য প্রম্পট ব্যবহার করে যা মূল ভিডিওর কিছু বৈশিষ্ট্য বজায় রাখে এবং অন্যগুলিকে সেই অনুযায়ী পুনরায় রেন্ডার করে। পাঠ্য ইনপুটে।

ভিডিও ডিফিউশন মডেল একটি প্রতিশ্রুতিশীল ভবিষ্যতের প্রস্তাব দেয় যা ভিডিওগুলির সাথে কাজ করার জন্য একটি নতুন যুগের সূচনা করতে পারে।

উদাহরণ স্বরূপ, নীচের ভিডিওতে, ড্রিমিকস ভোজন করা বানরকে (বামে) একটি নাচতে ভাল্লুক (ডানে) পরিণত করে "একটি ভালুক নাচছে এবং উচ্ছ্বসিত সঙ্গীতে লাফাচ্ছে, তার পুরো শরীরকে নাড়াচ্ছে"।

নীচের অন্য একটি উদাহরণে, Dreamix একটি টেমপ্লেট হিসাবে একটি একক ফটো ব্যবহার করে (যেমন চিত্র-টু-ভিডিওতে) এবং একটি অবজেক্ট তারপর একটি প্রম্পটের মাধ্যমে একটি ভিডিওতে এটি থেকে অ্যানিমেট করা হয়। ক্যামেরা নড়াচড়াও নতুন দৃশ্যে বা পরবর্তী সময়ের ব্যবধানের রেকর্ডিংয়েও সম্ভব।

অন্য একটি উদাহরণে, ড্রিমিকস একটি সুন্দর বাথরুমে গোসল করা কমলা চুলের সাথে একটি জলের পুল (বামে) ওরাঙ্গুটানকে একটি ওরাঙ্গুটানে পরিণত করে।

“যদিও ইমেজ এডিটিং এর জন্য ডিফিউশন মডেল সফলভাবে প্রয়োগ করা হয়েছে, ভিডিও এডিটিং এর জন্য খুব কম কাজই করা হয়েছে। আমরা প্রথম ডিফিউশন-ভিত্তিক পদ্ধতি উপস্থাপন করেছি যা পাঠ্য-ভিত্তিক গতি এবং সাধারণ ভিডিওগুলির উপস্থিতি সম্পাদনা করতে সক্ষম।"

গুগল রিসার্চ পেপার অনুসারে, ড্রিমিকস একটি ভিডিও ডিফিউশন মডেল ব্যবহার করে, অনুমান করার সময়ে, মূল ভিডিও থেকে লো-রেজোলিউশনের স্প্যাটিওটেম্পোরাল তথ্যকে নতুন, উচ্চ-রেজোলিউশন তথ্যের সাথে একত্রিত করতে যা এটি গাইডিং টেক্সট প্রম্পটের সাথে সারিবদ্ধ করার জন্য সংশ্লেষিত করে।

গুগল বলেছে যে এটি এই পদ্ধতিটি গ্রহণ করেছে কারণ "মূল ভিডিওতে উচ্চ-বিশ্বস্ততা অর্জনের জন্য এর কিছু উচ্চ-রেজোলিউশন তথ্য বজায় রাখা প্রয়োজন, আমরা আসল ভিডিওতে মডেলটিকে ফাইনটিউন করার একটি প্রাথমিক পর্যায় যোগ করি, উল্লেখযোগ্যভাবে বিশ্বস্ততা বৃদ্ধি করে।"

নিচে Dreamix কিভাবে কাজ করে তার একটি ভিডিও ওভারভিউ আছে।

[এম্বেড করা সামগ্রী]

ড্রিমিকস ভিডিও ডিফিউশন মডেলগুলি কীভাবে কাজ করে

গুগলের মতে, একা ইনপুট ভিডিওতে ড্রিমিকসের জন্য ভিডিও ডিফিউশন মডেলটি ফাইনটিউন করা গতি পরিবর্তনের পরিমাণকে সীমিত করে। পরিবর্তে, আমরা একটি মিশ্র উদ্দেশ্য ব্যবহার করি যেটি মূল উদ্দেশ্যের পাশাপাশি (নীচে বাম দিকে) ফ্রেমের বিন্যাসহীন সেটে ফাইনটিউনও করে। এটি "মাস্কড টেম্পোরাল অ্যাটেনশন" ব্যবহার করে করা হয়, টেম্পোরাল অ্যাটেনশন এবং কনভল্যুশনকে ফাইনটিউন করা থেকে বাধা দেয় (নীচে ডানদিকে)। এটি একটি স্ট্যাটিক ভিডিওতে গতি যোগ করার অনুমতি দেয়।

"আমাদের পদ্ধতিটি একাধিক অ্যাপ্লিকেশনকে অ্যাপ্লিকেশন-নির্ভর প্রাক-প্রক্রিয়াকরণ (বামে) সমর্থন করে, ইনপুট সামগ্রীকে একটি অভিন্ন ভিডিও বিন্যাসে রূপান্তর করে৷ ইমেজ-টু-ভিডিওর জন্য, ইনপুট ইমেজ ডুপ্লিকেট করা হয় এবং পরিপ্রেক্ষিত রূপান্তর ব্যবহার করে রূপান্তরিত হয়, কিছু ক্যামেরা মোশন সহ একটি মোটা ভিডিও সংশ্লেষ করে। বিষয়-চালিত ভিডিও জেনারেশনের জন্য, ইনপুট বাদ দেওয়া হয়েছে - একা ফাইনটিউনিং বিশ্বস্ততার যত্ন নিন। এই মোটা ভিডিওটি তারপরে আমাদের সাধারণ "ড্রিমিকস ভিডিও এডিটর" (ডানদিকে) ব্যবহার করে সম্পাদনা করা হয়: আমরা প্রথমে ডাউনস্যাম্পলিং করে তারপরে শব্দ যোগ করে ভিডিওটি নষ্ট করি৷ তারপরে আমরা ফাইনটিউনড টেক্সট-গাইডেড ভিডিও ডিফিউশন মডেলটি প্রয়োগ করি, যা ভিডিওটিকে চূড়ান্ত স্পাটিওটেম্পোরাল রেজোলিউশনে উন্নীত করে,” ড্রিম লিখেছেন GitHub.

আপনি নীচের গবেষণা পত্র পড়তে পারেন.

গুগল ড্রিমিকস

সময় স্ট্যাম্প:

থেকে আরো টেক স্টার্টআপস

Coinbase একটি $557 মিলিয়ন লোকসান পোস্ট করে; চতুর্থ ত্রৈমাসিকে রাজস্ব 75% কমেছে কারণ ক্রিপ্টো বিনিয়োগকারীরা তাদের ডিজিটাল সম্পদকে এক্সচেঞ্জ থেকে সরিয়ে নিয়েছে

উত্স নোড: 1970839
সময় স্ট্যাম্প: ফেব্রুয়ারী 21, 2023

বৃহস্পতিবার, 20 এপ্রিল, 2023-এর জন্য সেরা প্রযুক্তিগত স্টার্টআপ খবর: অ্যাক্রিডিফাই, অ্যালফাবেট, বাজফিড, তাওয়াল এবং হোল ফুডস

উত্স নোড: 2598675
সময় স্ট্যাম্প: এপ্রিল 20, 2023

নিউজিল্যান্ড ভিত্তিক স্টার্টআপ মারামা ল্যাব হ্যাজি ওয়াইন টেক স্কেল-আপ এবং লাইফ সায়েন্স এন্ট্রির জন্য €1.75m বাড়িয়েছে – TechStartups

উত্স নোড: 3079787
সময় স্ট্যাম্প: জানুয়ারী 22, 2024