টেক্সট-টু-ইমেজ মডেলগুলি জাল ডেটা দিয়ে আরও দক্ষতার সাথে শিখে

টেক্সট-টু-ইমেজ মডেলগুলি জাল ডেটা দিয়ে আরও দক্ষতার সাথে শিখে

উত্স নোড: 2974582

এমআইটি এবং গুগলের কম্পিউটার বিজ্ঞানীদের মতে সিন্থেটিক চিত্রগুলি এআই মডেলগুলিকে বাস্তব স্ন্যাপগুলির তুলনায় আরও সঠিকভাবে ভিজ্যুয়াল উপস্থাপনা শিখতে সহায়তা করতে পারে। ফলাফল হল নিউরাল নেটওয়ার্ক যা আপনার লিখিত বর্ণনা থেকে ছবি তৈরি করতে ভালো।

সমস্ত টেক্সট-টু-ইমেজ মডেলের কেন্দ্রবিন্দুতে রয়েছে শব্দের সাথে বস্তুর ম্যাপ করার ক্ষমতা। একটি ইনপুট টেক্সট প্রম্পট দেওয়া হয়েছে - যেমন "একটি শিশু একটি রৌদ্রোজ্জ্বল দিনে একটি লাল বেলুন ধরে আছে," উদাহরণস্বরূপ - তাদের বর্ণনার আনুমানিক একটি চিত্র ফেরত দেওয়া উচিত৷ এটি করার জন্য, তাদের একটি শিশু, লাল বেলুন এবং রৌদ্রোজ্জ্বল দিন কেমন হতে পারে তার ভিজ্যুয়াল উপস্থাপনা শিখতে হবে। 

এমআইটি-গুগল টিম বিশ্বাস করে যে নিউরাল নেটওয়ার্কগুলি বাস্তব স্ন্যাপ ব্যবহার করার বিপরীতে এআই-তৈরি ছবিগুলিতে প্রশিক্ষণের পরে প্রম্পট থেকে আরও সঠিক চিত্র তৈরি করতে পারে। এটি প্রদর্শন করার জন্য, গ্রুপটি গড়ে উঠেছে StableRep, যা জনপ্রিয় ওপেন সোর্স টেক্সট-টু-ইমেজ মডেল স্টেবল ডিফিউশন দ্বারা উত্পন্ন ছবিগুলি থেকে বর্ণনামূলক লিখিত ক্যাপশনগুলিকে সঠিক অনুরূপ ছবিতে পরিণত করতে শেখে।

অন্য কথায়: অন্যান্য মডেল শেখানোর জন্য একটি প্রতিষ্ঠিত, প্রশিক্ষিত AI মডেল ব্যবহার করা।

বিজ্ঞানীদের প্রি-প্রিন্ট পেপার হিসাবে, এর মাধ্যমে প্রকাশিত হয়েছে নথিপত্র গত মাসের শেষে, এটি রাখে: "শুধুমাত্র কৃত্রিম চিত্রগুলির সাথে, StableRep দ্বারা শেখা উপস্থাপনাগুলি বৃহৎ স্কেল ডেটাসেটে একই টেক্সট প্রম্পট এবং সংশ্লিষ্ট বাস্তব চিত্রগুলি ব্যবহার করে SimCLR এবং CLIP দ্বারা শেখা উপস্থাপনাগুলির কার্যকারিতাকে ছাড়িয়ে যায়।" SimCLR এবং CLIP হল মেশিন-লার্নিং অ্যালগরিদম যা টেক্সট প্রম্পট থেকে ছবি তৈরি করতে ব্যবহার করা যেতে পারে।

"যখন আমরা আরও ভাষা তত্ত্বাবধান যোগ করি, তখন 20 মিলিয়ন সিন্থেটিক চিত্রের সাথে প্রশিক্ষিত StableRep 50 মিলিয়ন বাস্তব চিত্রের সাথে প্রশিক্ষিত CLIP এর চেয়ে ভাল নির্ভুলতা অর্জন করে," কাগজটি অব্যাহত রয়েছে।

মেশিন-লার্নিং অ্যালগরিদমগুলি সংখ্যার অ্যারে হিসাবে বস্তুর বৈশিষ্ট্য এবং শব্দের অর্থের মধ্যে সম্পর্ক ক্যাপচার করে। StableRep ব্যবহার করে, গবেষকরা এই প্রক্রিয়াটিকে আরও যত্ন সহকারে নিয়ন্ত্রণ করতে পারেন - একই প্রম্পটে স্থিতিশীল ডিফিউশন দ্বারা উত্পন্ন একাধিক চিত্রের উপর একটি মডেলকে প্রশিক্ষণ দেয়। এর মানে হল মডেলটি আরও বৈচিত্র্যময় ভিজ্যুয়াল উপস্থাপনা শিখতে পারে এবং দেখতে পারে কোন চিত্রগুলি অন্যদের তুলনায় প্রম্পটগুলির সাথে আরও ঘনিষ্ঠভাবে মেলে৷ 

আমি মনে করি আমাদের কিছু মডেলের একটি ইকোসিস্টেম থাকবে যা বাস্তব ডেটার উপর প্রশিক্ষিত, কিছু সিন্থেটিক

"আমরা মডেলটিকে প্রসঙ্গ এবং ভিন্নতার মাধ্যমে উচ্চ-স্তরের ধারণাগুলি সম্পর্কে আরও শিখতে শেখাচ্ছি, শুধুমাত্র এটিকে ডেটা খাওয়ানো নয়," লিজি ফ্যান, গবেষণার প্রধান গবেষক এবং এমআইটি-তে বৈদ্যুতিক প্রকৌশলে পিএইচডি ছাত্র, ব্যাখ্যা এই সপ্তাহ. "একাধিক ছবি ব্যবহার করার সময়, সমস্ত একই পাঠ্য থেকে উত্পন্ন, সবগুলিকে একই অন্তর্নিহিত জিনিসের বর্ণনা হিসাবে বিবেচনা করা হয়, মডেলটি চিত্রগুলির পিছনের ধারণাগুলির গভীরে ডুব দেয় - বস্তুটি বলুন - কেবল তাদের পিক্সেল নয়।"

উপরে উল্লিখিত হিসাবে, এই পদ্ধতির অর্থ হল আপনি আপনার নিউরাল নেটওয়ার্ককে প্রশিক্ষণের জন্য বাস্তবের তুলনায় কম সিন্থেটিক চিত্র ব্যবহার করতে পারেন এবং আরও ভাল ফলাফল পেতে পারেন - যা এআই বিকাশকারীদের জন্য জয়-জয়।

StableRep এর মত পদ্ধতির মানে হল যে টেক্সট-টু-ইমেজ মডেলগুলি একদিন সিন্থেটিক ডেটাতে প্রশিক্ষিত হতে পারে। এটি ডেভেলপারদের বাস্তব চিত্রের উপর কম নির্ভর করার অনুমতি দেবে, এবং যদি এআই ইঞ্জিনগুলি উপলব্ধ অনলাইন সংস্থানগুলি শেষ করে দেয় তবে এটি প্রয়োজনীয় হতে পারে।

কাগজটির সহ-লেখক এবং এমআইটি-তে কম্পিউটার ভিশনের সহযোগী অধ্যাপক ফিলিপ আইসোলা বলেন, "আমি মনে করি [কৃত্রিম চিত্রগুলিতে AI মডেলের প্রশিক্ষণ] ক্রমবর্ধমান সাধারণ হবে।" নিবন্ধনকর্মী. "আমি মনে করি আমাদের কাছে বাস্তব ডেটাতে প্রশিক্ষিত কিছু মডেলের একটি ইকোসিস্টেম থাকবে, কিছু সিন্থেটিক, এবং সম্ভবত বেশিরভাগ মডেল উভয়ের উপর প্রশিক্ষিত হবে।"

শুধুমাত্র এআই-জেনারেট করা ছবির উপর নির্ভর করা কঠিন কারণ তাদের গুণমান এবং রেজোলিউশন প্রায়ই বাস্তব ফটোগ্রাফের চেয়ে খারাপ। টেক্সট-টু-ইমেজ মডেলগুলি যা তাদের তৈরি করে তা অন্যান্য উপায়েও সীমিত। স্ট্যাবল ডিফিউশন সবসময় এমন ছবি তৈরি করে না যা টেক্সট প্রম্পটের প্রতি বিশ্বস্ত।

আইসোলা সতর্ক করে দিয়েছিলেন যে সিন্থেটিক চিত্রগুলি ব্যবহার করা কপিরাইট লঙ্ঘনের সম্ভাব্য সমস্যাটিকেও স্কার্ট করে না, যেহেতু সেগুলি তৈরি করা মডেলগুলি সম্ভবত সুরক্ষিত উপকরণগুলিতে প্রশিক্ষিত ছিল।

“সিন্থেটিক ডেটাতে কপিরাইট ডেটার সঠিক কপি অন্তর্ভুক্ত থাকতে পারে। যাইহোক, সিন্থেটিক ডেটা আইপি এবং গোপনীয়তার সমস্যাগুলি পাওয়ার জন্য নতুন সুযোগও সরবরাহ করে, কারণ আমরা সংবেদনশীল বৈশিষ্ট্যগুলি সরিয়ে দেওয়ার জন্য জেনারেটিভ মডেলটি সম্পাদনা করে এটিতে সম্ভাব্য হস্তক্ষেপ করতে পারি, "তিনি ব্যাখ্যা করেছিলেন।

দলটি আরও সতর্ক করেছে যে এআই-উত্পন্ন চিত্রগুলির প্রশিক্ষণ সিস্টেমগুলি তাদের অন্তর্নিহিত পাঠ্য-থেকে-ইমেজ মডেল দ্বারা শেখা পক্ষপাতগুলিকে সম্ভাব্যভাবে বাড়িয়ে তুলতে পারে। ®

সময় স্ট্যাম্প:

থেকে আরো নিবন্ধনকর্মী