โมเดลข้อความเป็นรูปภาพเรียนรู้ได้อย่างมีประสิทธิภาพมากขึ้นด้วยข้อมูลปลอม

โมเดลข้อความเป็นรูปภาพเรียนรู้ได้อย่างมีประสิทธิภาพมากขึ้นด้วยข้อมูลปลอม

โหนดต้นทาง: 2974582

รูปภาพสังเคราะห์สามารถช่วยให้โมเดล AI เรียนรู้การแสดงภาพได้แม่นยำยิ่งขึ้นเมื่อเปรียบเทียบกับภาพถ่ายจริง ตามที่นักวิทยาศาสตร์คอมพิวเตอร์จาก MIT และ Google กล่าว ผลลัพธ์ที่ได้คือโครงข่ายประสาทเทียมที่สร้างภาพจากคำอธิบายที่คุณเขียนได้ดีกว่า

หัวใจสำคัญของโมเดลข้อความเป็นรูปภาพทั้งหมดคือความสามารถในการจับคู่วัตถุกับคำ เมื่อได้รับข้อความแจ้งสำหรับการป้อน เช่น “เด็กถือบอลลูนสีแดงในวันที่แดดจ้า” พวกเขาควรส่งคืนรูปภาพที่ใกล้เคียงกับคำอธิบาย เพื่อที่จะทำสิ่งนี้ได้ พวกเขาจำเป็นต้องเรียนรู้การแสดงภาพว่าเด็ก ลูกโป่งสีแดง และวันที่อากาศแจ่มใสอาจมีหน้าตาเป็นอย่างไร 

ทีมงาน MIT-Google เชื่อว่าโครงข่ายประสาทเทียมสามารถสร้างภาพที่แม่นยำยิ่งขึ้นจากการแจ้งเตือน หลังจากได้รับการฝึกอบรมเกี่ยวกับรูปภาพที่สร้างโดย AI แทนที่จะใช้สแนปจริง เพื่อแสดงให้เห็นสิ่งนี้ กลุ่มจึงได้พัฒนา ตัวแทนที่เสถียรซึ่งเรียนรู้วิธีเปลี่ยนคำบรรยายที่เป็นลายลักษณ์อักษรให้กลายเป็นรูปภาพที่สอดคล้องกันที่ถูกต้องจากรูปภาพที่สร้างโดย Stable Diffusion โมเดลโอเพ่นซอร์สยอดนิยม

กล่าวอีกนัยหนึ่ง: การใช้โมเดล AI ที่ได้รับการฝึกอบรมมาแล้วเพื่อสอนโมเดลอื่นๆ

ตามที่นักวิทยาศาสตร์ได้ตีพิมพ์เผยแพร่ผ่านทาง arXiv เมื่อปลายเดือนที่แล้ว กล่าวไว้ว่า: “ด้วยรูปภาพสังเคราะห์เพียงอย่างเดียว การแสดงที่เรียนรู้โดย StableRep เหนือกว่าประสิทธิภาพของการแสดงที่เรียนรู้โดย SimCLR และ CLIP โดยใช้ชุดข้อความแจ้งชุดเดียวกันและรูปภาพจริงที่เกี่ยวข้องบนชุดข้อมูลขนาดใหญ่” SimCLR และ CLIP เป็นอัลกอริธึมการเรียนรู้ของเครื่องที่สามารถใช้สร้างภาพจากข้อความแจ้งได้

“เมื่อเราเพิ่มการควบคุมด้านภาษาเพิ่มเติม StableRep ที่ได้รับการฝึกด้วยภาพสังเคราะห์ 20 ล้านภาพจะมีความแม่นยำมากกว่า CLIP ที่ได้รับการฝึกด้วยภาพจริง 50 ล้านภาพ” รายงานกล่าวต่อ

อัลกอริธึมการเรียนรู้ของเครื่องจับความสัมพันธ์ระหว่างคุณลักษณะของวัตถุและความหมายของคำในรูปแบบอาร์เรย์ของตัวเลข ด้วยการใช้ StableRep นักวิจัยสามารถควบคุมกระบวนการนี้ได้อย่างระมัดระวังมากขึ้น โดยฝึกโมเดลบนรูปภาพหลายรูปที่สร้างโดย Stable Diffusion ในพร้อมท์เดียวกัน หมายความว่าโมเดลสามารถเรียนรู้การแสดงภาพที่หลากหลายมากขึ้น และสามารถดูได้ว่ารูปภาพใดตรงกับข้อความแจ้งมากกว่าภาพอื่นๆ 

ฉันคิดว่าเราจะมีระบบนิเวศของบางโมเดลที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลจริง บางส่วนเป็นแบบสังเคราะห์

“เรากำลังสอนโมเดลเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับแนวคิดระดับสูงผ่านบริบทและความแปรปรวน ไม่ใช่แค่การป้อนข้อมูลเท่านั้น” Lijie Fan หัวหน้านักวิจัยของการศึกษานี้และนักศึกษาปริญญาเอกสาขาวิศวกรรมไฟฟ้าที่ MIT อธิบาย ในสัปดาห์นี้. “เมื่อใช้ภาพหลายภาพ ซึ่งทั้งหมดสร้างขึ้นจากข้อความเดียวกัน โดยทั้งหมดถือเป็นการแสดงถึงสิ่งที่อยู่ภายใต้สิ่งเดียวกัน โมเดลจะเจาะลึกเข้าไปในแนวคิดเบื้องหลังภาพ – พูดถึงวัตถุ – ไม่ใช่แค่พิกเซลเท่านั้น”

ตามที่ระบุไว้ข้างต้น วิธีการนี้ยังหมายความว่าคุณสามารถใช้รูปภาพสังเคราะห์น้อยลงในการฝึกโครงข่ายประสาทเทียมของคุณมากกว่าโครงข่ายจริง และได้รับผลลัพธ์ที่ดีกว่า ซึ่งเป็น win-win สำหรับนักพัฒนา AI

วิธีการเช่น StableRep หมายความว่าสักวันหนึ่งโมเดลข้อความเป็นรูปภาพอาจได้รับการฝึกอบรมเกี่ยวกับข้อมูลสังเคราะห์ มันจะช่วยให้นักพัฒนาพึ่งพาภาพจริงน้อยลง และอาจจำเป็นหากกลไก AI ใช้ทรัพยากรออนไลน์ที่มีอยู่หมด

“ผมคิดว่า [การฝึกอบรมโมเดล AI บนภาพสังเคราะห์] จะมีมากขึ้นเรื่อยๆ” Phillip Isola ผู้ร่วมเขียนรายงานและรองศาสตราจารย์ด้านคอมพิวเตอร์วิทัศน์ที่ MIT กล่าว ลงทะเบียน. “ผมคิดว่าเราจะมีระบบนิเวศของโมเดลบางรุ่นที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลจริง บางรุ่นเป็นแบบสังเคราะห์ และบางทีโมเดลส่วนใหญ่จะได้รับการฝึกอบรมกับทั้งสองอย่าง”

เป็นเรื่องยากที่จะพึ่งพารูปภาพที่สร้างโดย AI เพียงอย่างเดียว เนื่องจากคุณภาพและความละเอียดของรูปภาพมักจะแย่กว่าภาพถ่ายจริง โมเดลข้อความเป็นรูปภาพที่สร้างขึ้นนั้นถูกจำกัดด้วยวิธีอื่นๆ เช่นกัน การแพร่กระจายที่เสถียรไม่ได้สร้างภาพที่ตรงตามข้อความแจ้งเสมอไป

Isola เตือนว่าการใช้ภาพสังเคราะห์ไม่ได้หลบเลี่ยงปัญหาการละเมิดลิขสิทธิ์ที่อาจเกิดขึ้นเช่นกัน เนื่องจากแบบจำลองที่สร้างภาพเหล่านี้น่าจะได้รับการฝึกฝนเกี่ยวกับวัสดุที่ได้รับการคุ้มครอง

“ข้อมูลสังเคราะห์อาจรวมถึงสำเนาข้อมูลลิขสิทธิ์ที่ถูกต้อง อย่างไรก็ตาม ข้อมูลสังเคราะห์ยังให้โอกาสใหม่ในการแก้ไขปัญหา IP และความเป็นส่วนตัว เนื่องจากเราสามารถเข้าไปแทรกแซงได้โดยการแก้ไขโมเดลกำเนิดเพื่อลบคุณลักษณะที่ละเอียดอ่อน” เขาอธิบาย

ทีมงานยังเตือนด้วยว่าระบบการฝึกอบรมเกี่ยวกับรูปภาพที่สร้างโดย AI อาจทำให้ความลำเอียงที่เรียนรู้จากโมเดลข้อความเป็นรูปภาพนั้นรุนแรงขึ้น ®

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน