โมเดลข้อความเป็นรูปภาพเรียนรู้อย่างมีประสิทธิภาพมากขึ้นด้วยข้อมูลปลอม

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

รูปภาพสังเคราะห์สามารถช่วยให้โมเดล AI เรียนรู้การแสดงภาพได้แม่นยำยิ่งขึ้นเมื่อเปรียบเทียบกับภาพถ่ายจริง ตามที่นักวิทยาศาสตร์คอมพิวเตอร์จาก MIT และ Google กล่าว ผลลัพธ์ที่ได้คือโครงข่ายประสาทเทียมที่สร้างภาพจากคำอธิบายที่คุณเขียนได้ดีกว่า

หัวใจสำคัญของโมเดลข้อความเป็นรูปภาพทั้งหมดคือความสามารถในการจับคู่วัตถุกับคำ เมื่อได้รับข้อความแจ้งสำหรับการป้อน เช่น “เด็กถือบอลลูนสีแดงในวันที่แดดจ้า” พวกเขาควรส่งคืนรูปภาพที่ใกล้เคียงกับคำอธิบาย เพื่อที่จะทำสิ่งนี้ได้ พวกเขาจำเป็นต้องเรียนรู้การแสดงภาพว่าเด็ก ลูกโป่งสีแดง และวันที่อากาศแจ่มใสอาจมีหน้าตาเป็นอย่างไร

ทีมงาน MIT-Google เชื่อว่าโครงข่ายประสาทเทียมสามารถสร้างภาพที่แม่นยำยิ่งขึ้นจากการแจ้งเตือน หลังจากได้รับการฝึกอบรมเกี่ยวกับรูปภาพที่สร้างโดย AI แทนที่จะใช้สแนปจริง เพื่อแสดงให้เห็นสิ่งนี้ กลุ่มจึงได้พัฒนา ตัวแทนที่เสถียรซึ่งเรียนรู้วิธีเปลี่ยนคำบรรยายที่เป็นลายลักษณ์อักษรให้กลายเป็นรูปภาพที่สอดคล้องกันที่ถูกต้องจากรูปภาพที่สร้างโดย Stable Diffusion โมเดลโอเพ่นซอร์สยอดนิยม

กล่าวอีกนัยหนึ่ง: การใช้โมเดล AI ที่ได้รับการฝึกอบรมมาแล้วเพื่อสอนโมเดลอื่นๆ

ตามที่นักวิทยาศาสตร์ได้ตีพิมพ์เผยแพร่ผ่านทาง arXiv เมื่อปลายเดือนที่แล้ว กล่าวไว้ว่า: “ด้วยรูปภาพสังเคราะห์เพียงอย่างเดียว การแสดงที่เรียนรู้โดย StableRep เหนือกว่าประสิทธิภาพของการแสดงที่เรียนรู้โดย SimCLR และ CLIP โดยใช้ชุดข้อความแจ้งชุดเดียวกันและรูปภาพจริงที่เกี่ยวข้องบนชุดข้อมูลขนาดใหญ่” SimCLR และ CLIP เป็นอัลกอริธึมการเรียนรู้ของเครื่องที่สามารถใช้สร้างภาพจากข้อความแจ้งได้

“เมื่อเราเพิ่มการควบคุมด้านภาษาเพิ่มเติม StableRep ที่ได้รับการฝึกด้วยภาพสังเคราะห์ 20 ล้านภาพจะมีความแม่นยำมากกว่า CLIP ที่ได้รับการฝึกด้วยภาพจริง 50 ล้านภาพ” รายงานกล่าวต่อ

อัลกอริธึมการเรียนรู้ของเครื่องจับความสัมพันธ์ระหว่างคุณลักษณะของวัตถุและความหมายของคำในรูปแบบอาร์เรย์ของตัวเลข ด้วยการใช้ StableRep นักวิจัยสามารถควบคุมกระบวนการนี้ได้อย่างระมัดระวังมากขึ้น โดยฝึกโมเดลบนรูปภาพหลายรูปที่สร้างโดย Stable Diffusion ในพร้อมท์เดียวกัน หมายความว่าโมเดลสามารถเรียนรู้การแสดงภาพที่หลากหลายมากขึ้น และสามารถดูได้ว่ารูปภาพใดตรงกับข้อความแจ้งมากกว่าภาพอื่นๆ

ฉันคิดว่าเราจะมีระบบนิเวศของบางโมเดลที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลจริง บางส่วนเป็นแบบสังเคราะห์

“เรากำลังสอนโมเดลเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับแนวคิดระดับสูงผ่านบริบทและความแปรปรวน ไม่ใช่แค่การป้อนข้อมูลเท่านั้น” Lijie Fan หัวหน้านักวิจัยของการศึกษานี้และนักศึกษาปริญญาเอกสาขาวิศวกรรมไฟฟ้าที่ MIT อธิบาย ในสัปดาห์นี้. “เมื่อใช้ภาพหลายภาพ ซึ่งทั้งหมดสร้างขึ้นจากข้อความเดียวกัน โดยทั้งหมดถือเป็นการแสดงถึงสิ่งที่อยู่ภายใต้สิ่งเดียวกัน โมเดลจะเจาะลึกเข้าไปในแนวคิดเบื้องหลังภาพ – พูดถึงวัตถุ – ไม่ใช่แค่พิกเซลเท่านั้น”

ตามที่ระบุไว้ข้างต้น วิธีการนี้ยังหมายความว่าคุณสามารถใช้รูปภาพสังเคราะห์น้อยลงในการฝึกโครงข่ายประสาทเทียมของคุณมากกว่าโครงข่ายจริง และได้รับผลลัพธ์ที่ดีกว่า ซึ่งเป็น win-win สำหรับนักพัฒนา AI

วิธีการเช่น StableRep หมายความว่าสักวันหนึ่งโมเดลข้อความเป็นรูปภาพอาจได้รับการฝึกอบรมเกี่ยวกับข้อมูลสังเคราะห์ มันจะช่วยให้นักพัฒนาพึ่งพาภาพจริงน้อยลง และอาจจำเป็นหากกลไก AI ใช้ทรัพยากรออนไลน์ที่มีอยู่หมด

“ผมคิดว่า [การฝึกอบรมโมเดล AI บนภาพสังเคราะห์] จะมีมากขึ้นเรื่อยๆ” Phillip Isola ผู้ร่วมเขียนรายงานและรองศาสตราจารย์ด้านคอมพิวเตอร์วิทัศน์ที่ MIT กล่าว ลงทะเบียน. “ผมคิดว่าเราจะมีระบบนิเวศของโมเดลบางรุ่นที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลจริง บางรุ่นเป็นแบบสังเคราะห์ และบางทีโมเดลส่วนใหญ่จะได้รับการฝึกอบรมกับทั้งสองอย่าง”

เป็นเรื่องยากที่จะพึ่งพารูปภาพที่สร้างโดย AI เพียงอย่างเดียว เนื่องจากคุณภาพและความละเอียดของรูปภาพมักจะแย่กว่าภาพถ่ายจริง โมเดลข้อความเป็นรูปภาพที่สร้างขึ้นนั้นถูกจำกัดด้วยวิธีอื่นๆ เช่นกัน การแพร่กระจายที่เสถียรไม่ได้สร้างภาพที่ตรงตามข้อความแจ้งเสมอไป

Isola เตือนว่าการใช้ภาพสังเคราะห์ไม่ได้หลบเลี่ยงปัญหาการละเมิดลิขสิทธิ์ที่อาจเกิดขึ้นเช่นกัน เนื่องจากแบบจำลองที่สร้างภาพเหล่านี้น่าจะได้รับการฝึกฝนเกี่ยวกับวัสดุที่ได้รับการคุ้มครอง

“ข้อมูลสังเคราะห์อาจรวมถึงสำเนาข้อมูลลิขสิทธิ์ที่ถูกต้อง อย่างไรก็ตาม ข้อมูลสังเคราะห์ยังให้โอกาสใหม่ในการแก้ไขปัญหา IP และความเป็นส่วนตัว เนื่องจากเราสามารถเข้าไปแทรกแซงได้โดยการแก้ไขโมเดลกำเนิดเพื่อลบคุณลักษณะที่ละเอียดอ่อน” เขาอธิบาย

ทีมงานยังเตือนด้วยว่าระบบการฝึกอบรมเกี่ยวกับรูปภาพที่สร้างโดย AI อาจทำให้ความลำเอียงที่เรียนรู้จากโมเดลข้อความเป็นรูปภาพนั้นรุนแรงขึ้น ®

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
ที่มา: https://go.theregister.com/feed/www.theregister.com/2023/11/22/texttoimage_models_mit/

ประทับเวลา: November 22, 2023

ผู้เชี่ยวชาญเตือนการสูญพันธุ์ของ AI หากไม่ดำเนินการในตอนนี้

คลัสเตอร์ต้นทาง:

ลงทะเบียน

โหนดต้นทาง: 2688105

ประทับเวลา: May 30, 2023

โมเดลข้อความเป็นรูปภาพเรียนรู้ได้อย่างมีประสิทธิภาพมากขึ้นด้วยข้อมูลปลอม

เผยแพร่ซ้ำโดยเพลโต

เพิ่มเติมจาก ลงทะเบียน

ตอนนี้ Amazon เปิดตัวผู้ช่วยเขียนโปรแกรม AI – CodeWhisperer

มีรายงานว่ากระทรวงยุติธรรมสหรัฐกำลังตรวจสอบราคาเช่าของ AI biz RealPage

มนุษย์มากกว่า 1,000 คนล้มเหลวในการเอาชนะคู่แข่ง AI ในการต่อสู้ปริศนาอักษรไขว้ชั้นนำ

การลงทุนด้าน AI ยังอยู่ในขั้นตอนการวางแผนจนถึงปี 2024: Gartner

AI ของ Google Photos ยังไม่สามารถติดป้ายกำกับกอริลล่าได้

FTC เปิดการสอบถามเกี่ยวกับข้อเสนอของ Amazon, Google, Microsoft AI

แชทบอท AI ฝึกโพสต์จากเว็บท่อระบายน้ำ 4chan ทำตัวไม่ดีเหมือนมนุษย์

ที่ปรึกษานายกฯ อินเดียชี้ AI อาจทำให้เกิด 'โรคจิตเภทจำนวนมาก'

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้